python如何抓取网页正文内容请指教急多谢

power0811 2009-10-26 04:05:25

有没有现成的网页文本解析器, 来把网页的文本部分解析并打印出来呢请给出代码
如果没有麻烦给个好点的如何解析出网页文本内容的代码
刚学python 多指教多谢多谢

...全文

939 5 打赏收藏转发到动态举报

写回复

用AI写文章

5 条回复

切换为时间正序

请发表友善的回复…

发表回复

cchb1986 2009-10-30

打赏
举报

>>> import urllib
>>> sock = urllib.urlopen("http://diveintopython.org/")
>>> htmlSource = sock.read()
>>> sock.close()
>>> print htmlSource

非兔子_Logic0 2009-10-30

打赏
举报

有没有现成的造假币机器, 来自动打印假币啊请免费提供一台
如果没有麻烦给个好点的能用的好的打印机和模板
刚学造假币多指教多谢多谢

DarkChampion 2009-10-30

打赏
举报

好像没有现成的，需要使用正则解析

lz可以看看我的博客：用Python提取CSDN灌水乐园的帖子
或许有帮助

oldjwu 2009-10-27

打赏
举报

如果只要取得除HTML标记外的内容，按1楼的做法就可以了，如果想要取得页面正文内容，并且知道网页HTML结构，知道正文在哪一个div里，也可以用类似1楼的方法。如果是想做一种能用的方法，取得任意一篇网页的正文，那就比较麻烦，可以参考这篇文章：http://blog.csdn.net/netcpl/archive/2009/06/26/4299742.aspx。

kalos2012 2009-10-26

打赏
举报

去除所有html标记：



import re

print re.sub(r'<(S*?)[^>]*>.*?|<.*? /> ','','<html>AAA<h1>NNNNN</h1>WWWW</html>')

思路共lz参考～

虽然我不是Python高手，但我是零基础，之前会的都是软件PS，PPT之类。...比如，想偷懒抓网页内容，用urllib不行，用request也不行，才发现抓取内容涉及那么多方面（cookie，header，SSL，url，javas

虽然我不是Python高手，但我是零基础，之前会的都是软件PS，PPT之类。点击链接加入群【我爱python大神】：https://jq.qq.com/?_wv=1027&k=47zuLPd如果目的是想成为程序员，参考教学大纲。如果只是学程序，理解...

本课程搜集了各大互联网公司的Python面试题以及类似的题目。课程体系包括Python语言本身的知识、Python SDK、Web、Python爬虫以及算法等内容。所以的源代码都使用Python3.x编写。Python相关知识包括基本语法、正则表达式、字符串、数据库、网络、Web等。算法包括了一些出镜率高的内容、如与链表、树、数组相关的算法。

最近工作需要获取网页的截图，本来是使用selenium + phantomjs进行截图，但是却发现一些没有被封的网页保存的截图却是404页面找不到的画面，猜测有可能是访问网页的响应时间超过默认值，由于对上述两个工具不太熟悉...

脚本语言

37,720

社区成员

34,239

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章

python如何抓取网页正文内容 请指教 急 多谢

python如何抓取网页正文内容请指教急多谢