python如何抓取网页正文内容 请指教 急 多谢

power0811 2009-10-26 04:05:25
有没有现成的网页文本解析器, 来把网页的文本部分解析并打印出来呢 请给出代码
如果没有 麻烦给个好点的如何解析出网页文本内容的代码
刚学python 多指教 多谢多谢
...全文
939 5 打赏 收藏 转发到动态 举报
写回复
用AI写文章
5 条回复
切换为时间正序
请发表友善的回复…
发表回复
cchb1986 2009-10-30
  • 打赏
  • 举报
回复
>>> import urllib
>>> sock = urllib.urlopen("http://diveintopython.org/")
>>> htmlSource = sock.read()
>>> sock.close()
>>> print htmlSource

非兔子_Logic0 2009-10-30
  • 打赏
  • 举报
回复
有没有现成的造假币机器, 来自动打印假币啊 请免费提供一台
如果没有 麻烦给个好点的能用的好的打印机和模板
刚学造假币 多指教 多谢多谢
DarkChampion 2009-10-30
  • 打赏
  • 举报
回复
好像没有现成的,需要使用正则解析

lz可以看看我的博客: 用Python提取CSDN灌水乐园的帖子
或许有帮助
oldjwu 2009-10-27
  • 打赏
  • 举报
回复
如果只要取得除HTML标记外的内容,按1楼的做法就可以了,如果想要取得页面正文内容,并且知道网页HTML结构,知道正文在哪一个div里,也可以用类似1楼的方法。如果是想做一种能用的方法,取得任意一篇网页的正文,那就比较麻烦,可以参考这篇文章:http://blog.csdn.net/netcpl/archive/2009/06/26/4299742.aspx。
kalos2012 2009-10-26
  • 打赏
  • 举报
回复
去除所有html标记:

import re
print re.sub(r'<(S*?)[^>]*>.*?|<.*? /> ','','<html>AAA<h1>NNNNN</h1>WWWW</html>')


思路共lz参考~

37,720

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • IT.BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧