为什么爬虫有时候能用有时候不能?

bluesjunior 2015-12-19 02:52:00
比如说我爬一个网页的段子,一个星期前还能用,现在就什么都不显示了。
代码如下:
#coding:utf-8
import urllib2
import re


user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = {'User-Agent': user_agent }
class QSBK:

def getPage(self):
url='http://www.qiushibaike.com/hot/page/1'
request = urllib2.Request(url,headers = headers)
response = urllib2.urlopen(request)
return response.read()

def getContent(self):
pattern = r'<div class="content">(.*?)</div>'
page = self.getPage()
content = re.findall(pattern,page)
for c in content:
print(c[0])


qsbk = QSBK()
qsbk.getContent()


网址:http://www.qiushibaike.com/hot/page/1'
<div class="content">

熊孩子问:“妈妈,今天你能带我吃汉堡去吗?”<br/>妈妈:“你要能写出汉堡这俩字 ,我就带你去。”<br/>熊孩子:“那咱们去吃KFC吧!我会写KFC。
<!--1450440931-->

</div>

记得上次在pycharm里不能直接显示中文,就储存进了文本,还算正常。
那这次为什么什么都不显示了呢?望指教。
...全文
464 3 打赏 收藏 转发到动态 举报
写回复
用AI写文章
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
pcboyxhy 2015-12-19
  • 打赏
  • 举报
回复
bluesjunior 2015-12-19
  • 打赏
  • 举报
回复
引用 1 楼 pcboyxhy 的回复:
content = re.findall(pattern, page, re.DOTALL | re.IGNORECASE | re.MULTILINE)
        for c in content:
            print(c)
、 成了!太感谢了 再请问下 re.DOTALL | re.IGNORECASE | re.MULTILINE这些我没学到过,请问是在哪本书上有的?
pcboyxhy 2015-12-19
  • 打赏
  • 举报
回复
content = re.findall(pattern, page, re.DOTALL | re.IGNORECASE | re.MULTILINE)
        for c in content:
            print(c)

37,720

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • IT.BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧