为什么爬虫有时候能用有时候不能？

bluesjunior 2015-12-19 02:52:00

比如说我爬一个网页的段子，一个星期前还能用，现在就什么都不显示了。
代码如下：

#coding:utf-8

import urllib2

import re





user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'

headers = {'User-Agent': user_agent }

class QSBK:



    def getPage(self):

        url='http://www.qiushibaike.com/hot/page/1'

        request = urllib2.Request(url,headers = headers)

        response = urllib2.urlopen(request)

        return response.read()



    def getContent(self):

        pattern = r'<div class="content">(.*?)</div>'

        page = self.getPage()

        content = re.findall(pattern,page)

        for c in content:

            print(c[0])





qsbk = QSBK()

qsbk.getContent()

网址：http://www.qiushibaike.com/hot/page/1'
<div class="content">

熊孩子问：“妈妈，今天你能带我吃汉堡去吗？”<br/>妈妈：“你要能写出汉堡这俩字，我就带你去。”<br/>熊孩子：“那咱们去吃KFC吧！我会写KFC。


</div>

记得上次在pycharm里不能直接显示中文，就储存进了文本，还算正常。
那这次为什么什么都不显示了呢？望指教。

...全文

516 3 打赏收藏转发到动态举报

写回复

用AI写文章

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

pcboyxhy 2015-12-19

打赏
举报

官方文档里有 https://docs.python.org/2/library/re.html

bluesjunior 2015-12-19

打赏
举报

引用 1 楼 pcboyxhy 的回复:

content = re.findall(pattern, page, re.DOTALL | re.IGNORECASE | re.MULTILINE)
        for c in content:
            print(c)

、成了！太感谢了再请问下 re.DOTALL | re.IGNORECASE | re.MULTILINE这些我没学到过，请问是在哪本书上有的？

pcboyxhy 2015-12-19

打赏
举报

content = re.findall(pattern, page, re.DOTALL | re.IGNORECASE | re.MULTILINE)
        for c in content:
            print(c)

又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。网络爬虫可以根据指定的规则，从互联网上下载网页、图片、视频等内容，并抽取其中的有用信息进行处理。网络爬虫的工作流程包括获取网页源代码、解析网页内容、存储数据等步骤。根据其目的和工作方式的不同，网络爬虫可以分为多种类型。常见的网络爬虫包括通用爬虫、聚焦爬虫、增量式爬虫等。

网络爬虫的简介和浏览器分析工具

网络爬虫又称网络蜘蛛、网络机器人，它是一种按照一定的规则自动浏览、检索网页信息的程序或者脚本。网络爬虫能够自动请求网页，并将所需要的数据抓取下来。通过对抓取的数据进行处理，从而提取出有价值的信息。

摘要：Python网络爬虫的详尽解释。导读：网络爬虫也叫做网络机器人，可以代替人们自动地在互联网中进行数据信息的采集与整理。在大数据时代，信息的采集是一项重要的工作，如果...

作为一家大数据公司的运营小编，经常会有人问我“诶？你说的爬虫是什么呀”“爬虫的用途是什么呀？”“你们公司是卖爬虫的吗，有蜥蜴吗？”等一系列问题，面对这些问题，小编是绝望的。那么爬虫到底是什么呢？一、爬虫是什么以下是百度百科上对于网络爬虫的定义：网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或

脚本语言

37,738

社区成员

34,210

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章