python爬虫糗事百科入门求助

wohu007 2015-07-05 04:54:32

按照http://cuiqingcai.com/990.html 博文写了个爬虫但是一直运行不起来，劳烦大牛看看
源码：

import urllib import urllib2 import re page = 1 url = 'http://www.qiushibaike.com/hot/page/' + str(page) #有些网站没有user_agent会报错 user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36' headers = {'User-Agent':user_agent} request = urllib2.Request(url,headers = headers) response = urllib2.urlopen(request) content = response.read().decode('utf-8') pattern = re.compile('<div.*?class="author".*?>.*?<a.*?>.*?<img.*?>"(.*?)"</a><div.*?class="content".*?>"(.*?)".*?</div>',re.S) items = re.findall(pattern,content) for item in items: print item[0]

糗事百科网站的HTML截图，请各位看下是不是正则表达式的问题

...全文

554 6 打赏收藏转发到动态举报

写回复

用AI写文章

6 条回复

切换为时间正序

请发表友善的回复…

发表回复

jjbbbs 2015-08-13

打赏
举报

这个要改代码的吧？要研究一下的。

wohu007 2015-07-18

打赏
举报

用BeautifulSoup 之后怎样才能把[<div class="content"> 这些给去掉，另外我还想打印出作者、时间该怎么弄啊？

import urllib

import urllib2

import re

from bs4 import BeautifulSoup

page = 1

url = 'http://www.qiushibaike.com/hot/page/' + str(page)

#有些网站没有user_agent会报错

user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36'

headers = {'User-Agent':user_agent}

request = urllib2.Request(url,headers = headers)

response = urllib2.urlopen(request)



#decode的作用是将其他编码的字符串转换成unicode编码  

content = response.read().decode('utf-8')

soup = BeautifulSoup(content)

items = soup.find_all('div',class_='content')

print items