python爬虫糗事百科入门求助

wohu007 2015-07-05 04:54:32
按照http://cuiqingcai.com/990.html 博文写了个爬虫但是一直运行不起来,劳烦大牛看看
源码:
import urllib
import urllib2
import re
page = 1
url = 'http://www.qiushibaike.com/hot/page/' + str(page)
#有些网站没有user_agent会报错
user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36'
headers = {'User-Agent':user_agent}
request = urllib2.Request(url,headers = headers)
response = urllib2.urlopen(request)

content = response.read().decode('utf-8')
pattern = re.compile('<div.*?class="author".*?>.*?<a.*?>.*?<img.*?>"(.*?)"</a><div.*?class="content".*?>"(.*?)".*?</div>',re.S)
items = re.findall(pattern,content)
for item in items:
print item[0]


糗事百科网站的HTML截图,请各位看下是不是正则表达式的问题


...全文
536 6 打赏 收藏 转发到动态 举报
写回复
用AI写文章
6 条回复
切换为时间正序
请发表友善的回复…
发表回复
jjbbbs 2015-08-13
  • 打赏
  • 举报
回复
这个要改代码的吧?要研究一下的。
wohu007 2015-07-18
  • 打赏
  • 举报
回复
用BeautifulSoup 之后怎样才能把[<div class="content"> 这些给去掉,另外我还想打印出 作者、时间该怎么弄啊?

import urllib
import urllib2
import re
from bs4 import BeautifulSoup
page = 1
url = 'http://www.qiushibaike.com/hot/page/' + str(page)
#有些网站没有user_agent会报错
user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36'
headers = {'User-Agent':user_agent}
request = urllib2.Request(url,headers = headers)
response = urllib2.urlopen(request)

#decode的作用是将其他编码的字符串转换成unicode编码
content = response.read().decode('utf-8')
soup = BeautifulSoup(content)
items = soup.find_all('div',class_='content')
print items


目前只能打印如下:

[<div class="content">

中国年年降房价,反而涨了不少,某地因跳广场舞,房价反而降价十几万,广场舞才是控制中国房价的一大助力。
<!--2015-07-18 15:54:41-->
</div>, <div class="content">


另外我还想打印出 作者、时间该怎么弄啊?
JPF1024 2015-07-10
  • 打赏
  • 举报
回复
可以到我的网站去看下效果:project.07q.net
JPF1024 2015-07-10
  • 打赏
  • 举报
回复
我有现成的,只不过还没开源,过几天整理一下开源的,目前是python2.7版本写的,等升级到python3.4+之后开源,可以Q我提示你怎么做,877470746/CSDN。
ZJL-阿友 2015-07-06
  • 打赏
  • 举报
回复
用bs4 r = requests.get(url).content soup = BeautifulSoup(r) class_s = soup.find(class_="content") 这样会把整个<div class ="content">......</div>的内容都取出来

37,718

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • IT.BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧