python爬虫糗事百科入门求助

wohu007 2015-07-05 04:54:32
按照http://cuiqingcai.com/990.html 博文写了个爬虫但是一直运行不起来,劳烦大牛看看
源码:
import urllib
import urllib2
import re
page = 1
url = 'http://www.qiushibaike.com/hot/page/' + str(page)
#有些网站没有user_agent会报错
user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36'
headers = {'User-Agent':user_agent}
request = urllib2.Request(url,headers = headers)
response = urllib2.urlopen(request)

content = response.read().decode('utf-8')
pattern = re.compile('<div.*?class="author".*?>.*?<a.*?>.*?<img.*?>"(.*?)"</a><div.*?class="content".*?>"(.*?)".*?</div>',re.S)
items = re.findall(pattern,content)
for item in items:
print item[0]


糗事百科网站的HTML截图,请各位看下是不是正则表达式的问题


...全文
546 6 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
6 条回复
切换为时间正序
请发表友善的回复…
发表回复
jjbbbs 2015-08-13
  • 打赏
  • 举报
回复
这个要改代码的吧?要研究一下的。
wohu007 2015-07-18
  • 打赏
  • 举报
回复
用BeautifulSoup 之后怎样才能把[<div class="content"> 这些给去掉,另外我还想打印出 作者、时间该怎么弄啊?

import urllib
import urllib2
import re
from bs4 import BeautifulSoup
page = 1
url = 'http://www.qiushibaike.com/hot/page/' + str(page)
#有些网站没有user_agent会报错
user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36'
headers = {'User-Agent':user_agent}
request = urllib2.Request(url,headers = headers)
response = urllib2.urlopen(request)

#decode的作用是将其他编码的字符串转换成unicode编码
content = response.read().decode('utf-8')
soup = BeautifulSoup(content)
items = soup.find_all('div',class_='content')
print items


目前只能打印如下:

[<div class="content">

中国年年降房价,反而涨了不少,某地因跳广场舞,房价反而降价十几万,广场舞才是控制中国房价的一大助力。
<!--2015-07-18 15:54:41-->
</div>, <div class="content">


另外我还想打印出 作者、时间该怎么弄啊?
JPF1024 2015-07-10
  • 打赏
  • 举报
回复
可以到我的网站去看下效果:project.07q.net
JPF1024 2015-07-10
  • 打赏
  • 举报
回复
我有现成的,只不过还没开源,过几天整理一下开源的,目前是python2.7版本写的,等升级到python3.4+之后开源,可以Q我提示你怎么做,877470746/CSDN。
阿友不错哦 2015-07-06
  • 打赏
  • 举报
回复
用bs4 r = requests.get(url).content soup = BeautifulSoup(r) class_s = soup.find(class_="content") 这样会把整个<div class ="content">......</div>的内容都取出来
内容概要:本文档是2025年全国广播电视技术能手竞赛IPTV专业的竞赛内容大纲,旨在指导参赛选手准备比赛。竞赛分为理论和实操两大部分。理论部分涵盖基本知识、基础理论和专业知识,包括法律法规、技术标准、IPTV技术基础、信号传输与分发、网络和数据安全等。实操部分则涉及IPTV系统设备、仪器设备的操作使用和指标测量。具体内容包括IPTV系统架构、传输技术与指标、设备配置及维护、专业技能如测量工具使用、视音频指标测量、直播点播协议分析、播出网络性能测量、网络安全数据分析以及系统故障排查等。 适合人群:从或有意从IPTV相关工作的技术人员,尤其是有志于参加全国广播电视技术能手竞赛的专业人士。 使用场景及目标:①帮助参赛选手全面了解并掌握IPTV相关的法规文件和技术标准;②提升选手对IPTV系统架构、传输技术和设备配置的理解;③增强选手在实际操作中的测量、分析和故障排查能力;④确保选手能够熟练运用各种测量工具和分析软件进行视音频指标测量和网络安全数据分析。 阅读建议:由于文档内容详尽且专业性强,建议读者在学习过程中结合实际案例和操作练习,同时参考相关技术文献,以便更好地理解和掌握竞赛所需的知识和技能。

37,743

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • WuKongSecurity@BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧