这个网页的内容怎么抓取??

jieao111 2016-01-12 08:03:18
怎么用python来抓

http://cpro.baidu.com/cpro/ui/uijs.php?c=news&cf=32&ch=0&di=1&fv=16&jk=f725bbc8901911fd&k=%E9%A5%AE%E6%B0%B4%E6%9C%BA&kdi1=8&kdi2=8&kdi3=8&kdi4=8&kdi5=8&luki=7&n=10&p=baidu&q=78094037_cpr&rb=1&rs=1&seller_id=1&sid=fd111990c8bb25f7&ssp2=7&stid=50&t=tpclicked3_hc&tu=u1636258&u=http%3A%2F%2Fwww%2Ejuyouqu%2Ecom%2Fqu%2F3162732&urlid=0http://cpro.baidu.com/cpro/ui/uijs.php?c=news&cf=32&ch=0&di=1&fv=16&jk=f725bbc8901911fd&k=%DF%C8%B2%B8%DF%C8%B2%B8%BC%D3%C3%CB&k0=%DF%C8%B2%B8%DF%C8%B2%B8%BC%D3%C3%CB&k1=%BD%BB%BB%A5%C9%E8%BC%C6%CD%F8%D5%BE&k2=%BD%BB%BB%A5%C9%E8%BC%C6%CA%A6&k3=%B9%FA%BC%D2%B9%AB%CE%F1%D4%B1%C3%E6%CA%D4&k4=%BD%BB%BB%A5%C9%E8%BC%C6%D1%A7%CF%B0&k5=%BC%D2%BE%D3%D7%B0%CA%CE&kdi0=1&kdi1=8&kdi2=8&kdi3=8&kdi4=8&kdi5=8&luki=7&n=10&p=baidu&q=78094037_cpr&rb=1&rs=1&seller_id=1&sid=fd111990c8bb25f7&ssp2=7&stid=50&t=tpclicked3_hc&tu=u1636258&u=http%3A%2F%2Fwww%2Ejuyouqu%2Ecom%2Fqu%2F3162732&urlid=0
...全文
69 点赞 收藏 3
写回复
3 条回复
li550399781 2016年01月13日
第二部,可以去掉。。。 webbrowser这个函数库 如果只抓取这个页面是用不到的。 我就习惯打进去了。不加 第二部,直接第三部就可以了
回复 点赞
li550399781 2016年01月13日
你好,我是新手、初学python,如果回答的不对。不要喷我。 import urllib 第一步,调用urllib 函数库 import webbrowser 第二部,调用webbrowser函数库 url = ‘http://cpro.baidu.com/cpro/ui/uijs.php?c=news&cf=32&ch=0&di=1&fv=16&jk=f725bbc8901911fd&k=%E9%A5%AE%E6%B0%B4%E6%9C%BA&kdi1=8&kdi2=8&kdi3=8&kdi4=8&kdi5=8&luki=7&n=10&p=baidu&q=78094037_cpr&rb=1&rs=1&seller_id=1&sid=fd111990c8bb25f7&ssp2=7&stid=50&t=tpclicked3_hc&tu=u1636258&u=http%3A%2F%2Fwww%2Ejuyouqu%2Ecom%2Fqu%2F3162732&urlid=0http://cpro.baidu.com/cpro/ui/uijs.php?c=news&cf=32&ch=0&di=1&fv=16&jk=f725bbc8901911fd&k=%DF%C8%B2%B8%DF%C8%B2%B8%BC%D3%C3%CB&k0=%DF%C8%B2%B8%DF%C8%B2%B8%BC%D3%C3%CB&k1=%BD%BB%BB%A5%C9%E8%BC%C6%CD%F8%D5%BE&k2=%BD%BB%BB%A5%C9%E8%BC%C6%CA%A6&k3=%B9%FA%BC%D2%B9%AB%CE%F1%D4%B1%C3%E6%CA%D4&k4=%BD%BB%BB%A5%C9%E8%BC%C6%D1%A7%CF%B0&k5=%BC%D2%BE%D3%D7%B0%CA%CE&kdi0=1&kdi1=8&kdi2=8&kdi3=8&kdi4=8&kdi5=8&luki=7&n=10&p=baidu&q=78094037_cpr&rb=1&rs=1&seller_id=1&sid=fd111990c8bb25f7&ssp2=7&stid=50&t=tpclicked3_hc&tu=u1636258&u=http%3A%2F%2Fwww%2Ejuyouqu%2Ecom%2Fqu%2F3162732&urlid=0’ 第三部,设置变量 content=urllib.urlopen(url).read() 第四部,抓取url这个网页里的所有内容 open(‘yinshuiji.com.html’,'w').write(content) 第五步,新建个html静态页,把代码写入。 完成
回复 点赞
似梦飞花 2016年01月13日
urllib不是可以直接抓吗?
回复 点赞
发动态
发帖子
脚本语言(Perl/Python)
创建于2007-08-27

1.5w+

社区成员

3.3w+

社区内容

其他开发语言 脚本语言(Perl ,Python)
社区公告
暂无公告