这个网页的内容怎么抓取？？

jieao111 2016-01-12 08:03:18

怎么用python来抓

http://cpro.baidu.com/cpro/ui/uijs.php?c=news&cf=32&ch=0&di=1&fv=16&jk=f725bbc8901911fd&k=%E9%A5%AE%E6%B0%B4%E6%9C%BA&kdi1=8&kdi2=8&kdi3=8&kdi4=8&kdi5=8&luki=7&n=10&p=baidu&q=78094037_cpr&rb=1&rs=1&seller_id=1&sid=fd111990c8bb25f7&ssp2=7&stid=50&t=tpclicked3_hc&tu=u1636258&u=http%3A%2F%2Fwww%2Ejuyouqu%2Ecom%2Fqu%2F3162732&urlid=0http://cpro.baidu.com/cpro/ui/uijs.php?c=news&cf=32&ch=0&di=1&fv=16&jk=f725bbc8901911fd&k=%DF%C8%B2%B8%DF%C8%B2%B8%BC%D3%C3%CB&k0=%DF%C8%B2%B8%DF%C8%B2%B8%BC%D3%C3%CB&k1=%BD%BB%BB%A5%C9%E8%BC%C6%CD%F8%D5%BE&k2=%BD%BB%BB%A5%C9%E8%BC%C6%CA%A6&k3=%B9%FA%BC%D2%B9%AB%CE%F1%D4%B1%C3%E6%CA%D4&k4=%BD%BB%BB%A5%C9%E8%BC%C6%D1%A7%CF%B0&k5=%BC%D2%BE%D3%D7%B0%CA%CE&kdi0=1&kdi1=8&kdi2=8&kdi3=8&kdi4=8&kdi5=8&luki=7&n=10&p=baidu&q=78094037_cpr&rb=1&rs=1&seller_id=1&sid=fd111990c8bb25f7&ssp2=7&stid=50&t=tpclicked3_hc&tu=u1636258&u=http%3A%2F%2Fwww%2Ejuyouqu%2Ecom%2Fqu%2F3162732&urlid=0

...全文

255 3 打赏收藏转发到动态举报

写回复

用AI写文章

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

li550399781 2016-01-13

打赏
举报

第二部，可以去掉。。。 webbrowser这个函数库如果只抓取这个页面是用不到的。我就习惯打进去了。不加第二部，直接第三部就可以了

li550399781 2016-01-13

打赏
举报

你好，我是新手、初学python，如果回答的不对。不要喷我。 import urllib 第一步，调用urllib 函数库 import webbrowser 第二部，调用webbrowser函数库 url = ‘http://cpro.baidu.com/cpro/ui/uijs.php?c=news&cf=32&ch=0&di=1&fv=16&jk=f725bbc8901911fd&k=%E9%A5%AE%E6%B0%B4%E6%9C%BA&kdi1=8&kdi2=8&kdi3=8&kdi4=8&kdi5=8&luki=7&n=10&p=baidu&q=78094037_cpr&rb=1&rs=1&seller_id=1&sid=fd111990c8bb25f7&ssp2=7&stid=50&t=tpclicked3_hc&tu=u1636258&u=http%3A%2F%2Fwww%2Ejuyouqu%2Ecom%2Fqu%2F3162732&urlid=0http://cpro.baidu.com/cpro/ui/uijs.php?c=news&cf=32&ch=0&di=1&fv=16&jk=f725bbc8901911fd&k=%DF%C8%B2%B8%DF%C8%B2%B8%BC%D3%C3%CB&k0=%DF%C8%B2%B8%DF%C8%B2%B8%BC%D3%C3%CB&k1=%BD%BB%BB%A5%C9%E8%BC%C6%CD%F8%D5%BE&k2=%BD%BB%BB%A5%C9%E8%BC%C6%CA%A6&k3=%B9%FA%BC%D2%B9%AB%CE%F1%D4%B1%C3%E6%CA%D4&k4=%BD%BB%BB%A5%C9%E8%BC%C6%D1%A7%CF%B0&k5=%BC%D2%BE%D3%D7%B0%CA%CE&kdi0=1&kdi1=8&kdi2=8&kdi3=8&kdi4=8&kdi5=8&luki=7&n=10&p=baidu&q=78094037_cpr&rb=1&rs=1&seller_id=1&sid=fd111990c8bb25f7&ssp2=7&stid=50&t=tpclicked3_hc&tu=u1636258&u=http%3A%2F%2Fwww%2Ejuyouqu%2Ecom%2Fqu%2F3162732&urlid=0’ 第三部，设置变量 content=urllib.urlopen（url）.read（）第四部，抓取url这个网页里的所有内容 open（‘yinshuiji.com.html’,'w'）.write(content) 第五步，新建个html静态页，把代码写入。完成