这个网页的内容怎么抓取??

jieao111 2016-01-12 08:03:18
怎么用python来抓

http://cpro.baidu.com/cpro/ui/uijs.php?c=news&cf=32&ch=0&di=1&fv=16&jk=f725bbc8901911fd&k=%E9%A5%AE%E6%B0%B4%E6%9C%BA&kdi1=8&kdi2=8&kdi3=8&kdi4=8&kdi5=8&luki=7&n=10&p=baidu&q=78094037_cpr&rb=1&rs=1&seller_id=1&sid=fd111990c8bb25f7&ssp2=7&stid=50&t=tpclicked3_hc&tu=u1636258&u=http%3A%2F%2Fwww%2Ejuyouqu%2Ecom%2Fqu%2F3162732&urlid=0http://cpro.baidu.com/cpro/ui/uijs.php?c=news&cf=32&ch=0&di=1&fv=16&jk=f725bbc8901911fd&k=%DF%C8%B2%B8%DF%C8%B2%B8%BC%D3%C3%CB&k0=%DF%C8%B2%B8%DF%C8%B2%B8%BC%D3%C3%CB&k1=%BD%BB%BB%A5%C9%E8%BC%C6%CD%F8%D5%BE&k2=%BD%BB%BB%A5%C9%E8%BC%C6%CA%A6&k3=%B9%FA%BC%D2%B9%AB%CE%F1%D4%B1%C3%E6%CA%D4&k4=%BD%BB%BB%A5%C9%E8%BC%C6%D1%A7%CF%B0&k5=%BC%D2%BE%D3%D7%B0%CA%CE&kdi0=1&kdi1=8&kdi2=8&kdi3=8&kdi4=8&kdi5=8&luki=7&n=10&p=baidu&q=78094037_cpr&rb=1&rs=1&seller_id=1&sid=fd111990c8bb25f7&ssp2=7&stid=50&t=tpclicked3_hc&tu=u1636258&u=http%3A%2F%2Fwww%2Ejuyouqu%2Ecom%2Fqu%2F3162732&urlid=0
...全文
179 3 打赏 收藏 转发到动态 举报
写回复
用AI写文章
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
li550399781 2016-01-13
  • 打赏
  • 举报
回复
第二部,可以去掉。。。 webbrowser这个函数库 如果只抓取这个页面是用不到的。 我就习惯打进去了。不加 第二部,直接第三部就可以了
li550399781 2016-01-13
  • 打赏
  • 举报
回复
你好,我是新手、初学python,如果回答的不对。不要喷我。 import urllib 第一步,调用urllib 函数库 import webbrowser 第二部,调用webbrowser函数库 url = ‘http://cpro.baidu.com/cpro/ui/uijs.php?c=news&cf=32&ch=0&di=1&fv=16&jk=f725bbc8901911fd&k=%E9%A5%AE%E6%B0%B4%E6%9C%BA&kdi1=8&kdi2=8&kdi3=8&kdi4=8&kdi5=8&luki=7&n=10&p=baidu&q=78094037_cpr&rb=1&rs=1&seller_id=1&sid=fd111990c8bb25f7&ssp2=7&stid=50&t=tpclicked3_hc&tu=u1636258&u=http%3A%2F%2Fwww%2Ejuyouqu%2Ecom%2Fqu%2F3162732&urlid=0http://cpro.baidu.com/cpro/ui/uijs.php?c=news&cf=32&ch=0&di=1&fv=16&jk=f725bbc8901911fd&k=%DF%C8%B2%B8%DF%C8%B2%B8%BC%D3%C3%CB&k0=%DF%C8%B2%B8%DF%C8%B2%B8%BC%D3%C3%CB&k1=%BD%BB%BB%A5%C9%E8%BC%C6%CD%F8%D5%BE&k2=%BD%BB%BB%A5%C9%E8%BC%C6%CA%A6&k3=%B9%FA%BC%D2%B9%AB%CE%F1%D4%B1%C3%E6%CA%D4&k4=%BD%BB%BB%A5%C9%E8%BC%C6%D1%A7%CF%B0&k5=%BC%D2%BE%D3%D7%B0%CA%CE&kdi0=1&kdi1=8&kdi2=8&kdi3=8&kdi4=8&kdi5=8&luki=7&n=10&p=baidu&q=78094037_cpr&rb=1&rs=1&seller_id=1&sid=fd111990c8bb25f7&ssp2=7&stid=50&t=tpclicked3_hc&tu=u1636258&u=http%3A%2F%2Fwww%2Ejuyouqu%2Ecom%2Fqu%2F3162732&urlid=0’ 第三部,设置变量 content=urllib.urlopen(url).read() 第四部,抓取url这个网页里的所有内容 open(‘yinshuiji.com.html’,'w').write(content) 第五步,新建个html静态页,把代码写入。 完成
似梦飞花 2016-01-13
  • 打赏
  • 举报
回复
urllib不是可以直接抓吗?

37,716

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • IT.BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧