java,网络爬虫,爬不到网页源码,度娘表示心力交瘁了,求助论坛大神。【详见问题描述】

LY_WAIT 2017-01-03 10:26:39
论坛大神们,新年好哇!
小弟正在做从网页爬取数据的一个功能,原本的想法是,爬取网页源码,存入本地文件中,然后利用正则表达式提取所需的数据。
然鹅,理想与现实总是水火不容。
在爬源码的过程中,发现有的网页可以顺利爬取,有的网页源码爬不到(如下图所示)。请教大神:这是什么原因?有没有推荐的解决办法?
[私以为代码有问题,但是有的网页却能够正确爬到,就很不解]
...全文
602 5 打赏 收藏 转发到动态 举报
写回复
用AI写文章
5 条回复
切换为时间正序
请发表友善的回复…
发表回复
junzibuqi124 2017-01-13
  • 打赏
  • 举报
回复
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36', 'cookie': 'SINAGLOBAL=7452444371129.994.1466409113239; _s_tentry=games.sina.com.cn; Apache=763154962656.2007.1482714299791; ULV=1482714301472:22:5:1:763154962656.2007.1482714299791:1482471420323; login_sid_t=5cb1ae85b85caff209fe43ecf27fa2bd; UOR=,,login.sina.com.cn; SCF=AuQy0GFNTq0nNcrvhfEw9ImgQ3A1kg1dU4yxrIBdps6BKCyaPq4RS8B0JKWyDZdr_AeRfPg3zEUwQLk0zi2LOrU.; SUB=_2A251YBNUDeTxGeVG6VIU9SrIyD6IHXVWFAOcrDV8PUNbmtBeLXn6kW8WjSZss--rEVZA5Jdlwh_g90kBMA..; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9W5_6ENrCysORDvx.keWmkQC5JpX5K2hUgL.FoeReo5fSKBXe0z2dJLoIEMLxK-L1K5L1-zLxK-LB-BL1K5LxKBLBonL12BLxK-L1K.LBKnpeoBt; SUHB=0IIFs8XGciVw-c; ALF=1514509956; SSOLoginState=1482973957; un=junzibuqi124@163.com; wvr=6', 'Referer':'http://www.weibo.com/u/5519738412/home?wvr=5&lf=reg' } req = urllib.request.Request(url=url, headers=headers) res = urllib.request.urlopen(req)
LY_WAIT 2017-01-06
  • 打赏
  • 举报
回复
大神在哪里哇,自己先顶一下
LY_WAIT 2017-01-03
  • 打赏
  • 举报
回复
引用 2 楼 u014519194 的回复:
爬的时候headers加了吗,还是只是单纯的请求url 一些网站加了反扒技术,所以要把爬虫伪装成浏览器
单纯的URL,有的网页确实可以正确爬取。 如何伪装成浏览器呢? 小弟学得不深,还请明示啊。
junzibuqi124 2017-01-03
  • 打赏
  • 举报
回复
爬的时候headers加了吗,还是只是单纯的请求url 一些网站加了反扒技术,所以要把爬虫伪装成浏览器
浮云若水 2017-01-03
  • 打赏
  • 举报
回复
有些网站是有反爬功能的,记得我爬10086的时候 爬到的确实一堆乱糟糟的东西:“兄弟你这爬虫不咋样啊。。。。。”什么之类的 看看是不是呗网页给重定向了

50,547

社区成员

发帖
与我相关
我的任务
社区描述
Java相关技术讨论
javaspring bootspring cloud 技术论坛(原bbs)
社区管理员
  • Java相关社区
  • 小虚竹
  • 谙忆
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧