java，网络爬虫，爬不到网页源码，度娘表示心力交瘁了，求助论坛大神。【详见问题描述】

LY_WAIT 2017-01-03 10:26:39

论坛大神们，新年好哇！
小弟正在做从网页爬取数据的一个功能，原本的想法是，爬取网页源码，存入本地文件中，然后利用正则表达式提取所需的数据。
然鹅，理想与现实总是水火不容。
在爬源码的过程中，发现有的网页可以顺利爬取，有的网页源码爬不到（如下图所示）。请教大神：这是什么原因？有没有推荐的解决办法？
[私以为代码有问题，但是有的网页却能够正确爬到，就很不解]

...全文

602 5 打赏收藏转发到动态举报

写回复

5 条回复

切换为时间正序

请发表友善的回复…

发表回复

junzibuqi124 2017-01-13

打赏
举报

回复

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36', 'cookie': 'SINAGLOBAL=7452444371129.994.1466409113239; _s_tentry=games.sina.com.cn; Apache=763154962656.2007.1482714299791; ULV=1482714301472:22:5:1:763154962656.2007.1482714299791:1482471420323; login_sid_t=5cb1ae85b85caff209fe43ecf27fa2bd; UOR=,,login.sina.com.cn; SCF=AuQy0GFNTq0nNcrvhfEw9ImgQ3A1kg1dU4yxrIBdps6BKCyaPq4RS8B0JKWyDZdr_AeRfPg3zEUwQLk0zi2LOrU.; SUB=_2A251YBNUDeTxGeVG6VIU9SrIyD6IHXVWFAOcrDV8PUNbmtBeLXn6kW8WjSZss--rEVZA5Jdlwh_g90kBMA..; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9W5_6ENrCysORDvx.keWmkQC5JpX5K2hUgL.FoeReo5fSKBXe0z2dJLoIEMLxK-L1K5L1-zLxK-LB-BL1K5LxKBLBonL12BLxK-L1K.LBKnpeoBt; SUHB=0IIFs8XGciVw-c; ALF=1514509956; SSOLoginState=1482973957; un=junzibuqi124@163.com; wvr=6', 'Referer':'http://www.weibo.com/u/5519738412/home?wvr=5&lf=reg' } req = urllib.request.Request(url=url, headers=headers) res = urllib.request.urlopen(req)

LY_WAIT 2017-01-06

打赏
举报

回复

大神在哪里哇，自己先顶一下

LY_WAIT 2017-01-03

打赏
举报

回复

引用 2 楼 u014519194 的回复:

爬的时候headers加了吗，还是只是单纯的请求url 一些网站加了反扒技术，所以要把爬虫伪装成浏览器

单纯的URL，有的网页确实可以正确爬取。如何伪装成浏览器呢？小弟学得不深，还请明示啊。

junzibuqi124 2017-01-03

打赏
举报

回复

爬的时候headers加了吗，还是只是单纯的请求url 一些网站加了反扒技术，所以要把爬虫伪装成浏览器

浮云若水 2017-01-03

打赏
举报

回复

有些网站是有反爬功能的，记得我爬10086的时候爬到的确实一堆乱糟糟的东西：“兄弟你这爬虫不咋样啊。。。。。”什么之类的看看是不是呗网页给重定向了

Java爬虫，信息抓取的实现详细完整源码实例打包给大家，需要的可以下载下载学习！！！

java jsoup 网络爬虫 java jsoup 网络爬虫学习例子（一）抓取豆瓣电影名称+推荐星级 java jsoup 网络爬虫学习例子（二）只抓取豆瓣电影5星（力荐）电影名称 java jsoup 网络爬虫学习例子（三）抓取豆瓣电影海报图片下载到本地 java jsoup 网络爬虫学习例子（四）抓取网页连接插入mysql数据库 java ...

你可以得到从0到1的爬虫编程方法和搭建过程获得教程中全部源码完整的开发工具及使用过程课程说明爬虫绝不是 python 独家的，Java 也是爬虫利器。通过本课程学习，可以让学员快速入门爬虫，减少学习...

文章大纲一、网络爬虫基本介绍二、java常见爬虫框架介绍三、WebCollector实战四、项目源码下载五、参考文章一、网络爬虫基本介绍 1. 什么是网络爬虫网络爬虫（又被称为网页蜘蛛，网络机器人，在社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 2. ...

这是 Java 网络爬虫系列文章的第一篇，如果你还不知道 Java 网络爬虫系列文章，请参看学 Java 网络爬虫，需要哪些基础知识。第一篇是关于 Java 网络爬虫入门内容，在该篇中我们以采集虎扑列表新闻的新闻标题和详情页为例，需要提取的内容如下图所示：我们需要提取图中圈出来的文字及其对应的链接，在提取的过程中，我们会使用两种方式来提取，一种是 Jsoup 的方式，另一种是 httpcli...

50,547

社区成员

85,621

社区内容

发帖

与我相关

我的任务

javaspring bootspring cloud 技术论坛（原bbs）

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章