社区
Java
帖子详情
java,网络爬虫,爬不到网页源码,度娘表示心力交瘁了,求助论坛大神。【详见问题描述】
LY_WAIT
2017-01-03 10:26:39
论坛大神们,新年好哇!
小弟正在做从网页爬取数据的一个功能,原本的想法是,爬取网页源码,存入本地文件中,然后利用正则表达式提取所需的数据。
然鹅,理想与现实总是水火不容。
在爬源码的过程中,发现有的网页可以顺利爬取,有的网页源码爬不到(如下图所示)。请教大神:这是什么原因?有没有推荐的解决办法?
[私以为代码有问题,但是有的网页却能够正确爬到,就很不解]
...全文
602
5
打赏
收藏
java,网络爬虫,爬不到网页源码,度娘表示心力交瘁了,求助论坛大神。【详见问题描述】
论坛大神们,新年好哇! 小弟正在做从网页爬取数据的一个功能,原本的想法是,爬取网页源码,存入本地文件中,然后利用正则表达式提取所需的数据。 然鹅,理想与现实总是水火不容。 在爬源码的过程中,发现有的网页可以顺利爬取,有的网页源码爬不到(如下图所示)。请教大神:这是什么原因?有没有推荐的解决办法? [私以为代码有问题,但是有的网页却能够正确爬到,就很不解]
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
5 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
junzibuqi124
2017-01-13
打赏
举报
回复
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36', 'cookie': 'SINAGLOBAL=7452444371129.994.1466409113239; _s_tentry=games.sina.com.cn; Apache=763154962656.2007.1482714299791; ULV=1482714301472:22:5:1:763154962656.2007.1482714299791:1482471420323; login_sid_t=5cb1ae85b85caff209fe43ecf27fa2bd; UOR=,,login.sina.com.cn; SCF=AuQy0GFNTq0nNcrvhfEw9ImgQ3A1kg1dU4yxrIBdps6BKCyaPq4RS8B0JKWyDZdr_AeRfPg3zEUwQLk0zi2LOrU.; SUB=_2A251YBNUDeTxGeVG6VIU9SrIyD6IHXVWFAOcrDV8PUNbmtBeLXn6kW8WjSZss--rEVZA5Jdlwh_g90kBMA..; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9W5_6ENrCysORDvx.keWmkQC5JpX5K2hUgL.FoeReo5fSKBXe0z2dJLoIEMLxK-L1K5L1-zLxK-LB-BL1K5LxKBLBonL12BLxK-L1K.LBKnpeoBt; SUHB=0IIFs8XGciVw-c; ALF=1514509956; SSOLoginState=1482973957; un=junzibuqi124@163.com; wvr=6', 'Referer':'http://www.weibo.com/u/5519738412/home?wvr=5&lf=reg' } req = urllib.request.Request(url=url, headers=headers) res = urllib.request.urlopen(req)
LY_WAIT
2017-01-06
打赏
举报
回复
大神在哪里哇,自己先顶一下
LY_WAIT
2017-01-03
打赏
举报
回复
引用 2 楼 u014519194 的回复:
爬的时候headers加了吗,还是只是单纯的请求url 一些网站加了反扒技术,所以要把爬虫伪装成浏览器
单纯的URL,有的网页确实可以正确爬取。 如何伪装成浏览器呢? 小弟学得不深,还请明示啊。
junzibuqi124
2017-01-03
打赏
举报
回复
爬的时候headers加了吗,还是只是单纯的请求url 一些网站加了反扒技术,所以要把爬虫伪装成浏览器
浮云若水
2017-01-03
打赏
举报
回复
有些网站是有反爬功能的,记得我爬10086的时候 爬到的确实一堆乱糟糟的东西:“兄弟你这爬虫不咋样啊。。。。。”什么之类的 看看是不是呗网页给重定向了
Java
爬
虫
,信息抓取的实现 完整实例
源码
Java
爬
虫
,信息抓取的实现 详细完整
源码
实例打包给大家,需要的可以下载下载学习!!!
java
jsoup
网络
爬
虫
jsoup解析html
Java
爬
虫
Jsoup
爬
虫
jsoup例子
java
jsoup
网络
爬
虫
java
jsoup
网络
爬
虫
学习例子(一)抓取豆瓣电影名称+推荐星级
java
jsoup
网络
爬
虫
学习例子(二)只抓取豆瓣电影5星(力荐)电影名称
java
jsoup
网络
爬
虫
学习例子(三)抓取豆瓣电影海报图片 下载到本地
java
jsoup
网络
爬
虫
学习例子(四)抓取
网页
连接插入mysql数据库
java
...
谁说
Java
不能做
爬
虫
你可以得到 从0到1的
爬
虫
编程方法和搭建过程 获得教程中全部
源码
完整的开发工具及使用过程 课程说明
爬
虫
绝不是 python 独家的,
Java
也是
爬
虫
利器。 通过本课程学习,可以让学员快速入门
爬
虫
,减少学习...
java
之
网络
爬
虫
介绍
文章大纲 一、
网络
爬
虫
基本介绍 二、
java
常见
爬
虫
框架介绍 三、WebCollector实战 四、项目
源码
下载 五、参考文章 一、
网络
爬
虫
基本介绍 1. 什么是
网络
爬
虫
网络
爬
虫
(又被称为
网页
蜘蛛,
网络
机器人,在社区中间,更经常的称为
网页
追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 2. ...
Java
网络
爬
虫
,就是这么的简单
这是
Java
网络
爬
虫
系列文章的第一篇,如果你还不知道
Java
网络
爬
虫
系列文章,请参看 学
Java
网络
爬
虫
,需要哪些基础知识。第一篇是关于
Java
网络
爬
虫
入门内容,在该篇中我们以采集虎扑列表新闻的新闻标题和详情页为例,需要提取的内容如下图所示: 我们需要提取图中圈出来的文字及其对应的链接,在提取的过程中,我们会使用两种方式来提取,一种是 Jsoup 的方式,另一种是 httpcli...
Java
50,547
社区成员
85,621
社区内容
发帖
与我相关
我的任务
Java
Java相关技术讨论
复制链接
扫一扫
分享
社区描述
Java相关技术讨论
java
spring boot
spring cloud
技术论坛(原bbs)
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章