社区
Web 开发
帖子详情
关于爬虫中的URL问题!高手请教
leeking888
2010-10-20 10:18:08
像nutch这样的爬虫 你只要给它一个规则 它就能把站点的所有网页都访问出来 但是这个规则是怎么样定义的呢?
打个比方 http://www.163.com 这个站点 它能把
http://bbs.163.com
http://www.163.com/aaa/aaa.html....等等到
http://www.163.com/1/2/3/4/5/n/nnnn.html 都能挖出来
它的url是怎么样实现的呢?难道是一个一个地穷举配对访问吗??
...全文
181
8
打赏
收藏
关于爬虫中的URL问题!高手请教
像nutch这样的爬虫 你只要给它一个规则 它就能把站点的所有网页都访问出来 但是这个规则是怎么样定义的呢? 打个比方 http://www.163.com 这个站点 它能把 http://bbs.163.com http://www.163.com/aaa/aaa.html....等等到 http://www.163.com/1/2/3/4/5/n/nnnn.html 都能挖出来 它的url是怎么样实现的呢?难道是一个一个地穷举配对访问吗??
复制链接
扫一扫
分享
转发到动态
举报
AI
作业
写回复
配置赞助广告
用AI写文章
8 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
eggno8
2010-10-20
打赏
举报
回复
如果你站点上有www.yoursite.com/seegood?id=xxxxxx
这种带参页面,但是,没有任何一个页面有链接连到www.yoursite.com/seegood?id=518518这个页面或者是页面动态形式链接到(比如id=1这个被链接到,然后seegood页面动态的有get到的id+1的链接),那你这个产品页面是不会被爬虫爬到的,爬虫没事会去给你每个参数来个穷举访问么?
leeking888
2010-10-20
打赏
举报
回复
[Quote=引用 5 楼 eggno8 的回复:]
对网站爬行的过程就是一个对图的遍历过程。
每一个页面看作一个顶点,a页面上一个b页面的链接是看作将ab连通的边。对这个图的遍历,如果有某个或者某几个孤立的顶点,那么这个图无法简单的就遍历完。
假设网站www.163.com下有一个页面http://www.163.com/imalone.html
163.com整个站点上其他页面没有任何一个页面上有指向它的链接,那么作为图的顶点,这个页面是孤……
[/Quote]
那么有一些是需要参数的呢?或者是其他条件的才能进入的页面是不是无法爬虫访问到呢?
谁是莫默的呢
2010-10-20
打赏
举报
回复
学习下,期待高手
eggno8
2010-10-20
打赏
举报
回复
对网站爬行的过程就是一个对图的遍历过程。
每一个页面看作一个顶点,a页面上一个b页面的链接是看作将ab连通的边。对这个图的遍历,如果有某个或者某几个孤立的顶点,那么这个图无法简单的就遍历完。
假设网站www.163.com下有一个页面http://www.163.com/imalone.html
163.com整个站点上其他页面没有任何一个页面上有指向它的链接,那么作为图的顶点,这个页面是孤立的,爬虫是爬不到的~
leeking888
2010-10-20
打赏
举报
回复
[Quote=引用 2 楼 metsys 的回复:]
爬的是站点内容里包含的链接。
要是穷举配对,比算出彩票号码的可能性还小得多。
[/Quote]
谢谢 有点想像的可能了..
那么是在http://www.163.com这个页面中的所有 a 标签的链接和 form的链接吗??那要是使用js打开的url呢?
leeking888
2010-10-20
打赏
举报
回复
[Quote=引用 1 楼 yaoweijq 的回复:]
大概意思是这:
用java的httpclient或urlconnection先把
http://www.163.com这个网页的html代码弄出来,
再分析里面所有的链接,
按照一定规则找出来,
与爬过的所有链接进行比较,
如果爬过了并且没有更新,
就不管,
然后爬没爬过的,
依次类推就行了
[/Quote]
请问 按照你这个想法怎么样实现呢??
这网页的根本就没有个规则嘛
有的东西是我喜欢的 或者有的是用户名 时间什么的 如
http://www.163.com/news/
20101010
/aaa.html
http://www.163.com/news/
usernames/includechinese
/aaa.html
metsys
2010-10-20
打赏
举报
回复
爬的是站点内容里包含的链接。
要是穷举配对,比算出彩票号码的可能性还小得多。
yaoweijq
2010-10-20
打赏
举报
回复
大概意思是这:
用java的httpclient或urlconnection先把
http://www.163.com这个网页的html代码弄出来,
再分析里面所有的链接,
按照一定规则找出来,
与爬过的所有链接进行比较,
如果爬过了并且没有更新,
就不管,
然后爬没爬过的,
依次类推就行了
简单的
爬虫
实现抓取豆瓣网图片
Python
爬虫
实现简单的抓取图片功能 一直说python
爬虫
是现在业内先对比较流行的语言,简单易学,对于小白的我还是有点难度的.不过在努力的研究下,也实现了一小部分的操作,抓取了部分图片.不过功力不够,还需要继续修行,毕竟业界也是
高手
如云乎!!! 创建自定义目录 ** 以demo为例** , 目录下创建 images.py, images文件夹用于存放图片 2 . 在cmd 终端
中
,...
【干货】万字长文教你对抗邪恶的
爬虫
或许是竞争对手在窥探商业机密。或许是某个学生为了论文而做的数据采集。又或许只是码农的一个恶作剧。无论如何,一个行为不受控制的
爬虫
都会对我们的数据安全有着或多或少的威胁,它迫使着我们行动起...
Network Thread
怎样让控制台程序也能处理消息?到底这样可以吗?请
高手
指点。我在多线程
中
使用CSocket的,怎么老是出错,请大家帮我看看!VC
中
使用IXMLHTTPRequest获取
URL
信息的
问题
,有代码*********************************************如何通过IXMLHTTPRequest下载文件?300分
请教
如何向DNS查询MX记录(SDK+socket)那位仁兄有在
跟潭州学院的强子老师学习网络
爬虫
---爬取全书网
真是太白了,python之路还有很长,今天我从这里开始,留作自己备忘。2018-04-05 花了一个下午学习个爬小说的,总的来说是因为自己没什么基础,哪里不会补哪里,磕磕绊绊的,总算是能运行,先把代码放这里,以后
请教
高手
帮助解决一下。 # -*- coding: utf-8 -*- # @Time : 2018/4/5 13:46 # @Author : ELEVEN # ...
Pycharm学习记录(二)——正则表达式的应用
上一篇文章大致讲了
爬虫
的五个基本步骤,还遗留了一个
问题
(目前都已解决)。在这里简单记录一下。 正则表达式,网上有很多对它知识的介绍,各种视频教学、各种文字说明、各种表格,作为一个新手(编程小小白),我坦白,确实没看懂。没办法,只有去
请教
下
高手
们了。后面也零零碎碎学到了一点,能够自己写出规则,匹配出想要的信息了。真不容易。 保姆式教学,步骤如下: ①先输出网页信息,并复制、粘贴到这个网址:regex101: build, test, and debug regex 的2里面。 ②在1里面,开始..
Web 开发
81,122
社区成员
341,744
社区内容
发帖
与我相关
我的任务
Web 开发
Java Web 开发
复制链接
扫一扫
分享
社区描述
Java Web 开发
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章