这样能抓住网络爬虫吗

tan625747 2012-09-03 08:36:32

http://www.anlili.com/robot?3F5AA2C5904B4E26A7E63BD6BE81DBDD打开一个网页里面包含一个地址：
地址是根据上次的地址用mdb加密而成。

...全文

245 7 打赏收藏转发到动态举报

写回复

7 条回复

切换为时间正序

请发表友善的回复…

发表回复

酱油党 2012-09-06

打赏
举报

回复

[Quote=引用 6 楼的回复:]

引用 5 楼的回复:

网络爬虫是很难抓的，只能根据它的行为来判定是正常用户操作还是爬虫，而爬虫的行为特征都不一样。
robot.txt是一个君子协议，目前的3B大战就是因为360不遵守这个协议，直接使用了百度的数据来作结果使得百度非常的不满。

我的意思说，上面那个网址，会生成无穷网址。
[/Quote]楼主我想学习下相关的东西，你能提供相关的资料吗。不管怎么样，先谢过了。

tan625747 2012-09-05

打赏
举报

回复

[Quote=引用 5 楼的回复:]

网络爬虫是很难抓的，只能根据它的行为来判定是正常用户操作还是爬虫，而爬虫的行为特征都不一样。
robot.txt是一个君子协议，目前的3B大战就是因为360不遵守这个协议，直接使用了百度的数据来作结果使得百度非常的不满。
[/Quote]

我的意思说，上面那个网址，会生成无穷网址。

无知者无谓 2012-09-04

打赏
举报

回复

网络爬虫是很难抓的，只能根据它的行为来判定是正常用户操作还是爬虫，而爬虫的行为特征都不一样。
robot.txt是一个君子协议，目前的3B大战就是因为360不遵守这个协议，直接使用了百度的数据来作结果使得百度非常的不满。

寻找自我 2012-09-04

打赏
举报

回复

robot.txt

liujun_ips 2012-09-04

打赏
举报

回复

就是挑bug？

xlrtx 2012-09-03

打赏
举报

回复

感觉蜘蛛程序一般都会给每个网站设计个深度上限和总上限的

而且也会根据抓到的内容做判断

搜索引擎的蜘蛛程序会读取网站上面的rebot.txt(好像是这个名字吧)的配置来搜索信息

Gloveing 2012-09-03

打赏
举报

回复

抓住网络爬虫？不懂

其次通过对用户上网日志的解析和网络爬虫数据的匹配,构建内容的评分模型,实现对移动客户的特征、偏好等信息进行高度总结,从而生成用户移动互联网偏好特征标签,全面丰富了用户动态信息标签的构建。在此基础上,提出了...

3年前，我在 csdn 写过 Python3 网络爬虫系列教程，经过三年的积累，累计阅读量近 90W。同时，我也在 Github 开源了所有 Python3 网络爬虫代码，累积获得 10.3k+ 的 star，4.1k+ 的 fork。可以说，这个系列...

浏览器解析出来最后呈现给用户在浏览器上看到的结果所以用户看到的浏览器的结果就是由HTML代码构成的，我们爬虫就是为了获取这些内容，通过分析和过滤html代码，从中获取我们想要资源。由于后台服务器的通用性，除了...

原标题：一小时入门 Python 3 网络爬虫作者：Jack-Cui，热爱技术分享，活跃于 CSDN 和知乎，开设的《Python3网络爬虫入门》、《Python3机器学习》等专栏受到好评。声明：本文讲解的实战内容，均仅用于学习交流，请勿...

Python网络爬虫入门网络爬虫（web crawler），也叫网络蜘蛛(Web Spider)、网络机器人（Internet Bot）。简单地说，抓取万维网（World Wide Web）上所需要的数据的程序就叫网络爬虫。网络爬虫常见分类：通用...

64,637

社区成员

250,559

社区内容

发帖

与我相关

我的任务

c++ 技术论坛（原bbs）

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

请不要发布与C++技术无关的贴子
请不要发布与技术无关的招聘、广告的帖子
请尽可能的描述清楚你的问题，如果涉及到代码请尽可能的格式化一下

试试用AI创作助手写篇文章吧

+ 用AI写文章