这样能抓住网络爬虫吗

tan625747 2012-09-03 08:36:32
http://www.anlili.com/robot?3F5AA2C5904B4E26A7E63BD6BE81DBDD打开一个网页里面包含一个地址:
地址是根据上次的地址用mdb加密而成。
...全文
245 7 打赏 收藏 转发到动态 举报
写回复
用AI写文章
7 条回复
切换为时间正序
请发表友善的回复…
发表回复
酱油党 2012-09-06
  • 打赏
  • 举报
回复
[Quote=引用 6 楼 的回复:]

引用 5 楼 的回复:

网络爬虫是很难抓的,只能根据它的行为来判定是正常用户操作还是爬虫,而爬虫的行为特征都不一样。
robot.txt是一个君子协议,目前的3B大战就是因为360不遵守这个协议,直接使用了百度的数据来作结果使得百度非常的不满。


我的意思说,上面那个网址,会生成无穷网址。
[/Quote]楼主我想学习下相关的东西,你能提供相关的资料吗。不管怎么样,先谢过了。
tan625747 2012-09-05
  • 打赏
  • 举报
回复
[Quote=引用 5 楼 的回复:]

网络爬虫是很难抓的,只能根据它的行为来判定是正常用户操作还是爬虫,而爬虫的行为特征都不一样。
robot.txt是一个君子协议,目前的3B大战就是因为360不遵守这个协议,直接使用了百度的数据来作结果使得百度非常的不满。
[/Quote]

我的意思说,上面那个网址,会生成无穷网址。
无知者无谓 2012-09-04
  • 打赏
  • 举报
回复
网络爬虫是很难抓的,只能根据它的行为来判定是正常用户操作还是爬虫,而爬虫的行为特征都不一样。
robot.txt是一个君子协议,目前的3B大战就是因为360不遵守这个协议,直接使用了百度的数据来作结果使得百度非常的不满。
寻找自我 2012-09-04
  • 打赏
  • 举报
回复
robot.txt
liujun_ips 2012-09-04
  • 打赏
  • 举报
回复
就是挑bug?
xlrtx 2012-09-03
  • 打赏
  • 举报
回复
感觉蜘蛛程序一般都会给每个网站设计个深度上限和总上限的

而且也会根据抓到的内容做判断

搜索引擎的蜘蛛程序会读取网站上面的rebot.txt(好像是这个名字吧)的配置来搜索信息
Gloveing 2012-09-03
  • 打赏
  • 举报
回复
抓住网络爬虫?不懂

64,637

社区成员

发帖
与我相关
我的任务
社区描述
C++ 语言相关问题讨论,技术干货分享,前沿动态等
c++ 技术论坛(原bbs)
社区管理员
  • C++ 语言社区
  • encoderlee
  • paschen
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
  1. 请不要发布与C++技术无关的贴子
  2. 请不要发布与技术无关的招聘、广告的帖子
  3. 请尽可能的描述清楚你的问题,如果涉及到代码请尽可能的格式化一下

试试用AI创作助手写篇文章吧