获取.hk域下的所有网页的网址

coderfellow 2007-06-05 10:30:52
我现在需要获取.hk域下的所有网址,或者大部分网址,以便后续分析.
请问有什么办法可以获得这个域下的所有网址呢?

我试过网络蜘蛛,但是好像它需要有一个入口地址,那样就不是全部.hk域下的网址了.所以,现在我想不出办法了,希望得到大家的帮助,谢谢:-)
...全文
174 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
James__Zhan 2009-10-31
  • 打赏
  • 举报
回复
可以,不过有个前提,最好其他所有的子页面到主页面之间有通路。
Java2King 2009-10-31
  • 打赏
  • 举报
回复
如果只抓取.hk的网站,肯定不能抓全。。

建议搞分布式两台电脑同时抓取,一台只抓.hk类网站,如果抓取其他域名就传给2号机。
2号机抓取分析,如果抓取到.hk类网站,就转1号机。

这样的话一号机上抓取的都是.hk域名的网站,而且资源绝对够
zhang_dongpeng 2009-09-18
  • 打赏
  • 举报
回复
广州达梦网络科技有限公司是一家致力于为提供各行业垂直搜索和元搜索服务的专业化公司。公司坚持以服务客户为中心,以技术创新为手段,为客户提供各个行业、任意搜索源精确搜索的解决方案,以及中个小企业信息服务的解决方案!
主要的搜索引擎案例有:万帮生活搜索,114soso网,万帮知识经验搜索,佛教新闻、网页、图片、视频、经典、词典、mp3等搜索。
能为您快速定制各类搜索引擎,如果您各类搜索引擎需求,请联系我们:020-22174900,QQ:46244150。
meiZiNick 2008-05-01
  • 打赏
  • 举报
回复
什么呀

2,759

社区成员

发帖
与我相关
我的任务
社区描述
搜索引擎的服务器通过网络搜索软件或网络登录等方式,将Internet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库。
社区管理员
  • 搜索引擎技术社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧