[D]python如何判断2个url是否属于同一网站?

yy1990cn 2012-05-08 05:05:45
给出2个url,如何判断他们是不是同一个网站,我本来想用urlparse模块,用它的hostname判断,可是这样一来就出现判断失误,比如说http://www.sina.com和http://blog.sina.com如果比较hostname就不是一个网站,我想写一个脚本爬新浪的网页,解析页面后我要排除指向外站的链接,不知有没有什么好的方法,谢谢

----------------------------
Double行动:
原帖分数:30
加分:30
...全文
953 10 打赏 收藏 转发到动态 举报
写回复
用AI写文章
10 条回复
切换为时间正序
请发表友善的回复…
发表回复
鹏程似锦 2012-05-10
  • 打赏
  • 举报
回复
果断用正则表达式
KimboQi 2012-05-09
  • 打赏
  • 举报
回复

没这么复杂吧?".".join(hostname.split(".")[1:3])
fibbery 2012-05-09
  • 打赏
  • 举报
回复
换一个思路,一般来说域名不一样了,可能是一个网站的分支站点,你完全可以将它们看成不同的网站,只不过你爬的时候,多加些种子就行了。
恨天低 2012-05-09
  • 打赏
  • 举报
回复
怎么解决的?
jiuchang 2012-05-09
  • 打赏
  • 举报
回复
先把域名取出来,然后用点分,取最后两节进行比较,相同的就是同一个网站的,不同的那倒不一定不是,呵呵
yy1990cn 2012-05-08
  • 打赏
  • 举报
回复
[Quote=引用 4 楼 的回复:]

dns基本都封了,你用alexa查一下吧,流量太小一般也没爬的价值了
[/Quote]
我是编程练手而已,最近对python的web编程很感兴趣,问题已经解决,只是实现有点别扭
I_NBFA 2012-05-08
  • 打赏
  • 举报
回复
dns基本都封了,你用alexa查一下吧,流量太小一般也没爬的价值了
yy1990cn 2012-05-08
  • 打赏
  • 举报
回复
[Quote=引用 2 楼 的回复:]

顶级域名哦
[/Quote]
你说到点子上了,不过这个还真不好实现,挺麻烦的,有没有什么好的思路呢
KimboQi 2012-05-08
  • 打赏
  • 举报
回复
顶级域名哦
KimboQi 2012-05-08
  • 打赏
  • 举报
回复
写个正则匹配域名

37,741

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • WuKongSecurity@BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧