向大佬低头——被恶意反向代理的无奈

helloyanc00 2017-05-29 02:33:14
前段时间在检查自家网站的百度关键词排名的时候,发现了一家模仿我站内容的小站,发现大部分关键字排名都排在我们的前面以后,一开始以为是我们网站被采集了,结果不是,又以为是用dedecms的数据库漏洞偷到我们的数据库了,然而也不是,查了半天才发现是传说中的反向代理,因为他们网页上连百度统计都用的我们的,所以能看到他们网站的流量已经从几个月前的100到200ip,到现在几万的ip,才对这件事引起了重视。

先说说我们网站的结构,我站是一个漫画网站,网站前台访问是服务器A,图片地址是用的是服务器B并且做了CDN加速。
而反向代理我们网站的那家网站,也是同样的前台服务器+图片服务器分别反向代理并且缓存我们的文件,意思就是一旦我们的1.html页面被反代以后,这个页面就在他们服务器上固化了无法修改。

在网上查了很多屏蔽反向代理的方法:
1)用js解决办法方案,在自己页面上写上js跳转代码啊,判断域名不是我方网站就跳转到我站。换过各种写法,加变量,加备注,每天都在不同的位置加代码。然而跳了几次被对方发现后,对方直接在网页上屏蔽了核心代码段"document.domain",只要页面上出现了该代码,就会被替换成空白,此方案,阵亡。

2)在尝试了各种方法以后,网上说最直接的办法是封ip,在自家服务器上新建一个只有对方反代会去爬的页面,然后开日志查该页面的ip访问,果不其然,对方是用模拟百度蜘蛛的方法,来小偷我们的内容。因为对方是自动镜像我们网站,封禁ip以后,生效了2天,当对方发现无法反代的时候,也增加了反代的规则,每天封他一个ip,他就会换一个ip来接着反代,再后来,他们就放弃自动镜像我们的网站了,改成了手动镜像,每天等我站更新以后,他们才会开启反代来抓取完内容然后关掉反代。依然能做到天天与我站内容同步。并且,也不缓存我们的文件了,这样我们也无法抓取到对方的ip,此方案,阵亡。

3)僵持了几天发现,他们也并不是每天手动镜像我们网站,而是设置了延时镜像,会在每天下午3点和晚上10点左右,自动来镜像一次,如果镜像我们内容失败,他们的网站会短暂的报错而无法访问,这个时候他们才会人工手动操作。既然如此,机智的我又想了个办法,既然不自动缓存任何文件了,那么核心的css和js文件总是要来爬的吧?那么每天我更改自家网站的css和js文件名,让他们的网站CSS样式和JS效果失效,造成了页面错乱。比如我站的css文件名为css.css,那么每天我生成首页的时候就会改为css201705291.css(用日期来标明,我将每日更新文件名来恶心对方),然后每天守着刷新对方网站,一旦看到对方当天自动镜像我站后样式错乱,我会马上把css文件名又改成css201705292.css,然后打开iis的日志监控这个时候还会去访问css201705291的ip,守着他们手动更新的时候去爬css201705291.css这个文件,然后再封他们ip,这个办法持续了一周,然而这个步骤也是麻烦了自己,顺便也恶心他们不让他们舒服的反代我们,但每天的内容还是能做到和我站同步,更改网站css,js文件名的方案,阵亡。

4)然而在恶心了他们几天之后,发现他们的反向代理又有了新规则,他们开启了自动镜像,我用之前的老方法在特定的目录生成html来抓爬页面的ip,然而我发现每封禁一个ip,就会冒一个新ip出来,而那个只有反代会去爬的页面,会被他们家的蜘蛛分别用2个ip爬2次,第一次的ip是固定的,如果该ip抓取失败,第二个ip将会自动随机成其他的ip。网上的文章说封对方几个ip对方就消停了,然而不知道对方哪里搞来的那么多国外的ip,花了一上午时间ban了几十个ip后,就算是封ip段也封不完。(附图)


终于,持续一个月的勾心斗角相互恶心宣告结束,我表示无奈的放弃,看着自己百度统计里对方流量pv高过自己网站之后,向对方大佬低头了。帖子写的有点乱,不知道csdn的大神们有没有懂我表达的意思,和有没有对付这种无限ip来自动反向代理网站的办法,别说找百度投诉了,百度有用就不会自己动手了。
...全文
4402 6 打赏 收藏 转发到动态 举报
写回复
用AI写文章
6 条回复
切换为时间正序
请发表友善的回复…
发表回复
CyberLogix 2018-05-30
  • 打赏
  • 举报
回复
可以想象别的办法
常书 2018-04-20
  • 打赏
  • 举报
回复
图片用refer字段或者增加token进行验证,防止自动下载你们的图片,增加镜像成本
hi~chris 2017-06-12
  • 打赏
  • 举报
回复
我也有你这个问题,也一直无法解决。都查了不下上百篇帖子了。。。无法解决
helloyanc00 2017-05-29
  • 打赏
  • 举报
回复
引用 1 楼 Runnerchin 的回复:
他镜像了你,结果他的PV比你还高? 爬网站不可能完全避免,只能尽量抓特征,记录一下request header,看有没有什么规律,比如useragent固定,比如refererrurl等等,根据这个特征去封。
现在就是封不完了,每封一个ip,又会有其他的ip来自动爬网站,已经开始封类似的ip段了 还是谢谢你的回复
X-i-n 2017-05-29
  • 打赏
  • 举报
回复
他镜像了你,结果他的PV比你还高? 爬网站不可能完全避免,只能尽量抓特征,记录一下request header,看有没有什么规律,比如useragent固定,比如refererrurl等等,根据这个特征去封。

657

社区成员

发帖
与我相关
我的任务
社区描述
CDN相关技术讨论专区
服务器网络 技术论坛(原bbs)
社区管理员
  • CDN社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧