一个奇怪的网站,如何抓取里面的信息?
在访问一个奇怪的网站,需要会员才可以看里面的内容,只可以看,不可以拷贝。这不算奇怪。
奇怪的是打开一条详细信息页面后,能够查看内容,刷新页面(F5)也能够再正常显示;但如果在地址栏再回车一次,则详细页面自动跳转到首页。就是直接在IE中直接输入地址打开一个明细页面是打不开的(哪怕你是会员已经登录),自动转向到首页。只有从首页(或者是二级页面)打开的详细页面才可以正常浏览!
这样的结果是我用HTTPCLIENT这样的客户端去抓取数据时,自然为空。抓取的内容最后一段代码如下:
<script language=JavaScript>location.href='/';</script>
到这儿就没有了。好像是跳转了。详细信息根本没有办法抓取。
请问哪位知道这种方式防止信息被抓取是何原理?如何解决?
有意者可以私信联系。