JS+PHP只能记录部分蜘蛛来访日志？

xiaotao5 2013-12-24 09:33:21

spider.php源代码，省略了入库操作



<?php

$agent = $_SERVER['HTTP_USER_AGENT'] ;

$agent = strtolower($agent);

if (strstr($agent, 'google')) $spider = 'google';

elseif (strstr($agent, 'baidu')) $spider = 'baidu';

elseif (strstr($agent, 'sogou')) $spider = 'sogou';

elseif (strstr($agent, 'yodao')) $spider = 'yodao';

elseif (strstr($agent, 'yahoo')) $spider = 'yahoo';

elseif (strstr($agent, 'soso')) $spider = 'soso';

elseif (strstr($agent, 'msnbot')) $spider = 'msn';

elseif (strstr($agent, '360')) $spider = '360';

elseif (strstr($agent, 'ia_archiver')) $spider = 'alexa';

else $spider = '';

?>

调用方式：
<script language="javascript" src="spider.php"></script>
能否记录通过浏览器访问的详细信息，而很少记录蜘蛛的访问信息，经过多次实验，我发布了信息，百度后来收录了，但是我后台没有记录下百度蜘蛛信息。
成功记录一次谷歌的蜘蛛，还有几次百度的，但不是网上说的百度蜘蛛名称。百度记录类似这个
mozilla/5.0 (linux;u;android 2.3.7;zh-cn;) applewebkit/533.1 (khtml,like gecko) version/4.0 mobile safari/533.1 (compatible; +http://www.baidu.com/search/spider.html)
但即使有段时间内没有统计到这个记录，我发的信息还是收录了，说明这个并非是百度用于收录的蜘蛛。

...全文

204 6 打赏收藏转发到动态举报

写回复

用AI写文章

6 条回复

切换为时间正序

请发表友善的回复…

发表回复

xiaotao5 2013-12-25

打赏
举报

搜索引擎的蜘蛛访问网站是通过远程抓取页面来进行的，我们不能使用JS代码来取得蜘蛛的Agent信息，但是我们可以通过image标签，这样我们就可以得到蜘蛛的agent资料了，通过对agent资料的分析，就可以确定蜘蛛的种类这是我在网上找到的，还有个想小问题，如何不用GD生存一个空白图片，并不让蜘蛛索引呢？

xiaotao5 2013-12-24

打赏
举报

我已经转换成小写了，而且我直接匹配的是baidu，因为我从来没看到 Baiduspider被记录下来

xuzuning 2013-12-24

打赏
举报

Baiduspider 你用 strstr 是匹配不到的

xiaotao5 2013-12-24

打赏
举报

看我这图片，就是检测不到百度的蜘蛛，PHP部分应该是没问题的，我转换成小写，直接匹配baidu，而且新发布的内容百度都会及时收录，就是JS检测不到百度的蜘蛛，谷歌的可以，好像我们在PHP中直接用file_get_contents另一个页面，那个页面中的JS也不会被执行到的，我试过直接用浏览器访问A页面，A页面中的<script language="javascript" src="spider.php"></script>会提交到spider.php，而用file_get_contents来获取A页面的内容，则里面的脚本不会提交。