JS+PHP只能记录部分蜘蛛来访日志?

xiaotao5 2013-12-24 09:33:21
spider.php源代码,省略了入库操作

<?php
$agent = $_SERVER['HTTP_USER_AGENT'] ;
$agent = strtolower($agent);
if (strstr($agent, 'google')) $spider = 'google';
elseif (strstr($agent, 'baidu')) $spider = 'baidu';
elseif (strstr($agent, 'sogou')) $spider = 'sogou';
elseif (strstr($agent, 'yodao')) $spider = 'yodao';
elseif (strstr($agent, 'yahoo')) $spider = 'yahoo';
elseif (strstr($agent, 'soso')) $spider = 'soso';
elseif (strstr($agent, 'msnbot')) $spider = 'msn';
elseif (strstr($agent, '360')) $spider = '360';
elseif (strstr($agent, 'ia_archiver')) $spider = 'alexa';
else $spider = '';
?>

调用方式:
<script language="javascript" src="spider.php"></script>
能否记录通过浏览器访问的详细信息,而很少记录蜘蛛的访问信息,经过多次实验,我发布了信息,百度后来收录了,但是我后台没有记录下百度蜘蛛信息。
成功记录一次谷歌的蜘蛛,还有几次百度的,但不是网上说的百度蜘蛛名称。百度记录类似这个
mozilla/5.0 (linux;u;android 2.3.7;zh-cn;) applewebkit/533.1 (khtml,like gecko) version/4.0 mobile safari/533.1 (compatible; +http://www.baidu.com/search/spider.html)
但即使有段时间内没有统计到这个记录,我发的信息还是收录了,说明这个并非是百度用于收录的蜘蛛。
...全文
204 6 打赏 收藏 转发到动态 举报
写回复
用AI写文章
6 条回复
切换为时间正序
请发表友善的回复…
发表回复
xiaotao5 2013-12-25
  • 打赏
  • 举报
回复
搜索引擎的蜘蛛访问网站是通过远程抓取页面来进行的,我们不能使用JS代码来取得蜘蛛的Agent信息,但是我们可以通过image标签,这样我们就可以得到蜘蛛的agent资料了,通过对agent资料的分析,就可以确定蜘蛛的种类 这是我在网上找到的,还有个想小问题,如何不用GD生存一个空白图片,并不让蜘蛛索引呢?
xiaotao5 2013-12-24
  • 打赏
  • 举报
回复
我已经转换成小写了,而且我直接匹配的是baidu,因为我从来没看到 Baiduspider被记录下来
xuzuning 2013-12-24
  • 打赏
  • 举报
回复
Baiduspider 你用 strstr 是匹配不到的
xiaotao5 2013-12-24
  • 打赏
  • 举报
回复
看我这图片,就是检测不到百度的蜘蛛,PHP部分应该是没问题的,我转换成小写,直接匹配baidu,而且新发布的内容百度都会及时收录,就是JS检测不到百度的蜘蛛,谷歌的可以,好像我们在PHP中直接用file_get_contents另一个页面,那个页面中的JS也不会被执行到的,我试过直接用浏览器访问A页面,A页面中的<script language="javascript" src="spider.php"></script>会提交到spider.php,而用file_get_contents来获取A页面的内容,则里面的脚本不会提交。
xiaotao5 2013-12-24
  • 打赏
  • 举报
回复
能记录通过浏览器访问的详细信息,而很少记录蜘蛛的访问信息

21,886

社区成员

发帖
与我相关
我的任务
社区描述
从PHP安装配置,PHP入门,PHP基础到PHP应用
社区管理员
  • 基础编程社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧