寻找全文搜索引擎的蜘蛛程序

luxboy 2003-08-19 02:13:54
寻找全文搜索引擎的蜘蛛程序,可以自动搜集网站信息入数据库,最好是免费的,不依赖别的搜索引擎,谢谢!
...全文
38 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
关于爬虫技术 一、什么是爬虫 我这里所说的爬虫就是传统的搜索引擎,因为我们一度把YAHOO一类的目录也称作搜索引擎,所以这个概念已经有些混乱了。 搜索引擎:也叫 "蜘蛛"或 "网络爬虫",为了能产生web页的目录册,搜索引擎持续不停的访问internet上的web站点。由于他们是自动运行,并将大量的web页进行索引,搜索引擎也经常能够发现没有列在目录中的信息。 "搜索引擎"这个词一般都用来描述真正的搜索引擎和目录,其实他们并不是一回事,区别在于结果列表是如何编译生成的。 二、搜索引擎与目录的区别 1)搜索引擎搜索引擎,如HotBot,自动产生列表。搜索引擎在web上爬行,于是人们用它们来搜索。 如果逆向改变你的web页,搜索引擎最后会发现这些变化。并会对你的列表方式产生变化。页面标题,正文即其他因素都会产生影响。 2)目录: 一个类如Yahoo的目录是依靠人工列表。 你向目录递交一份自己整个站点的描述,或者编辑为他们所看过的站点写一份。 搜索只有在递交的描述中寻找回应。 3)混合搜索引擎:有一些搜索引擎拥有一个相关的目录,包含于一个搜索引擎的目录通常是幸运与质量的结合。 三、搜索引擎的组成部分 搜索引擎由三个主要元素。第一是spider,也叫crawler。 Spider访问一个web页,阅读并接着跟随此站点的其他连结。这就是有人指的站点被spidered或crawled.这个spider就会规律性的访问此站点,如每一两个月,来发现是否有变化。 Spider发现的一切都进入到搜索引擎的第二个部分:索引。有时索引叫做目录,像一本包含有spider发现的每一个web页的巨书,如果有一个web页发生变化,于是此书就会更新新的信息。 有时对于新页面或spiders加到索引中的变化来说它要花一会时间。这样,一个web页也许已被 "发现" 但还没有被 "索引"。在它被索引以前----即加入到索引-----对那些用此搜索引擎搜索人来说是不可用的。 搜索引擎软件是一个搜索引擎的第三个部分。 这就是一种程序-----通过审查上百万记录在索引中的页面来找到搜索的回应并将其归类为他认为是最相关的。 搜索引擎特征页:这一页的信息已经从每一个搜索引擎的帮助页里拿出来,并带有从文章、评论、书籍、独立的研究以及其他来自于各个不同的搜索引擎的信息。 所有的搜索引擎都具有以上描述的基本部分,但这些部分是如何来协调的是有区别的。这就是为什么在不同的搜索引擎上进行同样的搜索经常会产上不同的结果。 四、新趋势 垂直引擎(vertigine:vertical engine), 往往是目录和爬虫技术混合之后的再发展,更加注重科学的分类技术,以搜索的精确性和正确性为首要保证。
PhpSou系统全面开源免费发布,无需授权即可用于商业应用,同时我们将建立系统互动交流QQ群,论坛互动交流区,全面为系统提供后备支持。 PhpSou垂直搜索引擎 1.2 GBK 20111226 更新日志: 整合Sphinx,用户在后台即可选择是否使用sphinx 增加增量索引,数据可实时更新 修正蜘蛛反复抓取问题,增加随机抓取功能 请务删除安装文件中的phpsou.sql文件,请一并上传到空间,安装完成后可删除。 已经使用本程序的请注意:请在确保你原有数据备份的情况下,按照正常安装步骤重新安装一次本程序程序不会删除你原有的数据,同时对于旧版本数据库中不存在的表将会在安装过程中自动添加。 安装方法:上传程序到web空间根目录,在浏览器里运行:url(你的网址) install.php 按照提示输入数据库账号密码 后台地址:url(你的网址) admin 后台账户:guigou  密码:120065 程序常规操作: 1、安装过程中提示数据库不能打开,原因是你填写的数据库在数据库服务器中不存在,需要手动添加相应表,虚拟主机不存在这个问题。 2、修改logo等图片,请右键点击图片,查看图片在空间里的存储路径,再行修改。 3、首页修改,请修改跟目录index.php文件,然后登陆后台,生产首页。 4、首页下方“程序购买”修改,请打开include文件,找到global_sub_function.php打开修改。 5、搜索页相关修改,请寻找s文件夹里相关文件。
软件名称: 类别: 国产软件/免费软件/服务器区 大小: 90 KB 官网: http://www.cr173.com/s/iis/ 预览图: http://www.cr173.com/up/2010-11/20101130175815875970.jpg 下载地址: http://dx3.cr173.com//xl/iislogfile.zip 分析各搜索引擎蜘蛛的访问数量,并能详细的按日期时段列出来供用户分析,让用户准确知道搜索引擎何时访问的最"勤快",从而"在对的时间做出对的事情"让用户的网站最 新的内容被搜索引擎蜘蛛爬到! 亮点: 可以对搜索引擎蜘蛛来访问进行时段统计, 对大日志文件的读取进行了优化,可以读 1G以上的日志文件。 软件使用说明: 1.点击">>"按钮,选择好存放日志文件的目录,程序会自动寻找(.log)文件; 2.点击"分析",如果成功,则最下面会显示进度提示,大文件稍会花些时间,100M大概5秒左右(取决CPU); 3.完成时,下方会提示"完成",双击随意一列,会跳转到此列对应的搜索引擎的详细界面; 4.搜索引擎详细信息,是全部日志加起来的访问数,再按照日期时段处理并显示; 例如:2个日志文件,第一个记录百度访问了100次,其中2010年1月1日14时访问50次,15时访问50次;第二个文件访问了200次,其中2010年1月1日16点访问100次,2010年1月2日 14点访问100次,则总共访问300次.显示为"2010年1月1日"这列中"14"、"15"、"16"对应行分别为50、50、100,"2010年1月2日"这列中"14"对应行显示100 最新版本的程序分在: http://www.cr173.com/s/iis/ 发布,也希望大家能给留言版上发布你的意见已备于我们改进。 iis日志格式说明: 1."控制面板"->"管理工具"->"Internet 信息服务",选择自己的网站,反键点击选择"属性";(例如:"默认网站") 2.在"属性"对话框中选择"网站"选项卡(基本上默认当前就是"网站"),如果"启用日志记录"未勾选,请勾选.在"活动日志格式"一栏选择"W3C 扩展日志文件格式",然后点击 旁边的"属性"按钮; 3.选择"扩展属性"选项卡,勾选"扩展属性"后方能勾选其他,请务必勾选"(c-ip)"、"(cs(User-Agent))"、"(date)"、"(time)",其他按需勾选,一路确定后会提示重启iis后 方生效; 该软件需要在Net 环镜下才能运行,请安装 .NET Framework V2.0 可再发行组件包: http://www.cr173.com/soft/2572.html
程序操作非常智能,只需后台设置几个最热门的关键词,每天采集的文章数量,再也无需人员管理, 一个域名建立一个站,100个域名建立一百个站, 百度谷歌收录都几千,PR从1升到2,访问量倍增, 达到500IP/天,假如开20个站,价值就更大了, ·智能全自动建站系统:你要做的仅仅是设置几个关键词 ·全自动更新:自动寻找信息,随时自动更新 ·在线的WEB系统:无须安装软件,买个空间就能用 ·非作弊:我们不要关键词堆砌,不要作弊,我们是正规站! ·会上网就会使用:无需懂任何网站建设知识 ·自动赚钱的机器:放上广告,在家睡觉!等着赚美元 是由工作在顶级门户网站的几名资深高级工程师利用爬虫技术(蜘蛛机器人,spider)、 分词技术和网页萃取技术,利用URL重写技术、缓存技术,使用PHP语言开发的一套能根据设置的关键词自动抓取互联网上的相关信息、 自动更新的WEB智能建站系统。利用智能建站系统,只需要在配置页面上设置几个关键词, 就能全自动的生成一套能自动更新的网站了。 您要做的仅仅是设置几个关键词,其他的一切交给来完成! ,就这么简单! 全自动是的核心思想! 在开启自动功能后,只需后台填写关键词名称,系统全自动抓取关键词名称相关的资讯、图片、话题内容; 并且关键词内容还可根据设定自动更新 不再担心收录少 从上百万网站上抓取内容,并对所聚内容都做4重过滤,自动丢弃被插入SEO词语的文章, 并对内容进行原创性微处理,保质保量的内容收录当然不成问题 不再痛苦没流量 将相关的各类内容围绕不同的关键词重组为专题页面,此页面即有合适关键词, 又有非连接的文字内容,还有图片和视频,并且是原创的, 在搜索引擎中可以获得更好排名,当然可以吸引更多流量 不再痛苦赚钱少 本系统专为建站赚钱打造,每一个网页都有特异设置的高点击广告位, 就连提示页面都可以投放广告,用户访问已经删除的页面也可以看到广告, 不浪费网站的每一次点击,同样的流量可让站长多赚好几倍 不再需要起早贪黑 用智能建站系统建站3分钟可以完成以前3小时的事情, 节省出的98%时间可让你管理更多网站,或者有更多时间来陪伴家人 其他说明: 一、100%无限制,可生成静态。 二、空间需要php+mysql 无限建站 帐号:ADMIN 密码:ADMIN

28,390

社区成员

发帖
与我相关
我的任务
社区描述
ASP即Active Server Pages,是Microsoft公司开发的服务器端脚本环境。
社区管理员
  • ASP
  • 无·法
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧