搜索引擎 实战篇(内含搜索引擎的demo URL地址)

zfyu 2006-05-27 09:57:48
搜索引擎 实战篇(内含搜索引擎的demo URL地址)
DEMO IP地址: 219.233.32.124 (在浏览器里输入ip地址) 每晚 8点开始对外开放测试,时间 2~3小时 周六、周日视情况而定!

大家好,相信大家都看过我的前5篇短文了,之前写的不好,有些错误的观点,在此先行指出。
1、我以前说搜索页面是事先生成的,这个观点是错误的。
2、我以前说搜索页面的部分内容是事先生成的,也是错误的。
3、我曾经说需要分布式运算,也是不可取的。
那为什么写这个demo搜索引擎,有什么目的?
1、我说过要单枪匹马挑战 google baidu 做这个demo就是告诉大家,我没有发疯。
2、如果您正在开发或将要开发一个搜索引擎,那我告诉你,网上很多关于搜索引擎的资料,大部分是不可取的。例如有人曾经说google在全球有600万台电脑用来做搜索引擎,但我今天就要告诉你,我用1台普通的PC电脑就可以搜索 1亿网页,而且还不需要很好的 CPU和很大的内存。只要硬盘够大就行(1亿网页 大约需要 4000G大小的硬盘),说到这里很多人就开始笑了,那你的demo里面搜索多少网页,那我告诉你,这次我搜索 300万个网页,可能实际要少一点,但我的理论告诉我搜索 1亿个网页的速度和搜索300万个网页的速度基本接近(除非所有的网页内容都一样)。估计又有人开始笑了,那你搜索要多长时间,这个我可以肯定的告诉你,不管是1亿网页还是300万网页我都可以在1台PC上做到不超过 2秒钟时间。不信你现在去看 demo。下面言归正传,还有很多人去用一些开源的代码去做搜索引擎(梦想靠这个来发财),例如 用一个Java的Luncen的开源软件,但对此我只想说,别人自己都不要了的垃圾,你捡过来,就能做出好的搜索引擎吗?简直是笑话。
3、就是要打破一些所谓的神话,如果我告诉你,在我研究搜索引擎的过程中发现 Baidu的搜索引擎的部分程序(例如蜘蛛爬虫)是用VB开发的,你会做什么感想?开始我也非常崇拜这些搜索引擎,认为他们都是神,能在 0.001秒内搜索到结果,但是我还是有点理智的,我想遍了全宇宙最牛X的编程语言都没发现哪个语言有这功能。所以我只想说要做一个好的搜索引擎并不需要太好的编程水平,不要把它想的那么神。(对此我在补充一点,google baidu经常进行编程大赛,我告诉你要是我去一定考 0 分,不知道你信不信。)
4、我要申明一下,在我发表前6篇文章后,有很多网上的“朋友”问我要源代码,在此我再说一篇除非你想投资,否则请别问要源代码,我没有公开源代码的僻好。如果可以的话,请你们去问google 或 baidu去要。
5、 很多网上的“朋友”曾经问我搜索引擎怎么存储数据的,我在这里很慎重的告诉大家,一定是文件+数据库。为什么我这么肯定呢?有这个疑问的人,我想一定很少关心计算机领域的一些最高科学成就,比如图灵奖。在数据处理方面的最高科学奖至今仍然是颁发给了 B树理论的创造者,并不是 Google 或 Baidu 或 微软 的创始人。(相信大家能体会出
我说这话的意思是什么)。
6、寻找有志之士,共同合作(包括技术合作或商业合作)。

最后我想说,我是去年春节前(看央视专访 Baidu李彦宏)的那天晚上,想到要做一个搜索引擎的,我没有看过多少这方面的技术文章和书籍,为什么这么说,如果这方面的书真能起到使用价值,那你可能连看我这篇文章的兴趣都没有了。可以说,做到今天,所有的程序都是我靠自己想出来的,所有的代码也都是我自己编码完成的。为了中华民族的真正崛起,希望大家从现在开始,从今天开始真正做一个创新的人,而不要做一个捡垃圾的人,要学会思考。
这次demo的一些技术指标跟大家说一下:
1、我的电脑配置(P4 630CPU, SATA 250G硬盘 2G内存 整机购买价格 6000元,带宽 20几K的有线通)
2、这次由于只有 300多万网页,实际可能要少一点。由于我只有 1台电脑,如果我按照类似 google那样的Page Rank理论来做排序,计算的时间可能要长一点,所以这次我的demo按照内容相关度来做排序,原本想做成(按照用户的访问情况自动变化的排序方式,这样让用户以选择作为投票来选择出某个关键词中某个网页最好的排序,这样的考虑是我个人认为,这样更智能,而且搜索的结果会更符合实际情况,更符合民主的精神。)另外,在盈利模式方面,我不搞竞价排名,因为那会打乱大众的正常投票,属于人为控制排名了,就好象**花钱买选票一样。我打算开放相关关键词的广告编辑功能,就是说,谁对某个关键词的广告做了编辑,就用谁的广告,以后也只有这个人可以进行维护,但是由于电脑配置实在太低了,所以暂时先不做这两个功能。但请大家记住,这两个方法,都是我发明的。
3、最后我在稍微谈一下分词方面,这很关键,目前真正智能的中文分词(对于网页)而言,是可以实现的,我这次已经实现了新词识别功能,但是网络上很多人谈分词,仅纠缠与一句话的智能识别问题,我想这对于搜索引擎来说意义不会特别大。这次我的搜索引擎 emo可以实现一句话的搜索 比如 are you here?

...全文
345 1 打赏 收藏 转发到动态 举报
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
jobs24 2007-04-13
  • 打赏
  • 举报
回复
提供垂直搜索、元搜索全套解决方案,为您再造一个酷讯、一个搜评、一个bbmao,甚至是一个奇虎。
现有的搜索案例:
1、网页搜索:http://www.yqs.cc:9090/search/search.jsp
同时从百度、雅虎、google、MSN、搜狗、中搜等网站提取搜索结果,并根据自定制的规则排序。
2、MP3搜索:http://www.yqs.cc:9090/search/mp3.jsp
同时从百度Mp3、雅虎Mp3搜索音乐
3、BT搜索:http://www.yqs.cc:9090/search/bt.jsp
同时从多个BT网站提供最新的BT下载内容
4、迅雷下载搜索:http://www.yqs.cc:9090/search/xunlei.jsp
同时从多个提供迅雷下载链接的网站搜索最新的下载内容
5、电驴下载搜索:http://www.yqs.cc:9090/search/emule.jsp
从verycd.com等电驴下载内容提供网站搜索最新的下载

系统内建多级索引机制,以保证最快的搜索响应时间,支持分布式部署,能支持平均日搜索请求量超过200万次。
提供全套C++/java程序源代码及解决方案,提供搜索的定制开发。
另有移动、联通、电信的SP端程序,OA解决方案提供。

如果您有以下搜索需求:
音乐、网页、求职、商机、数据库、车票、论坛、住房、交友、旅游,及其他各类行业搜索,请按以下方式联系我:
QQ:46244150
Email:daijuhua@163.com
MSN:daijuhua@hotmail.com
联系电话:13710573466

241

社区成员

发帖
与我相关
我的任务
社区描述
企业开发 其他
社区管理员
  • 其他
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧