怎样开发一个,搜索引擎,或者哪里有源代码,有做过相关工作的没有?UP有分!

leeseon 2003-09-08 11:26:46
谢谢大家了,要的比较急,有线索就行!
...全文
46 12 打赏 收藏 转发到动态 举报
写回复
用AI写文章
12 条回复
切换为时间正序
请发表友善的回复…
发表回复
leeseon 2003-09-18
  • 打赏
  • 举报
回复
谢谢各位,各位的方法我先试一试,有什么疑问一定会再麻烦各位的,如果哪位高手还有新的建议也请告知!
windinstray 2003-09-16
  • 打赏
  • 举报
回复
ranker可以参考google的文档,当然rank技术是专利保护的,不过内部使用应该没有什么问题。
index的话自己想一想吧,估计不会有google的硬件设备,所以还是用自己的方法排序比较好。

rank就是简单的迭代,由于数据量不大(不是google),用些简单的算法就可以了,我用的是高斯-赛德尔迭代。
tsingson 2003-09-16
  • 打赏
  • 举报
回复
请联系我吧,我的 msn 是 perlchina@hotmail.com

网站在 http://www.perlchina.org

我有几个不同的搜索引擎源码,正在研究使用 linksql2
leeseon 2003-09-15
  • 打赏
  • 举报
回复
说我提前得太频繁了,只好自己UP一下了!

也不明白什么才叫不频繁?
leeseon 2003-09-14
  • 打赏
  • 举报
回复
是一个内部局域网的,一个网内也没有超过256台机器!

只是希望能比较自动的从已经有的网页中找到新的信息,全球的那种我是不敢做也做不来的,spider是可能会做一个小点的,不过原理上不会有什么区别。

ranker与indexer这两方面也想不用自己做了,只是用SQL-Server,Oracle之类的全文索引来做就应该可以吧,search这一块嘛,我想需要做的东西也不多。

不知道这个思路是否合适?请各位高手指点!
CsdnPlayer 2003-09-10
  • 打赏
  • 举报
回复
如何收集?
new_zero 2003-09-10
  • 打赏
  • 举报
回复
up
CsdnPlayer 2003-09-10
  • 打赏
  • 举报
回复
#!/user/perl/bin
while(1){
print "So kind of you !\n";
}
#呵呵,不是为了消耗所有内存。
CViva 2003-09-10
  • 打赏
  • 举报
回复
回:CsdnPlayer(公孙智多星)

取得网页代码保存,同时取出代码中的链接,循环利用


以下可做参考
#------------------------------------#

#!/usr/bin/perl

use strict;
use Socket;
use Sys::AlarmCall;
use HTML::LinkExtor;
our @global_extor_link;

#取得网页代码
my $web_url = "http://www.csdn.net/";
my $timeout = 10;
my @web_html = alarm_call($timeout,'get_html',$web_url);
print @web_html;

#取得链接
my $being_in_html = join('',@web_html);
my $get_link_p = HTML::LinkExtor->new(\&get_link, $web_url);
$get_link_p->parse($being_in_html);
print @global_extor_link;

sub get_html
{

my $url = $_[0];
my $port = '80';
my $domain;
my $request = "GET $url HTTP/1.0\n\n";
my @html_result;

$domain = parse_url($url);

my $i_addr = inet_aton($domain);
return 0 if (!$i_addr);

my $p_addr = sockaddr_in($port, $i_addr);
return 0 if(!$p_addr);

my $proto = getprotobyname('tcp');

return 0 if(!socket(HTTP, PF_INET, SOCK_STREAM, $proto));
return 0 if(!connect(HTTP, $p_addr));
return 0 if(!select(HTTP));
return 0 if(!select(STDOUT));
return 0 if(!send(HTTP, $request, 0));

while(<HTTP>)
{
push (@html_result,$_);
}

return @html_result;

}

sub get_link
{
my($tag, %links) = @_;

return if(($tag ne 'a') and ($tag ne 'A'));

push(@global_extor_link, values %links);
}
CViva 2003-09-09
  • 打赏
  • 举报
回复
开发一个搜索引擎你需要做以下工作:

1.内容收集 spider 程序
2.内容排序 ranker 程序
3.内容索引 indexer 程序
4.客户请求 searcher 程序
CsdnPlayer 2003-09-09
  • 打赏
  • 举报
回复
搜索引擎?
全球的?还是自己网站的?
建议你研究一下北大天网。
leeseon 2003-09-09
  • 打赏
  • 举报
回复
我晕!楼上的心情可以理解,但是方式并不太好噢!

好吧,我自己UP一下了!

37,720

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • IT.BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧