请教有关搜索引擎的问题

koj5201314 2010-12-30 11:12:02
如果要做一个搜索行业情报信息的搜索引擎,需要哪些技术?有哪些难点?投入资本有多大?周期有多久?比如服务器投入,人员投入,需要哪些人员?谢谢啊!
...全文
94 9 打赏 收藏 转发到动态 举报
写回复
用AI写文章
9 条回复
切换为时间正序
请发表友善的回复…
发表回复
stoneallen 2011-01-06
  • 打赏
  • 举报
回复
搜索这块竞争挺激烈的
koj5201314 2010-12-31
  • 打赏
  • 举报
回复
爬虫主要是搜集同行业的网站信息,企业、行业情报信息
amos1989 2010-12-31
  • 打赏
  • 举报
回复
不懂。帮顶了。
zn85600301 2010-12-31
  • 打赏
  • 举报
回复
[Quote=引用 4 楼 koj5201314 的回复:]

比如电力系统,那就说说要用写什么技术,比如一个蜘蛛程序。
[/Quote]
不太了解电力系统 有什么需要爬的
不过推荐下nutch 这个东西做爬虫挺不错的 而且支持分布式
还有解析HTML的工具 jsoup 这个工具也能直接当爬虫用 可以直接去爬网站
爬虫最主要的是考虑一个网页是否爬过 是否已经更新
搜索的交流的地方不多 你加些QQ群去问问吧
koj5201314 2010-12-30
  • 打赏
  • 举报
回复
比如电力系统,那就说说要用写什么技术,比如一个蜘蛛程序。
zn85600301 2010-12-30
  • 打赏
  • 举报
回复
你的行业情报指的是什么
搜索引擎要关注的东西多了 看项目大小和成本
koj5201314 2010-12-30
  • 打赏
  • 举报
回复
额,,,你说的是java的?我上网查了查 好多C#的文章 晕死 不过都是同一篇
Jlins 2010-12-30
  • 打赏
  • 举报
回复
lucene 或者 compass要会用...
要学会分词
要会用爬虫爬相关网站然后给 lucene或者compass数据
最新公告 注意,本Superl-l采集工具的python版本,本版本在linux下完美运行,winodws的部分版本有兼容性异常。开源仅为发现此类工具还没有开源与好用的,提供免费技术分享。 如果没有技术基础,在使用者遇到问题,可查看下文的联系方式,自行通过QQ群请教他人或者官方淘宝店铺提供无偿或有偿技术调试。 鉴于使用者较多,总是有小伙伴联系我定制二次开发,但时间太少。预计今年底会统一出一款商业在线WEB版本,方便新手或功能需求更多的用户使用。 程序简介 4.0版本已经升级完成。后续的更新可能只是添加更多的搜索引擎支持了。result目录下面,自带了一个测试搜索python的结果txt. 根据关键词,对搜索引擎内容检索结果的网址内容进行采集的一款轻量级软程序。 程序主要运用于安全渗透测试项目,以及批量评估各类CMS系统0DAY的影响程度,同时也是批量采集自己获取感兴趣的网站的一个小程序~~

23,407

社区成员

发帖
与我相关
我的任务
社区描述
Java 非技术区
社区管理员
  • 非技术区社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧