社区
搜索引擎技术
帖子详情
搜索海量文本文件技术?
lzda
2006-12-03 10:07:21
想实现类似windows的查找功能,就是对文件夹里面的海量文本文件进行关键字搜索,既可以对文件名,也可以对文件内容,海量文本文件大小达到100G~2T,速度要求比windows快100倍以上,不知道现在哪有这方面的比较成熟的算法啊,谢了!
...全文
643
8
打赏
收藏
搜索海量文本文件技术?
想实现类似windows的查找功能,就是对文件夹里面的海量文本文件进行关键字搜索,既可以对文件名,也可以对文件内容,海量文本文件大小达到100G~2T,速度要求比windows快100倍以上,不知道现在哪有这方面的比较成熟的算法啊,谢了!
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
8 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
realmud
2007-03-31
打赏
举报
回复
索引索引再索引
MONOLINUX
2007-03-27
打赏
举报
回复
我的 Blog http://hi.baidu.com/earthsearch
DEMO地址:
大家好,能麻烦大家帮我测试一下 http://219.233.37.134 我的搜索引擎新版本 ,所有代码完全由本人独自设计开发完成!
严重鄙视那些用 Lucene、nutch 等开源软件制作所谓搜索引擎的垃圾公司和垃圾程序员,鄙视他们的原因是因为他们用别人开源的软件进行改头换面然后说成是自己开发的,不但如此他们还标榜自己是自主创新,其中典型的例子有 www.youdao.com 这个是网易用开源软件 nutch制作的, www.sunsou.com 这个是用开源软件 Lucene制作的,类似的无耻中国人还很多,在我的眼里他们充其量只能算做是无耻的商人而已,谈技术他们根本不合格,他们根本不配谈技术二字!这些人一面高喊爱国口号,一面却专门捡老外自己都不要的洋垃圾来充自己的门面,这是多么的悲哀和可笑啊!
(主要测试分布计算平台的稳定性)
目前就一台PC、索引了 200多万公司信息、带宽 1MB的有线通、p4 2.8 CPU、内存 512MB
请大家帮我测试一下啊。谢谢!
感谢乌龙刚送的域名 http://loserq.cn/ 啊!
这次有个最大的特点 搜索结果页数不限,不象 google baidu最多只能显示 100页,你搜索一下 有限公司 看看可以翻页翻到 10万页:)
haidaocht
2007-03-24
打赏
举报
回复
我有现成的开源软件给你用
mail:haidaocht@163.com
lshuy2001
2007-01-29
打赏
举报
回复
对呀!baidu不是有桌面搜索吗!
我们可以做你的项目。
Coostone
2007-01-26
打赏
举报
回复
既然是海量,肯定是建索引
xxlcg
2006-12-13
打赏
举报
回复
你都懂得来“所属社区: 专题开发/技术/项目 搜索引擎技术 ”问了,还需要问吗?
孤剑
2006-12-12
打赏
举报
回复
上次听说tencent招聘的时候一个这样的题目,但是不知道怎么实现。要是换成我的话,估计我只能提供正则表达式来解决咯
zhenhaojia
2006-12-05
打赏
举报
回复
你的需求我可以实现。
如何用Python从
海量
文本抽取主题?
有一种方法能够替你读
海量
文章,并将不同的主题和对应的关键词抽取出来,让你谈笑间观其大略。本文使用Python对超过1000条文本做主题抽取,一步步带你体会非监督机器学习LDA方法的魅力。想不想试试呢? ...
如何用Python从
海量
文本抽取主题?【转载:王树义】
有一种方法能够替你读
海量
文章,并将不同的主题和对应的关键词抽取出来,让你谈笑间观其大略。本文使用Python对超过1000条文本做主题抽取,一步步带你体会非监督机器学习LDA方法的魅力。想不想试试呢? 淹没 每...
海量
文本日志内容查找
设计文本日志内容查找程序(假设文本日志文件有几...首先,先讲一讲我的整个思路过程,看到好几G的字眼,我的惯性思维会想到用Hadoop,毕竟大数据的
技术
的出现就是为了解决
海量
数据。在这里我使用的是hadoop的MapRe...
技术
干货 | 如何做好文本关键词提取?从三种算法说起
因此,关键词提取在文本挖掘领域是一个很重要的部分作者 | 韩信官网 | www.datayuan.cn微信公众号ID | datayuancn在自然语言处理领域,处理
海量
的
文本文件
最关键的是要把用户最关心的问题提取出来。而无论是对于长...
直播实录|百度大脑EasyDL是如何帮助NLP文本提升标注效率的?又如何进行复杂文本分类的?
知识密集型企业如何利用AI能力快速进行
海量
复杂文本分类?5小时的模型训练,能否实现200万条数据的快速分类?北京瀚才咨询有限公司的负责人谭笑然为你带来大规模数据在AI处理之下完成“结构化”。 经过这两节课程的...
搜索引擎技术
2,760
社区成员
2,052
社区内容
发帖
与我相关
我的任务
搜索引擎技术
搜索引擎的服务器通过网络搜索软件或网络登录等方式,将Internet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库。
复制链接
扫一扫
分享
社区描述
搜索引擎的服务器通过网络搜索软件或网络登录等方式,将Internet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章