大侠们,看看这样的搜索引擎思路可行么?

alen1985 2009-12-22 04:05:54
RT
1. 想抽取word文档的元数据及内容等,用tm-extractors.jar包可以抽取内容,但是我要根据文本的类型,抽取出有用的知识点(如:文章摘要、作者等),有点像数据挖掘了,该用到什么好点的技术。

2.根据抽取出来的知识点,建立知识点间的关联,用本体构建关系

3.用luncene和IKAnalyzer分词器来达到推理搜索


现在感觉第一步,如何有效抽取知识有点难度,并且要把文档作为一个实例匹配到本体中达到推理搜索.
...全文
91 7 打赏 收藏 转发到动态 举报
写回复
用AI写文章
7 条回复
切换为时间正序
请发表友善的回复…
发表回复
alen1985 2010-01-06
  • 打赏
  • 举报
回复
散分了,自己慢慢做了
Java2King 2010-01-05
  • 打赏
  • 举报
回复
就是数据挖掘
ivan.liang 2010-01-04
  • 打赏
  • 举报
回复
我也想知道
追梦少年888 2009-12-23
  • 打赏
  • 举报
回复
学习
linkfly_sz 2009-12-22
  • 打赏
  • 举报
回复
学习
macrojj 2009-12-22
  • 打赏
  • 举报
回复
.根据抽取出来的知识点,建立知识点间的关联,用本体构建关系

索引

根据文本的类型。。。。找到有用的词。

你要有一个数据的集合分析。 很多相关的算法。找到一个文件里 信息量最大的词。
「已注销」 2009-12-22
  • 打赏
  • 举报
回复
廣度優先算法

2,760

社区成员

发帖
与我相关
我的任务
社区描述
搜索引擎的服务器通过网络搜索软件或网络登录等方式,将Internet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库。
社区管理员
  • 搜索引擎技术社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧