社区
搜索引擎技术
帖子详情
怎么用Lucene来检索中文.text和.html?
miaoqiang2040
2008-07-14 05:06:17
我下了lucene的例子,但是只能检索英文,怎么才能检索中文啊?谢谢,急啊,
...全文
75
2
打赏
收藏
怎么用Lucene来检索中文.text和.html?
我下了lucene的例子,但是只能检索英文,怎么才能检索中文啊?谢谢,急啊,
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
2 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
miaoqiang2040
2008-07-17
打赏
举报
回复
请问应该怎么改分析器啊?lucene2.3.2里的demo 的分析器在哪?应该怎么改代码啊?
shanhe
2008-07-15
打赏
举报
回复
找中文的分词器,自己写中文的分析器
自己动手写搜索引擎(罗刚著).doc
自己动手写搜索引擎 1 第1章 了解搜索引擎 1 1.1 Google神话 1 1.2 体验搜索引擎 1 1.3 你也可以做搜索引擎 4 1.4 本章小结 4 第2章 遍历搜索引擎技术 5 2.1 30分钟实现的搜索引擎 5 2.1.1 准备工作环境(10分钟) 5 2.1.2 编写代码(15分钟) 6 2.1.3 发布运行(5分钟) 9 2.2 搜索引擎基本技术 14 2.2.1 网络蜘蛛 14 2.2.2 全文索引结构 14 2.2.3
Lucene
全文
检索
引擎 15 2.2.4 Nutch网络搜索软件 15 2.2.5 用户界面 17 2.3 商业搜索引擎技术介绍 17 2.3.1 通用搜索 17 2.3.2 垂直搜索 18 2.3.3 站内搜索 19 2.3.4 桌面搜索 21 2.4 本章小结 21 第3章 获得海量数据 22 3.1 自己的网络蜘蛛 22 3.1.1 BerkeleyDB介绍 27 3.1.2 抓取网页 28 3.1.3 MP3 抓取 29 3.1.4 RSS 抓取 30 3.1.5 图片抓取 33 3.1.6 垂直行业抓取 34 3.2 抓取数据库中的内容 36 3.2.1 建立数据视图 36 3.2.2 JDBC数据库连接 36 3.2.3 增量抓取 40 3.3 抓取本地硬盘上的文件 41 3.3.1 目录遍历 41 3.4 本章小结 42 第4章 提取文档中的文本内容 43 4.1 从
HTML
文件中提取文本 43 4.1.1
Html
Parser介绍 51 4.1.2 结构化信息提取 54 4.1.3 网页去噪 60 4.1.4 网页结构相似度计算 63 4.1.5 正文提取的工具FireBug 64 4.1.6 正文提取的工具Neko
HTML
66 4.1.7 正文提取 68 4.2 从非
HTML
文件中提取文本 73 4.2.1
TEXT
文件 73 4.2.2 PDF文件 73 4.2.3 Word文件 82 4.2.4 Rtf文件 82 4.2.5 Excel文件 83 4.2.6 PowerPoint文件 84 4.3 流媒体内容提取 85 4.3.1 音频流内容提取 85 4.3.2 视频流内容提取 87 4.4 抓取限制应对方法 89 4.5 本章小结 90 第5章 自然语言处理 91 5.1
中文
分词处理 91 5.1.1
Lucene
中的
中文
分词 91 5.1.2 Lietu
中文
分词的使用 92 5.1.3
中文
分词的原理 92 5.1.4 查找词典算法 95 5.1.5 最大概率分词方法 98 5.1.6 新词发现 101 5.1.7 隐马尔可夫模型 102 5.2 语法解析树 104 5.3 文档排重 105 5.4
中文
关键词提取 106 5.4.1 关键词提取的基本方法 106 5.4.2 关键词提取的设计 107 5.4.3 从网页提取关键词 107 5.5 相关搜索 107 5.6 拼写检查 110 5.6.1 英文拼写检查 110 5.6.2
中文
拼写检查 112 5.7 自动摘要 116 5.7.1 自动摘要技术 117 5.7.2 自动摘要的设计 117 5.7.3
Lucene
中的动态摘要 124 5.8 自动分类 125 5.8.1 Classifier4J 126 5.8.2 自动分类的接口定义 127 5.8.3 自动分类的SVM方法实现 128 5.8.4 多级分类 128 5.9 自动聚类 131 5.9.1 聚类的定义 131 5.9.2 K均值聚类方法 131 5.9.3 K均值实现 133 5.10 拼音转换 138 5.11 语义搜索 139 5.12 跨语言搜索 143 5.13 本章小结 144 第6章 创建索引库 145 6.1 设计索引库结构 146 6.1.1 理解
Lucene
的索引库结构 146 6.1.2 设计一个简单的索引库 148 6.2 创建和维护索引库 149 6.2.1 创建索引库 149 6.2.2 向索引库中添加索引文档 149 6.2.3 删除索引库中的索引文档 151 6.2.4 更新索引库中的索引文档 151 6.2.5 索引的合并 151 6.2.6 索引的定时更新 152 6.2.7 索引的备份和恢复 153 6.2.8 修复索引 154 6.3 读写并发控制 154 6.4 优化使用
Lucene
155 6.4.1 索引优化 155 6.4.2 查询优化 157 6.4.3 实现时间加权排序 162 6.4.4 实现字词混合索引 163 6.4.5 定制Similarity 170 6.4.6 定制Tokenizer 171 6.5 查询大容量索引 173 6.6 本章小结 174 第7章
测试分词工具
Lucene
.Net.Analysis.PanGu(盘古分词)
学习盘古分词
Lucene
.Net.Analysis.PanGu包的基本用法、
lucene
全文
检索
总结 .
全文
检索
总结: 1、 在http://labs.renren.com/apache-mirror//
lucene
/java/,下载
lucene
-core-3.0.3.jar、
lucene
-highlighter-3.0.3.jar(在
lucene
-3.0.3/
lucene
-3.0.3/contrib/highlighter中),导入项目中。 2、 在http://code.google
Lucene
.net 全文
检索
文件
using
Lucene
.Net.Analysis; using
Lucene
.Net.Analysis.Tokenattributes; using
Lucene
.Net.Documents; using
Lucene
.Net.Index; using
Lucene
.Net.QueryParsers; using
Lucene
.Net.Search; using
Lucene
.N...
简单认识Apache
Lucene
的使用
Lucene
简介
Lucene
是一个基于 Java 的全文信息
检索
工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。
Lucene
目前是 Apache Jakarta 家族中的一个开源项目。也是目前最为流行的基于 Java 开源全文
检索
工具包。 目前已经有很多应用程序的搜索功能是基于
Lucene
的,比如 Eclipse 的帮助系统的搜索功能。
Lucene
能够...
搜索引擎技术
2,760
社区成员
2,052
社区内容
发帖
与我相关
我的任务
搜索引擎技术
搜索引擎的服务器通过网络搜索软件或网络登录等方式,将Internet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库。
复制链接
扫一扫
分享
社区描述
搜索引擎的服务器通过网络搜索软件或网络登录等方式,将Internet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章