Lucene中文分词组件 JE-Analysis 1.4.0下载 [问题点数:0分]

Bbs1
本版专家分:0
结帖率 0%
Lucene中文分词组件 JE-Analysis 1.4.0
该<em>组件</em>免费安装使用传播,无限制商业应用,但暂不开源,也不提供任何保证 分词效率: 第一次分词需要1-2秒(读取词典),之后速度基本与Lucene自带分词持平 运行环境: Lucene 1.9+ 内存消耗: 30M+ <em>1.4.0</em> —— 2006-08-21 增加词典的动态扩展能力 1.3.3 —— 2006-07-23 修正无法多次增加词典的问题 1.3.2 —— 2006-07-03 修正细粒度分词错误的问题 1.3.1 —— 2006-06-23 修正在某些情况下分词遗漏的问题 1.3 —— 2006-06-22 实现了词尾消歧算法中第一层的过滤 增加日期时间的匹配 1.2.2 —— 2006-06-13 完善了中英文噪声词典 1.2.1 —— 2006-06-10 修正中文数字成语无法识别的问题 1.2 —— 2006-06-08 增加中文数字的匹配(如:二零零六) 数量词采用“n”作为数字通配符 优化词典结构以便修改调整 1.1 —— 2006-06-06 增加扩展词典的静态读取方法 1.0.1 —— 2006-06-02 修正无法识别生僻字的问题 1.0 —— 2006-05-29 支持英文、数字、中文(简体)混合分词 常用的数量和人名的匹配 超过22万词的词库整理 实现正向最大匹配算法 //采用正向最大匹配的<em>中文分词</em>算法,相当于分词粒度等于0 MMAnalyzer analyzer = new MMAnalyzer(); //参数为分词粒度:当字数等于或超过该参数,且能成词,该词就被切分出来 MMAnalyzer analyzer = new MMAnalyzer(2); //增加一个新词典,采用每行一个词的读取方式 MMAnalyzer.addDictionary(reader); //增加一个新词 MMAnalyzer.addWord(newWord); package demo.analysis; import java.io.IOException; import jeasy.analysis.MMAnalyzer; public class Segment { public static void main(String[] args) { String text = "据路透社报道,印度尼西亚社会事务部一官员星期二(29日)表示," + "日惹市附近当地时间27日晨5时53分发生的里氏6.2级地震已经造成至少5427人死亡," + "20000余人受伤,近20万人无家可归。"; MMAnalyzer analyzer = new MMAnalyzer(); try { System.out.println(analyzer.segment(text, " | ")); } catch (IOException e) { e.printStackTrace(); } } } 生成效果: 据 | 路透社 | 报道 | 印度尼西亚 | 社会 | 事务 | 部 | 官员 | 星期二 | 29日 | 表示 | 日惹 | 市 | 附近 | 当地时间 | 27日 | 晨 | 5时 | 53分 | 发生 | 里氏 | 6.2级 | 地震 | 已经 | 造成 | 至少 | 5427人 | 死亡 | 20000 | 余人 | 受伤 | 近 | 20万人 | 无家可归 | package demo.analysis; import jeasy.analysis.MMAnalyzer; import org.apache.<em>lucene</em>.analysis.Analyzer; import org.apache.<em>lucene</em>.document.Document; import org.apache.<em>lucene</em>.document.Field; import org.apache.<em>lucene</em>.index.IndexWriter; import org.apache.<em>lucene</em>.queryParser.QueryParser; import org.apache.<em>lucene</em>.search.Hits; import org.apache.<em>lucene</em>.search.IndexSearcher; import org.apache.<em>lucene</em>.search.Query; import org.apache.<em>lucene</em>.store.Directory; import org.apache.<em>lucene</em>.store.RAMDirectory; public class Segment { public static void main(String[] args) { String fieldName = "text"; String text = "据路透社报道,印度尼西亚社会事务部一官员星期二(29日)表示," + "日惹市附近当地时间27日晨5时53分发生的里氏6.2级地震已经造成至少5427人死亡," + "20000余人受伤,近20万人无家可归。"; //检索内容 //采用正向最大匹配的<em>中文分词</em>算法 Analyzer analyzer = new MMAnalyzer(); Directory directory = new RAMDirectory(); //Directory directory = FSDirectory.getDirectory("/tmp/testindex", true); try { IndexWriter iwriter = new IndexWriter(directory, analyzer, true); iwriter.setMaxFieldLength(25000); Document doc = new Document(); doc.add(new Field(fieldName, text, Field.Store.YES, Field.Index.TOKENIZED)); iwriter.addDocument(doc); iwriter.close(); IndexSearcher isearcher = new IndexSearcher(directory); QueryParser parser = new QueryParser(fieldName, analyzer); Query query = parser.parse("印度尼西亚 6.2级地震");//检索词 Hits hits = isearcher.search(query); System.out.println("命中:" + hits.length()); for (int i = 0; i < hits.length(); i++) { Document hitDoc = hits.doc(i); System.out.println("内容:" + hitDoc.get(fieldName)); } isearcher.close(); directory.close(); } catch (Exception e) { e.printStackTrace(); } } } 生成效果: 命中:1 内容:据路透社报道,印度尼西亚社会事务部一官员星期二(29日)表示,日惹市附近当地时间27日晨5时53分发生 的里氏6.2级地震已经造成至少5427人死亡,20000余人受伤,近20万人无家可归。 package demo.analysis; import jeasy.analysis.MMAnalyzer; import org.apache.<em>lucene</em>.analysis.Analyzer; import org.apache.<em>lucene</em>.analysis.TokenStream; import org.apache.<em>lucene</em>.document.Document; import org.apache.<em>lucene</em>.document.Field; import org.apache.<em>lucene</em>.index.IndexReader; import org.apache.<em>lucene</em>.index.IndexWriter; import org.apache.<em>lucene</em>.index.TermPositionVector; import org.apache.<em>lucene</em>.queryParser.QueryParser; import org.apache.<em>lucene</em>.search.Hits; import org.apache.<em>lucene</em>.search.IndexSearcher; import org.apache.<em>lucene</em>.search.Query; import org.apache.<em>lucene</em>.search.highlight.Highlighter; import org.apache.<em>lucene</em>.search.highlight.QueryScorer; import org.apache.<em>lucene</em>.search.highlight.TokenSources; import org.apache.<em>lucene</em>.store.Directory; import org.apache.<em>lucene</em>.store.RAMDirectory; public class Segment { public static void main(String[] args) { String fieldName = "text"; String text = "据路透社报道,印度尼西亚社会事务部一官员星期二(29日)表示," + "日惹市附近当地时间27日晨5时53分发生的里氏6.2级地震已经造成至少5427人死亡," + "20000余人受伤,近20万人无家可归。"; //检索内容 //采用正向最大匹配的<em>中文分词</em>算法 Analyzer analyzer = new MMAnalyzer(); Directory directory = new RAMDirectory(); //Directory directory = FSDirectory.getDirectory("/tmp/testindex", true); try { IndexWriter iwriter = new IndexWriter(directory, analyzer, true); iwriter.setMaxFieldLength(25000); Document doc = new Document(); doc.add(new Field(fieldName, text, Field.Store.YES, Field.Index.TOKENIZED, Field.TermVector.WITH_POSITIONS_OFFSETS)); iwriter.addDocument(doc); iwriter.close(); IndexSearcher isearcher = new IndexSearcher(directory); QueryParser parser = new QueryParser(fieldName, analyzer); Query query = parser.parse("印度尼西亚 6.2级地震");//检索词 Hits hits = isearcher.search(query); System.out.println("命中:" + hits.length()); Highlighter highlighter = new Highlighter(new QueryScorer(query)); for (int i = 0; i < hits.length(); i++) { text = hits.doc(i).get(fieldName); TermPositionVector tpv = (TermPositionVector) IndexReader.open( directory).getTermFreqVector(hits.id(i), fieldName); TokenStream tokenStream = TokenSources.getTokenStream(tpv); String result = highlighter.getBestFragments(tokenStream, text, 3, "..."); System.out.println("内容:" + result); } isearcher.close(); directory.close(); } catch (Exception e) { e.printStackTrace(); } } } 生成效果: 命中:1 内容:据路透社报道,印度尼西亚社会事务部一官员星期二(29日)表示,日惹市附近当地时间27日晨5时53分发生的 里氏6.2级地震已经造成至少5427人死亡,20000余人受伤,近20万人无家可归
Lucene中文分词组件 JE-Analysis 1.5.1
发布于:http://www.jesoft.cn/posts/list/5.page 1.5.1 —— 2006-01-22 修正细粒度分词错误的问题 1.5.0 —— 2007-01-18 全面支持Lucene 2.0 增强了词典维护的API 增加了商品编码的匹配 增加了Mail地址的匹配 实现了词尾消歧算法第二层的过滤 整理优化了词库 <em>1.4.0</em> —— 2006-08-21 增加词典的动态扩展能力 1.3.3 —— 2006-07-23 修正无法多次增加词典的问题 1.3.2 —— 2006-07-03 修正细粒度分词错误的问题 1.3.1 —— 2006-06-23 修正在某些情况下分词遗漏的问题 1.3 —— 2006-06-22 实现了词尾消歧算法第一层的过滤 增加日期时间的匹配 1.2.2 —— 2006-06-13 完善了中英文噪声词典 1.2.1 —— 2006-06-10 修正中文数字成语无法识别的问题 1.2 —— 2006-06-08 增加中文数字的匹配(如:二零零六) 数量词采用“n”作为数字通配符 优化词典结构以便修改调整 1.1 —— 2006-06-06 增加扩展词典的静态读取方法 1.0.1 —— 2006-06-02 修正无法识别生僻字的问题 1.0 —— 2006-05-29 支持英文、数字、中文(简体)混合分词 常用的数量和人名的匹配 超过22万词的词库整理 实现正向最大匹配算法 支持分词粒度控制 //采用正向最大匹配的<em>中文分词</em>算法,相当于分词粒度等于0 MMAnalyzer analyzer = new MMAnalyzer(); //参数为分词粒度:当字数等于或超过该参数,且能成词,该词就被切分出来 MMAnalyzer analyzer = new MMAnalyzer(2); //字符串切分,常用于客户的关键字输入 analyzer.segment(text, separator); 词典维护API(静态方法): //增加一个新词典,采用每行一个词的读取方式(注意:多线程状态下此时的分词效果将不可预料) MMAnalyzer.addDictionary(reader); //增加一个新词 MMAnalyzer.addWord(newWord); //删除词库中的全部词语(注意:非常危险的操作,在没有加载新的词库前所有的分词都将失效) MMAnalyzer.clear(); //词库中是否包含该词 MMAnalyzer.contains(String word); //从词库中移除该词 MMAnalyzer.removeWord(String word); //当前词库中包含的词语总数 MMAnalyzer.size();
MMAnalyzer 分词jar包(lucene-core-2.4.1.jar je-analysis-1.5.3.jar)
Lucene<em>中文分词</em>器中的极易分词<em>组件</em>,包含jeasy.analysis.MMAnalyzer,以及依赖包<em>lucene</em>-core-2.4.1.jar!
Lucene的各中文分词比较
对几种中文分析器,从分词准确性和效率两方面进行比较。分析器依次为:StandardAnalyzer、ChineseAnalyzer、 CJKAnalyzer、IK_CAnalyzer、MIK_CAnalyzer、MMAnalyzer(JE分词)、PaodingAnalyzer。 单纯的<em>中文分词</em>的实现一般为按字索引或者按词索引。按字索引顾名思义,就是按单个字建立索引。按词索引就是按词喽,根据词库中
lucene--5.支持中文分词
1      分析器 1.1.  分析器(Analyzer)的执行过程 如下图是语汇单元的生成过程:    从一个Reader字符流开始,创建一个基于Reader的Tokenizer分词器,经过三个TokenFilter生成语汇单元Tokens。 要看分析器的分析效果,只需要看Tokenstream中的内容就可以了。每个分析器都有一个方法tokenStream,返回一个tokenStre
Lucene-IKAnalyzer(中文分词)基于配置的词典扩充
Lucene-IKAnalyzer(<em>中文分词</em>)基于配置的词典扩充
lucene初探(二):中文分词,以及系统自带分词简单比较
<em>lucene</em>学习我不得不承认这门技术是我目前接触的最有难度的一门技术,也许是因为我最近比较浮躁吧,也也是因为我没有找到,官方的说明文档和网络上比较不错的视频教程,不是有的讲解人普通话说得跟方言似的,英文读的跟3岁小孩似的,比如宋亮,他的<em>lucene</em>3.5的教程简直让我难以忍受 所以还是自己摸索摸索吧上一篇<em>lucene</em>初探(一),讲解了简单的<em>lucene</em>文件查询,貌似<em>lucene</em>和solr配合更能发
Lucene使用(四)中文分词器smartcn
Lucene自带多种分词器,其中对<em>中文分词</em>支持比较好的是smartcn。 1. 标准分词器StandardAnalyzer 在演示smartcn<em>中文分词</em>器之前,先来看看Lucene标准分词器对<em>中文分词</em>的效果。需要的jar为\<em>lucene</em>-5.5.5\core\下的<em>lucene</em>-core-5.5.5.jar和\<em>lucene</em>-5.5.5\analysis\common\下的<em>lucene</em>-analy
全文检索技术学习(三)——Lucene支持中文分词
分析器(Analyzer)的执行过程如下图是语汇单元的生成过程: 从一个Reader字符流开始,创建一个基于Reader的Tokenizer分词器,经过三个TokenFilter生成语汇单元Token。 要看分析器的分析效果,只需要看TokenStream中的内容就可以了。每个分析器都有一个方法tokenStream,返回的是一个TokenStream对象。标准分析器的分词效果之前我们创建索
Lucene几种中文分词的总结
引用: [url]http://blog.sina.com.cn/s/print_4ff5925f01000d32.html[/url] 内容: 目前最新版本的<em>lucene</em>自身提供的StandardAnalyzer已经具备<em>中文分词</em>的功能,但是不一定能够满足大多数应用的需要。 另外网友谈的比较多的<em>中文分词</em>器还有: CJKAnalyzer ChineseAnalyzer IK_CAnal...
Lucene之中文庖丁解牛(mmseg)分词器-yellowcong
庖丁解牛分词器,分词器和Lucene的版本需要注意,有可能有冲突,报错,我最开始是1.8.5的mmseg4j和一个<em>lucene</em>有冲突,后来,换了Mmseg4j版本后,就好了
JE-Analysis中文分词
最流行、使用最方便的<em>中文分词</em>包,此资源为文件系统而非jar包,使用时Eclipse使用文件导入方式导入,其他编辑器视情况而定,用些编辑器支持将资源复制进工程。实在不行可以将解压后的指明路径或解压至java文件同一目录下。
Lucene 中文分词器 Ik-Analyzer 使用教程
目录 Ik-Analyzer 简介 GoogleCode 官网介绍 IK Analyzer 2012 特性 版本兼容 Ik-Analyzer 使用 Ik-Analyzer <em>下载</em> 导入开发包 创建索引 查询索引 官方示例 Ik-Analyzer 简介 GoogleCode 开源项目 :http://code.google.com/p/ik-analyzer/,开发包<em>下载</em>地址:...
java lucene中文分词
Lucene是一个全文检索引擎工具包,貌似挺好用。某些时候我们需要在数据库全表扫描筛选数据时,如果数据量庞大,往往要等待很多时间,这对用户来说是很不友好的。那么这时Lucene就可以派上用场。 Lucene首先将预检索资源封装成document对象,然后根据你自定义的字段建立索引,这其实和数据库的行为类似。 1.文档字符化 2. 对查询关键字分词 3..建立索引 4. 搜索 本文主要使
基于高版本Lucene的中文分词器(IK分词器)的DEMO
缘起 日前项目中需要用到Lucene.且需要<em>中文分词</em>,看了下IK分词器,但是IK分词器貌似只支持到<em>lucene</em>的3.X。后期的版本就不支持了,在网上找了一部分资料,自己写了一个demo.因为中间有不少坑,所以特此记录。 关于Demo demo采用的<em>lucene</em>的版本是6.4.0。demo基于springmvc+JPA+mybatis+maven。Lucene的高版本和低版本的API不尽相同。而且不...
基于lucene的几种中文分词测试代码
  出处:http://hi.baidu.com/lewutian/item/0231d0f26132e2b731c19997 /**@本程序测试了四种<em>中文分词</em>(标准,ChineseAnayzer,je,Smart(基于中科院))的方法,读者可以通过本程序分析学习这四种<em>中文分词</em>方法的优劣@其中<em>lucene</em>采用的2.4.1最新版本,点击这里<em>下载</em>学习@中科院分词java版学习和<em>下载</em>到这里@je...
je-analysis-1.5.3
java <em>lucene</em> 开源全文检索,<em>中文分词</em><em>组件</em>之 <em>je-analysis</em>-1.5.3
IKAnalyzer2.0.2
Java <em>lucene</em>开源全文搜索,<em>中文分词</em><em>组件</em>
终于搞明白了Lucene倒排索引原理和中文分词
输入一篇中文文本后:1. 首先进行<em>中文分词</em>,将一段文本切分成以词为单位的文本2. 对分词后的文本创建Lucene倒排索引 转载文章:《Lucene倒排索引技术》    Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下: 0)设有两篇文章1和2      文章1的内容为:Tom lives in Guangzhou,I live in Guangz
lucene中文分词jar包
关于<em>lucene</em><em>中文分词</em>的一个辅助jar包
C# Lucene的使用详解及中文分词算法
1 <em>lucene</em>简介 1.1 什么是<em>lucene</em> Lucene是一个全文搜索框架,而不是应用产品。因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。 1.2 <em>lucene</em>能做什么 要回答这个问题,先要了解<em>lucene</em>的本质。实际上<em>lucene</em>的功能很单一,说到底,就是你给它若干个字符串,然后它为你提供一个全文
lucene的建立索引,搜索,中文分词
Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包。 现在最新的<em>lucene</em>已经更新到6.0版本了。但是这个最新版,需要适配jdk1.80以上的版本。 所以我这里用的5.5.1的版本的,它对jdk没有这么高的要求,比较适应开发。下面分三步简单的将<em>lucene</em>的建立索引,搜索,<em>中文分词</em>,介绍给大家。 用到的包: 一,建立索引:
转 Lucene中文分词组件 JE-Analysis 1.5.1 天狼
博文链接:https://phantom.iteye.com/blog/66068
IKAnalyzer中文分词支持lucene6.5.0版本
由于林良益先生在2012之后未对IKAnalyzer进行更新,后续<em>lucene</em>分词接口发生变化,导致不可使用,所以此jar包支持<em>lucene</em>6.0以上版本
lucene4.0结合IK Analyzer分词器的简单示例
IK Analyzer是一个开源的,基于java语言开发的轻量级的<em>中文分词</em>工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的<em>中文分词</em><em>组件</em>。从3.0版本开始,IK发展为面向Java的公用分词<em>组件</em>,独立于Lucene项目,同时提供了对Lucene的默认优化实现。在2012版本中,IK实现了简
Lucene 学习(二):使用IK Analyzer中文分词
如上一篇所说,Lucene原生功能很强大,但是很遗憾的是,Lucene官方却不支持<em>中文分词</em>,所以需要其他插件辅助,这里我选择使用IK Analyzer进行<em>中文分词</em>。 <em>中文分词</em>(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不
Lucene实现自定义中文同义词分词器
---------------------------------------------------------- <em>lucene</em>的分词_<em>中文分词</em>介绍 ---------------------------------------------------------- Paoding:庖丁解牛分词器。已经没有更新了 mmseg:使用搜狗的词库 1.导入包(有两个包:1.带dic的,2
java鬼混笔记:lucene 4、中文分词器--IKAnalyzer
IKAnalyzer基本使用; IKAnalyzer自定义分词; IKAnalyzer自定义停用词;
.NET使用Lucene.Net和盘古分词类库实现中文分词
.NET<em>中文分词</em>实现http://http://使用Lucene.Net.dll http://www.apache.org/dist/incubator/<em>lucene</em>.net/binaries/2.9.4g-incubating/PanGu.dll http://pangusegment.codeplex.com/releases/view/50811PanGu.Lucene.Analyzer.
Lucene几个分词技术的比较
一、分词器简单介绍               Lucene的分词技术很多,我下面介绍集中常用的分词技术。 1) 标准分词技术(StandardAnalyzer):标准分词技术对英文来说是不错的,把单词分成一个一个的词根,但是对于中文来说,只是简单的把中文分成一个一个的汉字。 2)IK<em>中文分词</em>器(IKAnalyzer):结合词典分词和文法分析算法的<em>中文分词</em>技术,能够对词典进行扩展,是一个很好
lucene三---中文分词
1.1. 中文分析器 1.1.1.  Lucene自带<em>中文分词</em>器 l  StandardAnalyzer: 单字分词:就是按照中文一个字一个字地进行分词。如:“我爱中国”, 效果:“我”、“爱”、“中”、“国”。 l  CJKAnalyzer 二分法分词:按两个字进行切分。如:“我是中国人”,效果:“我是”、“是中”、“中国”“国人”。   上边两个分词器无法满足需求。 l  S
IKAnalyzerNet-C#中文分词工具包
从2006年12月推出1.0版开始,IKAnalyzer已经推出 了3个大版本。最初,它是以开源项目Lucene为应用主体的,结合词典分词和文法分析算法的<em>中文分词</em><em>组件</em>。新版本的IKAnalyzer3.0则发展为 面向Java的公用分词<em>组件</em>,独立于Lucene项目,同时提供了对Lucene的默认优化实现。 采用了特有的“正向迭代最细粒度切分算法“,具有60万字/秒的高速处理能力。 采用了多子处理器分析
Lucene与中文分词技术的研究及应用
Lucene与<em>中文分词</em>技术的研究及应用Lucene与<em>中文分词</em>技术的研究及应用Lucene与<em>中文分词</em>技术的研究及应用
Lucene中文切分原理及其他常见切分算法
1、 什么是<em>中文分词</em>学过英文的都知道,英文是以单词为单位的,单词与单词之间以空格或者逗号句号隔开。而中文则以字为单位,字又组成词,字和词再组成句子。所以对于英文,我们可以简单以空格判断某个字符串是否为一个单词,比如I love China,love 和 China很容易被程序区分开来;但中文“我爱中国”就不 一样了,电脑不知道“中国”是一个词语还是“爱中”是一个词语。把中文的句子切分成有意义的词,就
lucene中文分词工具包
IKAnalyzer 是一个开源的,基于java语言开发的轻量级的<em>中文分词</em>工具包,将一段文字进行IK分词处理一般经过:词典加载、预处理、分词器分词、歧义处理、善后结尾 五个部分
如何在基于Lucene的中文分词器中添加自定义词典(如Paoding、mmseg4j、IK Analyzer)...
如何在基于Lucene的<em>中文分词</em>器中添加自定义词典(如Paoding、mmseg4j、IK Analyzer)   2013-07-08 21:54:29|  分类: 计算机 |字号 订阅   1. 使用Paoding自定义词典 参考文章:http://blog.csdn.net/zhangt85/article/details/8067743 ...
lucene 4.x 使用N-Gram模型分词器实例。
N-Gram模型: N-Gram是大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM, Chinese Language Model)。汉语语言模型利用上下文中相邻词间的搭配信息,在需要把连续无空格的拼音、笔划,或代表字母或笔划的数字,转换成汉字串(即句子)时,可以计算出具有最大概率的句子,从而实现到汉字的自动转换,无需用户手动选择,避开了许多汉字对应一个相同
lucene---中文分词IKAnalyzer和高亮highlighter的使用
最近<em>lucene</em>已经更新到<em>lucene</em> 3.0版本了 2.X版本的一些用法已经彻底不在支持了。  下面的例子主要是介绍<em>中文分词</em>器IKAnalyzer的使用和Lucene高亮显示。  <em>lucene</em> 3.x版本中有些2.x方法已经完全被剔除了,这里会捎带一下3.x的用法,当然我这里用的还是2.X的版本。  <em>lucene</em>自带的分词方式对<em>中文分词</em>十分的不友好,基本上可以用惨不忍睹来形容,所以这里推荐
c#中文分词类库 可用来做搜索引擎分词 准确率90% 支持Lucene.net
c#<em>中文分词</em>类库 可用来做搜索引擎分词 准确率90%,提供Lucene。net的支持
lucene3.0的分词器和各种查询
1.分词器 package cn.xt.analyzer; import java.io.StringReader; import org.apache.<em>lucene</em>.analysis.Analyzer; import org.apache.<em>lucene</em>.analysis.TokenStream; import org.apache.<em>lucene</em>.analysis.cjk.CJKAnalyz
luncene架包
<em>lucene</em>架包及<em>中文分词</em>IKanalyze, <em>lucene</em>架包及<em>中文分词</em>IKanalyze。
lucene学习二:lucene分词器
分词器的作用: 在创建索引时会用到分词器,在使用字符串搜索时也会用到分词器,这两个地方要使用同一个分词器,否则可能会搜索不出结果。Analyzer(分词器)的作用是把一段文本中的词按规则取出所包含的所有词。对应的是Analyzer类,这是一个抽象类,切分词的具体规则是由子类实现的,所以对于不同的语言(规则),要用不同的分词器在全文。本文介绍几种常见的分词器,目前运用最多的是庖丁解牛,当然还有许多第
中文分词 JE-Analysis 组件使用外部自定义词典
 JE-Analysis分词<em>组件</em>的一大特色就是可以添加词以及使用词典以扩张起自己带的词库,使得分词更加准确.下面就是使用外部词典代码:import java.io.IOException;import jeasy.analysis.MMAnalyzer;import java.io.FileNotFoundException;import java.io.FileReader;pu
Lucene中的MMAnalyzer中文分词
支持英文、数字、中文(简体)混合分词  常用的数量和人名的匹配  超过22万词的词库整理  实现正向最大匹配算法 //采用正向最大匹配的<em>中文分词</em>算法,相当于分词粒度等于0  MMAnalyzer analyzer = new MMAnalyzer(); //参数为分词粒度:当字数等于或超过该参数,且能成词,该词就被切分出来  MMAnalyzer analyzer = new
拼音分词 Pinyin4j+pinyinAnalyzer+lucene-analyzers
一个压缩包,包含三个jar Pinyin4j+pinyinAnalyzer+<em>lucene</em>-analyzers
基于Lucene的中文分词方法设计与实现
基于Lucene的<em>中文分词</em>方法设计与实现 基于Lucene的<em>中文分词</em>方法设计与实现 基于Lucene的<em>中文分词</em>方法设计与实现
lucene中文分词公用组件
IKAnalyzer基于<em>lucene</em>2.0版本API开发,实现了以词典分词为基础的正反向全切分算法,是Lucene Analyzer接口的实现,代码使用例子如下: import org.mira.<em>lucene</em>.analysis.IK_CAnalyzer&nbsp; &lt;------- 引用类import ..... public class IKAnalyzerTest extends TestCase { &nbsp;RAMDirectory directory;&nbsp;private IndexSearcher searcher;&nbsp;&nbsp;public void setUp() throws Exception { &nbsp;&nbsp;directory = new RAMDirectory(); &nbsp; &nbsp;&nbsp;IndexWriter writer = new IndexWriter(directory,&nbsp;&nbsp;&nbsp;new IK_CAnalyzer(),&nbsp; &lt;------- 实例化类&nbsp;&nbsp;&nbsp;true); &nbsp;&nbsp;Document doc = new Document();&nbsp;&nbsp;doc.add(Field.Keyword(&quot;partnum&quot;, &quot;Q36&quot;));&nbsp;&nbsp;doc.add(Field.Text(&quot;description&quot;, &quot;Illidium Space Modulator&quot;));&nbsp;&nbsp;writer.addDocument(doc);&nbsp;&nbsp;writer.close();&nbsp;&nbsp;searcher = new IndexSearcher(directory); &nbsp;} &nbsp;public void testTermQuery() throws Exception {&nbsp;&nbsp;Query query = new TermQuery(new Term(&quot;partnum&quot;, &quot;Q36&quot;));&nbsp;&nbsp;Hits hits = searcher.search(query);&nbsp;&nbsp;assertEquals(1, hits.length());&nbsp;}} 分词效果测试,命令行如下:java -classpath IKAnalyzer.jar;<em>lucene</em>-core-2.0.0.jar org.mira.<em>lucene</em>.analysis.IK_CAnalyzer 中华人民共和国香港特别行政区 该算法适合与互联网用户的搜索习惯和企业知识库检索,用户可以用句子中涵盖的中文词汇搜索,如用&ldquo;人民&rdquo;搜索含&ldquo;人民币&rdquo;的文章,这是大部分用户的搜索思维;不适合用于知识挖掘和网络爬虫技术,全切分法容易造成知识歧义,因为在语义学上&ldquo;人民&rdquo;和&ldquo;人民币&rdquo;是完全搭不上关系的。 分词效果: 1.实现中文单词细粒度全切分 &nbsp;如:中华人民共和国&nbsp;0 - 2 = 中华&nbsp;0 - 4 = 中华人民&nbsp;0 - 7 = 中华人民共和国&nbsp;1 - 3 = 华人&nbsp;2 - 4 = 人民&nbsp;2 - 7 = 人民共和国&nbsp;4 - 6 = 共和&nbsp;4 - 7 = 共和国 2.实现对专有名词的识别和切分(人名,公司名) &nbsp;如:陈文平是开睿动力通讯科技有限公司董事长&nbsp;0 - 3 = 陈文平&nbsp; &lt;------ 人名,非汉语词汇&nbsp;4 - 6 = 开睿&nbsp;&nbsp;&nbsp; &lt;------ 公司名,非汉语词汇&nbsp;6 - 8 = 动力&nbsp;8 - 10 = 通讯&nbsp;10 - 12 = 科技&nbsp;12 - 14 = 有限&nbsp;12 - 16 = 有限公司&nbsp;14 - 16 = 公司&nbsp;16 - 18 = 董事&nbsp;16 - 19 = 董事长&nbsp;18 - 19 = 长 3.对数词和量词的合理切分&nbsp;&nbsp;如:据路透社报道,印度尼西亚社会事务部一官员星期二(29日)表示,日惹市附近当地时间27日晨5时53分发生的里氏6.2级地震已经造成至少5427人死亡,20000余人受伤,近20万人无家可归。&nbsp;0 - 1 = 据&nbsp;1 - 4 = 路透社&nbsp;4 - 6 = 报道&nbsp;。。。。。。&nbsp;&nbsp;18 - 20 = 官员&nbsp;20 - 22 = 星期&nbsp;20 - 23 = 星期二&nbsp;22 - 23 = 二&nbsp;24 - 26 = 29&nbsp;24 - 27 = 29日&nbsp;26 - 27 = 日&nbsp;28 - 30 = 表示&nbsp;31 - 33 = 日惹&nbsp;33 - 34 = 市&nbsp;。。。。。。&nbsp;40 - 42 = 27&nbsp;40 - 43 = 27日&nbsp;43 - 44 = 晨&nbsp;44 - 45 = 5&nbsp;44 - 46 = 5时&nbsp;45 - 46 = 时&nbsp;46 - 48 = 53&nbsp;46 - 49 = 53分&nbsp;48 - 50 = 分发&nbsp;。。。。。。&nbsp;52 - 54 = 里氏&nbsp;54 - 57 = 6.2&nbsp;54 - 58 = 6.2级&nbsp;57 - 58 = 级&nbsp;58 - 60 = 地震&nbsp;。。。。。。&nbsp;66 - 70 = 5427&nbsp;66 - 71 = 5427人&nbsp;71 - 73 = 死亡&nbsp;72 - 73 = 亡&nbsp;74 - 79 = 20000&nbsp;79 - 81 = 余人&nbsp;81 - 83 = 受伤&nbsp;84 - 85 = 近&nbsp;85 - 87 = 20&nbsp;85 - 89 = 20万人&nbsp;87 - 89 = 万人&nbsp;89 - 93 = 无家可归
Lucene基础(三)-- 中文分词及高亮显示
Lucene分词器及高亮分词器在<em>lucene</em>中我们按照分词方式把文档进行索引,不同的分词器索引的效果不太一样,之前的例子使用的都是标准分词器,对于英文的效果很好,但是<em>中文分词</em>效果就不怎么样,他会按照汉字的字直接分词,没有词语的概念。使用分词的地方只需要把Analyzer实例化成我们第三方的分词器即可<em>中文分词</em>有很多,这里使用IKAnalyzer 为例, <em>下载</em>地址 https://git.oschin
lucene中文分词组件共享
IKAnalyzer基于<em>lucene</em>2.0版本API开发,实现了以词典分词为基础的 正反向全切分 以及 正反向最大匹配切分 两种算法,是Lucene Analyzer接口的实现,代码使用例子如下:<em>下载</em>地址:Lucene<em>中文分词</em>器 V1.2 CSDN<em>下载</em>Lucene<em>中文分词</em>器 V1.2 Google<em>下载</em>正反向全切分算法:实现类 : org.mira.<em>lucene</em>.analysis.IK_CAnaly...
Lucene.net中文分词探究
一、<em>中文分词</em>方式: <em>中文分词</em>几种常用的方式:A. 单字分词单字分词,顾名思义,就是按照中文一个字一个字地进行分词。如:我们是中国人,效果:我/们/是/中/国/人。B. 二分法二分法,就是按两个字进行切分。如:我们是中国人,效果:我们/们是/是中/中国/国人。C. 词库分词词库分词,就是按某种算法构造词然后去匹配已建好的词库集合,如果匹配到就切分出来成为词语。通常词库分词
lucene之 MMAnalyzer 中文分词组件
支持英文、数字、中文(简体)混合分词 常用的数量和人名的匹配 超过22万词的词库整理 实现正向最大匹配算法 //采用正向最大匹配的<em>中文分词</em>算法,相当于分词粒度等于0   MMAnalyzer analyzer = new MMAnalyzer(); //参数为分词粒度:当字数等于或超过该参数,且能成词,该词就被切分出来   MMAnalyzer analyzer = new MM...
使用compass+lucene实现简单的全文检索功能
这个例子使用Struts2+Spring2+Hibernate3组合来配合Compass2+Lucene2实现全文检索功能。首先看一下工程使用到的jar包以下是工程的文件结构:这个工程是在MyEclipse6下开发的。数据库使用MySQL5。新建数据库,库名:compass。/*MySQL Data TransferSource Host: localhostSou
Lucene之分词器效果测试
一、效果 二、代码 测试不同分词器,只需要将下面代码替换为需要测试的分词器 Analyzer analyzer = new StandardAnalyzer();  //标准分词器 @Test //查看标准分析器的分词效果 public void testTokenStream() throws Exception { //创建一个标准分析...
Lucene5学习之使用MMSeg4j分词器
MMSeg4j是一款<em>中文分词</em>器,详细介绍如下:        1、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的<em>中文分词</em>器,并实现 <em>lucene</em> 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。          2
lucene使用hanlp分词
maven依赖   xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">   4.0.0   ff   dd   0.0.1-SNAPSHOT   jar   dd   http://maven.apache.org
用Lucene对文档进行索引搜索
问题 现在给出很多份文档,现在对某个搜索词感兴趣,想找到相关的文档。 简单搜索 一种简单粗暴的做法是: 1、读取每个文档;2、找到其中含有搜索词的文档;3、对找到的文档中搜索词出现的次数统计;4、根据搜索词统计次数对文档按降序排序。 这称之为信息获取(Information Retrieval, IR),也叫简单搜索 普通IR方案存在的问题:    文档的体积增大或者数量增多...
Lucene 实例教程(二)之IKAnalyzer中文分词
一、前言        前面简单介绍了Lucene,以及如何使用Lucene将索引 写入内存,地址:http://blog.csdn.net/chenghui0317/article/details/10052103        但是其中出现很多问题,具体如下:        1、使用IndexWriter 写入的索引全部是放在内存中的,一旦程序挂了 也就什么都没有了,并且如果生成
自定义Lucene分词器示例
集团的内部通讯工具搜同事时,需要根据姓名后缀进行搜索。譬如“徐欢春”,我们要能根据“欢春”搜出这个人;“黄继刚”,要根据“继刚”为关键字搜出“黄继刚”。这是个很人性化的用户体验,当我们有同事的名字是三个字的时候,我们通常会叫他们名字的最后两个字。Lucene本身并没有提供这种分词器,只能自己照着Lucene已有的分词器进行模仿开发。    参照ngram分词器进行开发。    实现一个Tokeni
Lucene中常用中文分词器对比
01 基本介绍: paoding : Lucene<em>中文分词</em>“庖丁解牛” Paoding Analysis imdict : imdict智能词典所采用的智能<em>中文分词</em>程序 mmseg4j : 用 Chih-Hao Tsai 的 MMSeg 算法实现的<em>中文分词</em>器 ik : 采用了特有的“正向迭代最细粒度切分算法“,多子处理器分析模式 02 开发者及开发活跃度: paoding
lucene详解和实际应用分享
» <em>lucene</em>使用与优化 Thu,24 Jan 2008 16:13:17 +0800 | zhe_zeng@126.com(admin) <em>lucene</em>简介 1.1 什么是<em>lucene</em> Lucene是一个全文搜索框架,而不是应用产品。因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。 1.2
Lucene使用单字分词及短语查询实现类似全模糊查询效果
<em>lucene</em>使用全模糊查询效率慢,现在建索引时用单字分词,查询时用短语查询可以实现该功能。但对于大数据量的数字和英文查询效率慢。 一、新建MyNGramAnalyzer类,实现单字分词器 public final class MyNGramAnalyzer extends Analyzer { private Version version; public
Lucene中文分词器包
来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene<em>中文分词</em>器。1. 正向全切分算法,42万汉字字符/每秒的处理能力(IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP)2. 对数量词、地名、路名的优化处理3. 对未知词汇采用自识别结合二元切分算法,确保搜索召回率(使用方法请参考IKAnalyzer V1.1版)
Lucene下引入ICTCLAS进行中文分词的实现方法
Analysis包分析 算法和数据结构分析: 由于Analysis包比较简单,不详述了! 算法:基于机械分词 1-gram,2-gram,HMM(如果使用ICTCLAS接口的话) 数据结构:部分源码用到了Set ,HashTable,HashMap 认真理解Token Lucene中的Analysis包专门用于完成对于索引文件的分词.Lucene中的Token是一个
Lucene分词原理与方式
-------------------------------------------------------- <em>lucene</em>的分词_分词器的原理讲解 -------------------------------------------------------- 几个默认分词 SimpleAnalyzer StopAnalyzer WhitespaceAnalyzer(根据空格分
lucene je-analysis jar包
贝叶斯分类算法用到的<em>lucene</em>和analysis Jar包 亲测可用(两个版本不对应,会有问题)
C#中文分词算法:ChineseAnalyzer
1.首先需要引用 2个dll库文件 Lucene.Net.dll + Lucene.China.dll using Lucene.Net; using Lucene.Net.Analysis; using Lucene.China; 2.还有一个data文件夹需要放在C:\Program Files (x86)\Common Files\microsoft shared\DevServer\10.
Lucene之中文分词
注意: 在<em>lucene</em> 4.6.0以上版本使用IKAnalyzer时可能会出现以下异常: java.lang.illegalstateexception:tokenstream contract violation: reset()/close() call missing, reset() calledmultiple times, or subclass does not call ...
C#实现向量空间模型(VSM)在文档相似度计算+Lucene中文分词
C#实现向量空间模型(VSM)在文档相似度计算+Lucene<em>中文分词</em>器,保证可以运行,包含配置文档教程
Lucene分词器之庖丁解牛
注意:这里配置环境变量要重新启动系统后生效   我现在测试用的Lucene版本是<em>lucene</em>-2.4.0,它已经能够支持<em>中文分词</em>,但它是采用一元分词(逐字拆分)的方法,即把每一个汉字当作是一个词,这样会使建立的索引非常庞大,会影响查询效率.所以大多运用<em>lucene</em>的朋友,都会考虑使用其它的<em>中文分词</em>包,这里我就介绍最为常用的"庖丁解牛"分词包,当然它也是一个值得推荐的<em>中文分词</em>包.
Lucene学习笔记之(六)lucene的中文查询
步骤一:创建maven现目 步骤二:配置pom.xml文件 junit junit 3.8.1 test org.apache.<em>lucene</em>
详解庖丁解牛中文分词器工具的使用
今天在网上看了一篇关于<em>中文分词</em>的文章,有一类是关于基于字符串匹配的<em>中文分词</em>,里面谈到了一个“庖丁解牛分词器”,于是本人就想尝试跑跑这个分词工具。下面是具体的使用步骤: 1.  从网上<em>下载</em>了一个庖丁解牛<em>中文分词</em>工具压缩包,放入D:\SoftwarePackage中。解压D:\SoftwarePackage中的paoding-analysis-2.0.4-beta压缩包到文件夹D:\software
mmseg4j中文分词包使用
转自 https://www.jianshu.com/p/03f4a906cfb5目录1.mmseg4j<em>中文分词</em>包(<em>下载</em>、安装与运行)2.分词方法与效果分析3.分词包算法学习4.分词结果5.词云分析一、mmseg4j<em>中文分词</em>包1.<em>下载</em>:我这里采用的是mmseg4j+solr,通过solr(可视化界面)整合mmseg4j<em>中文分词</em>包来进行分词。(1)mmseg4j:选择最新版本mmseg4j-2.3....
中文分词组件带例子~~~~~~~~
<em>中文分词</em><em>组件</em>带例子,<em>中文分词</em><em>组件</em>带例子,<em>中文分词</em><em>组件</em>带例子,<em>中文分词</em><em>组件</em>带例子,<em>中文分词</em><em>组件</em>带例子,
lucene +中文分词
Lucene 与<em>中文分词</em>的结合
lucene7.5学习笔记(一)索引创建
最近因为项目需要研究了一下<em>lucene</em>的使用,发现还是很有趣的,而且因为我研究的是<em>lucene</em>7.5的版本,网上相关的资料比较少,而<em>lucene</em>7.5相较于较早的几个版本使用的方法还是差别较大的,在使用的过程中大大小小的坑遇到不少,为了防止遗忘,我决定开个博客记录一下。目前初步打算写四篇,分别记录索引创建、搜索及分页的实现、搜索提示和相似性推荐。 使用<em>lucene</em>前需要先添加<em>lucene</em>的相关j...
Lucene-4.8.1+paoding-analysis菜鸟试验:中文索引和查询
本文记录Lucene+Paoding的使用方法图解: 一、<em>下载</em>Lucene(官网:http://archive.apache.org/dist/<em>lucene</em>/java/)本文中使用的是:2.9.4,<em>下载</em>后解压,Lucene所需要的基本jar文件如下列表:      <em>lucene</em>-core-2.9.4.jar                   Lucene核心jar      l
Lucene3与中文分词
尝试极易分词 jeanalyzer 出错 异常信息:java.lang.NoSuchMethodError: org.apache.<em>lucene</em>.analysis.StopFilter.(Lorg/apache/<em>lucene</em>/analysis/TokenStream;Ljava/util/Set;Z)V 尝试半天怎么都异常,搜到原因,极易分词只与 <em>lucene</em> 1.9-2.4版兼容。 低版不
jieba结巴分词 支持lucene5
jieba分词器,支持<em>lucene</em>5版本。分词效果非常好,推荐使用。
lucene6.6+拼音分词+ik分词实现
原来项目使用的是solr进行建立索引与查询,最近想改为<em>lucene</em>。对于最新版的<em>lucene</em>网上的资料没有solr多,并且solr很多功能直接配置就可以使用,但是<em>lucene</em>都要通过api进行封装使用。下面是自己使用<em>lucene</em>6.6+拼音分词和ik<em>中文分词</em>实现的功能: 主要工具包: <em>lucene</em>6.6相关jar包 pinyinAnalyzer.jar ik-analyzer-so
中文搜索分词lucene包+paoding包
<em>中文分词</em><em>lucene</em>包+paoding包
Lucene全文搜索之分词器:使用IK Analyzer中文分词器(修改IK Analyzer源码使其支持lucene5.5.x)
一、简单介绍下IK Analyzer IK Analyzer是linliangyi2007的作品,再此表示感谢,他的博客地址:http://linliangyi2007.iteye.com/ IK Analyzer支持两种分词,一种是最细粒度分词(推荐使用,Ik默认采用最细粒度),还有一种的智能分词(测试了一下智能分词还没有<em>lucene</em>自带的分词准确,呵呵了)。 二、IK Analyze
lucene中文分词公用组件V1.3
1.修正了1.2版本在数量词处理的缺陷 2.优化分词性能 3.优化词典 请参考<em>lucene</em><em>中文分词</em>公用<em>组件</em>V1.2之前版本使用说明
lucene中文分词公用组件V2.0
修正1.1版在Linux下不能正常分词功能。 以下是使用代码: ---------------------------------------------------- import java.io.IOException; import java.io.StringReader; import java.util.ArrayList; import java.util.List; import org.apache.commons.logging.Log; import org.apache.commons.logging.LogFactory; import org.apache.<em>lucene</em>.analysis.Token; import org.apache.<em>lucene</em>.analysis.TokenStream; import org.mira.<em>lucene</em>.analysis.MIK_CAnalyzer; public class TestLucene { /** * @param args */ public static void main(String[] args) { String keyWord = "联想笔记本电脑"; List tokenList = new ArrayList(); StringBuffer keyWordBuffer = new StringBuffer(); MIK_CAnalyzer mik_canalyzer = new MIK_CAnalyzer(); StringReader stringreader = new StringReader(keyWord); TokenStream tokenstream = mik_canalyzer.tokenStream("t", stringreader); Token token = null; try { while ((token = tokenstream.next()) != null) { keyWordBuffer.append("%"); keyWordBuffer.append(token.termText()); tokenList.add(token.termText()); } keyWordBuffer.append("%"); System.out.println(keyWordBuffer); } catch (IOException e) { keyWordBuffer = new StringBuffer(keyWord); keyWordBuffer.insert(0, '%'); keyWordBuffer.append('%'); } } } ---------------------------------------------------
lucene中文分词公用组件V1.1
IKAnalyzer基于<em>lucene</em>2.0版本API开发,实现了以词典分词为基础的 正反向全切分 以及 正反向最大匹配切分 两种算法,是Lucene Analyzer接口的实现,代码使用例子如下: V1.1更新 正反向全切分算法: import org.mira.<em>lucene</em>.analysis.IK_CAnalyzer <------ 公司名,非汉语词汇 6 - 8 = 动力 8 - 10 = 通讯 10 - 12 = 科技 12 - 14 = 有限 12 - 16 = 有限公司 14 - 16 = 公司 16 - 18 = 董事 16 - 19 = 董事长 18 - 19 = 长 3.对数词和量词的合理切分 如:据路透社报道,印度尼西亚社会事务部一官员星期二(29日)表示,日惹市附近当地时间27日晨5时53分发生的里氏6.2级地震已经造成至少5427人死亡,20000余人受伤,近20万人无家可归。 0 - 1 = 据 1 - 4 = 路透社 4 - 6 = 报道 。。。。。。 18 - 20 = 官员 20 - 22 = 星期 20 - 23 = 星期二 22 - 23 = 二 24 - 26 = 29 24 - 27 = 29日 26 - 27 = 日 28 - 30 = 表示 31 - 33 = 日惹 33 - 34 = 市 。。。。。。 40 - 42 = 27 40 - 43 = 27日 43 - 44 = 晨 44 - 45 = 5 44 - 46 = 5时 45 - 46 = 时 46 - 48 = 53 46 - 49 = 53分 48 - 50 = 分发 。。。。。。 52 - 54 = 里氏 54 - 57 = 6.2 54 - 58 = 6.2级 57 - 58 = 级 58 - 60 = 地震 。。。。。。 66 - 70 = 5427 66 - 71 = 5427人 71 - 73 = 死亡 72 - 73 = 亡 74 - 79 = 20000 79 - 81 = 余人 81 - 83 = 受伤 84 - 85 = 近 85 - 87 = 20 85 - 89 = 20万人 87 - 89 = 万人 89 - 93 = 无家可归 最大匹配分词算法 实现类 : org.mira.<em>lucene</em>.analysis.MIK_CAnalyzer 效果测试命令行: java -classpath IKAnalyzer.jar;<em>lucene</em>-core-2.0.0.jar org.mira.<em>lucene</em>.analysis.MIK_CAnalyzer 中华人民共和国香港特别行政区 分词效果: 例子:中华人民共和国香港特别行政区 0 - 7 = 中华人民共和国 7 - 14 = 香港特别行政区 例子:据路透社报道,印度尼西亚社会事务部一官员星期二(29日)表示,日惹市附近当地时间27日晨5时53分发生的里氏6.2级地震已经造成至少5427人死亡?,20000余人受伤,近20万人无家可归。 1 - 4 = 路透社 4 - 6 = 报道 7 - 12 = 印度尼西亚 12 - 14 = 社会 14 - 16 = 事务 18 - 20 = 官员 20 - 23 = 星期二 24 - 27 = 29日 28 - 30 = 表示 31 - 33 = 日惹 34 - 36 = 附近 36 - 40 = 当地时间 40 - 43 = 27日 44 - 46 = 5时 46 - 49 = 53分 48 - 50 = 分发 49 - 51 = 发生 50 - 52 = 生的 52 - 54 = 里氏 54 - 58 = 6.2级 58 - 60 = 地震 60 - 62 = 已经 62 - 64 = 造成 64 - 66 = 至少 66 - 71 = 5427人 71 - 73 = 死亡 75 - 80 = 20000 80 - 82 = 余人 82 - 84 = 受伤 86 - 90 = 20万人 90 - 94 = 无家可归
lucene中文分词公用组件V1.2
在IKAnalyzer1.1基础上,更新词典,优化对人名和公司名切分的! IKAnalyzer基于<em>lucene</em>2.0版本API开发,实现了以词典分词为基础的 正反向全切分 以及 正反向最大匹配切分 两种算法,是Lucene Analyzer接口的实现,代码使用例子如下: 正反向全切分算法: 实现类 : org.mira.<em>lucene</em>.analysis.IK_CAnalyzer 分词效果测试,命令行如下: java -classpath IKAnalyzer.jar;<em>lucene</em>-core-2.0.0.jar org.mira.<em>lucene</em>.analysis.IK_CAnalyzer 中华人民共和国香港特别行政区 java 代码 import org.mira.<em>lucene</em>.analysis.IK_CAnalyzer <------ 公司名,非汉语词汇 6 - 8 = 动力 8 - 10 = 通讯 10 - 12 = 科技 12 - 14 = 有限 12 - 16 = 有限公司 14 - 16 = 公司 16 - 18 = 董事 16 - 19 = 董事长 18 - 19 = 长 3.对数词和量词的合理切分 如:据路透社报道,印度尼西亚社会事务部一官员星期二(29日)表示,日惹市附近当地时间27日晨5时53分发生的里氏6.2级地震已经造成至少5427人死亡,20000余人受伤,近20万人无家可归。 0 - 1 = 据 1 - 4 = 路透社 4 - 6 = 报道 。。。。。。 18 - 20 = 官员 20 - 22 = 星期 20 - 23 = 星期二 22 - 23 = 二 24 - 26 = 29 24 - 27 = 29日 26 - 27 = 日 28 - 30 = 表示 31 - 33 = 日惹 33 - 34 = 市 。。。。。。 40 - 42 = 27 40 - 43 = 27日 43 - 44 = 晨 44 - 45 = 5 44 - 46 = 5时 45 - 46 = 时 46 - 48 = 53 46 - 49 = 53分 48 - 50 = 分发 。。。。。。 52 - 54 = 里氏 54 - 57 = 6.2 54 - 58 = 6.2级 57 - 58 = 级 58 - 60 = 地震 。。。。。。 66 - 70 = 5427 66 - 71 = 5427人 71 - 73 = 死亡 72 - 73 = 亡 74 - 79 = 20000 79 - 81 = 余人 81 - 83 = 受伤 84 - 85 = 近 85 - 87 = 20 85 - 89 = 20万人 87 - 89 = 万人 89 - 93 = 无家可归 最大匹配分词算法 实现类 : org.mira.<em>lucene</em>.analysis.MIK_CAnalyzer 效果测试命令行: java -classpath IKAnalyzer.jar;<em>lucene</em>-core-2.0.0.jar org.mira.<em>lucene</em>.analysis.MIK_CAnalyzer 中华人民共和国香港特别行政区 分词效果: 例子:中华人民共和国香港特别行政区 0 - 7 = 中华人民共和国 7 - 14 = 香港特别行政区 例子:据路透社报道,印度尼西亚社会事务部一官员星期二(29日)表示,日惹市附近当地时间27日晨5时53分发生的里氏6.2级地震已经造成至少5427人死亡?,20000余人受伤,近20万人无家可归。 1 - 4 = 路透社 4 - 6 = 报道 7 - 12 = 印度尼西亚 12 - 14 = 社会 14 - 16 = 事务 18 - 20 = 官员 20 - 23 = 星期二 24 - 27 = 29日 28 - 30 = 表示 31 - 33 = 日惹 34 - 36 = 附近 36 - 40 = 当地时间 40 - 43 = 27日 44 - 46 = 5时 46 - 49 = 53分 48 - 50 = 分发 49 - 51 = 发生 50 - 52 = 生的 52 - 54 = 里氏 54 - 58 = 6.2级 58 - 60 = 地震 60 - 62 = 已经 62 - 64 = 造成 64 - 66 = 至少 66 - 71 = 5427人 71 - 73 = 死亡 75 - 80 = 20000 80 - 82 = 余人 82 - 84 = 受伤 86 - 90 = 20万人 90 - 94 = 无家可归
分享 Lucene中文分词组件V1.2.2!?
1.2.2 rn完善了中英文噪声词典 rnrn1.2.1 rn修正中文数字成语无法识别的问题 rnrn1.2 rn增加中文数字的匹配(如:二零零六) rn数量词采用“n”作为数字通配符 rn优化词典结构以便修改调整 rnrn1.1 rn增加扩展词典的静态读取方法 rnrn1.0.1 rn修正无法识别生僻字的问题 rnrn1.0 rn支持英文、数字、中文(简体)混合分词 rn常用的数量和人名的匹配 rn超过22万词的词库整理 rn实现正向最大匹配算法 rnrn<em>下载</em>地址:http://www.jesoft.cn/posts/list/5.page
lucene中文分词公用组件V1.4
在<em>lucene</em><em>中文分词</em>公用<em>组件</em>V1.3基础上做一下更新: 1.修订特定情况下数量词切分造成指针越界异常的BUG 2.进一步优化算法效率 3.优化词典 4.对英文和数词更改为分割处理
Lucene5学习之使用Ansj-seg分词器
    这回我们来玩玩ansj分词器,由于Lucene5.0在API上有点小变化,需要修改ansj分词器源码,重新打包jar包,然后mvn install到本地仓库才能引用到项目中。至于怎么修改以及怎么打包jar,我就不过多说明了,有点麻烦,我想偷个懒,哈哈。这里我就直接把打包后的jar分享给你们,jar包注意在底下的附件里<em>下载</em>。     我就说说,怎么在项目中使用ansj分词器,首先pom...
IKAnalyzer 1.4(lucene中文分词组件)
最新V1.4版分词器1.修订特定情况下数量词切分造成指针越界异常的BUG2.进一步优化算法效率3.优化词典4.对英文和数词进行分割处理IKAnalyzer基于<em>lucene</em>2.0版本API开发,实现了以词典分词为基础的正反向全切分算法,是Lucene Analyzer接口的实现,代码使用例子如下: import org.mira.<em>lucene</em>.analysis.MIK_CAnalyzer(最大全切分)import org.mira.<em>lucene</em>.analysis.IK_CAnalyzer(细粒度全切分)import ..... public class IKAnalyzerTest extends TestCase { RAMDirectory directory; private IndexSearcher searcher; public void setUp() throws Exception { directory = new RAMDirectory(); IndexWriter writer = new IndexWriter(directory, new MIK_CAnalyzer(), true); Document doc = new Document(); doc.add(Field.Keyword("partnum", "Q36")); doc.add(Field.Text("description", "Illidium Space Modulator")); writer.addDocument(doc); writer.close(); searcher = new IndexSearcher(directory); } public void testTermQuery() throws Exception { Query query = new TermQuery(new Term("partnum", "Q36")); Hits hits = searcher.search(query); assertEquals(1, hits.length()); } } ***************************************************************************细粒度全切分算法***************************************************************************分词效果测试,命令行如下: java -classpath IKAnalyzer.jar;<em>lucene</em>-core-2.0.0.jar org.mira.<em>lucene</em>.analysis.IK_CAnalyzer 中华人民共和国香港特别行政区 该算法适合与互联网用户的搜索习惯和企业知识库检索,用户可以用句子中涵盖的中文词汇搜索,如用"人民"搜索含"人民币"的文章,这是大部分用户的搜索思维; 不适合用于知识挖掘和网络爬虫技术,全切分法容易造成知识歧义,因为在语义学上"人民"和"人民币"是完全搭不上关系的。 分词效果: 1.实现中文单词细粒度全切分 如:中华人民共和国 0 - 2 = 中华 0 - 4 = 中华人民 0 - 7 = 中华人民共和国 1 - 3 = 华人 2 - 4 = 人民 2 - 7 = 人民共和国 4 - 6 = 共和 4 - 7 = 共和国 2.实现对专有名词的识别和切分(人名,公司名) 如:陈文平是开睿动力通讯科技有限公司董事长 0 - 3 = 陈文平 4 - 6 = 开睿 6 - 8 = 动力 8 - 10 = 通讯 10 - 12 = 科技 12 - 14 = 有限 12 - 16 = 有限公司 14 - 16 = 公司 16 - 18 = 董事 16 - 19 = 董事长 18 - 19 = 长 3.对数词和量词的合理切分 如:据路透社报道,印度尼西亚社会事务部一官员星期二(29日)表示,日惹市附近当地时间27日晨5时53分发生的里氏6.2级地震已经造成至少5427人死亡-,20000余人受伤,近20万人无家可归。 0 - 1 = 据 1 - 4 = 路透社 4 - 6 = 报道 。。。。。。 18 - 20 = 官员 20 - 22 = 星期 20 - 23 = 星期二 22 - 23 = 二 24 - 26 = 29 24 - 27 = 29日 26 - 27 = 日 28 - 30 = 表示 31 - 33 = 日惹 33 - 34 = 市 。。。。。。 40 - 42 = 27 40 - 43 = 27日 43 - 44 = 晨 44 - 45 = 5 44 - 46 = 5时 45 - 46 = 时 46 - 48 = 53 46 - 49 = 53分 48 - 50 = 分发 。。。。。。 52 - 54 = 里氏 54 - 57 = 6.2 54 - 58 = 6.2级 57 - 58 = 级 58 - 60 = 地震 。。。。。。 66 - 70 = 5427 66 - 71 = 5427人 71 - 73 = 死亡 72 - 73 = 亡 74 - 79 = 20000 79 - 81 = 余人 81 - 83 = 受伤 84 - 85 = 近 85 - 87 = 20 85 - 89 = 20万人 87 - 89 = 万人 89 - 93 = 无家可归 ***************************************************************************最大全切分算法***************************************************************************实现类 : org.mira.<em>lucene</em>.analysis.MIK_CAnalyzer效果测试命令行:java -classpath IKAnalyzer.jar;<em>lucene</em>-core-2.0.0.jar org.mira.<em>lucene</em>.analysis.MIK_CAnalyzer 中华人民共和国香港特别行政区 分词效果:例子:中华人民共和国香港特别行政区 0 - 7 = 中华人民共和国 7 - 14 = 香港特别行政区例子:陈文平是开睿动力通讯科技有限公司董事长 0 - 3 = 陈文平 4 - 6 = 开睿 6 - 8 = 动力 8 - 10 = 通讯 10 - 12 = 科技 12 - 16 = 有限公司 16 - 19 = 董事长例子:据路透社报道,印度尼西亚社会事务部一官员星期二(29日)表示,日惹市附近当地时间27日晨5时53分发生的里氏6.2级地震已经造成至少5427人死亡?,20000余人受伤,近20万人无家可归。 1 - 4 = 路透社 4 - 6 = 报道 7 - 12 = 印度尼西亚 12 - 14 = 社会 14 - 16 = 事务 18 - 20 = 官员 20 - 23 = 星期二 24 - 27 = 29日 28 - 30 = 表示 31 - 33 = 日惹 34 - 36 = 附近 36 - 40 = 当地时间 40 - 43 = 27日 44 - 46 = 5时 46 - 49 = 53分 48 - 50 = 分发 49 - 51 = 发生 50 - 52 = 生的 52 - 54 = 里氏 54 - 58 = 6.2级 58 - 60 = 地震 60 - 62 = 已经 62 - 64 = 造成 64 - 66 = 至少 66 - 71 = 5427人 71 - 73 = 死亡 75 - 80 = 20000 80 - 82 = 余人 82 - 84 = 受伤 86 - 90 = 20万人 90 - 94 = 无家可归
Lucene关于几种中文分词的总结
Lucene关于几种<em>中文分词</em>的总结
mmseg4j-1.8.5
<em>lucene</em><em>中文分词</em> mmseg4j-1.8.5与<em>lucene</em>3.1兼容
Python中文分词组件jieba
jieba "结巴"<em>中文分词</em>:做最好的Python<em>中文分词</em><em>组件</em> "Jieba"  Feature 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 支持繁体分词 支
网站中用lucene全文搜索引擎和ansj分词插件之ansj配置文件的正确写法
不介绍: <em>lucene</em>全文本搜索引擎:http://<em>lucene</em>.apache.org/ ansj_seg分词器: https://github.com/NLPchina/ansj_seg 怎么<em>下载</em>?怎么使用?<em>下载</em>后都有demo的。 这里只说关键的: 1.把<em>lucene</em>的<em>lucene</em>-analyzers-common-7.4.0.jar、<em>lucene</em>-core-7.4.0.jar和luc...
spark+ansj中文分词
我是在win10中创建的maven项目,使用的是ansj _seg 5.1.6版本 https://github.com/NLPchina/ansj_seg &amp;lt;dependency&amp;gt; &amp;lt;groupId&amp;gt;org.ansj&amp;lt;/groupId&amp;gt; &amp;lt;artifactId&amp;gt;ansj_seg&amp;...
java之全文索引搜索lucene之增删改查文档与中文分词搜索
java之全文索引搜索<em>lucene</em>之增删改查文档与<em>中文分词</em>搜索 接上文,接下来介绍一个<em>lucene</em>的各种query,然后介绍一下中文全文索引搜索。 对于各种query,我就直接上代码了,具体的话,我已经在代码里面注释了,而且关于<em>lucene</em>的执行流程在上文我也已经介绍过了,下面就不废话了。当然啦,我在这里使用过程采用的是java单元测试! 使用之前需要通过这么一些数据...
使用Lucene词频统计与d3.cloud展示的中文英文词云系统
用Lucene 4.7对进行词频计算统计,使用的分词器为IKAnalyzer,对中文的支持较低。 中文计算词频仅包含中文,英文计算词频仅包含英文。可在中文解析器与英文解析器中进行修改。 在获取到排序好的词频后,可使用d3.cloud在web中展示出来。 Github地址:github.com/panzejia/WebGuidepackage cn.iflin.project.participl
基于lucene的案例开发:分词器介绍
在<em>lucene</em>创建索引的过程中,分词技术是一个十分重要的环节,介绍了7中比较常见的分词技术 CJKAnalyzer、KeywordAnalyzer、SimpleAnalyzer、StopAnalyzer、WhitespaceAnalyzer、StandardAnalyzer、IKAnalyzer
基于lucene与IKAnalyzer的中文搜索
基于<em>lucene</em>与IKAnalyzer的全文检索 全文检索概念 全文检索首先将要查询的目标数据源中的一部分信息提取出来,组成索引,通过查询索引达到搜索目标数据源的目的,所以速度较快。这种先建立索引,再对索引进行搜索的过程就叫全文检索(Full-text Search) 全文检索技术是搜索引擎的核心支撑技术。 全文检索的应用领域 对于数据量大、数据结构不固定的数据可采用全文检索方式搜索,比...
Python.Cookbook(第2版)中文版下载
Python.Cookbook(第2版)中文版 Python.Cookbook(第2版)中文版 相关下载链接:[url=//download.csdn.net/download/mayle/5066227?utm_source=bbsseo]//download.csdn.net/download/mayle/5066227?utm_source=bbsseo[/url]
asp.net分页控件 多种样式 自己选择下载
asp.net分页控件 可直接使用 多种样式 自己选择 相关下载链接:[url=//download.csdn.net/download/kappawfy/2032794?utm_source=bbsseo]//download.csdn.net/download/kappawfy/2032794?utm_source=bbsseo[/url]
非常经典的C++或JAVA编程题全集(中)(包含源代码).下载
非常经典的C++或JAVA编程题全集,50十题,包含题目和所有C++代码实现。全部代码都是本人亲自写的,并在devC++ 7.0上面通过测试的! 相关下载链接:[url=//download.csdn.net/download/JczmDeveloper/2065720?utm_source=bbsseo]//download.csdn.net/download/JczmDeveloper/2065720?utm_source=bbsseo[/url]
文章热词 设计制作学习 机器学习教程 Objective-C培训 交互设计视频教程 颜色模型
相关热词 mysql关联查询两次本表 native底部 react extjs glyph 图标 大数据培训下载 java就业班 下载
我们是很有底线的