用java如何统计给出的一段文章中的所有中文词组的数量？

rcrain 2005-10-23 10:08:39

用java如何统计给出的一段文章中的所有中文词组的数量？谢谢！

...全文

506 17 打赏收藏转发到动态举报

写回复

17 条回复

切换为时间正序

请发表友善的回复…

发表回复

chinatelly 2005-12-17

打赏
举报

回复

www.nlp.org.cn上有一个开源项目，是中文分词的，还有java的调用方法

niko7 2005-11-27

打赏
举报

回复

需要词库支持，同时光有词库也不够。

Ayor 2005-11-26

打赏
举报

回复

感觉挻难的说,不过一般要词库对应检索,,,,

成富 2005-11-25

打赏
举报

回复

分词不是个简单的问题，现在也不知道有什么好的基于JAVA的中文分词工具。

believefym 2005-11-25

打赏
举报

回复

to: ericqxg007(一笑而过)
建议你看看正则式，看了之后你以后可能都不太会去用StringTokenizer了

chinatelly 2005-11-25

打赏
举报

回复

分词算法可以分为三大类：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
分词词典是中文自动分词系统的一个基本组成部分。
中文分词的词典一般分为三类：
1、基于整词二分的分词词典
2、基于TRIE索引树的分词词典机制
3、基于逐字二分的分词词典机制

ericqxg007 2005-10-24

打赏
举报

回复

该类包含在 java.util包中。（jdk 1.5)

ericqxg007 2005-10-24

打赏
举报

回复

StringTokenizer类可以分析处字符串并将字符串分解成可被独立使用的单词（识别英文单词没有问题就是不知道能不能识别中文单词）

这个类有两个常用的构造方法：
StringTokenizer（String s）为字符串构造一个分析器，使用默认的分隔符集合，－－>即空格符、换行符、回车符、Tab符；
StringTokenizer（String s，String delim）为字符串构造一个分析器，参数dilim中的字符作为分隔符、

另外可以调用countTokens（）方法得到计数变量的值。
楼主可以参考这个类看看

xiaomantoubaba 2005-10-24

打赏
举报

回复

词组？
可以大概统计出来，但是不能精确。
中科院有个分词算法的东西。
不过商业应用的话估计要给很多钱。

rcrain 2005-10-24

打赏
举报

回复

中文词组库太庞大了吧，感觉不妥，

superslash 2005-10-23

打赏
举报

回复

gz

柯本 2005-10-23

打赏
举报

回复

可先建一个中文词组库(可以用输入法的词组或汉英字典中的中文词组),然后再处理文本

王洲 2005-10-23

打赏
举报

回复

统计中文的数量可以用正则表达式，统计词组可能就有点难了
关注关注

believefym 2005-10-23

打赏
举报

回复

中文词组？
用正则式可以统计中文个数或者中文片断数

chinatelly 2005-10-23

打赏
举报

回复

用lucene怎么样？这个是一个全文检索的，可以支持中文分词

说好不能打脸 2005-10-23

打赏
举报

回复

关注、学习、思考

lda分类,想做一个关于文本分类的lda应用，想向大家请教些

例：现有如下文本："Java语言是面向对象的，Java语言是健壮的，Java语言是安全的，Java是高性能的，Java语言是跨平台的"。请编写程序，统计该文本中"Java"一词出现的次数。方法三：reserve("被替换的字符","将要替换成的字符")方法替换掉"Java"+字符串长度相减。方法二：sunstring()方法得索引+substring()方法截取。方法一：常规做法（for循环遍历+if判断语句逐层判断）

【代码】Java 结合中文分词库 jieba 统计一堆文本中各个词语的出现次数【代码记录】

要求：写一个程序，分析一个文本文件(英文文本)中各个词出现的频率，并且把频率最高的10个词打印出来。解决步骤：1. 读取 txt 文本文件；2. 统计文本中每个词出现的次数；3. 进行排序，打印频率最高的10个词；4. 将结果写入txt文件。实现思路：1. 利用输入流和输出流实现对文件内容的输入输出；2. 将文件内容存入StringBuffer中；3. 利用String的split()方法将字符串...

以下代码对鲁迅的《祝福》进行了词频统计:import ioimport jiebatxt = io.open("zhufu.txt", "r", encoding='utf-8').read()words = jieba.lcut(txt)counts = {}for word in words:if len(word) == 1:continueelse:counts[word] = coun...

62,628

社区成员

307,259

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章