用java如何统计给出的一段文章中的所有中文词组的数量?

rcrain 2005-10-23 10:08:39
用java如何统计给出的一段文章中的所有中文词组的数量?谢谢!
...全文
506 17 打赏 收藏 转发到动态 举报
写回复
用AI写文章
17 条回复
切换为时间正序
请发表友善的回复…
发表回复
chinatelly 2005-12-17
  • 打赏
  • 举报
回复
www.nlp.org.cn上有一个开源项目,是中文分词的,还有java的调用方法
niko7 2005-11-27
  • 打赏
  • 举报
回复
需要词库支持,同时光有词库也不够。
Ayor 2005-11-26
  • 打赏
  • 举报
回复
感觉挻难的说,不过一般要词库对应检索,,,,
成富 2005-11-25
  • 打赏
  • 举报
回复
分词不是个简单的问题,现在也不知道有什么好的基于JAVA的中文分词工具。
believefym 2005-11-25
  • 打赏
  • 举报
回复
to: ericqxg007(一笑而过)
建议你看看正则式,看了之后你以后可能都不太会去用StringTokenizer了
chinatelly 2005-11-25
  • 打赏
  • 举报
回复
分词算法可以分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
分词词典是中文自动分词系统的一个基本组成部分。
中文分词的词典一般分为三类:
1、基于整词二分的分词词典
2、基于TRIE索引树的分词词典机制
3、基于逐字二分的分词词典机制
ericqxg007 2005-10-24
  • 打赏
  • 举报
回复
该类包含在 java.util包中。(jdk 1.5)
ericqxg007 2005-10-24
  • 打赏
  • 举报
回复
StringTokenizer类可以分析处字符串并将字符串分解成可被独立使用的单词(识别英文单词没有问题就是不知道能不能识别中文单词)

这个类有两个常用的构造方法:
StringTokenizer(String s)为字符串构造一个分析器,使用默认的分隔符集合,-->即空格符、换行符、回车符、Tab符;
StringTokenizer(String s,String delim)为字符串构造一个分析器,参数dilim中的字符作为分隔符、

另外可以调用countTokens()方法得到计数变量的值。
楼主可以参考这个类看看
xiaomantoubaba 2005-10-24
  • 打赏
  • 举报
回复
词组?
可以大概统计出来,但是不能精确。
中科院有个分词算法的东西。
不过商业应用的话估计要给很多钱。
rcrain 2005-10-24
  • 打赏
  • 举报
回复
中文词组库太庞大了吧,感觉不妥,
superslash 2005-10-23
  • 打赏
  • 举报
回复
gz
柯本 2005-10-23
  • 打赏
  • 举报
回复
可先建一个中文词组库(可以用输入法的词组或汉英字典中的中文词组),然后再处理文本
王洲 2005-10-23
  • 打赏
  • 举报
回复
统计中文的数量可以用正则表达式,统计词组可能就有点难了
关注关注
believefym 2005-10-23
  • 打赏
  • 举报
回复
中文词组?
用正则式可以统计中文个数或者中文片断数
chinatelly 2005-10-23
  • 打赏
  • 举报
回复
用lucene怎么样?这个是一个全文检索的,可以支持中文分词
说好不能打脸 2005-10-23
  • 打赏
  • 举报
回复
关注、学习、思考

62,628

社区成员

发帖
与我相关
我的任务
社区描述
Java 2 Standard Edition
社区管理员
  • Java SE
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧