社区
Java SE
帖子详情
用java如何统计给出的一段文章中的所有中文词组的数量?
rcrain
2005-10-23 10:08:39
用java如何统计给出的一段文章中的所有中文词组的数量?谢谢!
...全文
506
17
打赏
收藏
用java如何统计给出的一段文章中的所有中文词组的数量?
用java如何统计给出的一段文章中的所有中文词组的数量?谢谢!
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
17 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
chinatelly
2005-12-17
打赏
举报
回复
www.nlp.org.cn上有一个开源项目,是中文分词的,还有java的调用方法
niko7
2005-11-27
打赏
举报
回复
需要词库支持,同时光有词库也不够。
Ayor
2005-11-26
打赏
举报
回复
感觉挻难的说,不过一般要词库对应检索,,,,
成富
2005-11-25
打赏
举报
回复
分词不是个简单的问题,现在也不知道有什么好的基于JAVA的中文分词工具。
believefym
2005-11-25
打赏
举报
回复
to: ericqxg007(一笑而过)
建议你看看正则式,看了之后你以后可能都不太会去用StringTokenizer了
chinatelly
2005-11-25
打赏
举报
回复
分词算法可以分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
分词词典是中文自动分词系统的一个基本组成部分。
中文分词的词典一般分为三类:
1、基于整词二分的分词词典
2、基于TRIE索引树的分词词典机制
3、基于逐字二分的分词词典机制
ericqxg007
2005-10-24
打赏
举报
回复
该类包含在 java.util包中。(jdk 1.5)
ericqxg007
2005-10-24
打赏
举报
回复
StringTokenizer类可以分析处字符串并将字符串分解成可被独立使用的单词(识别英文单词没有问题就是不知道能不能识别中文单词)
这个类有两个常用的构造方法:
StringTokenizer(String s)为字符串构造一个分析器,使用默认的分隔符集合,-->即空格符、换行符、回车符、Tab符;
StringTokenizer(String s,String delim)为字符串构造一个分析器,参数dilim中的字符作为分隔符、
另外可以调用countTokens()方法得到计数变量的值。
楼主可以参考这个类看看
xiaomantoubaba
2005-10-24
打赏
举报
回复
词组?
可以大概统计出来,但是不能精确。
中科院有个分词算法的东西。
不过商业应用的话估计要给很多钱。
rcrain
2005-10-24
打赏
举报
回复
中文词组库太庞大了吧,感觉不妥,
superslash
2005-10-23
打赏
举报
回复
gz
柯本
2005-10-23
打赏
举报
回复
可先建一个中文词组库(可以用输入法的词组或汉英字典中的中文词组),然后再处理文本
王洲
2005-10-23
打赏
举报
回复
统计中文的数量可以用正则表达式,统计词组可能就有点难了
关注关注
believefym
2005-10-23
打赏
举报
回复
中文词组?
用正则式可以统计中文个数或者中文片断数
chinatelly
2005-10-23
打赏
举报
回复
用lucene怎么样?这个是一个全文检索的,可以支持中文分词
说好不能打脸
2005-10-23
打赏
举报
回复
关注、学习、思考
lda.zip_lda_lda文本分类
lda分类,想做一个关于文本分类的lda应用,想向大家请教些
用
java
统计
一段
字符串
中
某词出现的次数
例:现有如下文本:"
Java
语言是面向对象的,
Java
语言是健壮的,
Java
语言是安全的,
Java
是高性能的,
Java
语言是跨平台的"。请编写程序,
统计
该文本
中
"
Java
"一词出现的次数。方法三:reserve("被替换的字符","将要替换成的字符")方法替换掉"
Java
"+字符串长度相减。方法二:sunstring()方法得索引+substring()方法截取。方法一:常规做法(for循环遍历+if判断语句逐层判断)
Java
结合
中
文
分词库 jieba
统计
一堆文本
中
各个词语的出现次数【代码记录】
【代码】
Java
结合
中
文
分词库 jieba
统计
一堆文本
中
各个词语的出现次数【代码记录】
java
+txt+词语+次数_分析一个文本文件
中
各个词出现的频率(
java
实现)
要求:写一个程序,分析一个文本文件(英文文本)
中
各个词出现的频率,并且把频率最高的10个词打印出来。解决步骤:1. 读取 txt 文本文件;2.
统计
文本
中
每个词出现的次数;3. 进行排序,打印频率最高的10个词;4. 将结果写入txt文件。实现思路:1. 利用输入流和输出流实现对文件内容的输入输出;2. 将文件内容存入StringBuffer
中
;3. 利用String的split()方法将字符串...
python
中
文
怎么通过jieba分词计算
数量
_【python】利用jieba
中
文
分词进行词频
统计
...
以下代码对鲁迅的《祝福》进行了词频
统计
:import ioimport jiebatxt = io.open("zhufu.txt", "r", encoding='utf-8').read()words = jieba.lcut(txt)counts = {}for word in words:if len(word) == 1:continueelse:counts[word] = coun...
Java SE
62,628
社区成员
307,259
社区内容
发帖
与我相关
我的任务
Java SE
Java 2 Standard Edition
复制链接
扫一扫
分享
社区描述
Java 2 Standard Edition
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章