社区
Java
帖子详情
[求助]统计一个英文文档里面的所有词组信息
Thierry_xiao
2013-01-05 01:15:49
求大神指教啊,一个30M的英文文档统计里面的英文词组的详细信息(把包含的词组显示出来以及词组出现的次数啊之类的)。求指导求思路、、、小的感激不尽啊!
...全文
197
1
打赏
收藏
[求助]统计一个英文文档里面的所有词组信息
求大神指教啊,一个30M的英文文档统计里面的英文词组的详细信息(把包含的词组显示出来以及词组出现的次数啊之类的)。求指导求思路、、、小的感激不尽啊!
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
1 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
Thierry_xiao
2013-01-05
打赏
举报
回复
有没有人做过这样的统计啊,求大神指导下哦。谢谢哦
VBA
统计
WORD
文档
中汉字、
英文
及其组合出现的次数,并输出
使用VBA
统计
WORD
文档
中汉字、
英文
及其组合出现次数,使用前需在word内插入textbox1和commandbutton1,可去掉
文档
标点。代码通过简单for、do循环实现,理论上能
统计
999个字符文本,增加数组体积可增加
统计
文本数量,结合中文词典可输出特定
词组
统计
数量。
【项目实战】
统计
一篇
文档
中出现频次最高的
词组
(中文
文档
)优先使用Python + jieba库,需过滤停用词。(
英文
文档
)推荐Python + nltk库或C++实现。
该博客围绕
统计
文档
中出现频次最高的
词组
展开。针对中文
文档
,推荐Python + jieba库,需过滤停用词;
英文
文档
推荐Python + nltk库或C++实现。非技术用户可使用Word查找功能或Excel公式,但效率低。还提到通用工具及注意事项,如验证结果准确性、考虑TF - IDF算法等。
使用ntlk完成
英文
单词及二元
词组
的词频
统计
本文介绍了Python自然语言处理工具包NLTK,包括其历史和现状。详细说明了NLTK的环境配置,如使用pip安装库和引入模块。还展示了如何使用NLTK完成
英文
单词及二元词汇词频
统计
,包括代码输入输出格式、停用词引入等,最后附上了常用停用词。
对
英文
文档
中的单词与
词组
进行频率
统计
本文介绍了
一个
用于
英文
文本的单词及
词组
频率
统计
的程序。程序首先读取文件并清洗数据,然后
统计
单词频率,最后
统计
词组
频率。在
词组
统计
中,采用森林数据结构存储
词组
信息
,并通过广度优先遍历进行格式化。
Python读取文件后进行词频
统计
本文介绍了如何使用Python对
英文
和中文文件进行词频
统计
。针对
英文
文档
,通过转换为小写并移除标点来
统计
词频;而对于中文
文档
,则借助jieba库进行分词并
统计
词频。完整代码和运行效果在文中给出。
Java
51,409
社区成员
86,087
社区内容
发帖
与我相关
我的任务
Java
Java相关技术讨论
复制链接
扫一扫
分享
社区描述
Java相关技术讨论
java
spring boot
spring cloud
技术论坛(原bbs)
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章