根据搜狗字典对大文本进行分词获得出现率最高的词语

wolf_in_sky 2016-02-13 05:22:54

情景是需要根据大文本内容自动给大文本添加一个标签，这个标签呢必须是搜狗字典里面的词语也就是分词系统变种首先是先用分词将大文本进行切割然后将得到的每一个词语和字典进行匹配，成功之后再根据频率获得最高频率的词语作为标签，，这个东西我这样写效率太低太麻烦，求解决方式

...全文

92 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

实验步骤文本自动分词基于正向最大匹配算法对文本进行分词基于反向最大匹配算法对文本进行分词对分词效果进行评估文本表示（tf-idf）利用夹角余弦计算文本相似度文本自动分词基于正向最大匹配算法对文本进行分词 ...

本篇文章主要内容介绍了文本分词的技术演变过程和技术选型办法

笔者寄语：与前面的RsowballC分词不同的地方在于这是一个中文的分词包，简单易懂，分词是一个非常重要的步骤，可以通过一些字典，进行特定分词。大致分析步骤如下：数据导入——选择分词字典——分词但是下载...

本文作为曾经在实验室工作的少许经验，记录当初对文本分类方面的部分实践过程。文本语料来自搜狗语料库中的新闻语料，文章采用scikit-learn、gensim和jieba库提供的函数实现各类文本处理过程，最终在LR模型下取得97%...

功能：训练给定的模型列表，并评估每个模型的性能。...(2)tokenizer.fit_on_texts(df['text'])和sequences = tokenizer.texts_to_sequences(df['text'])功能：使用Keras的Tokenizer进行文本向量化输入：文本列表。

87,992

社区成员

224,688

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章