word2vec已有模板的语料添加扩充，新手求助

winterray 2017-11-09 02:41:15

初接触机器学习，利用搜狗实验室的中文语料完成了一个完整的word2vec的语料模板训练。
有些问题想跟各位大神交流下，希望能得到帮助~谢谢

模板生成的核心代码如下：
sentences = word2vec.Text8Corpus("corpusSegDone.txt") # 加载语料
model = word2vec.Word2Vec(sentences, size=300) #训练skip-gram模型，300维向量
model.save("testModel.model")

但如果在这基础上想对模板进行语料扩充应该怎么操作？
总不至于在原有txt文档的基础上，加上新语料内容，重新训练出一个新model吧？

另外，现在我想基于已有model对收到的文章做舆情分析和聚类操作，考虑对每一篇文章的分词，再将分词结果基于model进行线性相加（如果有特定关键词加权），结果将是每篇文章都有一个独立的300维度向量值

而当聚类时：
如果用K-means算法聚类相似文章，是不是一定要事先为机器约定需要聚类的结果类总数？
这么考虑的话，对于不断导入的新数据，是不是用中国餐馆算法会更实际？

...全文

460 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

龙洞洞主 2019-07-05

打赏
举报

回复

http://qiuqingyu.cn/2017/03/14/Word2vec%E8%AE%AD%E7%BB%83%E5%A5%BD%E7%9A%84%E6%A8%A1%E5%9E%8B%E4%B8%AD%E5%8A%A0%E5%85%A5%E6%96%B0%E8%AF%8D/

攀攀的跟屁虫 2018-05-30

打赏
举报

回复

楼主，想向你请教特定关键词加权方面的知识，有相关文献可以推荐吗

其中包括C语言的Word2vec源代码（从官网下载），自定义爬取的三大百科（百度百科、互动百科、维基百科）中文语料，涉及到国家、景区、动物和人物。同时包括60M的腾讯新闻语料，是一个txt，每行相当于一个新闻。 ...

目录中文语料处理法一：语料处理为列表法二：语料是文件（处理为迭代器）对一个目录下的所有文件生效（法1）对一个目录下的所有文件生效（法2） ...word2vec中文语料处理及模型训练实践 python gensi...

最近在做一个问答系统，...网上大都是对wiki百科开源的中文语料进行训练的，很多作者都会对自己构建的语料进行向量模型计算，因此，我也需要进行训练，可供选择的两种算法一种是word2vec算法，一种是Glove算法，但是...

虽然Word2Vec在NLP领域很火，但网上关于Word2Vec中文语料训练的入门级资料比较少，所以本人整理了一份，希望对感兴趣的朋友有所帮助！本文使用的语料由作者亲自收集，代码由作者亲自编写，亲测有效！如有问题...

目录一、数据获取二、将xml格式数据转为txt 三、繁体转为简体方法1---自己使用opencc库手动了1个转换程序，pip install opencc进行安装方法2---网上有一个exe应用程序进行...五、Word2Vec模型训练六、W...

37,721

社区成员

34,239

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章