word2vec已有模板的语料添加扩充,新手求助

winterray 2017-11-09 02:41:15
初接触机器学习,利用搜狗实验室的中文语料完成了一个完整的word2vec的语料模板训练。
有些问题想跟各位大神交流下,希望能得到帮助~谢谢

模板生成的核心代码如下:
sentences = word2vec.Text8Corpus("corpusSegDone.txt") # 加载语料
model = word2vec.Word2Vec(sentences, size=300) #训练skip-gram模型,300维向量
model.save("testModel.model")

但如果在这基础上想对模板进行语料扩充应该怎么操作?
总不至于在原有txt文档的基础上,加上新语料内容,重新训练出一个新model吧?

另外,现在我想基于已有model对收到的文章做舆情分析和聚类操作,考虑对每一篇文章的分词,再将分词结果基于model进行线性相加(如果有特定关键词加权),结果将是每篇文章都有一个独立的300维度向量值

而当聚类时:
如果用K-means算法聚类相似文章,是不是一定要事先为机器约定需要聚类的结果类总数?
这么考虑的话,对于不断导入的新数据,是不是用中国餐馆算法会更实际?
...全文
460 2 打赏 收藏 转发到动态 举报
写回复
用AI写文章
2 条回复
切换为时间正序
请发表友善的回复…
发表回复
龙洞洞主 2019-07-05
  • 打赏
  • 举报
回复
http://qiuqingyu.cn/2017/03/14/Word2vec%E8%AE%AD%E7%BB%83%E5%A5%BD%E7%9A%84%E6%A8%A1%E5%9E%8B%E4%B8%AD%E5%8A%A0%E5%85%A5%E6%96%B0%E8%AF%8D/
攀攀的跟屁虫 2018-05-30
  • 打赏
  • 举报
回复
楼主,想向你请教特定关键词加权方面的知识,有相关文献可以推荐吗

37,721

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • IT.BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧