word2vec已有模板的语料添加扩充,新手求助
初接触机器学习,利用搜狗实验室的中文语料完成了一个完整的word2vec的语料模板训练。
有些问题想跟各位大神交流下,希望能得到帮助~谢谢
模板生成的核心代码如下:
sentences = word2vec.Text8Corpus("corpusSegDone.txt") # 加载语料
model = word2vec.Word2Vec(sentences, size=300) #训练skip-gram模型,300维向量
model.save("testModel.model")
但如果在这基础上想对模板进行语料扩充应该怎么操作?
总不至于在原有txt文档的基础上,加上新语料内容,重新训练出一个新model吧?
另外,现在我想基于已有model对收到的文章做舆情分析和聚类操作,考虑对每一篇文章的分词,再将分词结果基于model进行线性相加(如果有特定关键词加权),结果将是每篇文章都有一个独立的300维度向量值
而当聚类时:
如果用K-means算法聚类相似文章,是不是一定要事先为机器约定需要聚类的结果类总数?
这么考虑的话,对于不断导入的新数据,是不是用中国餐馆算法会更实际?