Python基于同义词词林,知网,指纹,字词向量,向量空间模型的句子相似度计算项目源代码
中文句子相似度计算,目前包括word-level和sentence-level两个level的计算方法。前者的思想是通过对句子进行分词,分别计算两个比较句中所含词汇的相似度。后者主要采用句子建模的方法。
1、word-level的方法
word-level的方法包括两个核心问题,1)word之间的相似度计算问题 ,2)将句子中多个word相似度进行加权融合的问题。
1)word之间相似度的计算问题
word之间相似度的计算问题,分成两种,一种是形态(包括字符级的形态以及词语级的形态)上的相似,这个在英语中是比较可行的,英语中可以将词语进行词干化,而在中文中并不适用,例如‘爸爸’和‘父亲’实际上是同一个词,但是形态上的相似度是0,这显然是不行的。 因此诞生了第二种方法,基于语义知识库的词语相似度计算。
, 相关下载链接:
https://download.csdn.net/download/2301_76484015/89227274?utm_source=bbsseo