NLP之相关反馈
在大多数数据集中,同一个概念可以有不同的词进行表达,这个现象就是一义多词,这会对大部分的信息检索系统的召回率产生影响。在这里我们谈一下查询优化中的相关反馈的概念和方法。
相关反馈(RF)的主要思想是,用户会对初次检索的结果的相关性给出反馈意见,其基本过程包括:
1 用户提交一个初始的简短查询
2 系统返回初次检索结果
3 用户对部分结果进行标注(相关性,不相关性)
4 系统基于用户的反馈计算出一个更好的查询表示系统需求
5 利用新查询系统返回新的检索结果
上述过程可以反复多次循环。而相关反馈是依赖于某些假设。第一,用户必须有足够的知识来建立一个不错的初始查询,该查询至少要在某种程度上接近需求文档。第二,相关反馈方法要求相关文档之间非常相似。
相关反馈的算法——Rocchio算法
基本理论,假设我们要找一个最优的查询向量q,也就是查询语句关键词特征,它与相关文档之间的相似度最大同时又和不相关文档之间相似度最小。若Cr 表示相关文档集,Cnr表示不相关文档集,那么我们的最优查询向量q就是
q=argmax{sim(q,Cr)-sim(q,Cnr)} 其中sim是余弦相似度公式。