和大家讨论个话题:字符串的归类问题
设一个字符串S为若干单词的组合S={w1,w2,w3....wn}
比如:S1="This is a demo string" = { "This", "is", "a", "demo", "string" }
那么现在有很多个字符串S1...SN,里面出现过的单词有M个,比如有100个字符串,里面含有C个单词
其单词的总集合为I={W1,W2,W3...WC},那么可以说某一个字符串总是这个总集合的子集合。
嘿嘿,那么这既是一题数学题目也是一题统计学题目,更是一题算法题目。
那么问题出来了:如果两个句子有70%的单词是重复的话,被认为是相似的,也就是说
"This is a demo string"
"This is a demo text"
他们两个是相似的。
终极目标是,如何对这么多的字符串进行归类??嘿嘿