请大家多多来讨论:中文地址匹配算法
大家知道中文检索中经常要用到 词句分割 算法的,但是中文地址匹配可能是比较特殊的,比如:用户输入“北京宣武区广外大街××路××号”进行查询,现需要一匹配算法,从地址库中匹配出相关的记录。
我想这可能不是一个挑出其中的单词,然后逐个进行匹配,能较完美地解决的。比较稳妥点儿的方法是:先对地址库中的街道地址进行标准化,可能是这样的表结构:
行政区 | 地名| sub-地名(可能是区名)| 街道 | 门牌
然后把分割后的查询条件,逐个匹配地址库里的记录,对相似的记录进行打分 Rank,类似Google的 page rank。
复杂在如何确定打分的标准,可能要照顾一些拼写错误和发音错误。
当然,这只是一部分,可能会有地名匹配和邮政编码匹配的情况,比如:用户输入北京西单文化广场,或者 100001 等,都可以进行地址查找的。
就大概是这个意思,不知道我说明白没有,希望大家给点算法方面的思路或者告诉我需要关注哪些重点。