算法小白,求一个文本模糊匹配关键词的算法方案或思路
望_mm 2020-08-07 03:26:12 背景:
1、人工维护一个关键词库(目前不到10W个),关键词特点:支持多国语言(英文居多),普遍长度较长(平均长度42)
2、给定一段文本,文本长度普遍在500-1000之间,文本无法确定语种也可能是多语种混杂,所以要所有关键字都匹配一遍
要求:
1、从文本中找出所有出现的关键词,并给出关键词所在位置(用于高亮显示)
2、关键词匹配时不区分大小写
3、关键词匹配时允许错几个字符(如关键词长度在30-50之间的,允许2个字符匹配错误)
举例说明:
关键词:Caffeine,允许错1个字符
可以匹配到文本中的如下内容:caffein、caffeina、caffeine等