如何实现新闻内容关键词自动添加链接功能?希望高手解答!
刚刚接到公司的一个任务,要将新闻内容显示部分的部分关键词,例如"体育",等加上相关链接,链接到另外的页面,例如:sport.sina.com
我目前有两个想法:
想法一 直接利用关键词进行正则匹配,替换.
例如:网站编辑添加1000个关键词和相关链接,我在新闻里边查找这些关键词,如果找到,换成带有链接的关键词.
想法二 先将页面内容进行分词处理,然后在词库里边查找这些关键词,替换成带有链接的关键词.
例如:有一篇新闻有5000字,先通过一定的技术将他们切分为大约2000个关键字,然后在词库里边搜索出这些词对应的链接,替换掉它们.
第一种方法最简单,但是如果词库比较大,例如有10万个关键字的词库,那么运行效率就低下了.
第二种方法复杂一些,但是在词库达到一定数量级,例如关键词库有1万个以上,运行效率明显比第一种高.
第二种方法还有一个需要解决的问题是:如果关键词库到达一个量级,可能新闻内容里边几乎所有的内容都会被加上链接(极端情况下).在这样的情况下,如何将跟本文内容最为匹配的那些关键词加上链接,而不是全部加上,也是需要考虑的问题.
希望这里的朋友帮我研究一下,有任何建议,都不胜感激!
谢谢