如何实现新闻内容关键词自动添加链接功能?希望高手解答!

xuleit 2008-04-16 02:36:35
刚刚接到公司的一个任务,要将新闻内容显示部分的部分关键词,例如"体育",等加上相关链接,链接到另外的页面,例如:sport.sina.com

我目前有两个想法:
想法一 直接利用关键词进行正则匹配,替换.
例如:网站编辑添加1000个关键词和相关链接,我在新闻里边查找这些关键词,如果找到,换成带有链接的关键词.

想法二 先将页面内容进行分词处理,然后在词库里边查找这些关键词,替换成带有链接的关键词.
例如:有一篇新闻有5000字,先通过一定的技术将他们切分为大约2000个关键字,然后在词库里边搜索出这些词对应的链接,替换掉它们.


第一种方法最简单,但是如果词库比较大,例如有10万个关键字的词库,那么运行效率就低下了.

第二种方法复杂一些,但是在词库达到一定数量级,例如关键词库有1万个以上,运行效率明显比第一种高.


第二种方法还有一个需要解决的问题是:如果关键词库到达一个量级,可能新闻内容里边几乎所有的内容都会被加上链接(极端情况下).在这样的情况下,如何将跟本文内容最为匹配的那些关键词加上链接,而不是全部加上,也是需要考虑的问题.

希望这里的朋友帮我研究一下,有任何建议,都不胜感激!

谢谢





...全文
352 点赞 收藏 5
写回复
5 条回复
切换为时间正序
当前发帖距今超过3年,不再开放新的回复
发表回复
等待牛人来答.
回复
meiZiNick 2008-04-30
我也想了解,谢谢LZ.
回复
ten789 2008-04-16
词是无限的 有用是有限的 录入文章的时候要给文章关键词吧 词库里有分类吧 只连接本分类下的关键词会更准确

个人认为关键词连接是建立索引时的副产品 不如考虑使用成熟的产品
回复
剑心永远OK 2008-04-16
匹配关键字的是一段字符串,每两个字进行匹配,然后存入一个字段,然后建立索引
回复
fxs_2008 2008-04-16
首先你的关键词策略问题!
你可能进行所有匹配,进行所有匹配不是一种最佳策略!
个人认为有两种策略:
一是关键词进行匹配,这个关键词是文章的关键词!(可以是人工或自动升成的)一般定义为三个到五个!
二是根据业务确定关键词,比如你要做哪个词的广告!是很具体的!
比如新浪的股票名称链接,就是一个很具体的业务!
三,关键词的生成要有实际意义!

到于如何生成,你的两种方法都是可以的!
回复
相关推荐
发帖
基础编程
创建于2007-09-28

2.1w+

社区成员

从PHP安装配置,PHP入门,PHP基础到PHP应用
申请成为版主
帖子事件
创建了帖子
2008-04-16 02:36
社区公告
暂无公告