求算法:判断任意网页的文章标题和文章内容,特别是内容。

eduyu 2009-01-25 12:23:05
网页上有很多文字,其中有的区域的文字是广告,或者别的信息,我需要一个比较好的判断网页文章内容和标题的算法,特别是内容。谢谢!
...全文
109 7 打赏 收藏 转发到动态 举报
写回复
用AI写文章
7 条回复
切换为时间正序
请发表友善的回复…
发表回复
eduyu 2009-01-29
  • 打赏
  • 举报
回复
靠,蒋大哥太了解偶了,要的就是这个。
我也想过用网页的视觉结果来判断内容。这符合人对内容判断的思路。原以为这样做太将就,
看到这些人这么认真的这么做,估计也就这样了。
蒋晟 2009-01-28
  • 打赏
  • 举报
回复
http://www.cs.uiuc.edu/homes/dengcai2/VIPS/VIPS.html
不过我测试的结果命中率不高。
IONPhantom 2009-01-28
  • 打赏
  • 举报
回复
这个应该属人工智能板块吧..
  • 打赏
  • 举报
回复
问google是怎么做的。。
hityct1 2009-01-27
  • 打赏
  • 举报
回复
标题好办,查找以下两个字符串就可以了。
<title>
</title>

判断内容不好办,对特定网站的特定格式还可以,一般情况那就难了。估计地球人还没实现呢。
na2650945 2009-01-26
  • 打赏
  • 举报
回复
友情。
绿色夹克衫 2009-01-25
  • 打赏
  • 举报
回复
这个,具体我也不太清楚,应当是对网页的内容或标题分词后,每个词应该都可以表示为一个多维向量(根据词义,比如体育,比如战争......),
根据这些词的向量累加,找出整篇文章的核心向量,从而找出一个或多个核心词,利用这些核心词,应该就能相对准确的表达文章的核心内容了。

33,007

社区成员

发帖
与我相关
我的任务
社区描述
数据结构与算法相关内容讨论专区
社区管理员
  • 数据结构与算法社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧