社区
数据结构与算法
帖子详情
求算法:判断任意网页的文章标题和文章内容,特别是内容。
eduyu
2009-01-25 12:23:05
网页上有很多文字,其中有的区域的文字是广告,或者别的信息,我需要一个比较好的判断网页文章内容和标题的算法,特别是内容。谢谢!
...全文
109
7
打赏
收藏
求算法:判断任意网页的文章标题和文章内容,特别是内容。
网页上有很多文字,其中有的区域的文字是广告,或者别的信息,我需要一个比较好的判断网页文章内容和标题的算法,特别是内容。谢谢!
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
7 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
eduyu
2009-01-29
打赏
举报
回复
靠,蒋大哥太了解偶了,要的就是这个。
我也想过用网页的视觉结果来判断内容。这符合人对内容判断的思路。原以为这样做太将就,
看到这些人这么认真的这么做,估计也就这样了。
蒋晟
2009-01-28
打赏
举报
回复
http://www.cs.uiuc.edu/homes/dengcai2/VIPS/VIPS.html
不过我测试的结果命中率不高。
IONPhantom
2009-01-28
打赏
举报
回复
这个应该属人工智能板块吧..
猫已经找不回了
2009-01-27
打赏
举报
回复
问google是怎么做的。。
hityct1
2009-01-27
打赏
举报
回复
标题好办,查找以下两个字符串就可以了。
<title>
</title>
判断内容不好办,对特定网站的特定格式还可以,一般情况那就难了。估计地球人还没实现呢。
na2650945
2009-01-26
打赏
举报
回复
友情。
绿色夹克衫
2009-01-25
打赏
举报
回复
这个,具体我也不太清楚,应当是对网页的内容或标题分词后,每个词应该都可以表示为一个多维向量(根据词义,比如体育,比如战争......),
根据这些词的向量累加,找出整篇文章的核心向量,从而找出一个或多个核心词,利用这些核心词,应该就能相对准确的表达文章的核心内容了。
隐马尔科夫
算法
:中文分词神器
本课程首先以一个简单的应用案例介绍了隐马尔科夫
算法
和隐马尔科夫能解决的三类问题,并构造隐马尔科夫五元组。 由此引出了隐马尔科夫分词
算法
,并以分词实际应用为例,介绍了隐马尔科夫分词
算法
的整个逻辑包括参数...
数据结构和
算法
:什么是数据结构,什么是
算法
文章
标题
前言 前言 这几天在复习数据结构的
Python检测
文章
抄袭,谈谈去重
算法
原理
文章
去重(或叫
网页
去重)是根据
文章
(或
网页
)的文字
内容
来
判断
多个
文章
之间是否重复。这是爬虫爬取大量的文本行
网页
(新闻
网页
、博客
网页
等)后要进行的非常重要的一项操作,也是搜索引擎非常关心的一个问题。搜索...
字符串相似度比较
算法
:Jaro–Winkler similarity的原理及实现
前言 在前面的
文章
中,笔者有对编辑距离以及Levenshtein距离进行详细的说明,其实levenshtein距离是编辑距离的其中一种定义,本文所说的...
标题
算法
定义 下面先说说Jaro distance(又称Jaro similarity),这是由Matt...
从动力学角度看优化
算法
:自适应学习率
算法
作者丨苏剑林单位丨广州火焰信息科技有限公司研究方向丨NLP,神经网络个人主页丨kexue.fm在从动力学角度看优化
算法
SGD:一些小启示一文中,我们提出 SGD 优化
算法
...
数据结构与算法
33,007
社区成员
35,326
社区内容
发帖
与我相关
我的任务
数据结构与算法
数据结构与算法相关内容讨论专区
复制链接
扫一扫
分享
社区描述
数据结构与算法相关内容讨论专区
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章