社区
数据结构与算法
帖子详情
求算法:判断任意网页的文章标题和文章内容,特别是内容。
eduyu
2009-01-25 12:23:05
网页上有很多文字,其中有的区域的文字是广告,或者别的信息,我需要一个比较好的判断网页文章内容和标题的算法,特别是内容。谢谢!
...全文
158
7
打赏
收藏
求算法:判断任意网页的文章标题和文章内容,特别是内容。
网页上有很多文字,其中有的区域的文字是广告,或者别的信息,我需要一个比较好的判断网页文章内容和标题的算法,特别是内容。谢谢!
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
7 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
eduyu
2009-01-29
打赏
举报
回复
靠,蒋大哥太了解偶了,要的就是这个。
我也想过用网页的视觉结果来判断内容。这符合人对内容判断的思路。原以为这样做太将就,
看到这些人这么认真的这么做,估计也就这样了。
蒋晟
2009-01-28
打赏
举报
回复
http://www.cs.uiuc.edu/homes/dengcai2/VIPS/VIPS.html
不过我测试的结果命中率不高。
IONPhantom
2009-01-28
打赏
举报
回复
这个应该属人工智能板块吧..
猫已经找不回了
2009-01-27
打赏
举报
回复
问google是怎么做的。。
hityct1
2009-01-27
打赏
举报
回复
标题好办,查找以下两个字符串就可以了。
<title>
</title>
判断内容不好办,对特定网站的特定格式还可以,一般情况那就难了。估计地球人还没实现呢。
na2650945
2009-01-26
打赏
举报
回复
友情。
绿色夹克衫
2009-01-25
打赏
举报
回复
这个,具体我也不太清楚,应当是对网页的内容或标题分词后,每个词应该都可以表示为一个多维向量(根据词义,比如体育,比如战争......),
根据这些词的向量累加,找出整篇文章的核心向量,从而找出一个或多个核心词,利用这些核心词,应该就能相对准确的表达文章的核心内容了。
Python趣味
算法
:三天打鱼两天晒网问题详解(附完整代码)
核心
算法
包括:计算
任意
日期与基准日(1990年1月1日)的天数差,通过闰年
判断
和字典映射优化日期计算,再对5取模
判断
周期状态(余数1-3打鱼,4/0晒网)。
文章
详细解析了
算法
实现、流程优化和异常处理,并展示了运行...
数据结构和
算法
:什么是数据结构,什么是
算法
文章
标题
前言 前言 这几天在复习数据结构的
Python检测
文章
抄袭,谈谈去重
算法
原理
文章
去重(或叫
网页
去重)是根据
文章
(或
网页
)的文字
内容
来
判断
多个
文章
之间是否重复。这是爬虫爬取大量的文本行
网页
(新闻
网页
、博客
网页
等)后要进行的非常重要的一项操作,也是搜索引擎非常关心的一个问题。搜索...
字符串相似度比较
算法
:Jaro–Winkler similarity的原理及实现
前言 在前面的
文章
中,笔者有对编辑距离以及Levenshtein距离进行详细的说明,其实levenshtein距离是编辑距离的其中一种定义,本文所说的...
标题
算法
定义 下面先说说Jaro distance(又称Jaro similarity),这是由Matt...
[转]文本相似性
算法
:simhash/minhash/余弦
算法
文本相似性中文本去重的常规做法,经常运营在数据挖掘等领域,主要有包括适合
标题
的minhash
算法
,适合文本
内容
的 simhash、余弦
算法
等
数据结构与算法
33,028
社区成员
35,337
社区内容
发帖
与我相关
我的任务
数据结构与算法
数据结构与算法相关内容讨论专区
复制链接
扫一扫
分享
社区描述
数据结构与算法相关内容讨论专区
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章