实现类似如chrome插件clearly一般效果的网页去噪与正文提取

v_JULY_v
博客专家认证
2012-01-18 07:03:22
想实现类似chrome插件clearly的效果(可以去下载体验下),提取网页正文文本,除去网页的导航,广告,链接等干扰阅读的因素(图片保留),总之是网页去噪,从而最大限度的仅仅提供真正对读者有价值的正文内容。

下图是是使用clearly前后对比效果,


如果哪位有这方面的经验,或者能提供类似的程序,或开源软件供参考,则不甚感激
100分相送,多谢。
...全文
561 3 打赏 收藏 转发到动态 举报
写回复
用AI写文章
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
lancerEx 2012-01-19
  • 打赏
  • 举报
回复
自己动手
v_JULY_v 2012-01-18
  • 打赏
  • 举报
回复
[Quote=引用 1 楼 p2227 的回复:]

这个插件是针对每一个网页有一套法则的吧
[/Quote]
我是要针对一般Html标准型网页的
p2227 2012-01-18
  • 打赏
  • 举报
回复
这个插件是针对每一个网页有一套法则的吧

61,115

社区成员

发帖
与我相关
我的任务
社区描述
层叠样式表(英文全称:Cascading Style Sheets)是一种用来表现HTML(标准通用标记语言的一个应用)或XML(标准通用标记语言的一个子集)等文件样式的计算机语言。
社区管理员
  • HTML(CSS)社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧