社区
Java SE
帖子详情
求网页正文信息提取思路
mengliu2010
2012-03-09 10:54:59
想做一个软件,可以较为精确地提取出正文信息,但是要除去一些噪声信息
...全文
52
4
打赏
收藏
求网页正文信息提取思路
想做一个软件,可以较为精确地提取出正文信息,但是要除去一些噪声信息
复制链接
扫一扫
分享
转发到动态
举报
AI
作业
写回复
配置赞助广告
用AI写文章
4 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
mengliu2010
2012-03-11
打赏
举报
回复
[Quote=引用 2 楼 woxinfeixian93 的回复:]
我想到的只有readline,转成xml形式,接着就dom4j方式去读取你想要的信息
(或正则进取信息)
[/Quote]
这样噪声信息不少的
mengliu2010
2012-03-11
打赏
举报
回复
[Quote=引用 1 楼 zzt369880281 的回复:]
我也有兴趣,加我QQ吧,我的用户名就是QQ
[/Quote]
加了
love_love
2012-03-10
打赏
举报
回复
我想到的只有readline,转成xml形式,接着就dom4j方式去读取你想要的信息
(或正则进取信息)
zzt369880281
2012-03-10
打赏
举报
回复
我也有兴趣,加我QQ吧,我的用户名就是QQ
网页
正文
提取方法一二
相对于一篇规范性的文章,应该具备标题、
正文
、开头、描写和结尾等要素,标签的分布应具备集中密集的特征,因此同一类型的文本标签应在一定区间范围内连续出现或有规律性的间隔出现。无论是网盟还是ADX,对于互联网广告的曝光位置和约束都是开放的,掌握了这些标准和规范(广告交易平台的域名、广告位ID、广告位尺寸、广告创意URL及信息、曝光点击及监测地址等),在大多数长尾流量的页面中都可以轻松识别出来,从而摘除与文章
正文
无关的信息。标签定位的算法简单粗暴有效,但误判率比较高,在实际调用的时候应该辅助其他算法以提高准确性。
python爬虫之
网页
正文
提取方法
网页
正文
提取 通过随机抽取若干有代表性的固网与移动端的主流媒体来看,大多数的页面布局均具备一定特征可循,
正文
在
网页
中通常以两种方式来展现: 1.以标签的开闭区间静态值的方式来描述, 2.通过AJAX多次请
求
的方式懒加载。 提取操作时可以通过一种或几种算法的叠加应用来获取绝大多数
网页
的
正文
信息,从业务应用的角度上看,错误率在可接受方位内,不会对产品和业务产生实质性影响。 方法: 1、标签定位:...
网页
正文
提取
页
正文
提取的
思路
在不断追踪
网页
文本提取的技术,这篇文章中提到的做法很有实用价值!
网页
由于格式千变万化,要找到一种能提取任意
网页
正文
的算法,并能达到应用需要的准确度,具有一定难度。因此,总避免不了在提取程序中添加一些规则,对不同的
网页
类型作不同处理。另外,有人利用开源的Tidy,把不规范的
网页
规范化,然后利用DOM Tree,把包含
正文
的...提取出来,然后去除其
搜索引擎当前主流
正文
提取的
思路
网页
由于格式千变万化,要找到一种能提取任意
网页
正文
的算法,并能达到应用需要的准确度,具有一定难度。因此,总避免不了在提取程序中添加一些规则,对不同的
网页
类型作不同处理。另外,有人利用开源的Tidy,把不规范的
网页
规范化,然后利用DOM Tree,把包含
正文
的...提取出来,然后去除其中的链接信息。 还有一种简单的方法:对
网页
中的所有 ...,计算其中所含内容中的中文标点符号,并结合内容中所包含的链
一种提取HTML
网页
正文
的方法
这里所说的
正文
提取主要是针对新闻页面等
网页
的主体是文字的HTML页面。在做一些与文本处理相关的实验时往往需要大量的文本,虽然网络上已经存在了一些开放数据集如搜狗语料库,但是有的时候也需要根据具体的需
求
来爬取特定的网站。在我们通过算法获得了需要的HTML页面以后,如何获取页面的
正文
是一个需要考虑的问题。如果是针对某一个网站的爬取工作,同一网站编码风格往往是一致的,这时只需要简单的浏览一下包含
正文
的标
Java SE
62,634
社区成员
307,269
社区内容
发帖
与我相关
我的任务
Java SE
Java 2 Standard Edition
复制链接
扫一扫
分享
社区描述
Java 2 Standard Edition
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章