社区
C#
帖子详情
如何通过算法来提取网页当中的正文?
appreciatewo
2009-02-05 04:29:57
如何通过算法来提取网页当中的正文?
说出思路就可以了?
也就说我发了一个贴子,我要将帖子当中的正文提取出来,这个应该如何来实现呢?
...全文
114
5
打赏
收藏
如何通过算法来提取网页当中的正文?
如何通过算法来提取网页当中的正文? 说出思路就可以了? 也就说我发了一个贴子,我要将帖子当中的正文提取出来,这个应该如何来实现呢?
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
5 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
jinjazz
2009-02-06
打赏
举报
回复
正则表达式,具体问题具体分析
xhlnb
2009-02-05
打赏
举报
回复
百度搜索去,采集方面的资料。
podvcd
2009-02-05
打赏
举报
回复
webrequest 获得字符创
正则 获得<body>和</body>之间的 这样的就可以了 当然具体就像楼上说的 可能是div 可能是table
podvcd
2009-02-05
打赏
举报
回复
webrequest 获得字符创
正则 获得<body>和</body>之间的 这样的就可以了 当然具体就像楼上说的 可能是div 可能是table
cpio
2009-02-05
打赏
举报
回复
一般来说帖子内容前后的标签与其它的都不一样,可以使用这种方法来找,如果前后的标签有小变化,可经结合正则表达式。
先找到帖子内容前面的标签,再从那儿开始找后面的标签,中间的内容就是正文
比如
<div id="content_1233" class="xx">内容</div>
这样的话,就可以找<div id="content_字样的,然后再找到</div>,中间的就是内容了
【
网页
正文
识别及
提取
算法
】什么是网络
正文
?
考虑一张
网页
:
正文
就是用户关心的部分。上图的
正文
部分在哪里呢? 大概是在这一块,用户并不怎么关注广告,也不关注导航和链接。因为这并不是我们进入这个
网页
的主要目的。当然上图只显示内容的一部分。 那么它的原文呢? 请求: :curl -o baidu https://baike.baidu.com/item/%E7%99%BE%E5%BA%A6/6699 % Total % Recei...
网页
正文
及内容
提取
算法
基于行块分布函数的通用
网页
正文
抽取 http://wenku.baidu.com/link?url=TOBoIHWT_k68h5z8k_Pmqr-wJMPfCy2q64yzS8hxsgTg4lMNH84YVfOCWUfvfORTlccMWe5Bd1BNVf9dqIgh75t4VQ728fY2Rte3x3CQhaS
网页
正文
及内容图片
提取
算法
http://www.jianshu.co
网页
正文
抽取(二)——jusText
算法
jusText
算法
是一种优秀的
网页
正文
提取
算法
,作者是Jan Pomikálek。该
算法
能够删除 HTML 页面中模板内容(如导航链接、页眉和页脚),自动保留
正文
句子,准确率很高,适合用于创建Web语料库。这篇文章描述了jusText
算法
的基本原理和实现步骤,并分析了
算法
在
提取
中文
网页
时的问题,给出了改进建议。
python爬虫之
网页
正文
提取
方法
网页
正文
提取
通过随机抽取若干有代表性的固网与移动端的主流媒体来看,大多数的页面布局均具备一定特征可循,
正文
在
网页
中通常以两种方式来展现: 1.以标签的开闭区间静态值的方式来描述, 2.通过AJAX多次请求的方式懒加载。
提取
操作时可以通过一种或几种
算法
的叠加应用来获取绝大多数
网页
的
正文
信息,从业务应用的角度上看,错误率在可接受方位内,不会对产品和业务产生实质性影响。 方法: 1、标签定位:...
【转载保存】
网页
提取
正文
算法
汇总
正文
抽取
算法
: 1.Html2Article :http://www.cnblogs.com/jasondan/p/3497757.html 2.基于行块分布函数的
网页
正文
抽取
算法
代码实现https://blog.csdn.net/leiguang55555/article/details/51959646 源码下载: https://blog.csdn.net/red4711/article/d...
C#
111,131
社区成员
642,542
社区内容
发帖
与我相关
我的任务
C#
.NET技术 C#
复制链接
扫一扫
分享
社区描述
.NET技术 C#
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
让您成为最强悍的C#开发者
试试用AI创作助手写篇文章吧
+ 用AI写文章