社区
C#
帖子详情
如何通过算法来提取网页当中的正文?
appreciatewo
2009-02-05 04:29:57
如何通过算法来提取网页当中的正文?
说出思路就可以了?
也就说我发了一个贴子,我要将帖子当中的正文提取出来,这个应该如何来实现呢?
...全文
108
5
打赏
收藏
如何通过算法来提取网页当中的正文?
如何通过算法来提取网页当中的正文? 说出思路就可以了? 也就说我发了一个贴子,我要将帖子当中的正文提取出来,这个应该如何来实现呢?
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
5 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
jinjazz
2009-02-06
打赏
举报
回复
正则表达式,具体问题具体分析
xhlnb
2009-02-05
打赏
举报
回复
百度搜索去,采集方面的资料。
podvcd
2009-02-05
打赏
举报
回复
webrequest 获得字符创
正则 获得<body>和</body>之间的 这样的就可以了 当然具体就像楼上说的 可能是div 可能是table
podvcd
2009-02-05
打赏
举报
回复
webrequest 获得字符创
正则 获得<body>和</body>之间的 这样的就可以了 当然具体就像楼上说的 可能是div 可能是table
cpio
2009-02-05
打赏
举报
回复
一般来说帖子内容前后的标签与其它的都不一样,可以使用这种方法来找,如果前后的标签有小变化,可经结合正则表达式。
先找到帖子内容前面的标签,再从那儿开始找后面的标签,中间的内容就是正文
比如
<div id="content_1233" class="xx">内容</div>
这样的话,就可以找<div id="content_字样的,然后再找到</div>,中间的就是内容了
【
网页
正文
识别及
提取
算法
】什么是网络
正文
?
考虑一张
网页
:
正文
就是用户关心的部分。上图的
正文
部分在哪里呢? 大概是在这一块,用户并不怎么关注广告,也不关注导航和链接。因为这并不是我们进入这个
网页
的主要目的。当然上图只显示内容的一部分。 那么它...
网页
正文
及内容
提取
算法
基于行块分布函数的通用
网页
正文
抽取 http://wenku.baidu.com/link?...
网页
正文
及内容图片
提取
算法
http://www.jianshu.co
网页
正文
抽取(二)——jusText
算法
jusText
算法
是一种优秀的
网页
正文
提取
算法
,作者是Jan Pomikálek。该
算法
能够删除 HTML 页面中模板内容(如导航链接、页眉和页脚),自动保留
正文
句子,准确率很高,适合用于创建Web语料库。这篇文章描述了jusText...
python爬虫之
网页
正文
提取
方法
网页
正文
提取
...
提取
操作时可以通过一种或几种
算法
的叠加应用来获取绝大多数
网页
的
正文
信息,从业务应用的角度上看,错误率在可接受方位内,不会对产品和业务产生实质性影响。 方法: 1、标签定位:...
【转载保存】
网页
提取
正文
算法
汇总
正文
抽取
算法
: 1....2.基于行块分布函数的
网页
正文
抽取
算法
代码实现https://blog.csdn.net/leiguang55555/article/details/51959646 源码下载: https://blog.csdn.net/red4711/article/d...
C#
111,130
社区成员
642,542
社区内容
发帖
与我相关
我的任务
C#
.NET技术 C#
复制链接
扫一扫
分享
社区描述
.NET技术 C#
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
让您成为最强悍的C#开发者
试试用AI创作助手写篇文章吧
+ 用AI写文章