如何通过算法来提取网页当中的正文?

appreciatewo 2009-02-05 04:29:57
如何通过算法来提取网页当中的正文?
说出思路就可以了?
也就说我发了一个贴子,我要将帖子当中的正文提取出来,这个应该如何来实现呢?
...全文
108 5 打赏 收藏 转发到动态 举报
写回复
用AI写文章
5 条回复
切换为时间正序
请发表友善的回复…
发表回复
jinjazz 2009-02-06
  • 打赏
  • 举报
回复
正则表达式,具体问题具体分析
xhlnb 2009-02-05
  • 打赏
  • 举报
回复
百度搜索去,采集方面的资料。
podvcd 2009-02-05
  • 打赏
  • 举报
回复
webrequest 获得字符创
正则 获得<body>和</body>之间的 这样的就可以了 当然具体就像楼上说的 可能是div 可能是table
podvcd 2009-02-05
  • 打赏
  • 举报
回复
webrequest 获得字符创
正则 获得<body>和</body>之间的 这样的就可以了 当然具体就像楼上说的 可能是div 可能是table
cpio 2009-02-05
  • 打赏
  • 举报
回复
一般来说帖子内容前后的标签与其它的都不一样,可以使用这种方法来找,如果前后的标签有小变化,可经结合正则表达式。

先找到帖子内容前面的标签,再从那儿开始找后面的标签,中间的内容就是正文

比如
<div id="content_1233" class="xx">内容</div>

这样的话,就可以找<div id="content_字样的,然后再找到</div>,中间的就是内容了

111,130

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术 C#
社区管理员
  • C#
  • Creator Browser
  • by_封爱
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧