提取网页的概要

晴天v1 2009-12-15 08:58:55

大家好，我有个这样的问题：我首先得到一个网页的源代码，我想分析该源代码，从中得到这个网页的概要内容。一般网页都是新闻或论坛的帖子。

当然，这个网页是通过某个关键字在网上抓取到的。一个简单的想法是用关键字去网页源码中匹配，首先找到关键字第一次出现的地方，然后以该关键

字为中心向前向后找到句号，或段落的开始和结束。然后把该句子作为概要。但这样子做取到的网页概要肯定和网页本身的概要相同的几率会很小。

补充:网页源码中会有<p> <br>这些段落标签。

不知哪位熟悉这方面的处理。麻烦指点。非常感谢。

...全文

100 11 打赏收藏转发到动态举报

写回复

用AI写文章

11 条回复

切换为时间正序

请发表友善的回复…

发表回复

晴天v1 2009-12-17

打赏
举报

[Quote=引用 9 楼 aniao 的回复:]
我目前做的搜索引擎，我知道楼主意思，就是GOOGLE百度那种搜索出来的概要对吧

一般是取纯文本内容之后再做这步
[/Quote]

谢谢你。
网页内容已经取到了，我要做的处理是从网页内容中取出网页的概要内容。

晴天v1 2009-12-17

打赏
举报

[Quote=引用 6 楼 shine333 的回复:]
这个复杂度比较高，如果针对特别的网站/网页还好点，很难做到通用。

一般好一点的网站，你不需要提取他的 <body>，只需要提取 <head>中：
<meta http-equiv="keywords" content="逗号分隔的关键字列表" />
<meta http-equiv="description" content="内容描述，即概要" />
[/Quote]

谢谢，这个可以取到，是个办法。
但是有些网页是没有这些信息的。
谢谢了。

Aniao 2009-12-16

打赏
举报

我目前做的搜索引擎，我知道楼主意思，就是GOOGLE百度那种搜索出来的概要对吧

一般是取纯文本内容之后再做这步

buqi001 2009-12-16

打赏
举报

liuahuilele 2009-12-16

打赏
举报

写正则吧

shine333 2009-12-16

打赏
举报

这个复杂度比较高，如果针对特别的网站/网页还好点，很难做到通用。

一般好一点的网站，你不需要提取他的<body>，只需要提取<head>中：
<meta http-equiv="keywords" content="逗号分隔的关键字列表" />
<meta http-equiv="description" content="内容描述，即概要" />