提取网页的概要
晴天v1 2009-12-15 08:58:55 大家好,我有个这样的问题:我首先得到一个网页的源代码,我想分析该源代码,从中得到这个网页的概要内容。一般网页都是新闻或论坛的帖子。
当然,这个网页是通过某个关键字在网上抓取到的。一个简单的想法是用关键字去网页源码中匹配,首先找到关键字第一次出现的地方,然后以该关键
字为中心向前向后找到句号,或段落的开始和结束。然后把该句子作为概要。但这样子做取到的网页概要肯定和网页本身的概要相同的几率会很小。
补充:网页源码中会有<p> <br>这些段落标签。
不知哪位熟悉这方面的处理。麻烦指点。非常感谢。