提取网页的概要

晴天v1 2009-12-15 08:58:55
大家好,我有个这样的问题:我首先得到一个网页的源代码,我想分析该源代码,从中得到这个网页的概要内容。一般网页都是新闻或论坛的帖子。

当然,这个网页是通过某个关键字在网上抓取到的。一个简单的想法是用关键字去网页源码中匹配,首先找到关键字第一次出现的地方,然后以该关键

字为中心向前向后找到句号,或段落的开始和结束。然后把该句子作为概要。但这样子做取到的网页概要肯定和网页本身的概要相同的几率会很小。

补充:网页源码中会有<p> <br>这些段落标签。


不知哪位熟悉这方面的处理。麻烦指点。非常感谢。



...全文
100 11 打赏 收藏 转发到动态 举报
写回复
用AI写文章
11 条回复
切换为时间正序
请发表友善的回复…
发表回复
晴天v1 2009-12-17
  • 打赏
  • 举报
回复
[Quote=引用 9 楼 aniao 的回复:]
我目前做的搜索引擎,我知道楼主意思,就是GOOGLE百度那种搜索出来的概要对吧


一般是取纯文本内容之后再做这步
[/Quote]

谢谢你。
网页内容已经取到了,我要做的处理是从网页内容中取出网页的概要内容。
晴天v1 2009-12-17
  • 打赏
  • 举报
回复
[Quote=引用 6 楼 shine333 的回复:]
这个复杂度比较高,如果针对特别的网站/网页还好点,很难做到通用。

一般好一点的网站,你不需要提取他的 <body>,只需要提取 <head>中:
<meta http-equiv="keywords" content="逗号分隔的关键字列表" />
<meta http-equiv="description" content="内容描述,即概要" />
[/Quote]

谢谢,这个可以取到,是个办法。
但是有些网页是没有这些信息的。
谢谢 了。
Aniao 2009-12-16
  • 打赏
  • 举报
回复
我目前做的搜索引擎,我知道楼主意思,就是GOOGLE百度那种搜索出来的概要对吧


一般是取纯文本内容之后再做这步
buqi001 2009-12-16
  • 打赏
  • 举报
回复
[Quote=引用 6 楼 shine333 的回复:]
这个复杂度比较高,如果针对特别的网站/网页还好点,很难做到通用。

一般好一点的网站,你不需要提取他的 <body>,只需要提取 <head>中:
<meta http-equiv="keywords" content="逗号分隔的关键字列表" />
<meta http-equiv="description" content="内容描述,即概要" />
[/Quote]

学习了
liuahuilele 2009-12-16
  • 打赏
  • 举报
回复
写正则吧
shine333 2009-12-16
  • 打赏
  • 举报
回复
这个复杂度比较高,如果针对特别的网站/网页还好点,很难做到通用。

一般好一点的网站,你不需要提取他的<body>,只需要提取<head>中:
<meta http-equiv="keywords" content="逗号分隔的关键字列表" />
<meta http-equiv="description" content="内容描述,即概要" />
岁月之梦 2009-12-16
  • 打赏
  • 举报
回复
写正则进行匹配,这个要自己动手啊!
forget_kiss 2009-12-16
  • 打赏
  • 举报
回复
帮楼主顶起 来学习学习
晴天v1 2009-12-16
  • 打赏
  • 举报
回复
顶起,麻烦大伙看过来。
晴天v1 2009-12-15
  • 打赏
  • 举报
回复
[Quote=引用 1 楼 zhougaotao 的回复:]
就是内容采集嘛。。说的这么复杂

源码中有个标签就是写着概要的
[/Quote]

内容已经采集完了,要从内容中取出概要。并不是每个页面都有概要标签的。
zhougaotao 2009-12-15
  • 打赏
  • 举报
回复
就是内容采集嘛。。说的这么复杂

源码中有个标签就是写着概要的

67,515

社区成员

发帖
与我相关
我的任务
社区描述
J2EE只是Java企业应用。我们需要一个跨J2SE/WEB/EJB的微容器,保护我们的业务核心组件(中间件),以延续它的生命力,而不是依赖J2SE/J2EE版本。
社区管理员
  • Java EE
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧