获取网页正文部分

chinabinl 2009-12-14 03:58:44
比如某篇文章 我获取这篇文章的标题,内容及信息
而这篇文章 是其他网站的是用户输入一个url然后获取这个url的文章

网上找了下,貌似我太笨没找到 是不是要先获取网页内容然后在用正则来匹配

但这样你怎么知道 文章在那 ?从那开始?

也可以从莫个位置开始 但 文章可能没有或者位置不在这个地方
.....


请高手赐教
...全文
1215 66 打赏 收藏 转发到动态 举报
写回复
用AI写文章
66 条回复
切换为时间正序
请发表友善的回复…
发表回复
cankoo 2011-09-28
  • 打赏
  • 举报
回复
第64楼太厉害了
注册失败 2009-12-15
  • 打赏
  • 举报
回复
[Quote=引用 49 楼 chinabinl 的回复:]
貌似我终于说清楚了
  可我就不知道怎么实现啊 ?

这个正则貌似很难
[/Quote]

16楼的已经给出代码了
不老神仙 2009-12-15
  • 打赏
  • 举报
回复
帮顶  路过 关注
chinabinl 2009-12-15
  • 打赏
  • 举报
回复
貌似我终于说清楚了
可我就不知道怎么实现啊 ?

这个正则貌似很难
mbh0210 2009-12-15
  • 打赏
  • 举报
回复
[Quote=引用 47 楼 chinabinl 的回复:]
所以我说了  要大概 就是大概截取文章内容


我表达的不清楚吧!

但这个网址是用户输入的而不是规定的 所以正则该如何写?

你怎么知道是文章还是其他页面如何判断?应该从那开始截取内容?
[/Quote]

这个就只能做配置了,如果没有配置,就使用默认处理,
比如输入www.csdn.net 假定你有其对应的正则匹配,那么就使用定义好的正则。

默认处理中你可以做一些智能分析之类的,根据一些关键字或者其他,做一些判断。

chinabinl 2009-12-15
  • 打赏
  • 举报
回复
所以我说了 要大概 就是大概截取文章内容


我表达的不清楚吧!

但这个网址是用户输入的而不是规定的 所以正则该如何写?

你怎么知道是文章还是其他页面如何判断?应该从那开始截取内容?
qlzf11140820 2009-12-15
  • 打赏
  • 举报
回复
lz实现了,希望能共享 让大家学学...
vrhero 2009-12-15
  • 打赏
  • 举报
回复
是“预览”功能啊,他只是大致过滤了一下,一样还有广告、垃圾信息...你多找些小站看看就知道了...41楼说的很清楚了...
li_dao_hang_1989 2009-12-15
  • 打赏
  • 举报
回复
你这家伙!咋连个问题都说不清楚……
回去学学语文吧!
chinabinl 2009-12-15
  • 打赏
  • 举报
回复
恩 我也说了 要大概 大概

看好题目 及回帖

我语言表达不好 你们好好看 谢谢

再请问下 如果拿网页快照的方式 能实现大概的截取吗? 大概 不要求精确 而且上面也说了 主要是截取文章
jjrule 2009-12-15
  • 打赏
  • 举报
回复
看了,他的标题不就是title吗
另外他截取的并不是正文嘛,只是把html标签过滤了而已,我搜出来的结果预览里还有投票,更多,版权等信息
阿泰 2009-12-15
  • 打赏
  • 举报
回复
[QUOTE]
那你问题是什么,人家输入url了,页面内容都可以获取了,后面你要干嘛就干嘛就是。
正值也是要有规律的,他的规律是什么?重要内容的 和 广告 放的位置有什么区别吗。

[/QUOTE]

[Quote=引用 13 楼 chinabinl 的回复:]
同志们 怎么会 无解呢 ?

绝对可以的  你们看www.youdao.com  看了 在说 我晕
[/Quote]

如果你说的是有道的那个搜索结果上的即时预览,那么这个例子也恰恰说明:
即使是有道,也做不到。

你多观察一下,其实有道也只是做了基础过滤而已。还是有很多垃圾信息在上面的。
而其对于新浪,163,qq新闻等的相对比较精准地处理,这完全可以分析对应页面后,
做个规则在自己的正则表达式里
如果这个地址来自于某个网站,那是用对应的规则
如果没有对应的规则,就使用通用规则。
仅此而已。

举个简单的例子,就用“阿泰”这两个字去搜,多预览几个页面看看,
很多页面上的导航条文字,下面的一些无关信息,都是在的。
甚至,你看第一个,网易自家的预览,后面也是一堆乱七八糟的东西。

要通用,是不大现实的。
我姓区不姓区 2009-12-15
  • 打赏
  • 举报
回复
[Quote=引用 38 楼 vrhero 的回复:]
还是个贴硬盘图的主...要重修的不止是语文...
[/Quote]
vrhero,楼主的问题就交给你了,反正我是看不懂……
chinabinl 2009-12-15
  • 打赏
  • 举报
回复
俺是新手还不会发图 给你说吧 你输入个关键字搜索 有个这个图片 你鼠标放上去就出来了

汗 这个还要我教 请同志们看清需求
vrhero 2009-12-15
  • 打赏
  • 举报
回复
还是个贴硬盘图的主...要重修的不止是语文...
chinabinl 2009-12-15
  • 打赏
  • 举报
回复
wackyboy 2009-12-15
  • 打赏
  • 举报
回复
[Quote=引用 23 楼 chinabinl 的回复:]
引用 22 楼 truecoffeefox 的回复:
就是用正则了,先分析源网页结构,找到正文的位置,比如那个div里,再用正则找呗


看好的发帖和回帖在说

  还有我主要是想提取文章 前面已经说了  不想重复

不要太精确  大概就行  例如www.youdao.com 这个就能截取 他的速度也比较快  但页面布局就不怎么样
  布局问题 我还不太懂
[/Quote]

你说的那个功能在有道的哪里可以看见? 直接在主页搜索?
TossShinHwa 2009-12-15
  • 打赏
  • 举报
回复
只能用正则.
我姓区不姓区 2009-12-15
  • 打赏
  • 举报
回复
实在看不懂楼主想要干吗
mbh0210 2009-12-15
  • 打赏
  • 举报
回复
在另外一个帖子也说了,使用正则匹配,增加配置,
根据不同的输入使用不同的正则。只能部份统一,不可能全部统一,因为大家都没有一个统一的契约,没有标准。

加载更多回复(45)

62,047

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术交流专区
javascript云原生 企业社区
社区管理员
  • ASP.NET
  • .Net开发者社区
  • R小R
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

.NET 社区是一个围绕开源 .NET 的开放、热情、创新、包容的技术社区。社区致力于为广大 .NET 爱好者提供一个良好的知识共享、协同互助的 .NET 技术交流环境。我们尊重不同意见,支持健康理性的辩论和互动,反对歧视和攻击。

希望和大家一起共同营造一个活跃、友好的社区氛围。

试试用AI创作助手写篇文章吧