怎样解析网页中文章的标题和正文?

sunyanzi 2003-11-19 04:37:23
对于一篇网页中的文章,怎样解析得到它的标题和正文呢?尤其是怎样得到正文?(注意要的不是HTML源文件中的<TITLE>...<TITLE>和<BODY>...<BODY>部分)

比如 http://www.csdn.net/news/newstopic/14/14098.shtml 中的文章,
其标题应该是“Sun中国工程院明年投入1.5亿 主攻3G等五方向”,
其正文应该是“Sun公司……技术应用中心。”

怎样通过程序解析得到呢?谢谢!
...全文
111 10 打赏 收藏 转发到动态 举报
写回复
用AI写文章
10 条回复
切换为时间正序
请发表友善的回复…
发表回复
114sky 2003-12-14
  • 打赏
  • 举报
回复
jiangsheng(蒋晟.Net) ( ) 把问题复杂话了。自己做个html的解析器就可以
114sky 2003-12-14
  • 打赏
  • 举报
回复
我就能做到。
hz张三 2003-11-21
  • 打赏
  • 举报
回复
不一定一定要用IHtmlDoc
hz张三 2003-11-21
  • 打赏
  • 举报
回复
呵呵,看你自己字符串解析的功力了~~~~~~
t0mychen 2003-11-20
  • 打赏
  • 举报
回复
做一个指定的页面差不多,如果想做到,对任何一个网页,那很难,而且不见得能做得出来
sunyanzi 2003-11-20
  • 打赏
  • 举报
回复
我想大家可能误解我的意思了,我要的是一种方法,能够去除页面文字中无用的部分,例如与文章无用的链接等。

比如就本网页来说,我要的是大家的回答内容,而不需要其它的如“人才招聘 — 山东山大联润信息... 国风因特软件(北...”等这些东西。

有点类似搜索引擎的功能,搜索引擎应该是在文章正文中搜索要匹配的查询项目,而不会在页面文字的其它部分(如其它链接)去搜索,因为那样毫无意义。

但是也不能凡是链接部分都去掉,因为文章正文部分也可能含有文字链接。

网上的网页千差万别,能有什么好的算法能够比较智能、准确的解析出文章正文吗?
xsc2001 2003-11-20
  • 打赏
  • 举报
回复
这个问题就是解析HTML文本的过程,你只要对HTML比较了解,就很好取出来的!
cityyokel 2003-11-20
  • 打赏
  • 举报
回复
如果是用XML Scheme生成的页面应该容易一些吧,首先从scheme入手,再去解析目标页面。
个人意见
蒋晟 2003-11-19
  • 打赏
  • 举报
回复
http://www.csdn.net/develop/read_article.asp?id=21702
查看源代码功能部分有HTML解析
lanfanghelanfanghe 2003-11-19
  • 打赏
  • 举报
回复
接分来了!!

3,056

社区成员

发帖
与我相关
我的任务
社区描述
VC/MFC HTML/XML
社区管理员
  • HTML/XML社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧