怎样解析网页中文章的标题和正文？

sunyanzi 2003-11-19 04:37:23

对于一篇网页中的文章，怎样解析得到它的标题和正文呢？尤其是怎样得到正文？（注意要的不是HTML源文件中的<TITLE>...<TITLE>和<BODY>...<BODY>部分）

比如 http://www.csdn.net/news/newstopic/14/14098.shtml 中的文章，
其标题应该是“Sun中国工程院明年投入1.5亿主攻3G等五方向”，
其正文应该是“Sun公司……技术应用中心。”

怎样通过程序解析得到呢？谢谢！

...全文

111 10 打赏收藏转发到动态举报

写回复

用AI写文章

10 条回复

切换为时间正序

请发表友善的回复…

发表回复

114sky 2003-12-14

打赏
举报

jiangsheng(蒋晟.Net) ( ) 把问题复杂话了。自己做个html的解析器就可以

114sky 2003-12-14

打赏
举报

我就能做到。

hz张三 2003-11-21

打赏
举报

不一定一定要用IHtmlDoc

hz张三 2003-11-21

打赏
举报

呵呵，看你自己字符串解析的功力了~~~~~~

t0mychen 2003-11-20

打赏
举报

做一个指定的页面差不多，如果想做到，对任何一个网页，那很难，而且不见得能做得出来

sunyanzi 2003-11-20

打赏
举报

我想大家可能误解我的意思了，我要的是一种方法，能够去除页面文字中无用的部分，例如与文章无用的链接等。

比如就本网页来说，我要的是大家的回答内容，而不需要其它的如“人才招聘 — 山东山大联润信息... 国风因特软件（北...”等这些东西。

有点类似搜索引擎的功能，搜索引擎应该是在文章正文中搜索要匹配的查询项目，而不会在页面文字的其它部分（如其它链接）去搜索，因为那样毫无意义。

但是也不能凡是链接部分都去掉，因为文章正文部分也可能含有文字链接。

网上的网页千差万别，能有什么好的算法能够比较智能、准确的解析出文章正文吗？