C# 请教解析HTML的思路方法
要做一个新闻搜索的类库,主要功能是:从各大主流媒体或RSS获取最新的新闻信息,根据网址去下载对应的新闻网页,从网页的HTML代码进行搜索,抽取出正文内容,存库备档。现在前面部分都做完了,包括解析HTML,主要的问题还是在如下:
每一个新闻媒体的网站(如新浪,网易等)格式都不一样,也就是每一个网站的HTML正文标示也是不统一的,怎么从HTML里面辨别出正文来有点搞不明白思路。
现在计划用一种很笨的方法,大量的去搜集各大新闻网站的HTML代码,记住每一个网站的正文部分各自的标示,然后在程序里每一次去抽取网页新闻正文时,都先判断是什么网站,然后调用对应的方法来抽取。
如果这样做,那工作量和重复性就好大了,网络上的新闻媒体少说几百个不止.....
请问下各位有经验的前辈,有什么办法来做到判断一段HTML里面的正文部分吗?一个统一的方法,或者说正文在整个HTML里面,有没有存在什么同性?
对HTML不甚熟悉,各位见笑了