请问下高手们如何过滤一篇新闻网页上的新闻信息 答得好可以给200分

ljjable 2003-12-12 02:13:57
请问下高手们如何过滤一篇新闻网页上的新闻信息,而去掉那些与新闻无关的链接图片,关键问题是找到他们的共性,如163,新浪,中华网等,他们的HTML结构都不一样,能有一个什么技巧去抓住他们的共性从而去抓出他们的新闻内容,麻烦高手们指点指点小弟迷津,谢谢了
...全文
53 13 打赏 收藏 转发到动态 举报
写回复
用AI写文章
13 条回复
切换为时间正序
请发表友善的回复…
发表回复
taomaintao 2004-01-14
  • 打赏
  • 举报
回复
接分来了
johnsunac 2003-12-29
  • 打赏
  • 举报
回复
具体问题具体分析——马克思说。
himuraz 2003-12-29
  • 打赏
  • 举报
回复
具体的网站都要不同的设计!
ljjable 2003-12-29
  • 打赏
  • 举报
回复
up
zs1024cn 2003-12-29
  • 打赏
  • 举报
回复
告诉新浪给你做一个WebService.
tigase 2003-12-12
  • 打赏
  • 举报
回复
参考

string url="http://www.sina.com.cn/news/200312120001.htm"
WebRequest req=WebRequest.Create(url); //构造一个WEB请求
HttpWebResponse hreq=(HttpWebResponse)req.GetResponse(); //构造一个WEB响应
string html="";
Stream s=hreq.GetResponseStream(); //获取WEB响应的数据Stream
StreamReader reader=new StreamReader(s,System.Text.Encoding.GetEncoding("GB2312")); //对数据流作编码转换

//string sline="";

html=reader.ReadToEnd();
txtResult.Text=html;

以上代码获得HTML文本后在分析其格式,当然最好用正则表达式来分析!
如果要做多个网站的通用分析,你可以为不同的网站做不同的规则,这样就可以了!
karl 2003-12-12
  • 打赏
  • 举报
回复
都是新浪,新浪都可以成为新闻供应商了~~~这倒是个不错的买卖~~~你给钱,我给你接口,我的点子怎么样?
xhzuo 2003-12-12
  • 打赏
  • 举报
回复
没有通用的吧,不同的网站他们新闻的格式都不一样。自己挨个分析吧。
ljjable 2003-12-12
  • 打赏
  • 举报
回复
我也想过每个网站独立做一个类似“病毒库”的特征,但如果这样的话,编码特别多,要涉及好多个网站,太麻烦了
myhex 2003-12-12
  • 打赏
  • 举报
回复
我记得新浪的新闻页面上插广告那一段前后都有它服务器程序加的一段html注释。不知道其它的大站上有没有!楼上的说的特征包是有道理的。我在PHP上实现过偷新闻。而且是纯文本的程序,不过仅限新浪。
Programmersheaven 2003-12-12
  • 打赏
  • 举报
回复
唯一的共性就是HTML,若要找共性很难到,新闻抓取器多多少少都有针对性的,否则只能找出一堆垃圾。每个网站独立做一个类似“病毒库”的特征包就行
Soking 2003-12-12
  • 打赏
  • 举报
回复
暂时还没有解决方案
靠肉眼吧·!
lemong 2003-12-12
  • 打赏
  • 举报
回复
正则表达式

110,532

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术 C#
社区管理员
  • C#
  • Web++
  • by_封爱
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧