请问下高手们如何过滤一篇新闻网页上的新闻信息 答得好可以给200分

ljjable 2003-12-12 02:13:57
请问下高手们如何过滤一篇新闻网页上的新闻信息,而去掉那些与新闻无关的链接图片,关键问题是找到他们的共性,如163,新浪,中华网等,他们的HTML结构都不一样,能有一个什么技巧去抓住他们的共性从而去抓出他们的新闻内容,麻烦高手们指点指点小弟迷津,谢谢了
...全文
21 14 打赏 收藏 举报
写回复
14 条回复
切换为时间正序
当前发帖距今超过3年,不再开放新的回复
发表回复
taomaintao 2004-01-14
接分来了
  • 打赏
  • 举报
回复
johnsunac 2003-12-29
具体问题具体分析——马克思说。
  • 打赏
  • 举报
回复
himuraz 2003-12-29
具体的网站都要不同的设计!
  • 打赏
  • 举报
回复
ljjable 2003-12-29
up
  • 打赏
  • 举报
回复
zs1024cn 2003-12-29
告诉新浪给你做一个WebService.
  • 打赏
  • 举报
回复
tigase 2003-12-12
参考

string url="http://www.sina.com.cn/news/200312120001.htm"
WebRequest req=WebRequest.Create(url); //构造一个WEB请求
HttpWebResponse hreq=(HttpWebResponse)req.GetResponse(); //构造一个WEB响应
string html="";
Stream s=hreq.GetResponseStream(); //获取WEB响应的数据Stream
StreamReader reader=new StreamReader(s,System.Text.Encoding.GetEncoding("GB2312")); //对数据流作编码转换

//string sline="";

html=reader.ReadToEnd();
txtResult.Text=html;

以上代码获得HTML文本后在分析其格式,当然最好用正则表达式来分析!
如果要做多个网站的通用分析,你可以为不同的网站做不同的规则,这样就可以了!
  • 打赏
  • 举报
回复
karl 2003-12-12
都是新浪,新浪都可以成为新闻供应商了~~~这倒是个不错的买卖~~~你给钱,我给你接口,我的点子怎么样?
  • 打赏
  • 举报
回复
xhzuo 2003-12-12
没有通用的吧,不同的网站他们新闻的格式都不一样。自己挨个分析吧。
  • 打赏
  • 举报
回复
peng_dw 2003-12-12
你想干什么?封锁新闻吗,这是违法的。
  • 打赏
  • 举报
回复
ljjable 2003-12-12
我也想过每个网站独立做一个类似“病毒库”的特征,但如果这样的话,编码特别多,要涉及好多个网站,太麻烦了
  • 打赏
  • 举报
回复
myhex 2003-12-12
我记得新浪的新闻页面上插广告那一段前后都有它服务器程序加的一段html注释。不知道其它的大站上有没有!楼上的说的特征包是有道理的。我在PHP上实现过偷新闻。而且是纯文本的程序,不过仅限新浪。
  • 打赏
  • 举报
回复
唯一的共性就是HTML,若要找共性很难到,新闻抓取器多多少少都有针对性的,否则只能找出一堆垃圾。每个网站独立做一个类似“病毒库”的特征包就行
  • 打赏
  • 举报
回复
Soking 2003-12-12
暂时还没有解决方案
靠肉眼吧·!
  • 打赏
  • 举报
回复
lemong 2003-12-12
正则表达式
  • 打赏
  • 举报
回复
相关推荐
发帖
C#
加入

10.7w+

社区成员

.NET技术 C#
申请成为版主
帖子事件
创建了帖子
2003-12-12 02:13
社区公告

让您成为最强悍的C#开发者