社区
C#
帖子详情
请问下高手们如何过滤一篇新闻网页上的新闻信息 答得好可以给200分
ljjable
2003-12-12 02:13:57
请问下高手们如何过滤一篇新闻网页上的新闻信息,而去掉那些与新闻无关的链接图片,关键问题是找到他们的共性,如163,新浪,中华网等,他们的HTML结构都不一样,能有一个什么技巧去抓住他们的共性从而去抓出他们的新闻内容,麻烦高手们指点指点小弟迷津,谢谢了
...全文
53
13
打赏
收藏
请问下高手们如何过滤一篇新闻网页上的新闻信息 答得好可以给200分
请问下高手们如何过滤一篇新闻网页上的新闻信息,而去掉那些与新闻无关的链接图片,关键问题是找到他们的共性,如163,新浪,中华网等,他们的HTML结构都不一样,能有一个什么技巧去抓住他们的共性从而去抓出他们的新闻内容,麻烦高手们指点指点小弟迷津,谢谢了
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
13 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
taomaintao
2004-01-14
打赏
举报
回复
接分来了
johnsunac
2003-12-29
打赏
举报
回复
具体问题具体分析——马克思说。
himuraz
2003-12-29
打赏
举报
回复
具体的网站都要不同的设计!
ljjable
2003-12-29
打赏
举报
回复
up
zs1024cn
2003-12-29
打赏
举报
回复
告诉新浪给你做一个WebService.
tigase
2003-12-12
打赏
举报
回复
参考
string url="http://www.sina.com.cn/news/200312120001.htm"
WebRequest req=WebRequest.Create(url); //构造一个WEB请求
HttpWebResponse hreq=(HttpWebResponse)req.GetResponse(); //构造一个WEB响应
string html="";
Stream s=hreq.GetResponseStream(); //获取WEB响应的数据Stream
StreamReader reader=new StreamReader(s,System.Text.Encoding.GetEncoding("GB2312")); //对数据流作编码转换
//string sline="";
html=reader.ReadToEnd();
txtResult.Text=html;
以上代码获得HTML文本后在分析其格式,当然最好用正则表达式来分析!
如果要做多个网站的通用分析,你可以为不同的网站做不同的规则,这样就可以了!
karl
2003-12-12
打赏
举报
回复
都是新浪,新浪都可以成为新闻供应商了~~~这倒是个不错的买卖~~~你给钱,我给你接口,我的点子怎么样?
xhzuo
2003-12-12
打赏
举报
回复
没有通用的吧,不同的网站他们新闻的格式都不一样。自己挨个分析吧。
ljjable
2003-12-12
打赏
举报
回复
我也想过每个网站独立做一个类似“病毒库”的特征,但如果这样的话,编码特别多,要涉及好多个网站,太麻烦了
myhex
2003-12-12
打赏
举报
回复
我记得新浪的新闻页面上插广告那一段前后都有它服务器程序加的一段html注释。不知道其它的大站上有没有!楼上的说的特征包是有道理的。我在PHP上实现过偷新闻。而且是纯文本的程序,不过仅限新浪。
Programmersheaven
2003-12-12
打赏
举报
回复
唯一的共性就是HTML,若要找共性很难到,新闻抓取器多多少少都有针对性的,否则只能找出一堆垃圾。每个网站独立做一个类似“病毒库”的特征包就行
Soking
2003-12-12
打赏
举报
回复
暂时还没有解决方案
靠肉眼吧·!
lemong
2003-12-12
打赏
举报
回复
正则表达式
混编
高手
-安卓JNI篇
本课程主要讲解安卓下java与c++的混编技术。本课程并非简单讲解jni的c函数调用,而是以实际开发经验为依托,讲解开发中用到的java和c++类之间互相调用。课程演示了如何绑定java与c++类、java调用c++类方法、c++反向调用java类方法、java实现c++的回调函数、在c++线程中调用jni代码等相关知识。
有哪些网站用爬虫爬取能得到很有价值的数据?
回顾2016年,我用爬虫做了很多事情。 1、微信好友的爬虫,了解一下你的好友全国
分
布,男女比例,听起来似乎是一个不错的想法,当然你还可以识别一下你的好友有多少人是用自己照片作为头像的,详细的内容可以点击这里:Python对微信好友进行简单统计
分
析 2、拉勾网的数据那么多的招聘
信息
有用吗?当然有用,你想了解一下你所在城市的各种主流语言(Java、PHP、JavaScript、Pytho...
关于seo优化实用篇
特征特点 SEO全称:Search Engine Optimization,即搜索引擎优化。为了说明什么是网站对搜索引擎优化,站长搜索引擎不优化的网站
分
为以下特征: 1、
网页
中大量采用图片或者Flash等富媒体(Rich Media)形式,没有可以检索的文本
信息
,而SEO最基本的就是文章SEO和图片SEO; 2、
网页
没有标题,或者标题中没有包含有效的关键词; 3、
网页
正文中有效关键词比较少(最好自然而重点
分
布,不需要特别的堆砌关键词); 4、网站导航系统让搜索引擎“看不懂”; 5、大量动态
网页
影
我在淘宝做前端的这三年 — 第一年
转眼已经离职半年多了,早就想写
一篇
工作总结,但由于一直在准备英语考试,又需要处理结婚和房子装修,没想到一拖拖了半年。在淘宝做前端是我第一份签了劳动合同的工作,在这个人才济济的大公司里,接触了非常多的人和事物,也学到了非常多的东西、开阔了眼界。所以还是有必要做一个回顾和总结,一是自己备忘,二是或许对一些前端新人有所帮助,因为这篇文章会涉及到一些入职、职业规划、招聘、晋升、离职等方面的
信息
。 由于篇幅过长,三年总结将会
分
三篇发布: 第
一篇
(第一年)主要总结如何进入淘宝要用什么样的策略,如何站在老板视角看问题
读《增长黑客》有感
前言 《增长黑客》作为互联网产品策划必读书籍,详细介绍了如何让产品发展更好,并列举了各种案例和方法论。笔者作为技术人员,阅读《增长黑客》后整理笔记于此。忙碌的朋友们可以从本文看看是否有兴趣和必要去拜读下《增长黑客》。 什么是增长黑客? 首先看一个业界标杆增长黑客,
高手
的故事: 安迪·琼斯(Andy Johns)是硅谷的一名富有经验的增长黑客,曾效力于 Facebook、Twitter、Quora 等著名公司的增长部门。他的职业生涯或许可以让我们管窥一 斑。 Facebook一战成名
200
8 年,当安迪加入
C#
110,532
社区成员
642,574
社区内容
发帖
与我相关
我的任务
C#
.NET技术 C#
复制链接
扫一扫
分享
社区描述
.NET技术 C#
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
让您成为最强悍的C#开发者
试试用AI创作助手写篇文章吧
+ 用AI写文章