社区
C#
帖子详情
请问下高手们如何过滤一篇新闻网页上的新闻信息 答得好可以给200分
ljjable
2003-12-12 02:13:57
请问下高手们如何过滤一篇新闻网页上的新闻信息,而去掉那些与新闻无关的链接图片,关键问题是找到他们的共性,如163,新浪,中华网等,他们的HTML结构都不一样,能有一个什么技巧去抓住他们的共性从而去抓出他们的新闻内容,麻烦高手们指点指点小弟迷津,谢谢了
...全文
83
13
打赏
收藏
请问下高手们如何过滤一篇新闻网页上的新闻信息 答得好可以给200分
请问下高手们如何过滤一篇新闻网页上的新闻信息,而去掉那些与新闻无关的链接图片,关键问题是找到他们的共性,如163,新浪,中华网等,他们的HTML结构都不一样,能有一个什么技巧去抓住他们的共性从而去抓出他们的新闻内容,麻烦高手们指点指点小弟迷津,谢谢了
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
13 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
taomaintao
2004-01-14
打赏
举报
回复
接分来了
johnsunac
2003-12-29
打赏
举报
回复
具体问题具体分析——马克思说。
himuraz
2003-12-29
打赏
举报
回复
具体的网站都要不同的设计!
ljjable
2003-12-29
打赏
举报
回复
up
zs1024cn
2003-12-29
打赏
举报
回复
告诉新浪给你做一个WebService.
tigase
2003-12-12
打赏
举报
回复
参考
string url="http://www.sina.com.cn/news/200312120001.htm"
WebRequest req=WebRequest.Create(url); //构造一个WEB请求
HttpWebResponse hreq=(HttpWebResponse)req.GetResponse(); //构造一个WEB响应
string html="";
Stream s=hreq.GetResponseStream(); //获取WEB响应的数据Stream
StreamReader reader=new StreamReader(s,System.Text.Encoding.GetEncoding("GB2312")); //对数据流作编码转换
//string sline="";
html=reader.ReadToEnd();
txtResult.Text=html;
以上代码获得HTML文本后在分析其格式,当然最好用正则表达式来分析!
如果要做多个网站的通用分析,你可以为不同的网站做不同的规则,这样就可以了!
karl
2003-12-12
打赏
举报
回复
都是新浪,新浪都可以成为新闻供应商了~~~这倒是个不错的买卖~~~你给钱,我给你接口,我的点子怎么样?
xhzuo
2003-12-12
打赏
举报
回复
没有通用的吧,不同的网站他们新闻的格式都不一样。自己挨个分析吧。
ljjable
2003-12-12
打赏
举报
回复
我也想过每个网站独立做一个类似“病毒库”的特征,但如果这样的话,编码特别多,要涉及好多个网站,太麻烦了
myhex
2003-12-12
打赏
举报
回复
我记得新浪的新闻页面上插广告那一段前后都有它服务器程序加的一段html注释。不知道其它的大站上有没有!楼上的说的特征包是有道理的。我在PHP上实现过偷新闻。而且是纯文本的程序,不过仅限新浪。
Programmersheaven
2003-12-12
打赏
举报
回复
唯一的共性就是HTML,若要找共性很难到,新闻抓取器多多少少都有针对性的,否则只能找出一堆垃圾。每个网站独立做一个类似“病毒库”的特征包就行
Soking
2003-12-12
打赏
举报
回复
暂时还没有解决方案
靠肉眼吧·!
lemong
2003-12-12
打赏
举报
回复
正则表达式
基于百川大语言模型的RSS
新闻
过滤
应用【云服务器+公网
网页
,随时随地看自己DIY订阅的
新闻
内容】
本文介绍了如何基于百川大语言模型创建一个RSS
新闻
过滤
应用,通过自定义筛选算法获取高质量
新闻
。利用GTX 4060、Python和streamlit部署在云服务器上,实现远程访问和
新闻
类别
分
类。用户可通过定制的
网页
应用实时查看个性化
新闻
内容。
Python爬虫与BeautifulSoup:
网页
信息
提取实战
本文介绍了如何使用Python的requests和BeautifulSoup库进行
网页
信息
提取。涵盖了安装库、基本流程、实战案例、进阶技巧、
分
页处理及反爬虫策略等内容,帮助开发者高效抓取
新闻
、商品等
网页
数据。
2025新范式:用Dify.AI打造个性化
新闻
聚合助手,告别
信息
过载
本文介绍如何利用Dify.AI搭建个性化
新闻
聚合助手,通过RAG引擎和可视化工作流实现智能抓取、
过滤
与推送。支持本地部署、多终端访问及行为学习优化,解决
信息
过载问题,提升资讯获取效率。
一文汇总全球热门
新闻
API
新闻
API作为现代社会的重要组成部
分
,通过提供快速、全面的
新闻
内容,极大提升了
信息
的可访问性。它们支持多主题、多语言和区域
新闻
,实现了个性化推荐,并为内容创作者开辟了新的商业模式。
百度
新闻
网页
版,本地自定义屏蔽关键词
本文介绍了一种在浏览器上屏蔽特定关键词
新闻
的方法,通过在Chrome或Firefox中使用JavaScript代码,用户可以设置不感兴趣的关键词,从而自动
过滤
掉含有这些关键词的
新闻
,提高阅读体验。
C#
111,131
社区成员
642,541
社区内容
发帖
与我相关
我的任务
C#
.NET技术 C#
复制链接
扫一扫
分享
社区描述
.NET技术 C#
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
让您成为最强悍的C#开发者
试试用AI创作助手写篇文章吧
+ 用AI写文章