社区
Web 开发
帖子详情
应用如何自动获取网页数据?
adiao713
2009-04-13 11:53:11
急求!
1、要自动获取网站网页某部分每天更新的数据;
2、而且可以进一步进入这些更新的数据的链接,获取进入链接页面的数据。
目前比较主流的方法是怎么样获取的。
请各位同行和前辈指点迷津!谢谢。
...全文
1569
6
打赏
收藏
应用如何自动获取网页数据?
急求! 1、要自动获取网站网页某部分每天更新的数据; 2、而且可以进一步进入这些更新的数据的链接,获取进入链接页面的数据。 目前比较主流的方法是怎么样获取的。 请各位同行和前辈指点迷津!谢谢。
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
6 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
anny120
2011-02-17
打赏
举报
回复
我也要写这个
Epiphone
2009-04-13
打赏
举报
回复
可以写个定时任务 然后执行下面代码
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;
import com.yao.http.HttpRequester;
import com.yao.http.HttpRespons;
/**
* JAVA中使用Htmlparse解析HTML文档,使用htmlparse遍历出HTML文档的所有超链接( <a>标记)。
*
* @author YYmmiinngg
*/
public class Test {
public static void main(String[] args) {
try {
/* 首先我们先使用HttpRequester类和HttpRespons类获得一个HTTP请求中的数据(HTML文档)。 可以从(http://download.csdn.net/source/321516)中下载htmlloader,该库中有上述类;或从我的《JAVA发送HTTP请求,返回HTTP响应内容,实例及应用》一文中摘取上述两JAVA类的代码。htmlparse可以从(http://download.csdn.net/source/321507)中下载
*/
Map <String, String> map = new HashMap <String, String>();
HttpRequester request = new HttpRequester();
HttpRespons hr = request.sendGet("http://news.baidu.com");
Parser parser = Parser.createParser(hr.getContent(), hr
.getContentEncoding());
try {
// 通过过滤器过滤出 <A>标签
NodeList nodeList = parser
.extractAllNodesThatMatch(new NodeFilter() {
//实现该方法,用以过滤标签
public boolean accept(Node node) {
if (node instanceof LinkTag)// <A>标记
return true;
return false;
}
});
// 打印
for (int i = 0; i < nodeList.size(); i++) {
LinkTag n = (LinkTag) nodeList.elementAt(i);
System.out.print(n.getStringText() + " ==>> ");
System.out.println(n.extractLink());
}
} catch (Exception e) {
e.printStackTrace();
}
} catch (Exception e) {
e.printStackTrace();
}
}
}
=============================================================================
健康 ==>> /n?cmd=1&class=healthnews&pn=1&from=tab
科技 ==>> /n?cmd=1&class=technnews&pn=1&from=tab
社会 ==>> /n?cmd=1&class=socianews&pn=1&from=tab
有你更有力量—2009年中央电视台3•15晚会 ==>> http://finance.cctv.com/special/20090315/01/index.shtml
<img src='http://eiv.baidu.com/mc_files/20090310/20090310173139_40437500T1T396856.jpg' width=185 height=23 border=0> ==>> http://ma.baidu.com/ma/rcv/click.php?t=uv-b5HDhTv-b5Hc1PW64FMIGujYknHR1n16hpv-b5HDhULKET1YkFhu85yF9pywdgvD4nzudThsqpZwYTaR1fiRzwBRzwhGdpyP-QMPGUhD8mvqVQhP8FHFAnW0srNt1nHR-nbmhTv3qrHnhT1d-n1TsnWR1n1n4rAN9rjfsFMFsULnqniubIjd8iAnkRj7WHZFJRWP8Ts
<font color="#BB2A31">人民日报:在思想认识上取得新提高 </font> ==>> /n?cmd=2&class=top&page=%68%74%74%70%3a%2f%2f%63%63%6e%65%77%73%2e%70%65%6f%70%6c%65%2e%63%6f%6d%2e%63%6e%2f%47%42%2f%31%34%31%36%37%37%2f%38%37%34%37%33%2f%31%34%38%39%35%32%2f%31%34%39%31%33%33%2f%38%39%37%37%37%33%31%2e%68%74%6d%6c&cls=top
市公安机关部署深入学习实践科学发展观活动 ==>> http://www.dahuawang.com/localnews/showlocal.asp?no=116310
汕头海事局开展学习实践科学发展观活动 ==>> http://www.dahuawang.com/localnews/showlocal.asp?no=116308
bowlongcn
2009-04-13
打赏
举报
回复
HttpClient+HtmlParser+正则表达式 可以解决你的问题。
当然还有其他方法。不过这个是最常用的
JJTwo
2009-04-13
打赏
举报
回复
網路爬蟲!沒做過!
貌似有些簡單的開源的!
可以先照著瞭解下!
adiao713
2009-04-13
打赏
举报
回复
谢谢各位及时的回答!结贴加分!
xlyyc
2009-04-13
打赏
举报
回复
LS正解,偶也写过好几个这样的东西了
新冠疫情中新闻学术
数据
的
获取
及分析
应用
首先我们分别从论文、新闻、人工整理的学术事件三个方向入手整理
数据
源,
获取
疫情相关
数据
,依托AMiner平台我们很快收集了论文和学术信息,新闻我们是采集新华网等高质量的新闻媒体平台获得。同时我们接入了同事们...
PowerBI系列之Power Query专题
获取
数据
数据
源种类介绍和
获取
Excel
数据
源 输入
数据
和拷贝
数据
:创建辅助表 解析Json/XML
数据
格式
获取
Web
网页
数据
和URL添加动态参数 连接
数据
的四种模式:Import、DirectQuery、Live Connection、Dual双 属于混合...
Linux
应用
软件服务篇-五剑客
第一章节讲解主流的Vsftp服务器如何通过服务端与客户端实现... 第五章节介绍了去部署DHCP服务器对批量客户端实现
自动
获取
IP,通过配置文件IP池
获取
到IP形式,及绑定客户端Mac地址及指定IP给予客户端,从而获得IP方法。
Python爬虫基础&商业案例实战
主要介绍Python爬虫的基础知识,并对百度新闻进行深度挖掘,包括批量
获取
多个公司的百度新闻、
自动
生成
数据
报告、
自动
异常处理、24小时实时
数据
挖掘、批量爬取多个
网页
等多个知识点,从而初步搭建简易舆情监控系统。...
ChatGPT从入门到精通,一站式掌握办公
自动
化/爬虫/
数据
分析和可视
全面AI时代就在转角,道路已经铺好了“局外人”or“先行者”就在此刻等你决定 ,通过ChatGPT一站式掌握办公
自动
化/爬虫/
数据
分析和可视化图表制作,BAT大厂技术专家,实战ChatGPT项目。 下单即终身学习,提供全部...
Web 开发
81,111
社区成员
341,693
社区内容
发帖
与我相关
我的任务
Web 开发
Java Web 开发
复制链接
扫一扫
分享
社区描述
Java Web 开发
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章