社区
Web 开发
帖子详情
应用如何自动获取网页数据?
adiao713
2009-04-13 11:53:11
急求!
1、要自动获取网站网页某部分每天更新的数据;
2、而且可以进一步进入这些更新的数据的链接,获取进入链接页面的数据。
目前比较主流的方法是怎么样获取的。
请各位同行和前辈指点迷津!谢谢。
...全文
1572
6
打赏
收藏
应用如何自动获取网页数据?
急求! 1、要自动获取网站网页某部分每天更新的数据; 2、而且可以进一步进入这些更新的数据的链接,获取进入链接页面的数据。 目前比较主流的方法是怎么样获取的。 请各位同行和前辈指点迷津!谢谢。
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
6 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
anny120
2011-02-17
打赏
举报
回复
我也要写这个
Epiphone
2009-04-13
打赏
举报
回复
可以写个定时任务 然后执行下面代码
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;
import com.yao.http.HttpRequester;
import com.yao.http.HttpRespons;
/**
* JAVA中使用Htmlparse解析HTML文档,使用htmlparse遍历出HTML文档的所有超链接( <a>标记)。
*
* @author YYmmiinngg
*/
public class Test {
public static void main(String[] args) {
try {
/* 首先我们先使用HttpRequester类和HttpRespons类获得一个HTTP请求中的数据(HTML文档)。 可以从(http://download.csdn.net/source/321516)中下载htmlloader,该库中有上述类;或从我的《JAVA发送HTTP请求,返回HTTP响应内容,实例及应用》一文中摘取上述两JAVA类的代码。htmlparse可以从(http://download.csdn.net/source/321507)中下载
*/
Map <String, String> map = new HashMap <String, String>();
HttpRequester request = new HttpRequester();
HttpRespons hr = request.sendGet("http://news.baidu.com");
Parser parser = Parser.createParser(hr.getContent(), hr
.getContentEncoding());
try {
// 通过过滤器过滤出 <A>标签
NodeList nodeList = parser
.extractAllNodesThatMatch(new NodeFilter() {
//实现该方法,用以过滤标签
public boolean accept(Node node) {
if (node instanceof LinkTag)// <A>标记
return true;
return false;
}
});
// 打印
for (int i = 0; i < nodeList.size(); i++) {
LinkTag n = (LinkTag) nodeList.elementAt(i);
System.out.print(n.getStringText() + " ==>> ");
System.out.println(n.extractLink());
}
} catch (Exception e) {
e.printStackTrace();
}
} catch (Exception e) {
e.printStackTrace();
}
}
}
=============================================================================
健康 ==>> /n?cmd=1&class=healthnews&pn=1&from=tab
科技 ==>> /n?cmd=1&class=technnews&pn=1&from=tab
社会 ==>> /n?cmd=1&class=socianews&pn=1&from=tab
有你更有力量—2009年中央电视台3•15晚会 ==>> http://finance.cctv.com/special/20090315/01/index.shtml
<img src='http://eiv.baidu.com/mc_files/20090310/20090310173139_40437500T1T396856.jpg' width=185 height=23 border=0> ==>> http://ma.baidu.com/ma/rcv/click.php?t=uv-b5HDhTv-b5Hc1PW64FMIGujYknHR1n16hpv-b5HDhULKET1YkFhu85yF9pywdgvD4nzudThsqpZwYTaR1fiRzwBRzwhGdpyP-QMPGUhD8mvqVQhP8FHFAnW0srNt1nHR-nbmhTv3qrHnhT1d-n1TsnWR1n1n4rAN9rjfsFMFsULnqniubIjd8iAnkRj7WHZFJRWP8Ts
<font color="#BB2A31">人民日报:在思想认识上取得新提高 </font> ==>> /n?cmd=2&class=top&page=%68%74%74%70%3a%2f%2f%63%63%6e%65%77%73%2e%70%65%6f%70%6c%65%2e%63%6f%6d%2e%63%6e%2f%47%42%2f%31%34%31%36%37%37%2f%38%37%34%37%33%2f%31%34%38%39%35%32%2f%31%34%39%31%33%33%2f%38%39%37%37%37%33%31%2e%68%74%6d%6c&cls=top
市公安机关部署深入学习实践科学发展观活动 ==>> http://www.dahuawang.com/localnews/showlocal.asp?no=116310
汕头海事局开展学习实践科学发展观活动 ==>> http://www.dahuawang.com/localnews/showlocal.asp?no=116308
bowlongcn
2009-04-13
打赏
举报
回复
HttpClient+HtmlParser+正则表达式 可以解决你的问题。
当然还有其他方法。不过这个是最常用的
JJTwo
2009-04-13
打赏
举报
回复
網路爬蟲!沒做過!
貌似有些簡單的開源的!
可以先照著瞭解下!
adiao713
2009-04-13
打赏
举报
回复
谢谢各位及时的回答!结贴加分!
xlyyc
2009-04-13
打赏
举报
回复
LS正解,偶也写过好几个这样的东西了
ccfcsp考试备考资料-CCF CSP认证考试备考资料汇总及备考策略指导
内容概要:本文全面概述了CCF CSP认证考试的备考资料和策略。首先列出了官方提供的各类资源,包括网站、直播讲座和真题讲解。接着介绍了来自学习经验和高校内部的支持,为考生提供了多种
获取
备考方法的方式。随后推荐了几本书籍,分别针对初学者和已有基础的学习者。最后提到了一些在线学习平台,如CSDN、知乎、洛谷、Codeforces和Atcoder,它们提供了丰富的实战题目和经验分享。 适合人群:准备参加CCF CSP考试的学生或自学者。 使用场景及目标:① 利用官方资源深入了解CSP考试题型及难度;② 阅读备考经验以优化个人备考方案;③ 使用推荐书籍强化理论基础;④ 利用在线平台进行大量实战练习以提高解题能力。 其他说明:考生可以根据自身的具体情况选择合适的资源,灵活搭配,形成一套完整的备考计划。建议定期评估学习效果,并及时调整计划。
《天天超市管理系统》所有模块测试用例集.doc
《天天超市管理系统》所有模块测试用例集
springboot250智慧校园之家长子系统.rar
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、本项目仅用作交流学习参考,请切勿用于商业用途。
东北大学秦皇岛分校微型接口与技术实验报告.doc
东北大学秦皇岛分校微型接口与技术实验报告.doc
【行政
数据
】年度采购
数据
分析表 (1).xlsx
【行政
数据
】年度采购
数据
分析表 (1)
Web 开发
81,119
社区成员
341,764
社区内容
发帖
与我相关
我的任务
Web 开发
Java Web 开发
复制链接
扫一扫
分享
社区描述
Java Web 开发
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章