社区
Web 开发
帖子详情
应用如何自动获取网页数据?
adiao713
2009-04-13 11:53:11
急求!
1、要自动获取网站网页某部分每天更新的数据;
2、而且可以进一步进入这些更新的数据的链接,获取进入链接页面的数据。
目前比较主流的方法是怎么样获取的。
请各位同行和前辈指点迷津!谢谢。
...全文
1581
6
打赏
收藏
应用如何自动获取网页数据?
急求! 1、要自动获取网站网页某部分每天更新的数据; 2、而且可以进一步进入这些更新的数据的链接,获取进入链接页面的数据。 目前比较主流的方法是怎么样获取的。 请各位同行和前辈指点迷津!谢谢。
复制链接
扫一扫
分享
转发到动态
举报
AI
作业
写回复
配置赞助广告
用AI写文章
6 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
anny120
2011-02-17
打赏
举报
回复
我也要写这个
Epiphone
2009-04-13
打赏
举报
回复
可以写个定时任务 然后执行下面代码
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;
import com.yao.http.HttpRequester;
import com.yao.http.HttpRespons;
/**
* JAVA中使用Htmlparse解析HTML文档,使用htmlparse遍历出HTML文档的所有超链接( <a>标记)。
*
* @author YYmmiinngg
*/
public class Test {
public static void main(String[] args) {
try {
/* 首先我们先使用HttpRequester类和HttpRespons类获得一个HTTP请求中的数据(HTML文档)。 可以从(http://download.csdn.net/source/321516)中下载htmlloader,该库中有上述类;或从我的《JAVA发送HTTP请求,返回HTTP响应内容,实例及应用》一文中摘取上述两JAVA类的代码。htmlparse可以从(http://download.csdn.net/source/321507)中下载
*/
Map <String, String> map = new HashMap <String, String>();
HttpRequester request = new HttpRequester();
HttpRespons hr = request.sendGet("http://news.baidu.com");
Parser parser = Parser.createParser(hr.getContent(), hr
.getContentEncoding());
try {
// 通过过滤器过滤出 <A>标签
NodeList nodeList = parser
.extractAllNodesThatMatch(new NodeFilter() {
//实现该方法,用以过滤标签
public boolean accept(Node node) {
if (node instanceof LinkTag)// <A>标记
return true;
return false;
}
});
// 打印
for (int i = 0; i < nodeList.size(); i++) {
LinkTag n = (LinkTag) nodeList.elementAt(i);
System.out.print(n.getStringText() + " ==>> ");
System.out.println(n.extractLink());
}
} catch (Exception e) {
e.printStackTrace();
}
} catch (Exception e) {
e.printStackTrace();
}
}
}
=============================================================================
健康 ==>> /n?cmd=1&class=healthnews&pn=1&from=tab
科技 ==>> /n?cmd=1&class=technnews&pn=1&from=tab
社会 ==>> /n?cmd=1&class=socianews&pn=1&from=tab
有你更有力量—2009年中央电视台3•15晚会 ==>> http://finance.cctv.com/special/20090315/01/index.shtml
<img src='http://eiv.baidu.com/mc_files/20090310/20090310173139_40437500T1T396856.jpg' width=185 height=23 border=0> ==>> http://ma.baidu.com/ma/rcv/click.php?t=uv-b5HDhTv-b5Hc1PW64FMIGujYknHR1n16hpv-b5HDhULKET1YkFhu85yF9pywdgvD4nzudThsqpZwYTaR1fiRzwBRzwhGdpyP-QMPGUhD8mvqVQhP8FHFAnW0srNt1nHR-nbmhTv3qrHnhT1d-n1TsnWR1n1n4rAN9rjfsFMFsULnqniubIjd8iAnkRj7WHZFJRWP8Ts
<font color="#BB2A31">人民日报:在思想认识上取得新提高 </font> ==>> /n?cmd=2&class=top&page=%68%74%74%70%3a%2f%2f%63%63%6e%65%77%73%2e%70%65%6f%70%6c%65%2e%63%6f%6d%2e%63%6e%2f%47%42%2f%31%34%31%36%37%37%2f%38%37%34%37%33%2f%31%34%38%39%35%32%2f%31%34%39%31%33%33%2f%38%39%37%37%37%33%31%2e%68%74%6d%6c&cls=top
市公安机关部署深入学习实践科学发展观活动 ==>> http://www.dahuawang.com/localnews/showlocal.asp?no=116310
汕头海事局开展学习实践科学发展观活动 ==>> http://www.dahuawang.com/localnews/showlocal.asp?no=116308
bowlongcn
2009-04-13
打赏
举报
回复
HttpClient+HtmlParser+正则表达式 可以解决你的问题。
当然还有其他方法。不过这个是最常用的
JJTwo
2009-04-13
打赏
举报
回复
網路爬蟲!沒做過!
貌似有些簡單的開源的!
可以先照著瞭解下!
adiao713
2009-04-13
打赏
举报
回复
谢谢各位及时的回答!结贴加分!
xlyyc
2009-04-13
打赏
举报
回复
LS正解,偶也写过好几个这样的东西了
android仿淘宝,
自动
获取
短信验证码 demo
【标题解析】:“android仿淘宝,
自动
获取
短信验证码 demo”这个标题表明这是一个关于Android平台的开发项目,旨在模仿淘宝
应用
中的一个特定功能:
自动
填充接收到的短信验证码。在淘宝等电商平台注册或验证用户身份...
MVC使用Knockout.JS实现的单页
应用
程序(SPA)2
SPA是一种Web
应用
程序,它在加载初始HTML页面后,通过Ajax请求
获取
后续的
数据
,并在不刷新整个页面的情况下更新用户界面。这种方式可以提供类似桌面
应用
的用户体验,减少了页面跳转的延迟。 Knockout.JS与ASP.NET ...
Java爬虫,信息抓取的实现 完整实例源码
Java爬虫技术是一种用于
自动
化
获取
互联网信息的编程技术,它能高效地遍历
网页
,提取所需
数据
。在这个“Java爬虫,信息抓取的实现 完整实例源码”中,我们将深入探讨如何使用Java来编写爬虫,尤其是通过jsoup库进行...
爬虫搜索,简单的搜索引擎,java爬虫,搜索引擎例子,爬虫demo,java实现互联网内容抓取,搜索引擎大揭密
爬虫,也称为网络爬虫或蜘蛛,是一种
自动
浏览互联网并抓取
网页
内容的程序。它按照一定的规则(如链接)遍历网站,收集信息,并将其存储在
数据
库中,以便进一步处理和分析。Java作为一门强大的编程语言,常用于开发...
masonry+infinitescroll实现的瀑布流demo
4. 加载新
数据
:在Infinitescroll的回调函数中,使用Ajax请求
获取
新
数据
,然后将这些
数据
添加到页面中,最后再次调用Masonry的方法,更新布局。 通过这个"瀑布流demo",你可以学习到如何将Masonry和Infinitescroll...
Web 开发
81,117
社区成员
341,739
社区内容
发帖
与我相关
我的任务
Web 开发
Java Web 开发
复制链接
扫一扫
分享
社区描述
Java Web 开发
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章