社区
Java
帖子详情
怎么用java写网络爬虫将网页中的指定数据下载到本地excel文档中
sunshinewxz
2015-04-11 06:27:56
刚开始学网络爬虫,只会把相关的数据打印出来,但是不知道怎么才能下载到本地的文档中,并且如果那个数据是动态的又该怎么办呢?求各位大神详细的java代码
...全文
297
3
打赏
收藏
怎么用java写网络爬虫将网页中的指定数据下载到本地excel文档中
刚开始学网络爬虫,只会把相关的数据打印出来,但是不知道怎么才能下载到本地的文档中,并且如果那个数据是动态的又该怎么办呢?求各位大神详细的java代码
复制链接
扫一扫
分享
转发到动态
举报
AI
作业
写回复
配置赞助广告
用AI写文章
3 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
午阿哥
2016-07-12
打赏
举报
回复
午阿哥
2016-07-12
打赏
举报
回复
我刚开始学习写爬虫,代码跑起来,是异常,帮我看看; import java.io.FileOutputStream; import java.io.InputStream; import java.io.OutputStream; import org.apache.commons.httpclient.HttpClient; import org.apache.commons.httpclient.HttpStatus; import org.apache.commons.httpclient.methods.GetMethod; /** * * @author CallMeWhy * */ public class Spider { private static HttpClient httpClient = new HttpClient(); /** * @param path * 目标网页的链接 * @return 返回布尔值,表示是否正常下载目标页面 * @throws Exception * 读取网页流或写入本地文件流的IO异常 */ public static boolean downloadPage(String path) throws Exception { // 定义输入输出流 InputStream input = null; OutputStream output = null; // 得到 post 方法 GetMethod getMethod = new GetMethod(path); // 执行,返回状态码 int statusCode = httpClient.executeMethod(getMethod); // 针对状态码进行处理 // 简单起见,只处理返回值为 200 的状态码 if (statusCode == HttpStatus.SC_OK) { input = getMethod.getResponseBodyAsStream(); // 通过对URL的得到文件名 String filename = path.substring(path.lastIndexOf('/') + 1) + ".html"; // 获得文件输出流 output = new FileOutputStream(filename); // 输出到文件 int tempByte = -1; while ((tempByte = input.read()) > 0) { output.write(tempByte); } // 关闭输入流 if (input != null) { input.close(); } // 关闭输出流 if (output != null) { output.close(); } return true; } return false; } public static void main(String[] args) { try { // 抓取百度首页,输出 Spider.downloadPage("http://www.baidu.com"); } catch (Exception e) { e.printStackTrace(); } } }
marzone
2016-04-06
打赏
举报
回复
问题解决没?我也在学习!
用
java
编
写
一个
爬虫
程序
编
写
一个
爬虫
demo ,爬取XXX大学的所有新闻的标题。 这里是新闻标题所在位置啦 main代码: public static void main(String[] args) throws IOException { URL url=new URL("你要爬的网址可贴在这儿"); BufferedReader in=new BufferedReader( new
Java
爬虫
——爬取体彩网足球赛果
Java
爬虫
——爬取体彩网足球赛果 现在用Python做
爬虫
很是盛行,在学
Java
的本人寻思着
Java
如何做
爬虫
。 本
爬虫
针对
中
国体育彩票网http://www.sporttery.cn/ 本例实现对“足球赛果开奖”的爬取;若要对体育彩票站其他页面爬取,稍微修改代码
中
URL规则即可;若要爬取非体彩网的其他网站,则需要重新分析其站结构,修改其爬取方式。 进入正题,编译器为intellij ID...
java
爬取
网页
数据
多页爬取 jsoup 和 httpClient 实现
预览结果视图 目录 预览结果视图 介绍 代码 依赖 爬取
网页
数据
代码 解析代码 解析介绍 完整代码 介绍 1.爬取通过org.jsoup和HttpClients实现 2.爬取多页内容的时候进行循环,多页进行爬取 3.爬取来
数据
解析到jsonoup 4.取回
数据
使用文件保存直接保存
到本地
5.文件保存成
excel
可以产考我的另一篇文章https://yushen.blog.csdn.net/article/details/111580547 6.最后直接用...
python爬取小说
写
入txt_一个简易的Python
爬虫
,将爬取到的
数据
写
入txt
文档
中
代码如下:import requestsimport reimport os#urlurl = "http://wiki.akbfun48.com/index.php?title=%E4%B9%83%E6%9C%A8%E5%9D%82%E5%B7%A5%E4%BA%8B%E4%B8%AD&variant=zh-hans"#请求头headers = {"User-Agent":"Mozilla/5....
python
爬虫
详解
python
爬虫
简介 1、基本概念 1.1、什么是
爬虫
网络
爬虫
,是一种按照一定规则,自动抓取互联网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。随着
网络
的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。例如:传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具也存在着一定的局限性,通用搜索引擎的目标是尽可能大的
网络
覆盖率,返回的结果包含大量用户不关心的
网页
,为了解决上述问题,定..
Java
51,397
社区成员
85,842
社区内容
发帖
与我相关
我的任务
Java
Java相关技术讨论
复制链接
扫一扫
分享
社区描述
Java相关技术讨论
java
spring boot
spring cloud
技术论坛(原bbs)
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章