社区
Java
帖子详情
怎么用java写网络爬虫将网页中的指定数据下载到本地excel文档中
sunshinewxz
2015-04-11 06:27:56
刚开始学网络爬虫,只会把相关的数据打印出来,但是不知道怎么才能下载到本地的文档中,并且如果那个数据是动态的又该怎么办呢?求各位大神详细的java代码
...全文
292
3
打赏
收藏
怎么用java写网络爬虫将网页中的指定数据下载到本地excel文档中
刚开始学网络爬虫,只会把相关的数据打印出来,但是不知道怎么才能下载到本地的文档中,并且如果那个数据是动态的又该怎么办呢?求各位大神详细的java代码
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
3 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
午阿哥
2016-07-12
打赏
举报
回复
午阿哥
2016-07-12
打赏
举报
回复
我刚开始学习写爬虫,代码跑起来,是异常,帮我看看; import java.io.FileOutputStream; import java.io.InputStream; import java.io.OutputStream; import org.apache.commons.httpclient.HttpClient; import org.apache.commons.httpclient.HttpStatus; import org.apache.commons.httpclient.methods.GetMethod; /** * * @author CallMeWhy * */ public class Spider { private static HttpClient httpClient = new HttpClient(); /** * @param path * 目标网页的链接 * @return 返回布尔值,表示是否正常下载目标页面 * @throws Exception * 读取网页流或写入本地文件流的IO异常 */ public static boolean downloadPage(String path) throws Exception { // 定义输入输出流 InputStream input = null; OutputStream output = null; // 得到 post 方法 GetMethod getMethod = new GetMethod(path); // 执行,返回状态码 int statusCode = httpClient.executeMethod(getMethod); // 针对状态码进行处理 // 简单起见,只处理返回值为 200 的状态码 if (statusCode == HttpStatus.SC_OK) { input = getMethod.getResponseBodyAsStream(); // 通过对URL的得到文件名 String filename = path.substring(path.lastIndexOf('/') + 1) + ".html"; // 获得文件输出流 output = new FileOutputStream(filename); // 输出到文件 int tempByte = -1; while ((tempByte = input.read()) > 0) { output.write(tempByte); } // 关闭输入流 if (input != null) { input.close(); } // 关闭输出流 if (output != null) { output.close(); } return true; } return false; } public static void main(String[] args) { try { // 抓取百度首页,输出 Spider.downloadPage("http://www.baidu.com"); } catch (Exception e) { e.printStackTrace(); } } }
marzone
2016-04-06
打赏
举报
回复
问题解决没?我也在学习!
150讲轻松学习Python
网络
爬虫
另外在
爬虫
过程
中
,经常容易遇到被反
爬虫
,比如字体反爬、IP识别、验证码等,如何层层攻克难点拿到想要的
数据
,这门课程,你都能学到! 2、如果是作为一个其他行业的开发者,比如app开发...
用
java
编
写
一个
爬虫
程序
编
写
一个
爬虫
demo ,爬取XXX大学的所有新闻的标题。 这里是新闻标题所在位置啦 main代码: public static void main(String[] args) throws IOException { URL url=new URL("你要爬的网址可贴在这儿"); BufferedReader in=new BufferedReader( new
Java
爬虫
——爬取体彩网足球赛果
Java
爬虫
——爬取体彩网足球赛果 现在用Python做
爬虫
很是盛行,在学
Java
的本人寻思着
Java
如何做
爬虫
。 本
爬虫
针对
中
国体育彩票网http://www.sporttery.cn/ 本例实现对“足球赛果开奖”的爬取;若要对体育彩票站其他页面爬取,稍微修改代码
中
URL规则即可;若要爬取非体彩网的其他网站,则需要重新分析其站结构,修改其爬取方式。 进入正题,编译器为intellij ID...
python爬取小说
写
入txt_一个简易的Python
爬虫
,将爬取到的
数据
写
入txt
文档
中
代码如下:import requestsimport reimport os#urlurl = "http://wiki.akbfun48.com/index.php?title=%E4%B9%83%E6%9C%A8%E5%9D%82%E5%B7%A5%E4%BA%8B%E4%B8%AD&variant=zh-hans"#请求头headers = {"User-Agent":"Mozilla/5....
java
爬取
网页
数据
多页爬取 jsoup 和 httpClient 实现
预览结果视图 目录 预览结果视图 介绍 代码 依赖 爬取
网页
数据
代码 解析代码 解析介绍 完整代码 介绍 1.爬取通过org.jsoup和HttpClients实现 2.爬取多页内容的时候进行循环,多页进行爬取 3.爬取来
数据
解析到jsonoup 4.取回
数据
使用文件保存直接保存
到本地
5.文件保存成
excel
可以产考我的另一篇文章https://yushen.blog.csdn.net/article/details/111580547 6.最后直接用...
Java
50,528
社区成员
85,607
社区内容
发帖
与我相关
我的任务
Java
Java相关技术讨论
复制链接
扫一扫
分享
社区描述
Java相关技术讨论
java
spring boot
spring cloud
技术论坛(原bbs)
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章