社区
Java
帖子详情
怎么用java写网络爬虫将网页中的指定数据下载到本地excel文档中
sunshinewxz
2015-04-11 06:27:56
刚开始学网络爬虫,只会把相关的数据打印出来,但是不知道怎么才能下载到本地的文档中,并且如果那个数据是动态的又该怎么办呢?求各位大神详细的java代码
...全文
315
3
打赏
收藏
怎么用java写网络爬虫将网页中的指定数据下载到本地excel文档中
刚开始学网络爬虫,只会把相关的数据打印出来,但是不知道怎么才能下载到本地的文档中,并且如果那个数据是动态的又该怎么办呢?求各位大神详细的java代码
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
3 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
午阿哥
2016-07-12
打赏
举报
回复
午阿哥
2016-07-12
打赏
举报
回复
我刚开始学习写爬虫,代码跑起来,是异常,帮我看看; import java.io.FileOutputStream; import java.io.InputStream; import java.io.OutputStream; import org.apache.commons.httpclient.HttpClient; import org.apache.commons.httpclient.HttpStatus; import org.apache.commons.httpclient.methods.GetMethod; /** * * @author CallMeWhy * */ public class Spider { private static HttpClient httpClient = new HttpClient(); /** * @param path * 目标网页的链接 * @return 返回布尔值,表示是否正常下载目标页面 * @throws Exception * 读取网页流或写入本地文件流的IO异常 */ public static boolean downloadPage(String path) throws Exception { // 定义输入输出流 InputStream input = null; OutputStream output = null; // 得到 post 方法 GetMethod getMethod = new GetMethod(path); // 执行,返回状态码 int statusCode = httpClient.executeMethod(getMethod); // 针对状态码进行处理 // 简单起见,只处理返回值为 200 的状态码 if (statusCode == HttpStatus.SC_OK) { input = getMethod.getResponseBodyAsStream(); // 通过对URL的得到文件名 String filename = path.substring(path.lastIndexOf('/') + 1) + ".html"; // 获得文件输出流 output = new FileOutputStream(filename); // 输出到文件 int tempByte = -1; while ((tempByte = input.read()) > 0) { output.write(tempByte); } // 关闭输入流 if (input != null) { input.close(); } // 关闭输出流 if (output != null) { output.close(); } return true; } return false; } public static void main(String[] args) { try { // 抓取百度首页,输出 Spider.downloadPage("http://www.baidu.com"); } catch (Exception e) { e.printStackTrace(); } } }
marzone
2016-04-06
打赏
举报
回复
问题解决没?我也在学习!
用
java
编
写
一个
爬虫
程序
编
写
一个
爬虫
demo ,爬取XXX大学的所有新闻的标题。 这里是新闻标题所在位置啦 main代码: public static void main(String[] args) throws IOException { URL url=new URL("你要爬的网址可贴在这儿"); BufferedReader in=new BufferedReader( new
Java
爬虫
——爬取体彩网足球赛果
Java
爬虫
——爬取体彩网足球赛果 现在用Python做
爬虫
很是盛行,在学
Java
的本人寻思着
Java
如何做
爬虫
。 本
爬虫
针对
中
国体育彩票网http://www.sporttery.cn/ 本例实现对“足球赛果开奖”的爬取;若要对体育彩票站其他页面爬取,稍微修改代码
中
URL规则即可;若要爬取非体彩网的其他网站,则需要重新分析其站结构,修改其爬取方式。 进入正题,编译器为intellij ID...
python爬取小说
写
入txt_一个简易的Python
爬虫
,将爬取到的
数据
写
入txt
文档
中
代码如下:import requestsimport reimport os#urlurl = "http://wiki.akbfun48.com/index.php?title=%E4%B9%83%E6%9C%A8%E5%9D%82%E5%B7%A5%E4%BA%8B%E4%B8%AD&variant=zh-hans"#请求头headers = {"User-Agent":"Mozilla/5....
python
爬虫
详解
python
爬虫
简介 1、基本概念 1.1、什么是
爬虫
网络
爬虫
,是一种按照一定规则,自动抓取互联网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。随着
网络
的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。例如:传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具也存在着一定的局限性,通用搜索引擎的目标是尽可能大的
网络
覆盖率,返回的结果包含大量用户不关心的
网页
,为了解决上述问题,定..
python
爬虫
读取pdf_python
中
使用tabula爬取pdf
数据
并导出表格
Tabula是专门用来提取PDF表格
数据
的,同时支持PDF导出CSV、
Excel
格式。首先安装tabula-py:tabula-py依赖库包括
Java
、pandas、numpy所以需要保证运行环境
中
安装了这些库。在Python
中
配置好
Java
后看能否正常运行把PDF
中
爬取出来的
数据
制成表格,需要加载openpyxl:需要读取平均页数有二三百多页的PDF文件
数据
,爬取出需求
数据
,以及按需求格式制成不...
Java
51,411
社区成员
86,021
社区内容
发帖
与我相关
我的任务
Java
Java相关技术讨论
复制链接
扫一扫
分享
社区描述
Java相关技术讨论
java
spring boot
spring cloud
技术论坛(原bbs)
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章