java爬虫，爬出来的网页中文内容是乱码

Zzzzzzt丶 2016-11-21 09:55:28

 package com.lib;



import java.io.BufferedReader;

import java.io.InputStreamReader;



import org.apache.http.HttpEntity;

import org.apache.http.HttpStatus;

import org.apache.http.client.methods.CloseableHttpResponse;

import org.apache.http.client.methods.HttpGet;

import org.apache.http.impl.client.CloseableHttpClient;

import org.apache.http.impl.client.HttpClients;





public class HttpGetUtils {

    public String get(String url){

        String result = "";

        try{

            CloseableHttpClient httpclient = HttpClients.createDefault();

            HttpGet httpget = new HttpGet(url);

            CloseableHttpResponse response = httpclient.execute(httpget);

            try{

                if (response != null && response.getStatusLine().getStatusCode()

                        == HttpStatus.SC_OK ){

                    System.out.println(response.getStatusLine());

                    HttpEntity entity = response.getEntity();

                    System.out.println(entity.getContentEncoding());

                    result = readResponse(entity, "UTF-8");

                }

            }

            finally{

                httpclient.close();

                response.close();

            }



        }

        catch (Exception e) {

            // TODO: handle exception

            e.printStackTrace();

        }

        return result;

    }



    public String readResponse(HttpEntity entity, String charset){

        StringBuffer res = new StringBuffer();

        BufferedReader reader = null;

        try{

            if (entity == null){

                return null;

            }

            else{

                reader = new BufferedReader(new InputStreamReader(entity.getContent(),charset));

                String line;

                while ( (line = reader.readLine()) != null){

                    line = line + "\n";

                    res.append(line);

                }

            }

        }

        catch (Exception e) {

            // TODO: handle exception

            e.printStackTrace();

        }

        finally{

            try{

                if (reader != null){

                    reader.close();

                }



            }

            catch(Exception e){

                e.toString();

            }

        }

        return res.toString();

    }





}

...全文

400 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

xiashengwuyu 2016-11-22

打赏
举报

回复

我觉得你也许可以去看一下浏览器的编码是不是utf-8的编码

baidu_35198066 2016-11-21

打赏
举报

回复

把UTF-8换成其他的试试

最近一直在研究爬虫和Lucene，虽然开始决定选用Heritrix来执行爬虫操作，但是后来发现用它来做还是存在一定的问题，比如需要程序生成相应的XML文件，对于同一个Job，怎样才能保证重复运行该Job时文件夹始终是同一个（Heritrix为Job创建文件夹的规则是“Job名称-时间戳”）等等，都是需要考虑的问题，最终还是将其搁浅。　　后来google了一下，找到了一个简单爬虫的程序代码（http://www.blogjava.net/Jack2007/archive/2008/03/24/188138.html），随即试验了一下，发现确实能得到网页的内容，在这里还是要谢谢代码的提供者——Jack.Wang。　　虽然试验成功，但是在随后的大数据量试验时，还是出现了问题。最初试验时，我只是让程序去抓取10个URL链接，当我将URL链接数改为100个时，问题出现了——URL中存在重复，而且非常容易的就变成死循环。举个例子来说，比如我首先爬的是A.html，在A.html中有两个链接：B.html，C.html，等爬完A.html以后，程序会爬B.html，这时如果B.html中的所有链接中有A.html这个页面的链接，那么程序又会去爬A.html这个页面，如此一来就形成了一个死循环，永远也不能停止。　　跟踪程序发现，原来是在添加要抓取的网页的链接列表中，没有将已经抓取过的URL去除，所以才造成了死循环。现在虽然加上了这个判断，但是从我运行程序的效果来看，也不是很理想，总是感觉有些慢，800个页面要一两分钟才能爬完，这个我觉得有点说不过去。　　这个产品，做到现在，我遇到了这么几个情况，有和大家分享的，也有向大家请教，求助的。　　 1.关于对应关系数据的保存方式　　在创建索引的时候，需要将网页的URL和网页的内容传到相应的方法中，当然URL和内容是要对应的，也许是经验太少吧，我采取的是通过构建一个JavaBean的方式来传递的，不知道大家有没有更好的方法　　　　 2.关于要创建索引的内容的保存方式　　最初的想法是不创建文件，直接将内容保存到变量中，然后创建索引，即先抓取网页的内容，然后将网页的内容和URL保存到自己构建的JavaBean对象中，接着将这个对象放到一个list列表中，等所有网页抓取完毕以后，将这个列表传到创建索引的方法中。这种做法看似不错，可是当URL数量很大时，会导致内存不够用，所以还是创建文件比较稳妥。　　 3.关于网页编码问题　　遇到这个问题也是一个巧合，本来我抓取的是客户的一个网站，后来同事说如果客户看访问日志，这个月的数据会和平常的数据不一样，所以我就抓取公司的网站，结果，问题出现了。原先公司的网站是用GB2312编码做的页面，现在采用的是UTF-8的编码，虽然我已经判断了页面的编码，可是依然不能解决保存的文件中文乱码的问题，不知道大家有什么好办法没有。错误信息为：java.io.UnsupportedEncodingException 　　附件为爬虫代码本文出自 “徘徊在c＃，java，php之间” 博客，请务必保留此出处http://jerrysun.blog.51cto.com/745955/221879

一个java编写的简单爬虫程序，可以实现通过Socket保存html网页去乱码存储当前页面URL 自动顺序抓取页面

学员朋友在学习课程之前，请仔细阅读以下内容↓本课程为入门课程，讲解基础课程、动态加载、自动化模拟采集。适合人群Java初学者数据爱好者对爬虫感兴趣的同学你可以得到从0到1的爬虫编程方法和搭建过程获得教程中全部源码完整的开发工具及使用过程课程说明爬虫绝不是 python 独家的，Java 也是爬虫利器。通过本课程学习，可以让学员快速入门爬虫，减少学习曲线。学员通过跟着课程，可以学习到老师的编程方式及遇到问题时的解决方式

获取网页内容的例子绝对可以运行各种编码的网页都可以正确获取中文乱码不复存在

50,523

社区成员

85,601

社区内容

发帖

与我相关

我的任务

javaspring bootspring cloud 技术论坛（原bbs）

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章