java.net.URL抓取中文网页的问题

monkey 2008-09-17 10:22:47

我想抓取该网页
http://www.ocs.co.jp/multitracking/tracking/template/MultiQuery.vm/action/MultiTracking?new=true&customer=true&CWBs=31360638562
直接在ie里输入上面这个地址里面的内容显示是中文，但是如果我用
url = new URL("http://wwwapps.ups.com/WebTracking/processInputRequest?HTMLVersion=5.0&loc=zh_CN&Requester=UPSHome&tracknum=31360638562
);reader = new BufferedReader(new InputStreamReader(url.openStream(),"GB2312"));
的话，reader.readLine()显示出来的是该网页的英文版，reader = new BufferedReader(new InputStreamReader(url.openStream(),"UTF-8"));也试过，也是英文，怎么才能抓到中文的

...全文

173 5 打赏收藏转发到动态举报

写回复

用AI写文章

5 条回复

切换为时间正序

请发表友善的回复…

发表回复

zhongwenly 2008-09-17

打赏
举报

可能是实现了程序的国际化,把你的系统时区改到英语国家,看看还是不是中文的

monkey 2008-09-17

打赏
举报

楼上的，我试了，去掉后面一个参数，输出的仍旧是英文啊

zhongwenly 2008-09-17

打赏
举报

lz为什么要转换呢,

reader = new BufferedReader(new InputStreamReader(url.openStream())

输出的已经是中文了吧,试试看

monkey 2008-09-17

打赏
举报

问题是同样的地址，我ie里输入的话就显示中文，用程序抓取就显示英文，真奇怪了啊

wenbinhua 2008-09-17

打赏
举报

我猜想，服务器取得请求端（即你的电脑）的报头信息，你的操作系统是中文版的，那么，就国际化为中文页面内容回复你。

具体的，我也不太清楚了。

import java.net.URL; public class UrlHtml { @SuppressWarnings("deprecation") public static void main(String[] s) throws IOException{ try { URL url = new URL("http://www.kum.net.cn"); ...

import java.net.URL; public class FilePhoto { /** * 从网络Url中下载文件 * * @param urlStr * @param fileName * @param savePath * @throws IOException */ public static void downLoadByUrl...

import java.net.URL; public class GetNetHtml { public static String createhttpClient(String url, String param) { HttpClient client = new HttpClient(); String response = null; String ...

学习java的正则表达式，抓取网页并解析HTML部分内容 ... import java.io.BufferedReader;...import java.net.URL; import java.util.ArrayList; import java.util.HashMap; import java.util.List; import j

java URL转PDF文件(完美支持中文).解决linux中不显示中文问题：http://blog.csdn.net/zxz547388910/article/details/74315277

Web 开发

81,092

社区成员

341,716

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章