网页抓取 抓取utf-8会乱码怎么解决 谢谢各位 ~!

yzjtskz 2008-11-03 02:58:59
如题 谢谢各位了先~~~抓取这个页面会乱码 但是抓取gb2312正常怎么解决呢?

public class test1 {
private String downloadPage(URL pageUrl) {
try {
BufferedReader reader = new BufferedReader(new InputStreamReader(pageUrl.openStream()));
String chasr="";
String line;
StringBuffer pageBuffer = new StringBuffer();
while ((line = reader.readLine()) != null) {
pageBuffer.append(line);
}
System.out.print(pageBuffer.toString());
return pageBuffer.toString();

} catch (Exception e) {
e.printStackTrace();
}
return null;
}
private URL verifyUrl(String url) {
if (!url.toLowerCase().startsWith("http://"))
return null;
URL verifiedUrl = null;
try {
verifiedUrl = new URL(url);
} catch (Exception e) {
return null;
}
return verifiedUrl;
}
public static void main(String agr[]){
test1 st=new test1();
String url="http://j.peopledaily.com.cn/94476/94637/6524482.html";
URL pageUrl = st.verifyUrl(url);
st.downloadPage(pageUrl);
}
}
...全文
187 2 打赏 收藏 转发到动态 举报
写回复
用AI写文章
2 条回复
切换为时间正序
请发表友善的回复…
发表回复
yzjtskz 2008-11-03
  • 打赏
  • 举报
回复
谢了先~ 这样子改写之后 确实不会乱码了 ~~谢谢~~
loveyt 2008-11-03
  • 打赏
  • 举报
回复
new InputStreamReader(pageUrl.openStream(), "UTF-8")

81,091

社区成员

发帖
与我相关
我的任务
社区描述
Java Web 开发
社区管理员
  • Web 开发社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧