Jsoup 抓取网页,字符是乱码,怎么转换?跪求

Eniak 2013-06-19 12:21:16
抓取一个网页,上面标注的是 gb2312

我想转换成 utf-8,网页上面的东东直接打印出来的话,是乱码,然后数据库也存不进去

我的代码是,其中,link是jsoup扫描出来的内容



postcontent.m_title = new String(link.text().getBytes("gb2312"), "UTF-8");


还有一点,如果直接用 拷贝 复制 到一个文件夹里面,倒是没问题。

各路神仙,帮帮忙吧
...全文
452 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
艾德 2013-06-24
  • 打赏
  • 举报
回复
你用ISO8859_1试试, link.text().getBytes("ISO8859_1")
Eniak 2013-06-24
  • 打赏
  • 举报
回复
自己的帖子,自己顶
翟翟2013 2013-06-19
  • 打赏
  • 举报
回复
1.从url加载一个页面:Document doc = Jsoup.connect("http://example.com/").get(); 2.从url加载页面同时加载该页面上的链接页面: Document doc=Jsoup.connect(url).data("query", "Java")// 请求参数 .userAgent("my jsoup")// 设置 User-Agent .cookie("auth", "token")// 设置 cookie .timeout(3000)// 设置连接超时时间 .get(); 3.本地一个html文件: File input = new File("/tmp/input.html"); Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

81,091

社区成员

发帖
与我相关
我的任务
社区描述
Java Web 开发
社区管理员
  • Web 开发社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧