linux+htmlparser解析中文乱码,请高手提供解决方案,在线给分100分!

orrin 2007-11-16 12:40:39
如题..
...全文
310 2 打赏 收藏 转发到动态 举报
写回复
用AI写文章
2 条回复
切换为时间正序
请发表友善的回复…
发表回复
xiyuan1999 2007-11-17
  • 打赏
  • 举报
回复
对于HTMLParser 工具包我们需要修改其中的htmlparser.java文件使其适用中文的html文件分析。

htmlparser.java文件中具体实现细节就不再介绍。
这里主要是把protected static final String DEFAULT_CHARSET = "ISO-8859-1";
修改成protected static final String DEFAULT_CHARSET = "gb2312";
--因为采用默认的字符集"ISO-8859-1"对含有中文的html文件进行分析的时候就会出现乱码。必须进行new String(str.getBytes("ISO-8859-1"),"GB2312")的转换工作。

对于修改好的htmlparser工具包,需要重新压缩成.jar文件,放到jdk的工作环境中。
nanjg 2007-11-16
  • 打赏
  • 举报
回复
package com.sydica;

import org.htmlparser.Parser;
import org.htmlparser.visitors.HtmlPage;

/**
* @author water
*
*/
public class HtmlParserTool {

public static void main(String[] args) throws Exception{

String filePath="http://bangyan2003.javaeye.com";
ParseFunction(filePath);

}

public static void ParseFunction(String content) throws Exception{
Parser parser = new Parser(content);

parser.setEncoding("GBK");

HtmlPage visitor = new HtmlPage(parser);

parser.visitAllNodesWith(visitor);

String parseTitle = visitor.getTitle();

System.out.println(parseTitle);

}



}

67,513

社区成员

发帖
与我相关
我的任务
社区描述
J2EE只是Java企业应用。我们需要一个跨J2SE/WEB/EJB的微容器,保护我们的业务核心组件(中间件),以延续它的生命力,而不是依赖J2SE/J2EE版本。
社区管理员
  • Java EE
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧