linux+htmlparser解析中文乱码,请高手提供解决方案,在线给分100分!

orrin 2007-11-16 12:40:39

如题..

...全文

310 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

xiyuan1999 2007-11-17

打赏
举报

回复

对于HTMLParser 工具包我们需要修改其中的htmlparser.java文件使其适用中文的html文件分析。

htmlparser.java文件中具体实现细节就不再介绍。
这里主要是把protected static final String DEFAULT_CHARSET = "ISO-8859-1"；
修改成protected static final String DEFAULT_CHARSET = "gb2312"；
--因为采用默认的字符集"ISO-8859-1"对含有中文的html文件进行分析的时候就会出现乱码。必须进行new String(str.getBytes("ISO-8859-1")，"GB2312")的转换工作。

对于修改好的htmlparser工具包，需要重新压缩成.jar文件，放到jdk的工作环境中。

nanjg 2007-11-16

打赏
举报

回复

package com.sydica;



import org.htmlparser.Parser;

import org.htmlparser.visitors.HtmlPage;



/**

 * @author water

 *

 */

public class HtmlParserTool {

 

 public static void main(String[] args) throws Exception{

  

  String filePath="http://bangyan2003.javaeye.com";

  ParseFunction(filePath);

  

 }



 public static void ParseFunction(String content) throws Exception{

  Parser parser = new Parser(content);

  

  parser.setEncoding("GBK");

  

  HtmlPage visitor = new HtmlPage(parser);

  

  parser.visitAllNodesWith(visitor);

  

  String parseTitle = visitor.getTitle();

  

  System.out.println(parseTitle);



 }

 





}

使用html2image-0.9.jar生成图片。在本地window系统正常，放到服务器linux系统时候中文乱码问题。英文可以，中文乱码应该就是字体问题了。一、首先需要在linux安装字体，simsun.ttc simsun.ttfsimsunb.ttf1、新建目录/user/share/fonts/chinese2、上传字体，在/user/share/fonts/chinese目录sims...

数据解析分类： 1.正则表达式 2.bs4解析 3.xpath解析原理概述：解析的局部文本内容都会存储于标签之间或标签对应的属性中解析步骤： ①进行指定标签的定位 ②标签或者标签对应的属性中存储的数据值进行提取（解析）编码流程： ①指定url ②发起请求 ③获取响应数据 ④数据解析 ⑤持久化存储 ①正则表达式 Ⅰ.常用正则表达式 Ⅱ.正则练习 import re ###################################################################

今天给大家总结整理了1000+常用Python库，主要分为以下几个部分????另外，除了像上图一样按目录查看，也可以直接搜索关键词！如果你是在手机查看，可以点击右上角的“···”，再选择搜索页面...

函数参数 1、定义默认参数要牢记一点：默认参数必须指向不变对象！ 2、可变参数在Python函数中，还可以定义可变参数。顾名思义，可变参数就是传入的参数个数是可变的 def calc(*numbers): sum = 0 for n in numbers: sum = sum + n * n return sum 定义可变参数和定义一个list或tuple参数相比，仅仅在参数前面加了一个*号。在函数内部，参数numbers接收到的是一个tuple，因此，函数代码

最近小雨遇到了一个需求，需要在前端小程序中嵌入展示Office文件的功能。然而，前端使用开源组件进行在线预览会导致性能消耗较大的问题（转半天圈圈）。产品理想的效果是用户上传Office文件后，浏览起来与页面一样流畅。没错，作为服务端的老铁，可以提供更强大的计算资源和处理能力来支持前端小伙伴实现需求（We are a team🏠）！这种情况下，可以在服务端使用开源插件对文件进行预览切片，将文件的预览效果保持为一张一张的图片，用户预览时直接夹在图片即可。

67,513

社区成员

225,879

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章