解决pdfbox中文乱码问题

buybyetoo 2010-12-09 06:07:43

网上搜的中文解决办法都不管用，花了几天时间，终于自己解决了。
##org.apache.pdfbox.pdmodel.font.PDFont.java

public String encode( byte[] c, int offset, int length ) throws IOException
{
String retval = null;
if( cmap != null )
{
if (length == 1 && cmap.hasOneByteMappings())
{
retval = cmap.lookup( c, offset, length );
}
else if (length == 2 && cmap.hasTwoByteMappings())
{
retval = cmap.lookup( c, offset, length );
}

}

// there is no cmap but probably an encoding with a suitable mapping
if( retval == null )
{
Encoding encoding = getEncoding();
if( encoding != null )
{
retval = encoding.getCharacter( getCodeFromArray( c, offset, length ) );
}

// when the font has a DescendantFonts ,try to decode with it
if(length == 2 && retval == null && this instanceof PDType0Font)
{
COSArray descendantFontArray =(COSArray)font.getDictionaryObject( COSName.DESCENDANT_FONTS );

if( descendantFontArray != null && descendantFontArray.size() != 0)
{
COSDictionary descendantFontDictionary = (COSDictionary)descendantFontArray.getObject( 0 );
PDFont descendentFont = PDFontFactory.createFont( descendantFontDictionary );
CMap cmp = descendentFont.cmap ;
String cmpName = cmp.getRegistry()+"-"+cmp.getOrdering()+"-UCS2";
CMap cmp2 = cmapObjects.get(cmpName);

if(cmp2 == null && threadLocale.get() == null)
{
parseCmap( resourceRootCMAP, getClass().getResourceAsStream(cmpName), COSName.getPDFName(cmpName) );
threadLocale.set(true);
cmp2 = cmapObjects.get(cmpName);
if(cmp2 == null)
{
log.warn("Can't parse the CMap for " + cmpName);
}
}

if(cmp2 != null)
{
retval = cmp2.lookup(c, offset, length);
}

}
}

if( retval == null && (cmap == null || length == 2))
{
retval = getStringFromArray( c, offset, length );
}
}
return retval;
}

...全文

3166 6 打赏收藏转发到动态举报

写回复

6 条回复

切换为时间正序

请发表友善的回复…

发表回复

shuangr 2011-01-02

打赏
举报

回复

杂不发呢？

buybyetoo 2010-12-10

打赏
举报

回复

还有点问题。解决后继续发

24K純帥 2010-12-10

打赏
举报

回复

解决了就好~

Jlins 2010-12-10

打赏
举报

回复

哦谢谢共享..

buybyetoo 2010-12-10

打赏
举报

回复

看另外一篇...

此文件中包含我进行修改的源码地址，托管在github上，资源分定为10分，也算是对我努力的一种肯定，包含完整工程，我发现github上很多源码都是没有jar包的，我也不知道作者是什么心理，为什么就是不放完整工程，我放的是包含jar包，完整的eclipse工程。 pdfbox 1.8 版本上进行的修改。

java用pdfbox转pdf为图片文件时，如果pdf有中文，则会出现乱码(windows下正常，linux下乱码)，改用icepdf后问题解决，而且能够轻松设置欲转换成图片的格式和大小.icepdf对中文支付非常强大，以下是实例代码，可以直接运行的。

基于pdfbox的pdf转图片，发票pdf转图片，网络pdf转图片,基于pdfbox开发的demo，下载即用；

# 安装执行脚本 # centos7-mini-xpdf-install.sh文件放到用户目录~下 $ cd ~ $ chmod -Rf 755 centos7-mini-xpdf-install.sh $ ./centos7-mini-xpdf-install.sh # 执行命令即可pdf转png图片 $ pdftopng pdf文件全路径 png图片输出文件夹 # 解决问题 java实现pdf转png图片，传统实现方式为pdfbox或icepdf，这两种方式都存在中文乱码问题； xpdf为C++实现pdf转png，开源免费，完美实现pdf转png，无中文乱码问题，内嵌自定义字体的pdf(复制文本出来变乱码)也能正常转换；一键安装sh，解决执行命令pdftopng报字体找不到问题；编译xpdf源码生成pdftopng可执行文件，解决官方下载tool包不能实现linux各种环境包依赖问题；脚本中把centos7的yum install命令修改为alpine下的apk add命令同样也适用于alpine中生成docker镜像； # java调用xpdf实现pdf转png图片： Runtime.getRuntime().exec("pdftopng pdf文件全路径 png图片输出文件夹");

itext pdfbox 详细的例子，其中包含读取解析pdf wrod 生成画格子以及解决中文乱码问题很多例子打包成一起详细的注释

62,614

社区成员

307,326

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章