C# 用pdfbox提取PDF文本问题

liujin9012 2012-10-25 07:35:09

一般的PDF都能正常提取出文本,但是一遇到横向输出的汉字就报错了."Unknow encoding for 'GB-ECU-H'".查了一下,只知道GB-ECU-H是PDF的一种编码,却不知道怎么解决.求高人指点!!!!

...全文

382 7 打赏收藏转发到动态举报

写回复

7 条回复

切换为时间正序

请发表友善的回复…

发表回复

蝶恋花雨 2012-10-26

打赏
举报

回复

using org.pdfbox.pdmodel;
using org.pdfbox.util;

public void pdf2txt(FileInfo file,FileInfo txtfile)
{
PDDocument doc = PDDocument.load(file.FullName);
PDFTextStripper pdfStripper = new PDFTextStripper();
string text = pdfStripper.getText(doc);
StreamWriter swPdfChange = new StreamWriter(txtfile.FullName, false, Encoding.GetEncoding("gb2312"));//设置为你的编码试试
swPdfChange.Write(text);
swPdfChange.Close();
}

参考
http://blog.renren.com/share/223412840/7739177723
http://emily2ly.iteye.com/blog/743552
http://www.cnblogs.com/hejycpu/archive/2009/01/19/1378380.html

XBodhi. 2012-10-26

打赏
举报

回复

你的这个题没有办法回答，题目不清晰

liujin9012 2012-10-26

打赏
举报

回复

[Quote=引用 3 楼的回复:]

编码问题吧
[/Quote]...您这叫我怎么说好呢.我的提问中就差没说这几个字"是编码问题"了,我需要的是解决方案~~~

csdn_风中雪狼 2012-10-26

打赏
举报

回复

编码问题吧

liujin9012 2012-10-26

打赏
举报

回复

UP!UP!

liujin9012 2012-10-26

打赏
举报

回复

[Quote=引用 6 楼的回复:]

using org.pdfbox.pdmodel;
using org.pdfbox.util;

public void pdf2txt(FileInfo file,FileInfo txtfile)
{
PDDocument doc = PDDocument.load(file.FullName);
PDFTextStripper pdfS……
[/Quote]非常感谢,虽然用你的方法还是没能解决,但参考资料很有价值.

nikolaichow 2012-10-25

打赏
举报

回复

坐等高手，顶贴

开源PdfSharp提取读取PDF文档里text内容方法

利用PDFBox的IKVM版本能比较好地从PDF中提取文本并且能够根据需要显示行分隔符、字段分隔符、也分隔符等等便于使用

PdfPig此项目允许用户读取和提取PDF文件中的文本和其他内容。此外，该库可用于创建包含文本和几何形状的简单PDF文档。此项目旨在p PdfPig此项目使用户可以读取和提取PDF文件中的文本和其他内容。此外，该库可用于创建包含文本和几何形状的简单PDF文档。该项目旨在将PDFBox移植到C＃。从0.0.x迁移到0.1.x？使用本指南：迁移到0.1.x。安装可通过发布选项卡或从Nuget获得该软件包：https://www.nuget.org/packages/PdfPig/或从软件包管理器控制台获得：> Install-Package PdfPig

如何解析PDF文件在.NET中从PDF文件里提取文本的几种主要方法有: 1、Microsoft 的 IFilter 接口和 Adobe 的 IFilter 实现； 2、iTextSharp； 3、PDFBox。不幸的是这些 PDF 解析方案都不完美。我们将在下面讨论这些方法。 Adobe PDF IFilter 为了使用 IFilter 接口来解析 PDF 文件，你需要： Windows 2000 或者后续版本 Adobe Acrobat 或 Reader 7.0.5+ (或单独的 Adobe PDF IFilter [adobe.com]) IFilter COM 封装类 [dotluc

Pdf猪该项目允许用户读取和提取PDF文件中的文本和其他内容。此外，该库可用于创建包含文本和几何形状的简单PDF文档。该项目旨在将移植到C＃。从0.0.x迁移到0.1.x？使用本指南：安装该软件包可通过发布选项卡或从Nuget获得：或从包管理器控制台中： > Install-Package PdfPig 当版本低于1.0.0时，次要版本将更改公共API，而不会发出警告（直到达到1.0.0才会遵循SemVer）。开始使用此阶段最简单的用法是打开一个文档，阅读每一页上的文字： using (PdfDocument document = PdfDocument.Ope

110,571

社区成员

642,568

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧

+ 用AI写文章