社区
C#
帖子详情
C# 用pdfbox提取PDF文本问题
liujin9012
2012-10-25 07:35:09
一般的PDF都能正常提取出文本,但是一遇到横向输出的汉字就报错了."Unknow encoding for 'GB-ECU-H'".查了一下,只知道GB-ECU-H是PDF的一种编码,却不知道怎么解决.求高人指点!!!!
...全文
382
7
打赏
收藏
C# 用pdfbox提取PDF文本问题
一般的PDF都能正常提取出文本,但是一遇到横向输出的汉字就报错了."Unknow encoding for 'GB-ECU-H'".查了一下,只知道GB-ECU-H是PDF的一种编码,却不知道怎么解决.求高人指点!!!!
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
7 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
蝶恋花雨
2012-10-26
打赏
举报
回复
using org.pdfbox.pdmodel;
using org.pdfbox.util;
public void pdf2txt(FileInfo file,FileInfo txtfile)
{
PDDocument doc = PDDocument.load(file.FullName);
PDFTextStripper pdfStripper = new PDFTextStripper();
string text = pdfStripper.getText(doc);
StreamWriter swPdfChange = new StreamWriter(txtfile.FullName, false, Encoding.GetEncoding("gb2312"));//设置为你的编码试试
swPdfChange.Write(text);
swPdfChange.Close();
}
参考
http://blog.renren.com/share/223412840/7739177723
http://emily2ly.iteye.com/blog/743552
http://www.cnblogs.com/hejycpu/archive/2009/01/19/1378380.html
XBodhi.
2012-10-26
打赏
举报
回复
你的这个 题没有办法回答, 题目不清晰
liujin9012
2012-10-26
打赏
举报
回复
[Quote=引用 3 楼 的回复:]
编码问题吧
[/Quote]...您这叫我怎么说好呢.我的提问中就差没说这几个字"是编码问题"了,我需要的是解决方案~~~
csdn_风中雪狼
2012-10-26
打赏
举报
回复
编码问题吧
liujin9012
2012-10-26
打赏
举报
回复
UP!UP!
liujin9012
2012-10-26
打赏
举报
回复
[Quote=引用 6 楼 的回复:]
using org.pdfbox.pdmodel;
using org.pdfbox.util;
public void pdf2txt(FileInfo file,FileInfo txtfile)
{
PDDocument doc = PDDocument.load(file.FullName);
PDFTextStripper pdfS……
[/Quote]非常感谢,虽然用你的方法还是没能解决,但参考资料很有价值.
nikolaichow
2012-10-25
打赏
举报
回复
坐等高手,顶贴
开源
Pdf
Sharp
提取
读取
PDF
文档里text内容方法
开源
Pdf
Sharp
提取
读取
PDF
文档里text内容方法
C#
编程读取
pdf
文件
利用
PDF
Box
的IKVM版本能比较好地从
PDF
中
提取
文本
并且能够根据需要显示 行分隔符、字段分隔符、也分隔符等等 便于使用
在C#(PdfBox的端口)中读取和
提取
PDF
中的
文本
和其他内容-.NET开发
Pdf
Pig此项目允许用户读取和
提取
PDF
文件中的
文本
和其他内容。 此外,该库可用于创建包含
文本
和几何形状的简单
PDF
文档。 此项目旨在p
Pdf
Pig此项目使用户可以读取和
提取
PDF
文件中的
文本
和其他内容。 此外,该库可用于创建包含
文本
和几何形状的简单
PDF
文档。 该项目旨在将
PDF
Box
移植到C#。 从0.0.x迁移到0.1.x? 使用本指南:迁移到0.1.x。 安装可通过发布选项卡或从Nuget获得该软件包:https://www.nuget.org/packages/
Pdf
Pig/或从软件包管理器控制台获得:> Install-Package
Pdf
Pig
c#
实现将
pdf
转
文本
的示例分享
如何解析
PDF
文件在.NET中从
PDF
文件里
提取
文本
的几种主要方法有: 1、Microsoft 的 IFilter 接口 和 Adobe 的 IFilter 实现; 2、iTextSharp; 3、
PDF
Box
。 不幸的是这些
PDF
解析方案都不完美。我们将在下面讨论这些方法。 Adobe
PDF
IFilter 为了使用 IFilter 接口来解析
PDF
文件,你需要: Windows 2000 或者后续版本 Adobe Acrobat 或 Reader 7.0.5+ (或单独的 Adobe
PDF
IFilter [adobe.com]) IFilter COM 封装类 [dotluc
Pdf
Pig:在C#(PdfBox的端口)中读取和
提取
PDF
中的
文本
和其他内容
Pdf
猪 该项目允许用户读取和
提取
PDF
文件中的
文本
和其他内容。 此外,该库可用于创建包含
文本
和几何形状的简单
PDF
文档。 该项目旨在将移植到C#。 从0.0.x迁移到0.1.x? 使用本指南: 安装 该软件包可通过发布选项卡或从Nuget获得: 或从包管理器控制台中: > Install-Package
Pdf
Pig 当版本低于1.0.0时,次要版本将更改公共API,而不会发出警告(直到达到1.0.0才会遵循SemVer)。 开始使用 此阶段最简单的用法是打开一个文档,阅读每一页上的文字: using (
Pdf
Document document =
Pdf
Document.Ope
C#
110,571
社区成员
642,568
社区内容
发帖
与我相关
我的任务
C#
.NET技术 C#
复制链接
扫一扫
分享
社区描述
.NET技术 C#
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
让您成为最强悍的C#开发者
试试用AI创作助手写篇文章吧
+ 用AI写文章