C# 用pdfbox提取PDF文本问题

liujin9012 2012-10-25 07:35:09
一般的PDF都能正常提取出文本,但是一遇到横向输出的汉字就报错了."Unknow encoding for 'GB-ECU-H'".查了一下,只知道GB-ECU-H是PDF的一种编码,却不知道怎么解决.求高人指点!!!!
...全文
382 7 打赏 收藏 转发到动态 举报
写回复
用AI写文章
7 条回复
切换为时间正序
请发表友善的回复…
发表回复
蝶恋花雨 2012-10-26
  • 打赏
  • 举报
回复
using org.pdfbox.pdmodel;
using org.pdfbox.util;

public void pdf2txt(FileInfo file,FileInfo txtfile)
{
PDDocument doc = PDDocument.load(file.FullName);
PDFTextStripper pdfStripper = new PDFTextStripper();
string text = pdfStripper.getText(doc);
StreamWriter swPdfChange = new StreamWriter(txtfile.FullName, false, Encoding.GetEncoding("gb2312"));//设置为你的编码试试
swPdfChange.Write(text);
swPdfChange.Close();
}

参考
http://blog.renren.com/share/223412840/7739177723
http://emily2ly.iteye.com/blog/743552
http://www.cnblogs.com/hejycpu/archive/2009/01/19/1378380.html
XBodhi. 2012-10-26
  • 打赏
  • 举报
回复
你的这个 题没有办法回答, 题目不清晰
liujin9012 2012-10-26
  • 打赏
  • 举报
回复
[Quote=引用 3 楼 的回复:]

编码问题吧
[/Quote]...您这叫我怎么说好呢.我的提问中就差没说这几个字"是编码问题"了,我需要的是解决方案~~~
csdn_风中雪狼 2012-10-26
  • 打赏
  • 举报
回复
编码问题吧
liujin9012 2012-10-26
  • 打赏
  • 举报
回复
UP!UP!
liujin9012 2012-10-26
  • 打赏
  • 举报
回复
[Quote=引用 6 楼 的回复:]

using org.pdfbox.pdmodel;
using org.pdfbox.util;

public void pdf2txt(FileInfo file,FileInfo txtfile)
{
PDDocument doc = PDDocument.load(file.FullName);
PDFTextStripper pdfS……
[/Quote]非常感谢,虽然用你的方法还是没能解决,但参考资料很有价值.
nikolaichow 2012-10-25
  • 打赏
  • 举报
回复
坐等高手,顶贴

110,571

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术 C#
社区管理员
  • C#
  • Web++
  • by_封爱
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧