C#读取PDF问题

LBreathy 2012-07-14 04:57:37
最近在做一个项目,需要读取PDF文档,在网上找了很多相关资料,也做了不少demo,读取结果不是很理想,于是找到了PDFSharp开源项目,但是读取出来的东西全是乱码,Encoding的编码格式都不行,用PDFBox第三方控件有些文档依旧是读出报错,所以准备放弃PDFBox,想问问各位大侠,用PDFSharp读取PDF文档,最有效的方式是什么啊?我只读取文字,忽略图片的。
代码如下:

private static String ReadPdf(String fileName)
{



Stream stream =new FileStream(fileName, FileMode.Open, FileAccess.Read);
Byte[] buffer = new Byte[stream.Length];
stream.Read(buffer,0,Convert.ToInt32(stream.Length));

StringBuilder sb = new StringBuilder();

CSequence sequence = ContentReader.ReadContent(buffer);

sb.Append(Encoding.Unicode.GetString(sequence.ToContent()));

return sb.ToString();
}
...全文
375 3 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
nonocast 2012-07-14
  • 打赏
  • 举报
回复
还好我们项目中只需要convert成图片
devmiao 2012-07-14
  • 打赏
  • 举报
回复
用iTextSharp
风一样的大叔 2012-07-14
  • 打赏
  • 举报
回复

111,098

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术 C#
社区管理员
  • C#
  • AIGC Browser
  • by_封爱
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧