求大神:C#实现将pdf转换为文本

qq_24714971 2016-11-14 10:51:32
求各路大神,怎样将pdf文件中的文本提取出来转换为文本文件呢。
急急急。小弟先谢谢
...全文
252 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
qq_24714971 2016-12-21
  • 打赏
  • 举报
回复
大神你好,你说的我不是很明白 麻烦你能不能给说清楚一下。 我是个学生,在做毕业设计。在文件转换这里遇到了一点难题。 需要将PDF或nh文件转换为文本 不知道该怎么解决
stherix 2016-12-21
  • 打赏
  • 举报
回复
pdf格式有很多种 如果是扫描的pdf 其实是图片格式的,那种要完整转化成文字几乎是不可能的,用OCR很难完全识别
  • 打赏
  • 举报
回复
引用 2 楼 qq_24714971 的回复:
大神你好,你说的我不是很明白 麻烦你能不能给说清楚一下。 我是个学生,在做毕业设计。在文件转换这里遇到了一点难题。 需要将PDF或nh文件转换为文本 不知道该怎么解决
添加引用,写上代码,还有哪里不明白的呢?
  • 打赏
  • 举报
回复
pdf读写一般用itextsharp.dll,如果是纯文本,可以试试下面的方法:
using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;

 public static string pdfText(string path) //path为pdf的全路径
        {
            PdfReader reader = new PdfReader(path);
            string text = string.Empty;
            for(int page = 1; page <= reader.NumberOfPages; page++)
            {
                text += PdfTextExtractor.GetTextFromPage(reader,page);
            }
            reader.Close();
            return text;
        }  

110,534

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术 C#
社区管理员
  • C#
  • Web++
  • by_封爱
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧