怎么读取PDF文件内容才不是乱码

Cosmo 2013-10-08 05:41:52

PDDocument doc = PDDocument.load(file.FullName);
PDFTextStripper pdfStripper = new PDFTextStripper();
string text = pdfStripper.getText(doc);
StreamWriter swPdfChange = new StreamWriter(txtfile.FullName, false, Encoding.GetEncoding("gb2312"));
swPdfChange.Write(text);
swPdfChange.Close();
这种方式能读出来中文。但不能保存到数据库中，因为内容太长了。
我想通过二进方式保存但读出来后都是乱码
FileStream f = new FileStream(string.Format(strFilePath, strFileName), FileMode.Open, FileAccess.Read);
BinaryReader br = new BinaryReader(f);
byte[] buffer = br.ReadBytes(Convert.ToInt32(f.Length));
return buffer;

...全文

1176 10 打赏收藏转发到动态举报

写回复

10 条回复

切换为时间正序

请发表友善的回复…

发表回复

Cosmo 2013-10-09

打赏
举报

回复

引用 8 楼 rtdb 的回复:

有Lucene的话，文本内容就可以放Lucene里，没必要存入数据库的

文件非常多，如果每个文件在搜索的时候再去把内容读出来这样性能非常慢的。

rtdb 2013-10-09

打赏
举报

回复

有Lucene的话，文本内容就可以放Lucene里，没必要存入数据库的

Cosmo 2013-10-09

打赏
举报

回复

引用 6 楼 rtdb 的回复:

二进制流进数据库的话，你找图片文件存数据库的例子。不过若是“因为内容太长了”，那转二进制存是没有意义的，这并不能节省空间，字符串进了数据库后也是要存为二进制流的所以要回到基本问题： “因为内容太长了”是什么意思，到底是多长，10M？数据库开了多大的字段放不下？

非常感谢你的热心回答。我是做全文搜索功能，就一堆文件要通过关键字把这个文件这部分内容抓取出来给用户。我通过Lucene.net+PanGu分词实现。现在遇到的问题是要把PDF文件中内容取出来（保存到数据库文本方式是保存不了故我内容转为二进制保存，但我后面想把二进制转换为文本，怎么搞都是乱码）和PanGu分词进行比较才行搜索。

rtdb 2013-10-09

打赏
举报

回复

二进制流进数据库的话，你找图片文件存数据库的例子。不过若是“因为内容太长了”，那转二进制存是没有意义的，这并不能节省空间，字符串进了数据库后也是要存为二进制流的所以要回到基本问题： “因为内容太长了”是什么意思，到底是多长，10M？数据库开了多大的字段放不下？

Cosmo 2013-10-09

打赏
举报

回复

引用 4 楼 rtdb 的回复:

再说了，二进制入，当然也应是二进制出，当字符显示的时候不转换当然会是乱码

不保存二进制那怎么保存内容，我把二进制流转换回来就是乱码了。什么编码都尝试过。貌似都不行。。

rtdb 2013-10-09

打赏
举报

回复

再说了，二进制入，当然也应是二进制出，当字符显示的时候不转换当然会是乱码

rtdb 2013-10-09

打赏
举报

回复

二进制方式保存省不了什么空间的，你搞错方向了

Cosmo 2013-10-09

打赏
举报

回复

引用 1 楼 liuxiaoyi666 的回复:

活学活用啊 PDFParser parser = new PDFParser( is ); load 一个stream对象然后做反解析就可以了

我太菜了，没听懂，是否可以上点实例或者详细点。

rtdb 2013-10-09

打赏
举报

回复

引用 9 楼 chengguangsheng 的回复:

[quote=引用 8 楼 rtdb 的回复:] 有Lucene的话，文本内容就可以放Lucene里，没必要存入数据库的

文件非常多，如果每个文件在搜索的时候再去把内容读出来这样性能非常慢的。[/quote] 这么说吧，Lucene专业就是干这个的，至于非结构化数据存入数据库，见过太多了，基本上是等死的节奏。等数据量上来，你就知道数据库会慢成什么样了。

笨笨兔兔兔兔兔 2013-10-08

打赏
举报

回复

活学活用啊 PDFParser parser = new PDFParser( is ); load 一个stream对象然后做反解析就可以了

本文详细介绍了如何使用PHP读取PDF文件内容，特别是针对中文乱码的问题，通过检测文件编码类型并进行转换，确保正确显示UTF-8编码。

本文介绍了php库pdfparser，它可从pdf文件提取数据，但不支持加密文件。通过composer安装依赖包后，可创建index.php文件并引入autoload.php。文中给出了一次性读取、分页读取文件内容以及获取文件基本信息的代码示例。

本文介绍了使用PHPExcel读取模板文件template.xls，写入内容后导出PDF文件的过程。解决了导出PDF文件中日文乱码问题，指出设置对应字体可解决。还提到了生成PDF文件时图片不保留、边框显示异常、格式与模板不一致等问题，并探讨了更好的生成方案。

博客介绍了用PHP读取PDF文件内容并入库用于搜索的方法。先需下载xpdf相关文件，若读取中文还需额外文件。接着进行安装配置，最后实现功能，简单读取和转中文读取有不同语句，转中文后需再次转义避免乱码，还给出了pdftotext参数说明。

本文介绍了使用C#通过PdfReader库从PDF文件中逐页读取内容，并详细展示了如何处理字符串转换、特定字符定位和提取8位字节数据的过程。

62,271

社区成员

668,978

社区内容

发帖

与我相关

我的任务

javascript云原生企业社区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

.NET 社区是一个围绕开源 .NET 的开放、热情、创新、包容的技术社区。社区致力于为广大 .NET 爱好者提供一个良好的知识共享、协同互助的 .NET 技术交流环境。我们尊重不同意见，支持健康理性的辩论和互动，反对歧视和攻击。

希望和大家一起共同营造一个活跃、友好的社区氛围。

试试用AI创作助手写篇文章吧

+ 用AI写文章