pdf文本提取

geniusyumiao 2011-03-30 10:19:43
最近在做的项目牵涉到一些pdf的内容,想向高手们请教下。需求是将pdf中的文字内容提取出来,现在我已经做到将stream和endstream之间的部分用zlib解压还原,得到一堆pdf格式的内容,里面掺杂着我所需要的内容。
现在的问题有两个,一是解压出来的pdf的格式貌似有点乱,不知哪位有比较详细的讲这块的格式方面的资料可以提供,二是一个比较大的问题,就是中文的问题,解压出来的中文是乱码,我不知道这是什么编码,怎么处理,希望给予指教,谢谢。
QQ:498259675 希望大侠指教。
...全文
335 8 打赏 收藏 转发到动态 举报
写回复
用AI写文章
8 条回复
切换为时间正序
请发表友善的回复…
发表回复
lywpcw 2012-02-27
  • 打赏
  • 举报
回复
楼主你好,问题得到解决了吗?
赵4老师 2011-04-08
  • 打赏
  • 举报
回复
购买“福昕阅览器”开发版?
geniusyumiao 2011-04-01
  • 打赏
  • 举报
回复
pdf文件吗?
文件->属性->字体,里面显示的编码很多不止一种如Identity-H,GBK-EUC-H,自定义什么的
我用UE打开看有WinCharSetFFFF,实在是不懂啊
luciferisnotsatan 2011-04-01
  • 打赏
  • 举报
回复
那文件本身是啥编码?
antiwindows 2011-04-01
  • 打赏
  • 举报
回复
恩 是个难题。
如果你只是提取文本内容,对于解压出的pdf格式,不需要关注太多,只要找Tj和TJ就行。
对于汉字的处理,真是不能给什么好的建议了。
geniusyumiao 2011-03-31
  • 打赏
  • 举报
回复
我试了很多种编码,包括UTF8、GBK、UTF16,但好像都不是啊,跪求高手解答
赵4老师 2011-03-30
  • 打赏
  • 举报
回复
推荐使用convertz软件进行汉字编码转换。
赵4老师 2011-03-30
  • 打赏
  • 举报
回复
中文编码常用的有UTF8、GBK、Unicode即UTF16,试试是哪个吧。我想总不至于是JIS, Shift-JIS, EUC-JP
免费Spire.PDF for .NET 是一款由e-iceblue公司开发的专业性的PDF文档创建组件。它能够使用户在不用Adobe Acrobat和其他外部控件的情况下,运用.NET 应用程序阅读,编写和操纵PDF 文档。Spire.PDF for .NET不仅可以运用在服端比如:ASP.NET 或者其他环境,还可以应用在Windows Forms 应用程序中。Spire.PDF for .NET 适合应用于所有常见的坏境中,比如:创建好的PDF文档可以存到磁盘中, 还可以在Windows Forms应用程序,ASP.NET 应用程序客户端浏览器中保存为数据流。 Spire.PDF for .NET 功能丰富。 除了基本的功能比如:绘制多种图形,图片,创建窗体字段,插入页眉页脚,输入数据表,自动对大型表格进行分页外,Spire.PDF for .NET还支持PDF数字签名,将HTML转换成PDF格式,提取PDF文档中的文本信息和图片,存为文本格式和各种图片格式,甚至可以将PDF中的附件提取出来。 主要功能 支持嵌入式字体,Truetype 字体和CJK字体。 支持绘图。比如:矩形,环形,弧形,椭圆形,也可以自定笔刷将其填充。 可以将图片从数据流,磁盘文件中载入到PDF 文档中。 在PDF 文档中既可以绘制梯状图形和矢量图像,还支持掩模和水印图像。 可以在PDF 文档中载入数据表。可以设置表中的行和列的格式,还可以在表内加入图形元素。 自动对PDF 中的大型表格进行分页。 创建窗体字段。比如在PDF 文档中创建按钮,文本框,列表框,复选框等等。 在PDF 中插入页眉页脚。 通过设置所有者密码和用户密码来加密PDF文档。 通过作者的签名来保护PDF文档。 读取当前PDF文档的表格并且填充表格。 HTML网页在转换到PDF文档时会拆分为多个大型页面,这些页面可以原原本本的展现在PDF文档中,而且在PDF文档的分页处没有任何文字的截断。用户还可以将这些网页在不需要临时文件的情况下,直接转换为数据流来创建PDF文档。

3,881

社区成员

发帖
与我相关
我的任务
社区描述
C/C++ 其它技术问题
社区管理员
  • 其它技术问题社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧