pdf文本提取
最近在做的项目牵涉到一些pdf的内容,想向高手们请教下。需求是将pdf中的文字内容提取出来,现在我已经做到将stream和endstream之间的部分用zlib解压还原,得到一堆pdf格式的内容,里面掺杂着我所需要的内容。
现在的问题有两个,一是解压出来的pdf的格式貌似有点乱,不知哪位有比较详细的讲这块的格式方面的资料可以提供,二是一个比较大的问题,就是中文的问题,解压出来的中文是乱码,我不知道这是什么编码,怎么处理,希望给予指教,谢谢。
QQ:498259675 希望大侠指教。