python解析pdf文件,提取文本排序输出
python解析pdf文件,采用pdfminer获取出来的文本没有按顺序排列,用java的pdfbox包则有一个属性设置排序提取文本,代码如下:
//PDFTextStripper来提取文本
PDFTextStripper stripper = null;
stripper = new PDFTextStripper();
//设置是否排序,这里排序是按行从上到下,从左到右进行提取Text
stripper.setSortByPosition(sort);
sort = True时,提取出来的是按行读取的文本内容,从上到下,从左到右的顺序。
请文python有没有这样的第三方库,可以类似java的pdfbox第三包的解析功能?