下载了pdfparser怎么用啊？我想读取pdf文件文本内容

asyncyd 2017-11-21 05:31:01

下面的代码是搜到的教程

    

// 获取参数，文件所在路径

    $path = $_GET['path'];

    // 创建源码中的Parser类对象

    $parser = new \Smalot\PdfParser\Parser();

    // 调用解析方法，参数为pdf文件路径，返回结果为Document类对象

    $document = $parser->parseFile($path);

    // 获取所有的页

    $pages = $document->getPages();

    // 逐页提取文本

    foreach($pages as $page){

        echo($page->getText());

    }

我是php新手，之前下载的类代码都是先引用类文件，如：require "phpExcel/Classes/PHPExcel.php";
可是pdfparser搜索的所有教程都没说怎么引用，然后下面这句出错：
$parser = new \Smalot\PdfParser\Parser();
运行后提示Fatal error: Class 'Smalot\PdfParser\Parser' not found。
下面是我下载的pdfparser目录：

谢谢各位！

...全文

672 5 打赏收藏转发到动态举报

写回复

5 条回复

切换为时间正序

请发表友善的回复…

发表回复

qq_39177602 2018-08-03

打赏
举报

回复

我获取到了信息和全部内容，但是为什么获取韩文的时候会出现乱吗？

qq_39177602 2018-08-01

打赏
举报

回复

怎么获取页数啊？

asyncyd 2017-11-22

打赏
举报

回复

引用 1 楼 xuzuning 的回复:

示例代码： $document = \Smalot\PdfParser\Document::parseFile('document.pdf'); $pages = $document->getPages(); $text = $pages[1]->getText();

知道了，用哪个类就引用哪个文件，但是还是读不出来，又导入TCPDF中的pdf_parser类，调用tcpdf的时候出错，以下是PDF_PARSER类中的__construct函数： foreach ($this->xref['xref'] as $obj => $offset) { if (!isset($this->objects[$obj]) AND ($offset > 0)) { // decode objects with positive offset $this->objects[$obj] = $this->getIndirectObject($obj, $offset, true); //读到644行的时候上面这句出错 } }

伟洪winni 2017-11-22

打赏
举报

回复

pdfparser 还不错

xuzuning 2017-11-21

打赏
举报

回复

示例代码： $document = \Smalot\PdfParser\Document::parseFile('document.pdf'); $pages = $document->getPages(); $text = $pages[1]->getText();

本文实例讲述了Python解析并读取PDF文件内容的方法。分享给大家供大家参考，具体如下：一、问题描述利用python，去读取pdf文本内容。二、效果三、运行环境 python2.7 四、需要安装的库 pip install pdfminer 五、实现源代码代码1（win64） # coding=utf-8 import sys reload(sys) sys.setdefaultencoding('utf-8') import time time1=time.time() import os.path from pdfminer.pdfparser import PDFP

PDF解析器 ## PDF解析器通过Tom-Rous和Material File Picker实现PDFBox-Android API 该自述文件对工作进行了说明 PDFParser可以从文本版本的PDF中读取数据它读取元数据和文件内容以下是该应用的一些快照＃代码公共类PDFBoxActivity扩展了AppCompatActivity { private ProgressBar mDataProgress; private Button btnPdf,btnPdfRead; private TextView PDFtv; private String mData; private TextView mData_tv; @Override protected void onCreate(Bundle savedInstanceState) { super.onCre

PdfParser 是一个标准的 PHP 库提供个用于从 PDF 文件中抽取数据的工具。它加载 PDF文件并解析文件中对象、头和元数据，可抽取其中的文本信息，支持压缩的 PDF、MAC OS 罗马字符集编码、8进制和16进制编码。兼容PSR-0 和 PSR-1。官方文档:https://www.pdfparser.org/documentation 使用composer安装依赖包： composer require smalot/pdfparser 1、获取文件的基本信息，如：制作人、日期、总页数.

pdfparser，一个独立的php库，提供了多种工具来从pdf文件提取数据，不支持加密的pdf文件官方文档:使用composer安装依赖包：composer require smalot/pdfparser安装成功后如下图：创建index.php文件，引入autoload.php文件：include 'vendor/autoload.php';1.一次性读取文件中的所有内容:include 'v...

前几天客户提出一个需求，就是在前台页面搜索文章时，若搜索词在文章附件的pdf文件中有出现的话就要将该文章作为搜索结果。我的思路是后台发布文章时循环检测每一个附件的格式，若附件格式为pdf的话就将里面的文字读取出来追加到一个$string变量里，然后将$string的作为一个file_text字段的信息保存到数据库后面做搜索的时候使用。我参考的一个回答地址是：https://baijiahao......

21,886

社区成员

140,364

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章