小白的文件遍历及excel存储问题
1.目的:利用Python把文件夹内所有的PDF文件中的文本抓取到一个excel中
所有的pdf具有相同的格式
2.需要解决的问题:遍历指定文件夹中的所有pdf文件,并把文本保存在excel的一行中,一个文件中的内容保存在新的一行。
以下是目前的代码,现在可以抓取一个指定PDF的文本至excel中,但需要解决文件遍历和Excel中行数随新文件的内容+1行写入。
拜谢!!
============================================
import pdfplumber #解析pdf文件,尤其带有表格的文件
from openpyxl import Workbook #读写Excel的文件
def parse(pdf):
targets = [] #保存结果,
for page in pdf.pages:
words = page.extract_words(x_tolerance=5)
for word in words:
targets.append(word['text'])
return targets
#print(targets)
# 保存
def save(targets, out_path, sheet_name='targets'):
wb = Workbook()
ws = wb.active
ws.title = sheet_name
ws.append(targets)
print(ws)
#ws.append(list(targets.values()))
wb.save(out_path)
# 主函数入口
if __name__ == "__main__":
print(__doc__)
path = 'c:l/tax01.pdf'
out_path = 'c:/PDF_Inf-2.xlsx'
pdf = pdfplumber.open(path)
targets = parse(pdf)
save(targets, out_path)
print('运行结束!')