【Python】Python 批量转换PDF到Excel

news/2024/7/21 5:10:48 标签: python, pdf, excel

PDF是面向展示和打印使用的,并未考虑编辑使用,所以缺少了很多编辑属性且非常难修改PDF里面的数据。当您需要分析或修改PDF文档数据时,可以将PDF保存为Excel工作簿,实现轻松编辑数据的需求。PDF转Excel,技术关键就是提取原文档内的表格数据,保证转换前后数据的一致性,方便复制粘贴且可轻松编辑。本文将介绍如何使用  Spire.PDF for Python 在 Python 中实现 PDF 转 Excel。


安装Spire.PDF for Python
本教程需要用到 Spire.PDF for Python。可通过以下 pip 命令将它们轻松安装到 VS Code 中。

pip install Spire.PDF
1.
转换PDF 到Excel
Spire.PDF for Python 提供的 PdfDocument.SaveToFile() 方法能将 PDF 文件保存为 Excel 格式。以下是如何使用 Spire.PDF for Python 将 PDF 文档转换为 Excel XLSX 格式并指定转换选项的具体步骤:

创建一个 PdfDocument 对象
使用 PdfDocument.LoadFromFile() 方法加载 PDF 文档。
创建一个 XlsxLineLayoutOptions 对象,并将相应的参数传递给 XlsxLineLayoutOptions 类的构造函数,以指定转换选项。
使用 PdfDocument.ConvertOptions.SetPdfToXlsxOptions() 方法应用转换选项。
使用 PdfDocument.SaveToFile() 方法将 PDF 文档保存为 Excel XLSX 格式。
from spire.pdf.common import *
from spire.pdf import *

# 创建PdfDocument对象
pdf = PdfDocument()

# 加载PDF文档
pdf.LoadFromFile("Sample.pdf")

# 创建 XlsxLineLayoutOptions 对象来指定转换选项
# 参数: convertToMultipleSheet, rotatedText, splitCell, wrapText, overlapText
convertOptions = XlsxLineLayoutOptions(True, True, False, True, False)

# 设置转换选项
pdf.ConvertOptions.SetPdfToXlsxOptions(convertOptions)

# 将PDF文档保存为Excel XLSX格式
pdf.SaveToFile("PdftoExcel.xlsx", FileFormat.XLSX)
pdf.Close()

将 PDF保存为Excel后,转换后可以轻松提取文档里面的数据。效果图如下:

总结:
除了将 PDF保存为Excel, Spire.PDF for python还支持将PDF 存为OFD, PDF文档转换为Word, 将PDF另存为图片,如 PDF to PNG, JPG,BMP等。
 


http://www.niftyadmin.cn/n/5284678.html

相关文章

4-Docker命令之docker logs

1.docker logs介绍 docker logs命令是用来获取docker容器的日志 2.docker logs用法 docker logs [参数] CONTAINER [root@centos79 ~]# docker logs --helpUsage: docker logs [OPTIONS] CONTAINERFetch the logs of a containerAliases:docker container logs, docker lo…

QT之QML布局相关总结

使用QML有助于提高界面编写效率,对付界面开发来说,页面如何布局是一个绕不开的点,本文总结一下QML中常用的一些和布局相关的内容。 目录 1.手动定位 2.坐标绑定定位 3.锚定位 4.布局定位器 5.布局管理器 6.其他布局相关 6.1 弹簧功能…

一、引言( C#与.NET框架的关系)

C#与.NET框架的关系 C#(C Sharp)是一种由微软开发的面向对象的编程语言,而.NET框架则是一个软件开发框架,提供了构建应用程序所需的各种组件和服务。C#语言和.NET框架的结合,使得开发者能够快速、高效地开发出高质量的…

Vue 封装echarts柱状图(Bar)组件

目的&#xff1a;减少重复代码&#xff0c;便于维护 显示效果 组件代码 <template><div class"ldw-data-content-box"><div class"ldw-chilren-box"><div class"title" v-if"title">{{ title }}</div>…

第十四章 集合(List)

一、集合框架体系 集合&#xff1a; &#xff08;1&#xff09;可以动态保存任意多个对象。 &#xff08;2&#xff09;提供了一系列方便的操作对象的方法&#xff1a;add、remove、set、get等。 二、Collection 1. Collection 接口常用方法 &#xff08;1&#xff09;add&a…

luceda ipkiss教程 52:以pcell的方式定义text

以pcell方式定义的text&#xff0c;可以很方便地添加在线路中&#xff0c;如&#xff1a; from si_fab import all as pdk from ipkiss3 import all as i3class Text(i3.PCell):_name_prefix "Text"text i3.StringProperty(default"text", doc"te…

第十五节TypeScript 接口

1、简介 接口是一系列抽象方法的声明&#xff0c;是一些方法特征的集合&#xff0c;这些方法都应该是抽象的&#xff0c;需要有由具体的类去实现&#xff0c;然后第三方就可以通过这组抽象方法调用&#xff0c;让具体的类执行具体的方法。 2、接口的定义 interface interface_…

EtherCAT主站SOEM -- 11 -- EtherCAT从站 XML 文件解析

EtherCAT主站SOEM -- 11 -- EtherCAT从站 XML 文件解析 1 EtherCAT 从站信息规范1.1 XML 文件说明1.1.1 XML 数据类型1.1.2 EtherCATInfo1.1.3 Groups1.1.4 Devices1.1.5 Modules1.1.6 Types1.1.6.1 AccessType 的组成1.1.6.2 ArraylnfoType 的组成1.1.6.3 DeviceType 的组成1.…