Python实操 PDF自动识别并提取Excel文件

news/2024/7/21 6:59:06 标签: python, pdf, excel

最近几天,paddleOCR开发了新的功能,通过将图片中的表格提取出来,效果还不错,今天,作者按照步骤测试了一波。

首先,讲下这个工具是干什么用的:它的功能主要是针对一张完整的PDF图片,可以对文档图片中的文本、表格、图片、标题与列表区域进行分类。同时还可以利用表格识别技术完整地提取表格结构信息,使得表格图片变为可编辑的Excel文件。如下图所示可以进行版面分析+表格识别。

核心技术在于两个:一个是PP-Structure的版面分析技术,另一个是PaddleDetection开源的高效检测算法PP-YOLO v2。

PP-Structure Pipeline介绍:

下面作者按照官网的说明进行安装(https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.2/ppstructure/README_ch.md):

#step1: 首先需要安装paddle
# GPU安装
python -m pip install paddlepaddle-gpu==2.1.1 -i https://mirror.baidu.com/pypi/simple

# CPU安装(作者在这里使用CPU安装)
 python -m pip install paddlepaddle==2.1.1 -i https://mirror.baidu.com/pypi/simple

#step2:安装 Layout-Parser
pip  install -U https://paddleocr.bj.bcebos.com/whl/layoutparser-0.0.0-py3-none-any.whl

#step3:安装PaddleOCR(包含PP-OCR和PP-Structure)
pip install "paddleocr>=2.2"


这样就算安装好了,但是途中会有一些报错信息,一个是 "ImportError: DLL load failed: 找不到指定的模块。" ,在查阅了相关的资料之后,发现重新安装也没有用,作者是通过安装旧版本的软件,就解决了这个问题。另一个报错,是cv2.imread读取图像结果为none,这个错误是由于你的路径中有中文字体,全部修改为英文的即可。

接下来就是运行主要的程序代码,

python">1 import os
 2 import cv2
 3 from paddleocr import PPStructure,draw_structure_result,save_structure_res
 4 
 5 table_engine = PPStructure(show_log=True)
 6 
 7 #你的文件结果目录
 8 save_folder = 'C:/Users/hp/Desktop/pdf_ocr/output/table'
 9 
10 #输入的图片
11 img_path = 'C:/Users/hp/Desktop/pdf_ocr/table/5.png'
12 img = cv2.imread(img_path)
13 
14 result = table_engine(img)
15 save_structure_res(result, save_folder,os.path.basename(img_path).split('.')[0])
16 
17 for line in result:
18     line.pop('img')
19     print(line)
20 
21 from PIL import Image
22 
23 #字体路径,可以从paddleOCR的github上面下载
24 font_path = 'C:/Users/hp/Desktop/pdf_ocr/fonts/simfang.ttf'

25 image = Image.open(img_path).convert('RGB')
26 im_show = draw_structure_result(image, result,font_path=font_path)
27 im_show = Image.fromarray(im_show)
28 im_show.save('result.jpg')


运行完成后,每张图片会在​​output​​字段指定的目录下有一个同名目录,图片里的每个表格会存储为一个excel,图片区域会被裁剪之后保存下来,excel文件和图片名名为表格在图片里的坐标。

 这样,就可以看到识别出来的excel表格了。


http://www.niftyadmin.cn/n/5014864.html

相关文章

最优化:建模、算法与理论(典型优化问题

第四章 典型优化问题 4.1 线性规划 4.1.1 基本形式和应用背景 再次说明一下,其实这本书很多的内容之前肯定大家都学过,但是我觉得这本书和我们之前学的东西的出发角度不一样,他更偏向数学,也多一个角度让我们去理解 线性规划问…

Android10 SystemUI系列 问题合集(一)开机后发现控制中心无法全部展开,控制中心tile长按无响应

一、前言 这个问题是在笔者偶然的一次情况下遇到的,前前后后花了几个小时才找到问题根源,优化了一些时间找到了哪个改动导致了原因。下面记录一下分析过程 二、准备工作 首先需要知道,在Android10 中有一个 StatusBar 类很重要 代码路径frameworks\base\packages\System…

第1章_瑞萨MCU零基础入门系列教程之单片机程序的设计模式

本教程基于韦东山百问网出的 DShanMCU-RA6M5开发板 进行编写,需要的同学可以在这里获取: https://item.taobao.com/item.htm?id728461040949 配套资料获取:https://renesas-docs.100ask.net 瑞萨MCU零基础入门系列教程汇总: ht…

【ROS 06】机器人系统仿真

对于ROS新手而言,可能会有疑问:学习机器人操作系统,实体机器人是必须的吗?答案是否定的,机器人一般价格不菲,为了降低机器人学习、调试成本,在ROS中提供了系统的机器人仿真实现,通过仿真&#x…

flink的物理DataFlow图及Slot处理槽任务分配

背景 在flink中,有几个比较重要的概念,逻辑DataFlow图,物理DataFlow图以及处理槽执行任务,本文就来讲解下这几个概念 概念详解 假设有以下代码:数据源和统计单词算子的并行度是2,数据汇算子的并行度是1&…

CIO40: 数字化落地最佳实践(16000字)

1-数字化规划 第一步:数字化规划。CIO要根据企业的发展现况及未来战略方向、根据企业董事长的布局和理念、根据企业各业务板块领导人的格局和理念,做出一份董事长和领导层高度认同的数字化规划,而且需要用PPT进行完整和专业的表达出来&#x…

C++与C编译后符号表对比(一百九十二)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 人生格言: 人生…

使用纯C语言定义通用型数据结构的方法和示例

文章目录 前言以实现优先队列来描述实现思想基本类型的包装类型比较函数演示总结 前言 最近一段时间在复习数据结构和算法,用的C语言,不得不说,不学个高级语言再回头看C语言根本不知道C语言的强大和完美,不过相比之下也有许多不便…