【办公自动化】使用Python一键提取PDF中的表格到Excel

目录
一、处理Excel
二、提取PDF表格到excel
三、往期推荐
文末推荐
【【办公自动化】使用Python一键提取PDF中的表格到Excel】文末福利
一、处理Excel
1.批量操作:当要处理众多Excel文件时 , 例如出现重复性的手工劳动 , 那么使用就可以实现批量扫描文件、自动化进行处理 , 利用代码代替手工重复劳动 , 实现自动化 , 是第一个比Excel强大的地方
2.大型文件 , 当Excel文件超过几十兆、甚至上百兆时 , 打开文件很慢、处理文件更加慢 , 这时候若使用 , 会发现处理几十兆、几百兆甚至几GB都是没有问题的
3.当使用Excel进行复杂的计算时 , 会使用VBA , 但是VBA本身是过时并且复杂的语言 , 是当前最简单且容易实现的一门语言 , 用能够处理比VBA难度更高的业务逻辑
4.是通用语言 , 不仅可以处理Excel , 使用就可以得到很多额外的功能 , 例如:爬虫、发布网页的Web服务、与数据库进行连接、同时结合word和PPT进行处理、加入定时任务处理、人工智能分析等 , 各种额外的功能 , 这是Excel和VBA所不具备的
1.:是领域非常重要的 , 用于数据分析和可视化的类库 , 在处理Excel中 , 90%可以利用类库就可以搞掂 , 利用就可以读取Excel、处理Excel和输出Excel , 但是也有缺点 , 就是无法做到格式类 , 例如Excel中合并单元、大量复杂的样式(看起来很精美)的时候 , 用无法搞掂 , 此时 , 依然是使用结合、来搞掂需求
2.:若电脑上未安装时 , 也可以使用 , 这个类型可以运行在linux上 , 并且也可以实现操作大部分Excel格式和样式的功能 , 使用它配合 , 也可以完成大部分场景的需求
3.:比更加强大 , 只能运行在或者Mac系统 , 并且该系统中必须安装了才能运行 , 的原理 , 就是基于当前系统已经安装好的软件 , 来进行功能的拓展来操作Excel
操作系统:使用, mac都可以
版本:系统中需要安装.6以上的版本 , 已经过期不建议使用 , .6以前的版本功能相对弱 , 最好就是采用.6以上的版本
开发工具:有两个可以选择 ,   , 是个网页编辑器 , 可以运行 , 常常用于交互性、探索性的开发; , 用于成熟脚本 , 或者web服务的一些开发;这两个工具可以随意选择
重要类库:, , 等
二、提取PDF表格到excel

【办公自动化】使用Python一键提取PDF中的表格到Excel

文章插图
从PDF文件获取表格中的数据 , 也是日常办公容易涉及到的一项工作 。一个一个复制吧 , 效率确实太低了 。用从PDF文档中提取表格数据 , 并写入Excel文件 , 灰常灰常高效 。上市公司的年报往往包含几百张表格 , 用它作为例子再合适不过 , 搞定这个 , 其他含表格的PDF都是小儿科了 。今天以"保利地产年报"为例 , 这个PDF文档中有321页含有表格 , 总表格数超过这个数了 。
先导入PDF读取模块`` , 随便挑一页看下表格数据的结构 。如下 , 我们挑了第4页`pages[3]`来读取其中的表格 , 并显示 。这里读取表格 , 用到了`()` , 即默认每页有多个表格 。它会将单个表格的数据按行读取存入列表 , 再将每个表格的所有数据汇总存到一个上一级列表 , 最后将所有表格的数据汇总到一个大列表 。而`()`方法则只能读一张表 , 当一个页面有多张表 , 就默认选第一个 , 因此会漏掉后面的 。而且它们的数据结构也不同 , 差异如下 。