【python】自动化办公之excel入GP库实战详解(xlwings+psycopg2)

2023-12-26 11:58

本文主要是介绍【python】自动化办公之excel入GP库实战详解(xlwings+psycopg2),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

python已经不仅是程序员学习使用的工具了,它已经深深融入我们日常工作办公中。本人在工作中每月都会收集大量excel表格文件,做相关汇总处理,还要把清单数据导入数据库中。手动完成几乎浪费了我大半天的时间,作为一个拥有编程思想追求进步的程序媛怎可如此?能用脚本实现的东西决不能重复操作。

本篇结合实际工作内容,主要使用xlwings和psycopg2包,实现excel表格数据导入GP数据库功能。

介绍

py版本:python 3.7

结果表结构:表结构
excel内容:
excel内容

思路

本篇主要通过xlwings包实现读取excel数据,通过psycopg2包实现数据入库。方法如下:

  1. get_row_col(fileName, sheetName):获取excel某sheet页有数据的最大行数和列数。参数分别文件路径和sheet页名称。
  2. get_date():批量获取数据,无需值处理。适合数据完整、值中无特殊字符,可直接入库的场景。返回数据为list类型。
  3. trans_data():批量获取数据,并且对值做制表符替换等处理。本篇对指标附和’|| '(||+TAB符号)进行处理,在调试阶段没做处理会出现报错情况。返回数据为list类型。
  4. executemany(data):executemany()方法批量执行sql实现数据入库,data为list类型。此方法需要定义insert语句,优势是操作字段更灵活,缺点是如果操作数据量达到上千条就会十分卡慢。
  5. copy_from(data):copy_from()方法数据入库,data为list类型。直接调用pgload,适合数据量大的入库操作。

最终可根据实际需求组合实现入库,本人采用trans_data+copy_from方法。

脚本

#!/usr/bin/python
#coding=utf-8
import os,reos.chdir(r'D:\summer\svn')
path = os.getcwd()
import xlwings as xw
import psycopg2
from io import StringIO
import pandas as pddef get_row_col(fileName, sheetName):"获取sheet页有数据的最大行数和列数"wb = xw.Book(fileName)ws = wb.sheets(sheetName)info = ws.used_rangenrows = info.last_cell.rowncols = info.last_cell.columnreturn nrows, ncolsdef get_date():"批量获取数据,无需值处理"fileName = path + '\\文档名称.xlsx'sheetName = '清单'row_col = get_row_col(fileName, sheetName)wb_pro = xw.Book(fileName)ws_pro = wb_pro.sheets(sheetName)#数据从A2开始,J列取最大行结束a = 'A2:J' + str(row_col[0])data = ws_pro.range(a)return data.valuedef trans_data():"批量获取数据,并且对值做制表符替换等处理"list = []  # 定义列表用来存放数据fileName = path + '\\文档名称.xlsx'sheetName = '清单'row_col = get_row_col(fileName, sheetName)wb_pro = xw.Book(fileName)ws_pro = wb_pro.sheets(sheetName)#定位从第几行是数据,存在第一二行无用数据的情况A1 = ws_pro.range('A1').valueA2 = ws_pro.range('A2').valueif A1 == '账期':row = 2elif A2 == '账期':row = 3#如果方法不想拆开,也可以直接用注释内容实现# conn = psycopg2.connect(host='***.***.***.**', user='gpadmin', password='***', database='***', port=5432)# cursor = conn.cursor()# sql = "insert into anrpt.project_usage  values(%s, %s, %s, %s, %s, %s, %s, %s, %s, %s)"for i in range(row, row_col[0]+1):print(str(i) + ' : ' + str(row_col[1]))row_data = ws_pro.range('A'+str(i) ,'J'+str(i)).value  # 按行获取excel的值#H列和I列存在制表符和tab等符号需要替换hn = re.sub('[\s+] ', '', str(row_data[7])).replace('||\'	\'', '')In = re.sub('[\s+] ', '', str(row_data[8]))value = [row_data[0], row_data[1], row_data[2], row_data[3], row_data[4], row_data[5], row_data[6],hn , In, row_data[9]]list.append(value)  # 将数据暂存在列表return list# cursor.executemany(sql, list)  # 执行sql语句# conn.commit()# conn.close()#list.clear()  # 清空listdef executemany(data):"executemany()方法批量执行sql实现数据入库,data为list类型"conn = psycopg2.connect(host='***.***.***.**', user='gpadmin', password='***', database='***', port=5432)cur = conn.cursor()sql =  "insert into anrpt.project_usage  values(%s, %s, %s, %s, %s, %s, %s, %s, %s, %s)"cur.executemany(sql, data)conn.commit()conn.close()def copy_from(data):"copy_from()方法数据入库,data为list类型"data1 = pd.DataFrame(data)# dataframe类型转换为IO缓冲区中的str类型output = StringIO()data1.to_csv(output, sep='\t', index=False, header=False)output1 = output.getvalue()conn = psycopg2.connect(host='***.***.***.**', user='gpadmin', password='***', database='***', port=5432)cur = conn.cursor()cur.copy_from(StringIO(output1), 'anrpt.project_usage')conn.commit()conn.close()print('done')if __name__ == '__main__':# data = get_date()data = trans_data()#executemany(data)copy_from(data)

相关文章:【python】pip指定路径安装文件
【python】连接查询mysql数据库(pymysql)

这篇关于【python】自动化办公之excel入GP库实战详解(xlwings+psycopg2)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/539322

相关文章

PHP轻松处理千万行数据的方法详解

《PHP轻松处理千万行数据的方法详解》说到处理大数据集,PHP通常不是第一个想到的语言,但如果你曾经需要处理数百万行数据而不让服务器崩溃或内存耗尽,你就会知道PHP用对了工具有多强大,下面小编就... 目录问题的本质php 中的数据流处理:为什么必不可少生成器:内存高效的迭代方式流量控制:避免系统过载一次性

Python的Darts库实现时间序列预测

《Python的Darts库实现时间序列预测》Darts一个集统计、机器学习与深度学习模型于一体的Python时间序列预测库,本文主要介绍了Python的Darts库实现时间序列预测,感兴趣的可以了解... 目录目录一、什么是 Darts?二、安装与基本配置安装 Darts导入基础模块三、时间序列数据结构与

Python正则表达式匹配和替换的操作指南

《Python正则表达式匹配和替换的操作指南》正则表达式是处理文本的强大工具,Python通过re模块提供了完整的正则表达式功能,本文将通过代码示例详细介绍Python中的正则匹配和替换操作,需要的朋... 目录基础语法导入re模块基本元字符常用匹配方法1. re.match() - 从字符串开头匹配2.

Python使用FastAPI实现大文件分片上传与断点续传功能

《Python使用FastAPI实现大文件分片上传与断点续传功能》大文件直传常遇到超时、网络抖动失败、失败后只能重传的问题,分片上传+断点续传可以把大文件拆成若干小块逐个上传,并在中断后从已完成分片继... 目录一、接口设计二、服务端实现(FastAPI)2.1 运行环境2.2 目录结构建议2.3 serv

通过Docker容器部署Python环境的全流程

《通过Docker容器部署Python环境的全流程》在现代化开发流程中,Docker因其轻量化、环境隔离和跨平台一致性的特性,已成为部署Python应用的标准工具,本文将详细演示如何通过Docker容... 目录引言一、docker与python的协同优势二、核心步骤详解三、进阶配置技巧四、生产环境最佳实践

Python一次性将指定版本所有包上传PyPI镜像解决方案

《Python一次性将指定版本所有包上传PyPI镜像解决方案》本文主要介绍了一个安全、完整、可离线部署的解决方案,用于一次性准备指定Python版本的所有包,然后导出到内网环境,感兴趣的小伙伴可以跟随... 目录为什么需要这个方案完整解决方案1. 项目目录结构2. 创建智能下载脚本3. 创建包清单生成脚本4

MyBatis分页查询实战案例完整流程

《MyBatis分页查询实战案例完整流程》MyBatis是一个强大的Java持久层框架,支持自定义SQL和高级映射,本案例以员工工资信息管理为例,详细讲解如何在IDEA中使用MyBatis结合Page... 目录1. MyBATis框架简介2. 分页查询原理与应用场景2.1 分页查询的基本原理2.1.1 分

MySQL的JDBC编程详解

《MySQL的JDBC编程详解》:本文主要介绍MySQL的JDBC编程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录前言一、前置知识1. 引入依赖2. 认识 url二、JDBC 操作流程1. JDBC 的写操作2. JDBC 的读操作总结前言本文介绍了mysq

Python实现Excel批量样式修改器(附完整代码)

《Python实现Excel批量样式修改器(附完整代码)》这篇文章主要为大家详细介绍了如何使用Python实现一个Excel批量样式修改器,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一... 目录前言功能特性核心功能界面特性系统要求安装说明使用指南基本操作流程高级功能技术实现核心技术栈关键函

Redis 的 SUBSCRIBE命令详解

《Redis的SUBSCRIBE命令详解》Redis的SUBSCRIBE命令用于订阅一个或多个频道,以便接收发送到这些频道的消息,本文给大家介绍Redis的SUBSCRIBE命令,感兴趣的朋友跟随... 目录基本语法工作原理示例消息格式相关命令python 示例Redis 的 SUBSCRIBE 命令用于订