【python】自动化办公之excel入GP库实战详解(xlwings+psycopg2)

2023-12-26 11:58

本文主要是介绍【python】自动化办公之excel入GP库实战详解(xlwings+psycopg2),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

python已经不仅是程序员学习使用的工具了,它已经深深融入我们日常工作办公中。本人在工作中每月都会收集大量excel表格文件,做相关汇总处理,还要把清单数据导入数据库中。手动完成几乎浪费了我大半天的时间,作为一个拥有编程思想追求进步的程序媛怎可如此?能用脚本实现的东西决不能重复操作。

本篇结合实际工作内容,主要使用xlwings和psycopg2包,实现excel表格数据导入GP数据库功能。

介绍

py版本:python 3.7

结果表结构:表结构
excel内容:
excel内容

思路

本篇主要通过xlwings包实现读取excel数据,通过psycopg2包实现数据入库。方法如下:

  1. get_row_col(fileName, sheetName):获取excel某sheet页有数据的最大行数和列数。参数分别文件路径和sheet页名称。
  2. get_date():批量获取数据,无需值处理。适合数据完整、值中无特殊字符,可直接入库的场景。返回数据为list类型。
  3. trans_data():批量获取数据,并且对值做制表符替换等处理。本篇对指标附和’|| '(||+TAB符号)进行处理,在调试阶段没做处理会出现报错情况。返回数据为list类型。
  4. executemany(data):executemany()方法批量执行sql实现数据入库,data为list类型。此方法需要定义insert语句,优势是操作字段更灵活,缺点是如果操作数据量达到上千条就会十分卡慢。
  5. copy_from(data):copy_from()方法数据入库,data为list类型。直接调用pgload,适合数据量大的入库操作。

最终可根据实际需求组合实现入库,本人采用trans_data+copy_from方法。

脚本

#!/usr/bin/python
#coding=utf-8
import os,reos.chdir(r'D:\summer\svn')
path = os.getcwd()
import xlwings as xw
import psycopg2
from io import StringIO
import pandas as pddef get_row_col(fileName, sheetName):"获取sheet页有数据的最大行数和列数"wb = xw.Book(fileName)ws = wb.sheets(sheetName)info = ws.used_rangenrows = info.last_cell.rowncols = info.last_cell.columnreturn nrows, ncolsdef get_date():"批量获取数据,无需值处理"fileName = path + '\\文档名称.xlsx'sheetName = '清单'row_col = get_row_col(fileName, sheetName)wb_pro = xw.Book(fileName)ws_pro = wb_pro.sheets(sheetName)#数据从A2开始,J列取最大行结束a = 'A2:J' + str(row_col[0])data = ws_pro.range(a)return data.valuedef trans_data():"批量获取数据,并且对值做制表符替换等处理"list = []  # 定义列表用来存放数据fileName = path + '\\文档名称.xlsx'sheetName = '清单'row_col = get_row_col(fileName, sheetName)wb_pro = xw.Book(fileName)ws_pro = wb_pro.sheets(sheetName)#定位从第几行是数据,存在第一二行无用数据的情况A1 = ws_pro.range('A1').valueA2 = ws_pro.range('A2').valueif A1 == '账期':row = 2elif A2 == '账期':row = 3#如果方法不想拆开,也可以直接用注释内容实现# conn = psycopg2.connect(host='***.***.***.**', user='gpadmin', password='***', database='***', port=5432)# cursor = conn.cursor()# sql = "insert into anrpt.project_usage  values(%s, %s, %s, %s, %s, %s, %s, %s, %s, %s)"for i in range(row, row_col[0]+1):print(str(i) + ' : ' + str(row_col[1]))row_data = ws_pro.range('A'+str(i) ,'J'+str(i)).value  # 按行获取excel的值#H列和I列存在制表符和tab等符号需要替换hn = re.sub('[\s+] ', '', str(row_data[7])).replace('||\'	\'', '')In = re.sub('[\s+] ', '', str(row_data[8]))value = [row_data[0], row_data[1], row_data[2], row_data[3], row_data[4], row_data[5], row_data[6],hn , In, row_data[9]]list.append(value)  # 将数据暂存在列表return list# cursor.executemany(sql, list)  # 执行sql语句# conn.commit()# conn.close()#list.clear()  # 清空listdef executemany(data):"executemany()方法批量执行sql实现数据入库,data为list类型"conn = psycopg2.connect(host='***.***.***.**', user='gpadmin', password='***', database='***', port=5432)cur = conn.cursor()sql =  "insert into anrpt.project_usage  values(%s, %s, %s, %s, %s, %s, %s, %s, %s, %s)"cur.executemany(sql, data)conn.commit()conn.close()def copy_from(data):"copy_from()方法数据入库,data为list类型"data1 = pd.DataFrame(data)# dataframe类型转换为IO缓冲区中的str类型output = StringIO()data1.to_csv(output, sep='\t', index=False, header=False)output1 = output.getvalue()conn = psycopg2.connect(host='***.***.***.**', user='gpadmin', password='***', database='***', port=5432)cur = conn.cursor()cur.copy_from(StringIO(output1), 'anrpt.project_usage')conn.commit()conn.close()print('done')if __name__ == '__main__':# data = get_date()data = trans_data()#executemany(data)copy_from(data)

相关文章:【python】pip指定路径安装文件
【python】连接查询mysql数据库(pymysql)

这篇关于【python】自动化办公之excel入GP库实战详解(xlwings+psycopg2)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/539322

相关文章

网页解析 lxml 库--实战

lxml库使用流程 lxml 是 Python 的第三方解析库,完全使用 Python 语言编写,它对 XPath表达式提供了良好的支 持,因此能够了高效地解析 HTML/XML 文档。本节讲解如何通过 lxml 库解析 HTML 文档。 pip install lxml lxm| 库提供了一个 etree 模块,该模块专门用来解析 HTML/XML 文档,下面来介绍一下 lxml 库

Spring Security基于数据库验证流程详解

Spring Security 校验流程图 相关解释说明(认真看哦) AbstractAuthenticationProcessingFilter 抽象类 /*** 调用 #requiresAuthentication(HttpServletRequest, HttpServletResponse) 决定是否需要进行验证操作。* 如果需要验证,则会调用 #attemptAuthentica

python: 多模块(.py)中全局变量的导入

文章目录 global关键字可变类型和不可变类型数据的内存地址单模块(单个py文件)的全局变量示例总结 多模块(多个py文件)的全局变量from x import x导入全局变量示例 import x导入全局变量示例 总结 global关键字 global 的作用范围是模块(.py)级别: 当你在一个模块(文件)中使用 global 声明变量时,这个变量只在该模块的全局命名空

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

OpenHarmony鸿蒙开发( Beta5.0)无感配网详解

1、简介 无感配网是指在设备联网过程中无需输入热点相关账号信息,即可快速实现设备配网,是一种兼顾高效性、可靠性和安全性的配网方式。 2、配网原理 2.1 通信原理 手机和智能设备之间的信息传递,利用特有的NAN协议实现。利用手机和智能设备之间的WiFi 感知订阅、发布能力,实现了数字管家应用和设备之间的发现。在完成设备间的认证和响应后,即可发送相关配网数据。同时还支持与常规Sof

【Python编程】Linux创建虚拟环境并配置与notebook相连接

1.创建 使用 venv 创建虚拟环境。例如,在当前目录下创建一个名为 myenv 的虚拟环境: python3 -m venv myenv 2.激活 激活虚拟环境使其成为当前终端会话的活动环境。运行: source myenv/bin/activate 3.与notebook连接 在虚拟环境中,使用 pip 安装 Jupyter 和 ipykernel: pip instal

C#实战|大乐透选号器[6]:实现实时显示已选择的红蓝球数量

哈喽,你好啊,我是雷工。 关于大乐透选号器在前面已经记录了5篇笔记,这是第6篇; 接下来实现实时显示当前选中红球数量,蓝球数量; 以下为练习笔记。 01 效果演示 当选择和取消选择红球或蓝球时,在对应的位置显示实时已选择的红球、蓝球的数量; 02 标签名称 分别设置Label标签名称为:lblRedCount、lblBlueCount

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

6.1.数据结构-c/c++堆详解下篇(堆排序,TopK问题)

上篇:6.1.数据结构-c/c++模拟实现堆上篇(向下,上调整算法,建堆,增删数据)-CSDN博客 本章重点 1.使用堆来完成堆排序 2.使用堆解决TopK问题 目录 一.堆排序 1.1 思路 1.2 代码 1.3 简单测试 二.TopK问题 2.1 思路(求最小): 2.2 C语言代码(手写堆) 2.3 C++代码(使用优先级队列 priority_queue)