【python】自动化办公之excel入GP库实战详解(xlwings+psycopg2)

2023-12-26 11:58

本文主要是介绍【python】自动化办公之excel入GP库实战详解(xlwings+psycopg2),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

python已经不仅是程序员学习使用的工具了,它已经深深融入我们日常工作办公中。本人在工作中每月都会收集大量excel表格文件,做相关汇总处理,还要把清单数据导入数据库中。手动完成几乎浪费了我大半天的时间,作为一个拥有编程思想追求进步的程序媛怎可如此?能用脚本实现的东西决不能重复操作。

本篇结合实际工作内容,主要使用xlwings和psycopg2包,实现excel表格数据导入GP数据库功能。

介绍

py版本:python 3.7

结果表结构:表结构
excel内容:
excel内容

思路

本篇主要通过xlwings包实现读取excel数据,通过psycopg2包实现数据入库。方法如下:

  1. get_row_col(fileName, sheetName):获取excel某sheet页有数据的最大行数和列数。参数分别文件路径和sheet页名称。
  2. get_date():批量获取数据,无需值处理。适合数据完整、值中无特殊字符,可直接入库的场景。返回数据为list类型。
  3. trans_data():批量获取数据,并且对值做制表符替换等处理。本篇对指标附和’|| '(||+TAB符号)进行处理,在调试阶段没做处理会出现报错情况。返回数据为list类型。
  4. executemany(data):executemany()方法批量执行sql实现数据入库,data为list类型。此方法需要定义insert语句,优势是操作字段更灵活,缺点是如果操作数据量达到上千条就会十分卡慢。
  5. copy_from(data):copy_from()方法数据入库,data为list类型。直接调用pgload,适合数据量大的入库操作。

最终可根据实际需求组合实现入库,本人采用trans_data+copy_from方法。

脚本

#!/usr/bin/python
#coding=utf-8
import os,reos.chdir(r'D:\summer\svn')
path = os.getcwd()
import xlwings as xw
import psycopg2
from io import StringIO
import pandas as pddef get_row_col(fileName, sheetName):"获取sheet页有数据的最大行数和列数"wb = xw.Book(fileName)ws = wb.sheets(sheetName)info = ws.used_rangenrows = info.last_cell.rowncols = info.last_cell.columnreturn nrows, ncolsdef get_date():"批量获取数据,无需值处理"fileName = path + '\\文档名称.xlsx'sheetName = '清单'row_col = get_row_col(fileName, sheetName)wb_pro = xw.Book(fileName)ws_pro = wb_pro.sheets(sheetName)#数据从A2开始,J列取最大行结束a = 'A2:J' + str(row_col[0])data = ws_pro.range(a)return data.valuedef trans_data():"批量获取数据,并且对值做制表符替换等处理"list = []  # 定义列表用来存放数据fileName = path + '\\文档名称.xlsx'sheetName = '清单'row_col = get_row_col(fileName, sheetName)wb_pro = xw.Book(fileName)ws_pro = wb_pro.sheets(sheetName)#定位从第几行是数据,存在第一二行无用数据的情况A1 = ws_pro.range('A1').valueA2 = ws_pro.range('A2').valueif A1 == '账期':row = 2elif A2 == '账期':row = 3#如果方法不想拆开,也可以直接用注释内容实现# conn = psycopg2.connect(host='***.***.***.**', user='gpadmin', password='***', database='***', port=5432)# cursor = conn.cursor()# sql = "insert into anrpt.project_usage  values(%s, %s, %s, %s, %s, %s, %s, %s, %s, %s)"for i in range(row, row_col[0]+1):print(str(i) + ' : ' + str(row_col[1]))row_data = ws_pro.range('A'+str(i) ,'J'+str(i)).value  # 按行获取excel的值#H列和I列存在制表符和tab等符号需要替换hn = re.sub('[\s+] ', '', str(row_data[7])).replace('||\'	\'', '')In = re.sub('[\s+] ', '', str(row_data[8]))value = [row_data[0], row_data[1], row_data[2], row_data[3], row_data[4], row_data[5], row_data[6],hn , In, row_data[9]]list.append(value)  # 将数据暂存在列表return list# cursor.executemany(sql, list)  # 执行sql语句# conn.commit()# conn.close()#list.clear()  # 清空listdef executemany(data):"executemany()方法批量执行sql实现数据入库,data为list类型"conn = psycopg2.connect(host='***.***.***.**', user='gpadmin', password='***', database='***', port=5432)cur = conn.cursor()sql =  "insert into anrpt.project_usage  values(%s, %s, %s, %s, %s, %s, %s, %s, %s, %s)"cur.executemany(sql, data)conn.commit()conn.close()def copy_from(data):"copy_from()方法数据入库,data为list类型"data1 = pd.DataFrame(data)# dataframe类型转换为IO缓冲区中的str类型output = StringIO()data1.to_csv(output, sep='\t', index=False, header=False)output1 = output.getvalue()conn = psycopg2.connect(host='***.***.***.**', user='gpadmin', password='***', database='***', port=5432)cur = conn.cursor()cur.copy_from(StringIO(output1), 'anrpt.project_usage')conn.commit()conn.close()print('done')if __name__ == '__main__':# data = get_date()data = trans_data()#executemany(data)copy_from(data)

相关文章:【python】pip指定路径安装文件
【python】连接查询mysql数据库(pymysql)

这篇关于【python】自动化办公之excel入GP库实战详解(xlwings+psycopg2)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/539322

相关文章

Python将博客内容html导出为Markdown格式

《Python将博客内容html导出为Markdown格式》Python将博客内容html导出为Markdown格式,通过博客url地址抓取文章,分析并提取出文章标题和内容,将内容构建成html,再转... 目录一、为什么要搞?二、准备如何搞?三、说搞咱就搞!抓取文章提取内容构建html转存markdown

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

Linux换行符的使用方法详解

《Linux换行符的使用方法详解》本文介绍了Linux中常用的换行符LF及其在文件中的表示,展示了如何使用sed命令替换换行符,并列举了与换行符处理相关的Linux命令,通过代码讲解的非常详细,需要的... 目录简介检测文件中的换行符使用 cat -A 查看换行符使用 od -c 检查字符换行符格式转换将

Python FastAPI+Celery+RabbitMQ实现分布式图片水印处理系统

《PythonFastAPI+Celery+RabbitMQ实现分布式图片水印处理系统》这篇文章主要为大家详细介绍了PythonFastAPI如何结合Celery以及RabbitMQ实现简单的分布式... 实现思路FastAPI 服务器Celery 任务队列RabbitMQ 作为消息代理定时任务处理完整

Python Websockets库的使用指南

《PythonWebsockets库的使用指南》pythonwebsockets库是一个用于创建WebSocket服务器和客户端的Python库,它提供了一种简单的方式来实现实时通信,支持异步和同步... 目录一、WebSocket 简介二、python 的 websockets 库安装三、完整代码示例1.

揭秘Python Socket网络编程的7种硬核用法

《揭秘PythonSocket网络编程的7种硬核用法》Socket不仅能做聊天室,还能干一大堆硬核操作,这篇文章就带大家看看Python网络编程的7种超实用玩法,感兴趣的小伙伴可以跟随小编一起... 目录1.端口扫描器:探测开放端口2.简易 HTTP 服务器:10 秒搭个网页3.局域网游戏:多人联机对战4.

使用Python实现快速搭建本地HTTP服务器

《使用Python实现快速搭建本地HTTP服务器》:本文主要介绍如何使用Python快速搭建本地HTTP服务器,轻松实现一键HTTP文件共享,同时结合二维码技术,让访问更简单,感兴趣的小伙伴可以了... 目录1. 概述2. 快速搭建 HTTP 文件共享服务2.1 核心思路2.2 代码实现2.3 代码解读3.

详解C#如何提取PDF文档中的图片

《详解C#如何提取PDF文档中的图片》提取图片可以将这些图像资源进行单独保存,方便后续在不同的项目中使用,下面我们就来看看如何使用C#通过代码从PDF文档中提取图片吧... 当 PDF 文件中包含有价值的图片,如艺术画作、设计素材、报告图表等,提取图片可以将这些图像资源进行单独保存,方便后续在不同的项目中使

Android中Dialog的使用详解

《Android中Dialog的使用详解》Dialog(对话框)是Android中常用的UI组件,用于临时显示重要信息或获取用户输入,本文给大家介绍Android中Dialog的使用,感兴趣的朋友一起... 目录android中Dialog的使用详解1. 基本Dialog类型1.1 AlertDialog(

Python使用自带的base64库进行base64编码和解码

《Python使用自带的base64库进行base64编码和解码》在Python中,处理数据的编码和解码是数据传输和存储中非常普遍的需求,其中,Base64是一种常用的编码方案,本文我将详细介绍如何使... 目录引言使用python的base64库进行编码和解码编码函数解码函数Base64编码的应用场景注意