Python psycopg2使用SimpleConnectionPool数据库连接池以及execute_batch批量插入数据

本文主要是介绍Python psycopg2使用SimpleConnectionPool数据库连接池以及execute_batch批量插入数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

有关快速插入大量数据到数据库的一个比较好的博文如下:Fastest Way to Load Data Into PostgreSQL Using Python 其中文末还有提到几种不同方式的对比,效率十分的震撼,可以看看

1. 连接池和批量插入示例代码如下

import psycopg2
import psycopg2.extras
from psycopg2.pool import SimpleConnectionPool
from contextlib import contextmanager# 连接池初始化
postgresql_conn_pool = SimpleConnectionPool(5, 200,host=DATABASE_HOST,port=DATABASE_PORT,user=DATABASE_USERNAME,password=DATABASE_PASSWORD,database=DATABASE_NAME)@contextmanager
def get_cursor():con = postgresql_conn_pool.getconn()# 默认就自动提交con.autocommit = Truetry:yield con.cursor()# 或设置手动提交 con.commit()finally:# 用完放回连接池self.postgresql_conn_pool.putconn(con)def save_data(dict_list):"""dict_list = [{"name":"lucy", "address":"shanghai"},{"name":"mike", "address":"beijing"}]"""with get_cursor() as cursor:# 批量插入psycopg2.extras.execute_batch(cursor, """INSERT INTO user(name,address) VALUES(%(name)s, %(address)s)""", dict_list)

2.使用时需要注意的问题

  • 不需要再使用executemany了,该方法的性能没有execute_batch好,还有更快的则是copy from
  • SimpleConnectionPool只支持单线程,如果是多线程使用线程池,请使用psycopg2.pool.ThreadedConnectionPool,参考官方链接如下psycopg2.pool - Connections pooling

3. 为什么批量就是快?

从我自己测试时,插入数据来说话,业务场景是,一条数据要保存到三张表里面,具体代码实现就不展示了。
相关数据如下:

  • 每秒钟74条数据
  • 批量,500条一次耗时大约在0.33s左右,即6.7s后才执行一次存储,(6.7 + 0.33) / 500 = 0.014s一条
  • 不批量,一次insert单条耗时约0.048s,500 x 0.048 = 24s

那毫无疑问,批量就是快

4. 批量时的n条数据作为一个批次,n取何值效率最高?

假设如下:

  • 每秒钟p条数据
  • 批量情况下,n条数据耗时a秒
  • 不批量,一次insert单条耗时约q秒

请问n值,如何效率最好?总而言之
n = 200, a = 0.126799, a/n = 0.00063
n = 500, a = 0.33, a/n = 0.00066
n = 1000, a=0.35, a/n = 0.00035

这篇关于Python psycopg2使用SimpleConnectionPool数据库连接池以及execute_batch批量插入数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/908434

相关文章

Python运行中频繁出现Restart提示的解决办法

《Python运行中频繁出现Restart提示的解决办法》在编程的世界里,遇到各种奇怪的问题是家常便饭,但是,当你的Python程序在运行过程中频繁出现“Restart”提示时,这可能不仅仅是令人头疼... 目录问题描述代码示例无限循环递归调用内存泄漏解决方案1. 检查代码逻辑无限循环递归调用内存泄漏2.

Python中判断对象是否为空的方法

《Python中判断对象是否为空的方法》在Python开发中,判断对象是否为“空”是高频操作,但看似简单的需求却暗藏玄机,从None到空容器,从零值到自定义对象的“假值”状态,不同场景下的“空”需要精... 目录一、python中的“空”值体系二、精准判定方法对比三、常见误区解析四、进阶处理技巧五、性能优化

使用Python构建一个Hexo博客发布工具

《使用Python构建一个Hexo博客发布工具》虽然Hexo的命令行工具非常强大,但对于日常的博客撰写和发布过程,我总觉得缺少一个直观的图形界面来简化操作,下面我们就来看看如何使用Python构建一个... 目录引言Hexo博客系统简介设计需求技术选择代码实现主框架界面设计核心功能实现1. 发布文章2. 加

SpringBoot集成Milvus实现数据增删改查功能

《SpringBoot集成Milvus实现数据增删改查功能》milvus支持的语言比较多,支持python,Java,Go,node等开发语言,本文主要介绍如何使用Java语言,采用springboo... 目录1、Milvus基本概念2、添加maven依赖3、配置yml文件4、创建MilvusClient

python logging模块详解及其日志定时清理方式

《pythonlogging模块详解及其日志定时清理方式》:本文主要介绍pythonlogging模块详解及其日志定时清理方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地... 目录python logging模块及日志定时清理1.创建logger对象2.logging.basicCo

Python如何自动生成环境依赖包requirements

《Python如何自动生成环境依赖包requirements》:本文主要介绍Python如何自动生成环境依赖包requirements问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑... 目录生成当前 python 环境 安装的所有依赖包1、命令2、常见问题只生成当前 项目 的所有依赖包1、

Node.js 数据库 CRUD 项目示例详解(完美解决方案)

《Node.js数据库CRUD项目示例详解(完美解决方案)》:本文主要介绍Node.js数据库CRUD项目示例详解(完美解决方案),本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考... 目录项目结构1. 初始化项目2. 配置数据库连接 (config/db.js)3. 创建模型 (models/

如何将Python彻底卸载的三种方法

《如何将Python彻底卸载的三种方法》通常我们在一些软件的使用上有碰壁,第一反应就是卸载重装,所以有小伙伴就问我Python怎么卸载才能彻底卸载干净,今天这篇文章,小编就来教大家如何彻底卸载Pyth... 目录软件卸载①方法:②方法:③方法:清理相关文件夹软件卸载①方法:首先,在安装python时,下

python uv包管理小结

《pythonuv包管理小结》uv是一个高性能的Python包管理工具,它不仅能够高效地处理包管理和依赖解析,还提供了对Python版本管理的支持,本文主要介绍了pythonuv包管理小结,具有一... 目录安装 uv使用 uv 管理 python 版本安装指定版本的 Python查看已安装的 Python

shell编程之函数与数组的使用详解

《shell编程之函数与数组的使用详解》:本文主要介绍shell编程之函数与数组的使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录shell函数函数的用法俩个数求和系统资源监控并报警函数函数变量的作用范围函数的参数递归函数shell数组获取数组的长度读取某下的