postgresql之交叉表:crosstab

2023-11-27 16:50
文章标签 postgresql 交叉 crosstab

本文主要是介绍postgresql之交叉表:crosstab,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

postgresql之交叉表:crosstab

在学习postgresql行列转换的时候,看到了使用crosstab。所以写这篇博客巩固记录一下。
postgresql本身提供了额外的模块:tablefunc供我们使用。但是使用前,需要我们安装一下插件。

-- 导入模块
create extension tablefunc;

导入tablefunc模块后,就会在函数列表中出现以下函数,如下图。
函数列表
结合官方文档,我们一起来学习一下。

https://www.postgresql.org/docs/9.2/tablefunc.html

  • crosstab(text)

crosstab(text sql)
crosstab(text sql, int N)

这里的crosstab函数接受的是一个文本参数,参数是一个sql查询,生成以列展示的原始数据,然后通过函数得到表格式化的数据。如下图:
在这里插入图片描述
其中,sql参数是产生数据源的sql语句,此语句必须返回一个row_name列,一个category类和一个value列。N是一个过时的参数,如果提供则忽略(以前它必须和输出值列的数量想匹配,现在由调用查询函数确定)。
该函数为具有相同row_name 值的每组连续输入行生成一个输出行。它使用这些行中的值字段 从左到右填充输出值列。如果组中的行数少于输出值列数,则用空值填充额外的输出列;如果有更多行,则跳过额外的输入行。
在实践中,SQL 查询应始终指定ORDER BY 1,2以确保输入行正确排序,也就是说,将具有相同row_name的值放在一起并在行内正确排序。注意,crosstab它本身并不关注查询结果的第二列;它只是用来排序的,以控制第三列值在页面上出现的顺序。
给一个案例,先插入测试数据。

create table t1(
name varchar(255),
sub varchar(255),
score int4
);
insert into t1 values ('张三','语文',67);
insert into t1 values ('张三','数学',78);
insert into t1 values ('张三','英语',63);
insert into t1 values ('李四','语文',86);

此时,根据crosstab(text)函数可以得到如下写法:

select * from crosstab(
'select name,sub,score from t1 order by 1,2' 
)as t(name varchar,数学 int,英语 int,语文 int)

注意:

  1. 这三列顺序不能变,row_name列就是你要根据这个分组的列,后面的category是代表你要转成横向上的列名,最后value值是你填入表格中的值。

  2. 类别的数据类型要和你建的表的数据类型一致。我之前将as t(name varchar,…)写成了as t(name text,…)。想说都是文本类型,结果就是会报错。

  3. 这里使用order by了,最后你下面给定列名的时候也要按照名字拍戏写前后,例如:数学,英语,语文这个顺序写。

结果展示如下:
在这里插入图片描述
若是最后想要的数据类型和sql得到的数据类型不一致,则会报错。
在这里插入图片描述

  • crosstabN(text)

crosstabN(text sql)

这种写法比上面的那种写法会更简单,它通过自定义包装器,不需要在调用select查询的时候写出列名和类型。
期中N是限制数量,N有多少,就输出多少category列。
所以针对该函数,我们写上面这个例子的另一种写法。

select * from crosstab3(
'select name,sub,score from t1 order by 1,2' 
)

此时,我们得到的结果并没有显示,而是报错。报错信息如下:
在这里插入图片描述
报错信息的大概意思就是,text sql的rowid数据类型和查询返回的rowid的数据类型不一致。
此时发现,要使用crosstabN(text)这个函数,不仅是传入的数据只有三列(row_name,category,value),并且这三列数据类型都必须是text类型,所以要方便还是要付出点代价的,它限制了你的数据类型。所以我们取text类型数据试试。重新创建新的测试数据。

create table t2(
name text,
sub text,
score text
);
insert into t2 values ('张三','语文',67);
insert into t2 values ('张三','数学',78);
insert into t2 values ('张三','英语',63);
insert into t2 values ('李四','语文',86);
-- crosstabN
-- 都要数据text类型
select *  from crosstab3(
'select name,sub,score from t2'
)

得到的结果如下图:
在这里插入图片描述
这个结果是正确结果,但是在此过程中,我又发现了一个问题,那就是正常情况下,我们会为了排序正常,我们会使用order by 1,2或者直接order by列名,如我这里就是order by name,sub,但是在crosstabN(text sql)这个函数中,你要小心使用order by,这里有个大坑等着你。

-- 若数值缺失会出现排错的情况
select *  from crosstab3(
'select name,sub,score from t2 order by name,sub'
);
-- 或
select *  from crosstab3(
'select name,sub,score from t2 order by 1,2'
)

得到的结果都如下:
在这里插入图片描述
因为order by了sub,课程排序中,因为在字符串排序中,是按照<数学-英语-语文>如此排序的,然后李四有成绩有缺失的,所以得到的结果第一列对于李四的语文成绩,却是张三的数学成绩。所以这个crosstabN(text sql)函数还是要谨慎使用。
到现在为止,我们适用的都是最后结果只有三列的情况,但是日常工作中,我们可能最后需要的结果是有四列、五列、甚至更多的,那改怎么办呢?首先,先创建测试数据。

create table t3(
name varchar(255),
gender varchar(255),
sub varchar(255),
score int4
);
insert into t3 values('张三','男','语文',93);
insert into t3 values('张三','男','数学',28);
insert into t3 values('李四','女','数学',78);
insert into t3 values('张三','男','英语',22);
insert into t3 values('李四','女','语文',55);
insert into t3 values('王五','男','英语',60);

按照之前crosstab(text sql)的方法,我们应该写的方法如下:

select * from crosstab(
'select name,gender,sub,score from t3 order by name,gender,sub'
) as s(name varchar,gender varchar,数学 int,英语 int,语文 int)

此时,你会得到一个报错的结果,它告诉你,你提供的sql必须只有三列:rowid,category,values,而你还有额外的一个性别类,所以此时crosstab(text sql)已经不够用了,我们需要引入一个新的函数crosstab(text,text)

  • crosstab(text source_sql,text category_sql)

一起来看看官方文档的解释:
单参数形式的主要限制 crosstab是它同样处理组中的所有值,将每个值插入到第一个可用列中。如果您希望值列与特定的数据类别相对应,并且某些组可能没有某些类别的数据,则效果不佳。crosstab通过双参数形式提供与输出列对应的类别的显式列表来处理这种情况。
source_sql是产生源数据集的 SQL 语句。此语句必须返回一个row_name列、一个category列和一个value列。它也可能有一个或多个“extra”列。row_name 列必须是第一个。category列和value列必须是最后两列,按顺序排列。row_name和category之间的任何列都被视为"extra"。对于具有相同row_name的所有行, “extra”列应相同价值(此时的我,还没发现这句话的重要性,等等我们一起看看)。
在这里插入图片描述

category_sql是生成类别集的 SQL 语句。此语句必须只返回一列。它必须至少产生一行,否则会产生错误。此外,它不能产生重复的值,否则会产生错误。
在这里插入图片描述

SELECT * FROM crosstab('...', '...')AS ct(row_name text, extra text, cat1 text, cat2 text, cat3 text, cat4 text);

按照上面的语法,我们写这个案例。

select * from crosstab(
'select name,gender,sub,score from t3 order by name',
'select distinct sub from t3 order by 1'
) as s(name varchar,gender varchar,数学 int,英语 int,语文 int)-- 注意category类最好排序,并且按照排序顺序写,不容易出错
select * from crosstab(
'select name,gender,sub,score from t3 order by name',
'select distinct sub from t3 order by 1'
) as s(name varchar,gender varchar,数学 int,英语 int,语文 int)

此时结果如下,得到正确的结果。

在这里插入图片描述
然后,我们再做一个案例,看看这个函数的问题。插入测试数据。

drop table t;
create table t(
name varchar(255),
term varchar(255),
sub varchar(255),
score int4
);
insert into t values('张三','第一学期','语文',93);
insert into t values('张三','第一学期','数学',28);
insert into t values('李四','第一学期','数学',78);
insert into t values('张三','第二学期','语文',22);
insert into t values('李四','第二学期','语文',55);
insert into t values('李四','第二学期','数学',73);
insert into t values('李四','第二学期','英语',100);
insert into t values('王五','第三学期','英语',60);

按照crosstab(text,text)的写法,我们再一起来做做这个案例。

select * from 
crosstab(
'select name,term,sub,score from t order by name',
'select distinct sub from t  order by 1'
)as s(name varchar,term varchar,math int4,english int4,chinese int4)

按照这个sql,我们得到的结果如下图。
在这里插入图片描述
语法没错误,并且出结果了,但是!!我的结果!!你是不是少了点东西啊,你显示得不全啊。问题在哪里啊,然后我再去看官方文档,才懂了这句话的重要性(对于具有相同row_name的所有行, “extra”列应是相同的值),这就是我前面那个案例成功,这个案例有问题的原因。
然后我再仔细阅读了一下,发现它说这个函数为具有相同row_name 值的crosstab输入行生成一个输出行。输出的row_name 列,以及任何“extra”列,都是从组的第一行复制而来。输出 value列填充有来自具有匹配类别值的行的值字段。如果行的category与category_sql查询的任何输出都不匹配,则忽略其值。组的任何输入行中不存在匹配类别的输出列用空值填充。所以这个真相大白,它就是匹配每组的第一个row_name,每组只生成一行。
然后我发现可以通过将category列的值指定可以实现这个问题。代码如下:

select * from crosstab(
'select name,term,sub,score from t ',$$values('语文'),('数学'),('英语')$$)
as ct(name varchar,term varchar,语文 int,数学 int,英语 int)

此时得到的结果如下:
在这里插入图片描述
这个方法是可以实现的,但是这个方法也不是万能的,所以还是要多试试哦。实在不行,就老老实实用case…when或者string_agg+split_part来处理这类数据。
今天的文章到这里就结束了,若是对tablefunc的其他函数感兴趣,可以看看官方文档哦~
感谢阅读~

这篇关于postgresql之交叉表:crosstab的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/428122

相关文章

PostgreSQL如何查询表结构和索引信息

《PostgreSQL如何查询表结构和索引信息》文章介绍了在PostgreSQL中查询表结构和索引信息的几种方法,包括使用`d`元命令、系统数据字典查询以及使用可视化工具DBeaver... 目录前言使用\d元命令查看表字段信息和索引信息通过系统数据字典查询表结构通过系统数据字典查询索引信息查询所有的表名可

PostgreSQL如何用psql运行SQL文件

《PostgreSQL如何用psql运行SQL文件》文章介绍了两种运行预写好的SQL文件的方式:首先连接数据库后执行,或者直接通过psql命令执行,需要注意的是,文件路径在Linux系统中应使用斜杠/... 目录PostgreSQ编程L用psql运行SQL文件方式一方式二总结PostgreSQL用psql运

PostgreSQL核心功能特性与使用领域及场景分析

PostgreSQL有什么优点? 开源和免费 PostgreSQL是一个开源的数据库管理系统,可以免费使用和修改。这降低了企业的成本,并为开发者提供了一个活跃的社区和丰富的资源。 高度兼容 PostgreSQL支持多种操作系统(如Linux、Windows、macOS等)和编程语言(如C、C++、Java、Python、Ruby等),并提供了多种接口(如JDBC、ODBC、ADO.NET等

PostgreSQL中的多版本并发控制(MVCC)深入解析

引言 PostgreSQL作为一款强大的开源关系数据库管理系统,以其高性能、高可靠性和丰富的功能特性而广受欢迎。在并发控制方面,PostgreSQL采用了多版本并发控制(MVCC)机制,该机制为数据库提供了高效的数据访问和更新能力,同时保证了数据的一致性和隔离性。本文将深入解析PostgreSQL中的MVCC功能,探讨其工作原理、使用场景,并通过具体SQL示例来展示其在实际应用中的表现。 一、

PostgreSQL入门介绍

一、PostgreSQL 背景及主要功能介绍 1、背景 PG数据库,全称为PostgreSQL数据库,是一款开源的关系型数据库管理系统(RDBMS)。其起源可以追溯到20世纪80年代末和90年代初,由加拿大的计算机科学家Michael Stonebraker及其团队在加州大学伯克利分校启动。该项目旨在创建一个强大的、开源的关系型数据库管理系统,作为早期关系型数据库系统Ingres的继承者。Mi

PostgreSQL索引介绍

梦中彩虹   博客园首页新随笔联系管理 随笔 - 131  文章 - 1  评论 - 14 PostgreSQL索引介绍 INDEX 索引是增强数据库性能的常用方法。索引使得数据库在查找和检索数据库的特定行的时候比没有索引快的多。但索引也增加了整个数据库系统的开销,所以应该合理使用。 介绍 假设我们有一个类似这样的表: CREATE TABLE test1 (id integ

PostgreSQL分区表(partitioning)应用实例详解

https://www.jb51.net/article/97937.htm   PostgreSQL分区表(partitioning)应用实例详解  更新时间:2016年11月22日 10:25:58   作者:小灯光环    我要评论   这篇文章主要为大家详细介绍了PostgreSQL分区表(partitioning)应用实例,具有一定的参考价值,感兴趣的小伙伴们可以参考一下

PostgreSql中WITH语句的使用

https://blog.csdn.net/chuan_day/article/details/44809125 PostgreSql中WITH语句的使用 With语句是为庞大的查询语句提供了辅助的功能。这些语句通常是引用了表表达式或者CTEs(一种临时数据的存储方式),可以看做是一个查询语句的临时表。在With语句中可以使用select,insert,update,delete语句。当然wit

交叉编译python

1.解决python源码,进入源码目录 2.先编译本地版本的python。直接使用命令 ./configure --prefix=/home/KAS-300/python3.8 --enable-optimizationsmake -j8make install 3.把生成的python可执行文件临时加入PATH export PATH=/home/KAS-300/python3.8/

逐行讲解Transformer的代码实现和原理讲解:计算交叉熵损失

LLM模型:Transformer代码实现和原理讲解:前馈神经网络_哔哩哔哩_bilibili 1 计算交叉熵目的 计算 loss = F.cross_entropy(input=linear_predictions_reshaped, target=targets_reshaped) 的目的是为了评估模型预测结果与实际标签之间的差距,并提供一个量化指标,用于指导模型的训练过程。具体来说,交叉