Oracle开发专题之:删除重复记录

2024-04-15 16:48

本文主要是介绍Oracle开发专题之:删除重复记录,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、测试环境:

假设目前我们有一个表:test,该表的结构如下:


效果如同前面两个方法一样,大量的连接、排序、分组让依靠rowid来删除重复记录变得很耗时,反而是采用方法1的情况下速度很快(本人测试了2次,都是连接测试服务器进行测试,第一次用时7.09秒,第二次用时14.656秒)。

小结:
在数据量不大的情况下,采用根据rowid或结合group by分组的方式是很快的,但是在海量数据的情况下则反而是方式一最快,因为省去了自连接、排序、分组的时间

 

SQL >   desc  test;
 Name                                      
Null ?    Type
 
-- --------------------------------------- -------- ----------------------------
 ID                                                   NUMBER
 SEQ                                                
NUMBER


现在我们向表中插入200W条数据,这200W条数据中有一半是重复的。

create   or   replace   procedure  gen_duplicated_records  as

  i 
number ;
  j 
number ;

begin
  
for  i  in   1  ..  2  loop
    
for  j  in   1  ..  1000000  loop
      
insert   into  test  values  (j, j  +   10 );
    
end  loop;
    
commit ;
  
end  loop;
end ;


我们的最终目的就是剔除这一半的重复记录。下面来看一下各种方法的使用及效率区别

二、使用临时表进行删除:

这个是最简单的思路了,创建一张临时表,将原表中的数据拷贝一半过去,再查询出来。

SQL >   set  timing  on ;
SQL
>  
SQL
>   create   table  test_2  as   select   distinct   *   from  test;

Table  created.

Elapsed: 
00 : 00 : 07.09
SQL
>  


该方法耗时7.09秒,测试数据库位于服务器上。考虑到服务器和本机位于同一个局域网内,该时间如果在真正的生产环境中应该至上延长1倍以上。

三、使用rowid进行删除:

我们知道在Oracle中,rowid是用来唯一表示一条记录的伪列,任意两条记录的rowid都是不同的,即便内容看起来一模一样。所以我们的思路是:使用表的自连接,查找那些内容相同但rowid不同的记录,即为重复记录。然后随意选择其中一个rowid代表的记录,删除另一条记录。

我们来看一下其中id=1的记录在自连接后的情况:

SQL >   select  a. * , a.rowid, b. * , b.rowid  from  test a, test b  where  a.id  =  b.id  and  a.seq  =  b.seq  and  a
.id 
=   1 ;

        ID        SEQ ROWID                      ID        SEQ ROWID
-- -------- ---------- ------------------ ---------- ---------- ------------------
          1           11  AAAGHIAAJAAAAAKAAA           1           11  AAAGHIAAJAAAAAKAAA
         
1           11  AAAGHIAAJAAAAgQAGX           1           11  AAAGHIAAJAAAAAKAAA
         
1           11  AAAGHIAAJAAAAAKAAA           1           11  AAAGHIAAJAAAAgQAGX
         
1           11  AAAGHIAAJAAAAgQAGX           1           11  AAAGHIAAJAAAAgQAGX

Elapsed: 
00 : 00 : 02.08
SQL
>  


我们看到自连接后的4条记录中有2条的rowid是不同的,说明这2条记录就是重复记录,所以我们可以通过选择其中rowid较大或较小的记录,来删除剩余的记录。但是这种方法的一个很大的缺点就是由于采用了“自连接”,对于像我这样的测试表中有200W条记录的情况,其自连接后的记录数是一个天文数字(其实本人的测试就因为等待过久而不得不取消)。

我们换另外一种方法:

DELETE   FROM  test t1 
 
WHERE  t1.ROWID  NOT   IN  (
     
SELECT   MAX (t2.rowid) 
       
FROM  test t2 
      
WHERE  t1.id  =  t2.id  AND  t1.seq  =  t2.seq);


实践证明,这种方法对大量数据的情况,效率依然是很低的。结果如同上一种方法。假如我们再结合group by呢?

SQL >   DELETE   FROM  test
  
2     WHERE  ROWID  NOT   IN  ( SELECT   MAX (ROWID)  FROM  test  GROUP   BY  id, seq);

这篇关于Oracle开发专题之:删除重复记录的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/906367

相关文章

基于Python开发PDF转PNG的可视化工具

《基于Python开发PDF转PNG的可视化工具》在数字文档处理领域,PDF到图像格式的转换是常见需求,本文介绍如何利用Python的PyMuPDF库和Tkinter框架开发一个带图形界面的PDF转P... 目录一、引言二、功能特性三、技术架构1. 技术栈组成2. 系统架构javascript设计3.效果图

基于Python开发PDF转Doc格式小程序

《基于Python开发PDF转Doc格式小程序》这篇文章主要为大家详细介绍了如何基于Python开发PDF转Doc格式小程序,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 用python实现PDF转Doc格式小程序以下是一个使用Python实现PDF转DOC格式的GUI程序,采用T

使用Python开发一个图像标注与OCR识别工具

《使用Python开发一个图像标注与OCR识别工具》:本文主要介绍一个使用Python开发的工具,允许用户在图像上进行矩形标注,使用OCR对标注区域进行文本识别,并将结果保存为Excel文件,感兴... 目录项目简介1. 图像加载与显示2. 矩形标注3. OCR识别4. 标注的保存与加载5. 裁剪与重置图像

Oracle登录时忘记用户名或密码该如何解决

《Oracle登录时忘记用户名或密码该如何解决》:本文主要介绍如何在Oracle12c中忘记用户名和密码时找回或重置用户账户信息,文中通过代码介绍的非常详细,对同样遇到这个问题的同学具有一定的参... 目录一、忘记账户:二、忘记密码:三、详细情况情况 1:1.1. 登录到数据库1.2. 查看当前用户信息1.

MySQL InnoDB引擎ibdata文件损坏/删除后使用frm和ibd文件恢复数据

《MySQLInnoDB引擎ibdata文件损坏/删除后使用frm和ibd文件恢复数据》mysql的ibdata文件被误删、被恶意修改,没有从库和备份数据的情况下的数据恢复,不能保证数据库所有表数据... 参考:mysql Innodb表空间卸载、迁移、装载的使用方法注意!此方法只适用于innodb_fi

Android开发中gradle下载缓慢的问题级解决方法

《Android开发中gradle下载缓慢的问题级解决方法》本文介绍了解决Android开发中Gradle下载缓慢问题的几种方法,本文给大家介绍的非常详细,感兴趣的朋友跟随小编一起看看吧... 目录一、网络环境优化二、Gradle版本与配置优化三、其他优化措施针对android开发中Gradle下载缓慢的问

使用Go语言开发一个命令行文件管理工具

《使用Go语言开发一个命令行文件管理工具》这篇文章主要为大家详细介绍了如何使用Go语言开发一款命令行文件管理工具,支持批量重命名,删除,创建,移动文件,需要的小伙伴可以了解下... 目录一、工具功能一览二、核心代码解析1. 主程序结构2. 批量重命名3. 批量删除4. 创建文件/目录5. 批量移动三、如何安

shell脚本自动删除30天以前的文件(最新推荐)

《shell脚本自动删除30天以前的文件(最新推荐)》该文章介绍了如何使用Shell脚本自动删除指定目录下30天以前的文件,并通过crontab设置定时任务,此外,还提供了如何使用Shell脚本删除E... 目录shell脚本自动删除30天以前的文件linux按照日期定时删除elasticsearch索引s

Android 悬浮窗开发示例((动态权限请求 | 前台服务和通知 | 悬浮窗创建 )

《Android悬浮窗开发示例((动态权限请求|前台服务和通知|悬浮窗创建)》本文介绍了Android悬浮窗的实现效果,包括动态权限请求、前台服务和通知的使用,悬浮窗权限需要动态申请并引导... 目录一、悬浮窗 动态权限请求1、动态请求权限2、悬浮窗权限说明3、检查动态权限4、申请动态权限5、权限设置完毕后

oracle DBMS_SQL.PARSE的使用方法和示例

《oracleDBMS_SQL.PARSE的使用方法和示例》DBMS_SQL是Oracle数据库中的一个强大包,用于动态构建和执行SQL语句,DBMS_SQL.PARSE过程解析SQL语句或PL/S... 目录语法示例注意事项DBMS_SQL 是 oracle 数据库中的一个强大包,它允许动态地构建和执行