SPL性能提升-单键值查找

2024-01-06 00:30

文章标签 性能查找提升 spl 单键

本文主要是介绍SPL性能提升-单键值查找，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

一.介绍

集算器是一款程序化数据运算工具，它能够执行各类数据分析与结构化计算，也可以自由访问数据库，完成在线数据分析。
在这里插入图片描述
支持各种数据源混合查询，离散与集合的充分结合，超强有序计算，提倡分步计算

官网：http://www.scudata.com.cn/

二.准备

1.下载学习资源：http://www.raqsoft.com.cn/wx/course-performance-optimizing.html

2.安装完毕打开集算器，设置seek为主目录
在这里插入图片描述
3.切换到主目录

在这里插入图片描述

4.执行脚本
在这里插入图片描述
1、“主目录\dfx\orders.dfx”，生成订单集文件"主目录\data\btx\orders.btx"。
2、“主目录\dfx\residents.dfx”，生成居民集文件"主目录\data\btx\residents.btx"
3、“主目录\dfx\fulltext.dfx”，生成全文检索组文件"主目录\data\ctx\fulltext.ctx"“。
4、“主目录\dfx\keyvalues.dfx”，生成键值组文件"主目录\data\ctx\col.ctx”"。

三.内存-单键值查找

一.准备数据

执行p1.1.dfx，生成一百万数据量的客户序表customer，并随机取出1000个id、name
在这里插入图片描述

二.内存-二分法

在这里插入图片描述
1.打开p1.2.dfx，用顺序查找，记录执行时间

2.打开p1.2.dfx，用二分法改写，记录执行时间

注意：二分法找name是不行的，二分法查找的必须是有序的集合

=customer.select@b(name= ="Luke")

三.序号定位

在这里插入图片描述

1.打开p1.3.dfx，用序号定位法改写，比较执行时间

注意：基于无序集合理论的关系数据库，没有提供序号定位的手段，即使可以用序号定位时也只能用主键查找

四.哈希索引

在这里插入图片描述
索引越长，产生哈希冲突的概率越小，查找速度越快，但占用内存越大

索引长度缺省：原序列长度和2000万的较小值。当users表长度为100万的时候，索引长度缺省就是100万，哈希值重复的情况就很少了。

1.打开p1.4.dfx，用哈希索引改写
在这里插入图片描述
我们的数据是100w，所以索引缺省值是100w，冲突率小，查询快

2.将A2的index()改为index(10000)，强行修改索引缺省值
在这里插入图片描述
可以看到缺省值小了，哈希冲突概率增大，查询效率变低

四.位置索引

在这里插入图片描述
1.打开p1.5.dfx-文件，观察遍历查找的写法，记录执行时间

2.改写为位置索引法查找

五.多层序号查找

在这里插入图片描述

1.打开p1.6.dfx，居民表residents取出十万条数据，idcards随机取出100个idcard身份证号

2.身份证号前十四位转换为排号键代码如下，补全剩下的三位转换代码

六.多层序号与限制长度哈希索引对比

1.打开p1.8.dfx，利用长度1000的哈希索引查找10000次
在这里插入图片描述
2.改写p1.8.dfx，将residents主键改为idcardk，哈希索引改为排号键索引

四.外存-单键值查找

一.外存-二分法

在这里插入图片描述

1.打开p1.9.dfx，用遍历法查找oid==8123456,记录执行时间

2.利用二分法(外存)改写p1.9.dfx，比较性能

二.外存-排序索引

在这里插入图片描述

1.打开p1.10.dfx,无索引查找1000个随机的订单编号，记录执行时间

2.改写p1.10.dfx，使用排序索引查找，比较性能，查看产生的索引文件

在seek\data\ctx目录中发现订单索引文件

三.外存-哈希索引

在这里插入图片描述
1.打开p1.11.dfx，用遍历法查找1000个随机的订单编号，记录执行时间

2.改写p1.11.dfx，使用哈希索引查找，比较性能

保证生成的索引文件名称不能重复，平均索引长度为1最合适，冲突最小

这篇关于SPL性能提升-单键值查找的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/574640。 23002807@qq.com

相关文章

Zabbix在MySQL性能监控方面的运用及最佳实践记录

Zabbix在MySQL性能监控方面的运用及最佳实践记录

《Zabbix在MySQL性能监控方面的运用及最佳实践记录》Zabbix通过自定义脚本和内置模板监控MySQL核心指标（连接、查询、资源、复制）,支持自动发现多实例及告警通知,结合可视化仪表盘,可有效... 目录一、核心监控指标及配置1. 关键监控指标示例2. 配置方法二、自动发现与多实例管理1. 实践步骤

阅读更多...

MySQL深分页进行性能优化的常见方法

MySQL深分页进行性能优化的常见方法

《MySQL深分页进行性能优化的常见方法》在Web应用中,分页查询是数据库操作中的常见需求,然而,在面对大型数据集时,深分页（deeppagination）却成为了性能优化的一个挑战,在本文中,我们将... 目录引言：深分页，真的只是“翻页慢”那么简单吗？一、背景介绍二、深分页的性能问题三、业务场景分析四、

阅读更多...

MySQL 多列 IN 查询之语法、性能与实战技巧(最新整理)

MySQL 多列 IN 查询之语法、性能与实战技巧(最新整理)

《MySQL多列IN查询之语法、性能与实战技巧(最新整理)》本文详解MySQL多列IN查询,对比传统OR写法,强调其简洁高效,适合批量匹配复合键,通过联合索引、分批次优化提升性能,兼容多种数据库... 目录一、基础语法：多列 IN 的两种写法1. 直接值列表2. 子查询二、对比传统 OR 的写法三、性能分析

阅读更多...

Linux系统性能检测命令详解

Linux系统性能检测命令详解

《Linux系统性能检测命令详解》本文介绍了Linux系统常用的监控命令（如top、vmstat、iostat、htop等）及其参数功能,涵盖进程状态、内存使用、磁盘I/O、系统负载等多维度资源监控,... 目录toppsuptimevmstatIOStatiotopslabtophtopdstatnmon

阅读更多...

PowerShell中15个提升运维效率关键命令实战指南

PowerShell中15个提升运维效率关键命令实战指南

《PowerShell中15个提升运维效率关键命令实战指南》作为网络安全专业人员的必备技能,PowerShell在系统管理、日志分析、威胁检测和自动化响应方面展现出强大能力,下面我们就来看看15个提升... 目录一、PowerShell在网络安全中的战略价值二、网络安全关键场景命令实战1. 系统安全基线核查

阅读更多...

MySQL中查找重复值的实现

MySQL中查找重复值的实现

《MySQL中查找重复值的实现》查找重复值是一项常见需求,比如在数据清理、数据分析、数据质量检查等场景下,我们常常需要找出表中某列或多列的重复值,具有一定的参考价值,感兴趣的可以了解一下... 目录技术背景实现步骤方法一：使用GROUP BY和HAVING子句方法二：仅返回重复值方法三：返回完整记录方法四：

阅读更多...

C++作用域和标识符查找规则详解

C++作用域和标识符查找规则详解

《C++作用域和标识符查找规则详解》在C++中,作用域（Scope）和标识符查找（IdentifierLookup）是理解代码行为的重要概念,本文将详细介绍这些规则,并通过实例来说明它们的工作原理,需... 目录作用域标识符查找规则1. 普通查找（Ordinary Lookup）2. 限定查找（Qualif

阅读更多...

JVisualVM之Java性能监控与调优利器详解

JVisualVM之Java性能监控与调优利器详解

《JVisualVM之Java性能监控与调优利器详解》本文将详细介绍JVisualVM的使用方法,并结合实际案例展示如何利用它进行性能调优,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全... 目录1. JVisualVM简介2. JVisualVM的安装与启动2.1 启动JVisualVM2

阅读更多...

Java使用MethodHandle来替代反射,提高性能问题

Java使用MethodHandle来替代反射,提高性能问题

《Java使用MethodHandle来替代反射,提高性能问题》：本文主要介绍Java使用MethodHandle来替代反射,提高性能问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑... 目录一、认识MethodHandle1、简介2、使用方式3、与反射的区别二、示例1、基本使用2、（重要）

阅读更多...

PyTorch高级特性与性能优化方式

PyTorch高级特性与性能优化方式

《PyTorch高级特性与性能优化方式》：本文主要介绍PyTorch高级特性与性能优化方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、自动化机制1.自动微分机制2.动态计算图二、性能优化1.内存管理2.GPU加速3.多GPU训练三、分布式训练1.分布式数据

阅读更多...