【CMU 15-445】Lecture 10: Sorting Aggregations Algorithms 学习笔记

本文主要是介绍【CMU 15-445】Lecture 10: Sorting Aggregations Algorithms 学习笔记，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Sorting & Aggregations Algorithms

Sorting
- Top-N Heap Sort
- External Merge Sort
- - 2-WAY External Merge Sort
  - K-WAY External Merge Sort
  - Double Buffering Optimization
Aggregations
- Sorting
- Hashing

本节课主要介绍的是数据库系统中的排序算法以及聚合算法

Sorting

排序算法分为两种：如果内存能够容纳一个关系的所有tuple，那么可以用任意的标准排序算法在内存中进行排序，如插入排序、快速排序等等；如果内存无法容纳一个关系的所有tuple，则只能使用外排序。

Top-N Heap Sort

如果一个查询包含ORDER BY加上LIMIT关键字的组合，则可以使用Top-N堆排序的做法，如下图所示，推排序的细节就不多讲了。
在这里插入图片描述

External Merge Sort

一种外排序算法是外部归并排序，主要分为以下两个步骤：

Divide：将文件中的记录分为若干个归并段，使得每个归并段都能被加载到内存中进行单独排序
Conquer：将若干个有序的归并段merge成最终结果

2-WAY External Merge Sort

一个简单的merge做法是二路归并，如下图例子所示，每次merge合并两个归并段，以此类推直到所有归并段合成一个段为止。在二路归并做法中，只需要内存提供三个缓存页（两个用于加载待merge的归并段，一个用于存放merge结果）。我们可以简单的估计该做法的IO复杂度，假设存放tuple的page数量为 $N$ ，则我们最多需要做 $\lceil log_2N \rceil$ 次归并，且每次归并需要对每个page进行读写，共计 $2 N$ 次IO操作，故总复杂度为 $2N*(1+\lceil log_2N \rceil)$ （需要加上第一次做内部排序的IO）

在这里插入图片描述

K-WAY External Merge Sort

更进阶的做法是将二路归并扩展至K路归并，因为二路归并中没有充分利用内存缓冲区（只是用了三页缓冲页）。假设内存缓冲页数量为 $B$ ，可以在排序阶段就充分利用缓冲页进行优化，一次性加载 $B$ 个page进行排序，相当于把 $B$ 个page合成一个归并段了，这样子在开始归并之前就只有 $\lceil \frac{N}{B} \rceil$ 个归并段；在归并阶段，最多可以利用 $B - 1$ 个缓存页进行多路归并（需要预留一个缓存页存放归并结果）。于是，最多只需执行 $\lceil log_{B-1}\lceil \frac{N}{B} \rceil \rceil$ 次归并，每次归并的IO次数仍为 $2 N$ ，故总复杂度为 $2N*(1+\lceil log_{B-1}\lceil \frac{N}{B} \rceil \rceil)$ （需要加上第一次做内部排序的IO）