本文主要是介绍Teradata 之top n与sample n,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
Teradata取n条样本数据的方法有两种:
select top x * from table;
select * from table sample n;
那么二者有什么区别呢?说明如下:
TOP N
如果有Order By关键字首先要对数据库的数据进行排序,然后获取N条数据或者抽样比率为N;
如果没有Order By关键字,要做一次STAT FUNCTION的全AMP收集,然后选择某一个或者几个AMP 来抽取数据。
Sample N
首先要对数据库的数据进行全表扫描,然后获取N数据;
采用的是Sampling的形式。
性能比较:
当数据量比较小的时候,TOP N的速度要比Sample的速度快;
当数据量比较大的时候,Sample N的速度要比TOP的速度快。
测试:
Explain select top 10 * from PD_PORTAL.TOPIC_COMP_DETAIL
1) First, we lock a distinct PD_PORTAL."pseudo table" for read on a
RowHash to prevent global deadlock for PD_PORTAL.TOPIC_COMP_DETAIL.
2) Next, we lock PD_PORTAL.TOPIC_COMP_DETAIL for read.
3) We do an all-AMPs STAT FUNCTION step from
PD_PORTAL.TOPIC_COMP_DETAIL by way of an all-rows scan with no
residual co
这篇关于Teradata 之top n与sample n的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!