三十分钟成为 Contributor | 为 TiKV 添加 built-in 函数

2024-04-08 03:18

本文主要是介绍三十分钟成为 Contributor | 为 TiKV 添加 built-in 函数,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

作者:吴雪莲

背景知识

SQL 语句发送到 TiDB 后经过 parser 生成 AST(抽象语法树),再经过 Query Optimizer 生成执行计划,执行计划切分成很多子任务,这些子任务以表达式的方式最后下推到底层的各个 TiKV 来执行。

图 1

图 1

如图 1,当 TiDB 收到来自客户端的查询请求

select count(*) from t where a + b > 5

时,执行顺序如下:

  1. TiDB 对 SQL 进行解析,组织成对应的表达式,下推给 TiKV

  2. TiKV 收到请求后,循环以下过程

    • 获取下一行完整数据,并按列解析

    • 使用参数中的 where 表达式对数据进行过滤

    • 若上一条件符合,进行聚合计算

  3. TiKV 向 TiDB 返回聚合计算结果

  4. TiDB 对所有涉及的结果进行二次聚合,返回给客户端

这里的 where 条件便是以表达式树的形式下推给 TiKV。在此之前 TiDB 只会向 TiKV 下推一小部分简单的表达式,比如取出某一个列的某个数据类型的值,简单数据类型的比较操作,算术运算等。为了充分利用分布式集群的资源,进一步提升 SQL 在整个集群的执行速度,我们需要将更多种类的表达式下推到 TiKV 来运行,其中的一大类就是 MySQL built-in 函数。

目前,由于 TiKV 的 built-in 函数尚未全部实现,对于无法下推的表达式,TiDB 只能自行解决。这无疑将成为提升 TiDB 速度的最大绊脚石。好消息是,TiKV 在实现 built-in 函数时,可以直接参考 TiDB 的对应函数逻辑(顺便可以帮 TiDB 找找 Bug),为我们减少了不少工作量。

Built-in 函数无疑是 TiDB 和 TiKV 成长道路上不可替代的一步,如此艰巨又庞大的任务,我们需要广大社区朋友们的支持与鼓励。亲爱的朋友们,想玩 Rust 吗?想给 TiKV 提 PR 吗?想帮助 TiDB 跑得更快吗?动动您的小手指,拿 PR 来砸我们吧。您的 PR 一旦被采用,将会有小惊喜哦。

手把手教你实现 built-in 函数

Step 1:准备下推函数

在 TiKV 的 https://github.com/pingcap/tikv/issues/3275 issue 中,找到未实现的函数签名列表,选一个您想要实现的函数。

Step 2:获取 TiDB 中可参考的逻辑实现

在 TiDB 的 expression 目录下查找相关 builtinXXXSig 对象,这里 XXX 为您要实现的函数签名,本例中以 MultiplyIntUnsigned 为例,可以在 TiDB 中找到其对应的函数签名(builtinArithmeticMultiplyIntUnsignedSig)及 实现。

Step 3:确定函数定义

  1. built-in 函数所在的文件名要求与 TiDB 的名称对应,如 TiDB 中,expression 目录下的下推文件统一以 builtin_XXX 命名,对应到 TiKV 这边,就是 builtin_XXX.rs。若同名对应的文件不存在,则需要自行在同级目录下新建。对于本例,当前函数存放于 TiDB 的 builtin_arithmetic.go 文件里,对应到 TiKV 便是存放在 builtin_arithmetic.rs 中。

  2. 函数名称:函数签名转为 Rust 的函数名称规范,这里 MultiplyIntUnsigned 将会被定义为 multiply_int_unsigned

  3. 函数返回值,可以参考 TiDB 中实现的 Eval 函数,对应关系如下:

    TiDB 对应实现的 Eval 函数TiKV 对应函数的返回值类型
    evalIntResult<Option<i64>>
    evalRealResult<Option<f64>>
    evalStringResult<Option<Cow<'a, [u8]>>>
    evalDecimalResult<Option<Cow<'a, Decimal>>>
    evalTimeResult<Option<Cow<'a, Time>>>
    evalDurationResult<Option<Cow<'a, Duration>>>
    evalJSONResult<Option<Cow<'a, Json>>>

    可以看到 TiDB 的 builtinArithmeticMultiplyIntUnsignedSig  对象实现了 evalInt 方法,故当前函数(multiply_int_unsigned)的返回类型应该为 Result<Option<i64>>

  4. 函数的参数, 所有 builtin-in 的参数都与 Expression 的 eval 函数一致,即:

    • 环境配置量 (ctx:&StatementContext)

    • 该行数据每列具体值 (row:&[Datum])

综上,multiply_int_unsigned 的下推函数定义为:

    pub fn multiply_int_unsigned(&self,ctx: &mut EvalContext,row: &[Datum],) -> Result<Option<i64>>

Step 4:实现函数逻辑

这一块相对简单,直接对照 TiDB 的相关逻辑实现即可。这里,我们可以看到 TiDB 的 builtinArithmeticMultiplyIntUnsignedSig 的具体实现如下:

func (s *builtinArithmeticMultiplyIntUnsignedSig) evalInt(row types.Row) (val int64, isNull bool, err error) {a, isNull, err := s.args[0].EvalInt(s.ctx, row)if isNull || err != nil {return 0, isNull, errors.Trace(err)}unsignedA := uint64(a)b, isNull, err := s.args[1].EvalInt(s.ctx, row)if isNull || err != nil {return 0, isNull, errors.Trace(err)}unsignedB := uint64(b)result := unsignedA * unsignedBif unsignedA != 0 && result/unsignedA != unsignedB {return 0, true, types.ErrOverflow.GenByArgs("BIGINT UNSIGNED", fmt.Sprintf("(%s * %s)", s.args[0].String(), s.args[1].String()))}return int64(result), false, nil
}

参考以上代码,翻译到 TiKV 即可,如下:

 pub fn multiply_int_unsigned(&self,ctx: &mut EvalContext,row: &[Datum],) -> Result<Option<i64>> {let lhs = try_opt!(self.children[0].eval_int(ctx, row));let rhs = try_opt!(self.children[1].eval_int(ctx, row));let res = (lhs as u64).checked_mul(rhs as u64).map(|t| t as i64);// TODO: output expression in error when column's name pushed down.res.ok_or_else(|| Error::overflow("BIGINT UNSIGNED", &format!("({} * {})", lhs, rhs))).map(Some)}

Step 5:添加参数检查

TiKV 在收到下推请求时,首先会对所有的表达式进行检查,表达式的参数个数检查就在这一步进行。

TiDB 中对每个 built-in 函数的参数个数有严格的限制,这一部分检查可参考 TiDB 同目录下 builtin.go 相关代码。

在 TiKV 同级目录的 scalar_function.rs 文件里,找到 ScalarFunc 的 check_args 函数,按照现有的模式,加入参数个数的检查即可。

Step 6:添加下推支持

TiKV 在对一行数据执行具体的 expression 时,会调用 eval 函数,eval 函数又会根据具体的返回类型,执行具体的子函数。这一部分工作在 scalar_function.rs 中以宏(dispatch_call)的形式完成。

对于 MultiplyIntUnsigned, 我们最终返回的数据类型为 Int,所以可以在 dispatch_call 中找到 INT_CALLS,然后照着加入 MultiplyIntUnsigned => multiply_int_unsigned , 表示当解析到函数签名 MultiplyIntUnsigned 时,调用上述已实现的函数 multiply_int_unsigned

至此 MultiplyIntUnsigned 下推逻辑已完全实现。

Step 7:添加测试

在函数 multiply_int_unsigned 所在文件 builtin_arithmetic.rs 底部的 test 模块中加入对该函数签名的单元测试,要求覆盖到上述添加的所有代码,这一部分也可以参考 TiDB 中相关的测试代码。本例在 TiKV 中实现的测试代码如下:

    #[test]fn test_multiply_int_unsigned() {let cases = vec![(Datum::I64(1), Datum::I64(2), Datum::U64(2)),(Datum::I64(i64::MIN),Datum::I64(1),Datum::U64(i64::MIN as u64),),(Datum::I64(i64::MAX),Datum::I64(1),Datum::U64(i64::MAX as u64),),(Datum::U64(u64::MAX), Datum::I64(1), Datum::U64(u64::MAX)),];let mut ctx = EvalContext::default();for (left, right, exp) in cases {let lhs = datum_expr(left);let rhs = datum_expr(right);let mut op = Expression::build(&mut ctx,scalar_func_expr(ScalarFuncSig::MultiplyIntUnsigned, &[lhs, rhs]),).unwrap();op.mut_tp().set_flag(types::UNSIGNED_FLAG as u32);let got = op.eval(&mut ctx, &[]).unwrap();assert_eq!(got, exp);}// test overflowlet cases = vec![(Datum::I64(-1), Datum::I64(2)),(Datum::I64(i64::MAX), Datum::I64(i64::MAX)),(Datum::I64(i64::MIN), Datum::I64(i64::MIN)),];for (left, right) in cases {let lhs = datum_expr(left);let rhs = datum_expr(right);let mut op = Expression::build(&mut ctx,scalar_func_expr(ScalarFuncSig::MultiplyIntUnsigned, &[lhs, rhs]),).unwrap();op.mut_tp().set_flag(types::UNSIGNED_FLAG as u32);let got = op.eval(&mut ctx, &[]).unwrap_err();assert!(check_overflow(got).is_ok());}}

Step 8:运行测试

运行 make expression,确保所有的 test case 都能跑过。

完成以上几个步骤之后,就可以给 TiKV 项目提 PR 啦。想要了解提 PR 的基础知识,尝试移步 此文,看看是否有帮助。

这篇关于三十分钟成为 Contributor | 为 TiKV 添加 built-in 函数的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/884427

相关文章

hdu1171(母函数或多重背包)

题意:把物品分成两份,使得价值最接近 可以用背包,或者是母函数来解,母函数(1 + x^v+x^2v+.....+x^num*v)(1 + x^v+x^2v+.....+x^num*v)(1 + x^v+x^2v+.....+x^num*v) 其中指数为价值,每一项的数目为(该物品数+1)个 代码如下: #include<iostream>#include<algorithm>

C++操作符重载实例(独立函数)

C++操作符重载实例,我们把坐标值CVector的加法进行重载,计算c3=c1+c2时,也就是计算x3=x1+x2,y3=y1+y2,今天我们以独立函数的方式重载操作符+(加号),以下是C++代码: c1802.cpp源代码: D:\YcjWork\CppTour>vim c1802.cpp #include <iostream>using namespace std;/*** 以独立函数

函数式编程思想

我们经常会用到各种各样的编程思想,例如面向过程、面向对象。不过笔者在该博客简单介绍一下函数式编程思想. 如果对函数式编程思想进行概括,就是f(x) = na(x) , y=uf(x)…至于其他的编程思想,可能是y=a(x)+b(x)+c(x)…,也有可能是y=f(x)=f(x)/a + f(x)/b+f(x)/c… 面向过程的指令式编程 面向过程,简单理解就是y=a(x)+b(x)+c(x)

利用matlab bar函数绘制较为复杂的柱状图,并在图中进行适当标注

示例代码和结果如下:小疑问:如何自动选择合适的坐标位置对柱状图的数值大小进行标注?😂 clear; close all;x = 1:3;aa=[28.6321521955954 26.2453660695847 21.69102348512086.93747104431360 6.25442246899816 3.342835958564245.51365061796319 4.87

OpenCV结构分析与形状描述符(11)椭圆拟合函数fitEllipse()的使用

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C++11 算法描述 围绕一组2D点拟合一个椭圆。 该函数计算出一个椭圆,该椭圆在最小二乘意义上最好地拟合一组2D点。它返回一个内切椭圆的旋转矩形。使用了由[90]描述的第一个算法。开发者应该注意,由于数据点靠近包含的 Mat 元素的边界,返回的椭圆/旋转矩形数据

Unity3D 运动之Move函数和translate

CharacterController.Move 移动 function Move (motion : Vector3) : CollisionFlags Description描述 A more complex move function taking absolute movement deltas. 一个更加复杂的运动函数,每次都绝对运动。 Attempts to

✨机器学习笔记(二)—— 线性回归、代价函数、梯度下降

1️⃣线性回归(linear regression) f w , b ( x ) = w x + b f_{w,b}(x) = wx + b fw,b​(x)=wx+b 🎈A linear regression model predicting house prices: 如图是机器学习通过监督学习运用线性回归模型来预测房价的例子,当房屋大小为1250 f e e t 2 feet^

JavaSE(十三)——函数式编程(Lambda表达式、方法引用、Stream流)

函数式编程 函数式编程 是 Java 8 引入的一个重要特性,它允许开发者以函数作为一等公民(first-class citizens)的方式编程,即函数可以作为参数传递给其他函数,也可以作为返回值。 这极大地提高了代码的可读性、可维护性和复用性。函数式编程的核心概念包括高阶函数、Lambda 表达式、函数式接口、流(Streams)和 Optional 类等。 函数式编程的核心是Lambda

PHP APC缓存函数使用教程

APC,全称是Alternative PHP Cache,官方翻译叫”可选PHP缓存”。它为我们提供了缓存和优化PHP的中间代码的框架。 APC的缓存分两部分:系统缓存和用户数据缓存。(Linux APC扩展安装) 系统缓存 它是指APC把PHP文件源码的编译结果缓存起来,然后在每次调用时先对比时间标记。如果未过期,则使用缓存的中间代码运行。默认缓存 3600s(一小时)。但是这样仍会浪费大量C

PHP7扩展开发之函数方式使用lib库

前言 首先说下什么是lib库。lib库就是一个提供特定功能的一个文件。可以把它看成是PHP的一个文件,这个文件提供一些函数方法。只是这个lib库是用c或者c++写的。 使用lib库的场景。一些软件已经提供了lib库,我们就没必要再重复实现一次。如,原先的mysql扩展,就是使用mysql官方的lib库进行的封装。 在本文,我们将建立一个简单的lib库,并在扩展中进行封装调用。 代码 基础