Flink DataSet语义注解

2024-06-03 13:48
文章标签 注解 flink 语义 dataset

本文主要是介绍Flink DataSet语义注解,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

专栏原创出处:github-源笔记文件 ,github-源码 ,欢迎 Star,转载请附上原文出处链接和本声明。
本节内容对应官方文档 ,本节内容对应示例源码

语义注解可用于为 Flink 提供有关函数行为的提示。它们告诉系统函数读取和评估函数输入的哪些字段,以及未修改的函数将哪些字段从其输入转发到输出。
语义注解是加快执行速度的强大方法,因为它们使系统能够推理出在多个操作之间重用排序顺序或分区。
使用语义注解最终可以使程序免于不必要的数据改组或不必要的排序,并显着提高程序的性能。

注意:语义注解的使用是可选的。但是,在提供语义注解时保守是绝对至关重要的!错误的语义注解将导致 Flink 对您的程序做出错误的假设,并最终可能导致错误的结果。如果操作员的行为无法明确预测,则不应提供注释。请仔细阅读文档。

1 转发字段注解

转发字段信息声明了输入字段,该字段未经修改就被函数转发到输出中的相同位置或另一个位置。
优化器使用此信息来推断函数是否保留了诸如排序或分区之类的数据属性。

使用字段表达式指定字段转发信息。可以通过其位置指定转发到输出中相同位置的字段。指定的位置必须对输入和输出数据类型有效,并且必须具有相同的类型。

转发规则语法

  • SingleInputUdfOperator(withForwardedFields) 语法:

    • dataUnix->_1 表示将 class 中 dataUnix 转发到 scala 元组的第一个位置
    • * 表示全部字段转发
    • *->_2 表示部字段转发到 scala 元组的第二个位置
  • TwoInputUdfOperator 语法:

    • withForwardFieldsFirst 函数的第一个输入规则定义,定义内容语法与 withForwardedFields 一致
    • withForwardedFieldsSecond 函数的第二个输入规则定义,定义内容语法与 withForwardedFields 一致
object ForwardedFields extends BatchExecutionEnvironmentApp {// 用户登录数据 DataSetval userLoginDs = DataSet.userLogin(this)val rolePayDs = DataSet.rolePay(this)userLoginDs.map(new MyForwardedFieldsMap()).withForwardedFields("dataUnix->_1", "uid->_2", "status->_3").map(o => o).withForwardedFields("*").map(o => (o._2, o)).withForwardedFields("_2->_1", "*->_2").join(rolePayDs).where(0).equalTo(_.uid).apply((o1, o2) => (o1._1, o1._2, o2.rid)).withForwardedFieldsFirst("_1->_1", "_2->_2").withForwardedFieldsSecond("rid->_3").print()
}/*** 自定义 map 实现函数,操作累加器示例* (Int, String, String) => (时间,用户 ID,用户登录状态)*/
class MyForwardedFieldsMap extends MapFunction[UserLogin, (Int, String, String)] {override def map(value: UserLogin): (Int, String, String) =(value.dataUnix, value.uid, value.status)
}

1.1 函数类注释

  • @ForwardedFields 用于诸如 Map 和 Reduce 的单一输入功能。
  • @ForwardedFieldsFirst 具有两个输入(例如 Join 和 CoGroup)的函数的第一个输入。
  • @ForwardedFieldsSecond 具有两个输入(例如 Join 和 CoGroup)的函数的第二个输入。

1.2 函数操作指定

  • data.map(myMapFnc).withForwardedFields() 用于单个输入功能,例如 Map 和 Reduce。
  • data1.join(data2).where().equalTo().with(myJoinFnc).withForwardFieldsFirst() 具有两个输入(例如 Join 和 CoGroup)的函数的第一个输入。
  • data1.join(data2).where().equalTo().with(myJoinFnc).withForwardFieldsSecond() 具有两个输入(例如 Join 和 CoGroup)的函数的第二个输入。

2 非转发字段注解

声明了非转发字段,未声明的默认为转发字段

具有相反语义的声明方式与转发字段一致,且仅可通过注解方式声明

支持注解:

  • [[org.apache.flink.api.java.functions.FunctionAnnotation.NonForwardedFields]]
  • [[org.apache.flink.api.java.functions.FunctionAnnotation.NonForwardedFieldsFirst]]
  • [[org.apache.flink.api.java.functions.FunctionAnnotation.NonForwardedFieldsSecond]]

3 Read Fields(读取字段注解)

读取字段信息声明所有由函数访问和评估的字段,即函数使用的所有字段来计算其结果。

例如,在指定读取字段信息时,必须将在条件语句中评估或用于计算的字段标记为已读。只有未经修改的字段转发到输出,而不评估其值或根本不被访问的字段不被视为被读取。

@ReadFields("_1; _4") // _1 and _4 2 个字段分别用于函数条件语句判断与结果计算.
class MyMap extends MapFunction[(Int, Int, Int, Int), (Int, Int)]{def map(value: (Int, Int, Int, Int)): (Int, Int) = {if (value._1 == 42) {return (value._1, value._2)} else {return (value._4 + 10, value._2)}}
}

这篇关于Flink DataSet语义注解的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1027164

相关文章

SpringCloud动态配置注解@RefreshScope与@Component的深度解析

《SpringCloud动态配置注解@RefreshScope与@Component的深度解析》在现代微服务架构中,动态配置管理是一个关键需求,本文将为大家介绍SpringCloud中相关的注解@Re... 目录引言1. @RefreshScope 的作用与原理1.1 什么是 @RefreshScope1.

Spring事务中@Transactional注解不生效的原因分析与解决

《Spring事务中@Transactional注解不生效的原因分析与解决》在Spring框架中,@Transactional注解是管理数据库事务的核心方式,本文将深入分析事务自调用的底层原理,解释为... 目录1. 引言2. 事务自调用问题重现2.1 示例代码2.2 问题现象3. 为什么事务自调用会失效3

Java常用注解扩展对比举例详解

《Java常用注解扩展对比举例详解》:本文主要介绍Java常用注解扩展对比的相关资料,提供了丰富的代码示例,并总结了最佳实践建议,帮助开发者更好地理解和应用这些注解,需要的朋友可以参考下... 目录一、@Controller 与 @RestController 对比二、使用 @Data 与 不使用 @Dat

基于@RequestParam注解之Spring MVC参数绑定的利器

《基于@RequestParam注解之SpringMVC参数绑定的利器》:本文主要介绍基于@RequestParam注解之SpringMVC参数绑定的利器,具有很好的参考价值,希望对大家有所帮助... 目录@RequestParam注解:Spring MVC参数绑定的利器什么是@RequestParam?@

Spring Security注解方式权限控制过程

《SpringSecurity注解方式权限控制过程》:本文主要介绍SpringSecurity注解方式权限控制过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、摘要二、实现步骤2.1 在配置类中添加权限注解的支持2.2 创建Controller类2.3 Us

Java中使用注解校验手机号格式的详细指南

《Java中使用注解校验手机号格式的详细指南》在现代的Web应用开发中,数据校验是一个非常重要的环节,本文将详细介绍如何在Java中使用注解对手机号格式进行校验,感兴趣的小伙伴可以了解下... 目录1. 引言2. 数据校验的重要性3. Java中的数据校验框架4. 使用注解校验手机号格式4.1 @NotBl

SpringBoot自定义注解如何解决公共字段填充问题

《SpringBoot自定义注解如何解决公共字段填充问题》本文介绍了在系统开发中,如何使用AOP切面编程实现公共字段自动填充的功能,从而简化代码,通过自定义注解和切面类,可以统一处理创建时间和修改时间... 目录1.1 问题分析1.2 实现思路1.3 代码开发1.3.1 步骤一1.3.2 步骤二1.3.3

Spring中@Lazy注解的使用技巧与实例解析

《Spring中@Lazy注解的使用技巧与实例解析》@Lazy注解在Spring框架中用于延迟Bean的初始化,优化应用启动性能,它不仅适用于@Bean和@Component,还可以用于注入点,通过将... 目录一、@Lazy注解的作用(一)延迟Bean的初始化(二)与@Autowired结合使用二、实例解

在 Spring Boot 中使用 @Autowired和 @Bean注解的示例详解

《在SpringBoot中使用@Autowired和@Bean注解的示例详解》本文通过一个示例演示了如何在SpringBoot中使用@Autowired和@Bean注解进行依赖注入和Bean... 目录在 Spring Boot 中使用 @Autowired 和 @Bean 注解示例背景1. 定义 Stud

Spring排序机制之接口与注解的使用方法

《Spring排序机制之接口与注解的使用方法》本文介绍了Spring中多种排序机制,包括Ordered接口、PriorityOrdered接口、@Order注解和@Priority注解,提供了详细示例... 目录一、Spring 排序的需求场景二、Spring 中的排序机制1、Ordered 接口2、Pri