Apache SeaTunnel 2.3.7发布:全新支持大型语言模型数据转换

本文主要是介绍Apache SeaTunnel 2.3.7发布:全新支持大型语言模型数据转换,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

file

我们欣喜地宣布,Apache SeaTunnel 2.3.7 版本现已正式发布!作为一个广受欢迎的下一代开源数据集成工具,Apache SeaTunnel 一直致力于为用户提供更加灵活、高效的数据同步和集成能力。此次版本更新不仅引入了如 LLM(大型语言模型)数据转换支持、增强的 SQL 支持和新连接器支持等多个新特性,还对现有功能进行了优化和改进,并修复了多个发现的问题。本文将详细介绍 Apache SeaTunnel 2.3.7 版本中的关键更新内容,并邀请更多的开发者和用户参与到我们的开源社区中来。

  • 2.3.7版本下载:https://seatunnel.apache.org/download/
  • Release Note:https://github.com/apache/seatunnel/releases/tag/2.3.7

新增功能亮点

  1. LLM 数据转换支持:2.3.7 新版本中增加了对 LLM(大语言模型)数据转换的支持。这一特性将显著提升 Apache SeaTunnel 在处理复杂文本数据和自然语言处理任务中的应用能力,为前沿数据处理领域的用户提供了更大的便利。 值得一提的是,我们在 2.3.6 版本添加了向量类型支持向量数据库写入,可加速人工智能应用程序的开发,并简化由 AI 驱动的应用程序工作负载的运作,已成为大模型时代的得力助手。为更好地支持 AI 开发,Apache SeaTunnel 2.3.6 版本添加了对向量数据库 Milvus的支持。这是 Apache SeaTunnel 支持的首个向量数据库,后续将扩展对其他向量数据库的支持,具体可参考《2.3.6版本发布!Apache SeaTunnel Zeta引擎迎来新架构!》。

  2. 增强的 SQL 支持:此次版本为 SQL 增加了 CAST TO BYTES 功能,使数据类型转换更加灵活,用户在处理不同数据格式时,将拥有更多的选择,提升了数据处理的灵活性和可操作性。

  3. 阿里云 SLS 连接器支持: 此次更新新增了阿里云 SLS(阿里云日志服务)连接器。通过此功能,用户可以将数据直接导入到阿里云日志服务中,利用其强大的日志管理和分析能力。这一特性特别适用于需要实时日志监控和分析的用户场景。

  4. ActiveMQ Sink 连接器支持:支持 ActiveMQ 作为 Sink,进一步扩展了 SeaTunnel 的消息队列集成能力。ActiveMQ 是一个高性能的消息代理系统,此次新增的支持使得 Apache SeaTunnel 用户能够更方便地与 ActiveMQ 进行数据交换,尤其适合于数据流处理和实时数据分析的场景。

改进和优化

在功能优化方面,Apache SeaTunnel 2.3.7 同样带来了诸多改进,旨在提升系统的性能和稳定性。

  • Flink API 方法命名优化:改进了 Flink API 的方法命名规范,使得代码更加易读、易理解。这项优化不仅提升了开发体验,也减少了开发人员在使用 Flink 时可能遇到的困惑。

  • 增强的 API 合法性检查:新版增加了对 API 输入参数的合法性检查,确保了用户输入的配置和参数符合预期要求。这一改进减少了因配置错误导致的运行时异常,提升了系统的整体稳定性。

  • 多表 Sink 配置优化:对于需要处理多表输出的场景,2.3.7 进一步优化了 Sink 选项配置,使得用户在配置多表输出时更加便捷和高效。

  • OceanBase 支持优化:修复了 OceanBase 相关的兼容性问题,提升了 Apache SeaTunnel 在处理 OceanBase 数据库时的性能和稳定性。

    关键问题修复

    本次版本更新修复了多个关键问题,显著提升了系统的稳定性和用户体验。

  • MySQL-CDC 连接器修复:修复了在特定情况下,MySQL-CDC 连接器无法正常同步数据的问题。这个修复确保了使用 MySQL 数据源的用户能够更加可靠地进行数据同步操作。

  • Doris 连接器修复:解决了 Doris 连接器的一些关键性问题,增强了 Apache SeaTunnel 与 Doris 数据库的兼容性和性能,为使用 Doris 作为数据存储的用户提供了更好的支持。

  • Zeta 引擎任务停止问题修复:此次更新解决了 Zeta 引擎在某些情况下无法正常停止任务的 bug。这一改进防止了资源泄漏问题的发生,提高了系统的整体稳定性。

文档和社区贡献

我们深知,优秀的文档是用户成功使用 Apache SeaTunnel 的关键。在 2.3.7 版本中,我们对多个模块的文档进行了更新和修正,确保用户能够获得最准确和易懂的使用指南。

  • 文档更新和修正:此次版本更新对多个文档进行了修正,特别是 Oracle-CDC 等模块的使用文档。我们不仅修复了之前版本中存在的错误描述,还增加了更多的使用案例和操作指南,帮助用户更好地理解和使用 SeaTunnel。

  • 感谢社区贡献者:此次版本更新离不开社区的支持和贡献。我们特别感谢所有为 SeaTunnel 2.3.7 版本提交代码、报告问题和提出建议的贡献者。正是因为你们的无私奉献,Apache SeaTunnel 才能不断进步和成长。

本次具体更新如下:

新功能

Transforms-V2

  • [Feature] 拆分变换并将 JAR 移动到 connectors 目录 (#7218)
  • [Feature][LLM] 添加 LLM 变换 (#7303)
  • [Feature][SQL] 支持 SQL 的 cast to bytes 函数 (#7284)

Connector-V2

  • [Feature][Aliyun SLS] 添加阿里云 SLS 连接器 (#3733) (#7348)
  • [Feature][Activemq] 添加 ActiveMQ 连接器 (#7251)

功能改进

Core

  • [Improve][Flink] 优化方法名称 (#7372)
  • [Improve][API] 在发送到下游之前检查 catalog 表字段名的合法性 (#7358)
  • [Improve][Flink] 重构 Flink 代理源/汇 (#7355)
  • [Improve][API] 确保 TablePath 中的表名不为 null (#7252)
  • [Improve][Core] 基于插件名称改进查找策略 (#7278)

Connector-V2

  • [Improve][multi-table] 增加多表汇的选项检查 (#7360)
  • [Improve][Console] 更新 ConsoleSinkFactory.java (#7350)
  • [Improve][Jdbc] 自动创建表时跳过所有索引以提高写入性能 (#7288)
  • [Improve][Doris] 改进 Doris 错误信息 (#7343)
  • [Improve][Jdbc] 删除 JdbcDialect 中的 MysqlType 引用 (#7333)
  • [Improve][Jdbc] 创建表时合并用户配置的主键 (#7313)
  • [Improve][Jdbc] 优化检查数据库和表是否存在的方式 (#7261)

Transforms-V2

  • [Improve][DynamicCompile] 改进 DynamicCompile 变换 (#7319)
  • [Improve][SQL] 从输出字段中移除转义标识符 (#7297)
  • [Improve][DynamicCompile] 改进 DynamicCompile 变换 (#7264)

E2E

  • [Improve][Improve] 启用 Spark/Flink 的 fakesource E2E 测试 (#7325)
  • [Improve][Improve] 启用 JdbcPostgresIdentifierIT (#7326)
  • [Improve][Improve] 支持 Windows 上的 Paimon E2E 测试 (#7329)

Bug 修复

Connector-V2

  • [Hotfix][MySQL-CDC] 修复 MySQL binlog 读取时的 ArrayIndexOutOfBoundsException 异常 (#7381)
  • [Fix][Doris] 修复 Doris 主键顺序与字段顺序不一致的问题 (#7377)
  • [Bugfix][Doris] 修复 JSON 序列化时,空值导致的数据错误问题 (#7379)
  • [Hotfix][Jdbc] 修复 JDBC 编译错误 (#7359)
  • [Fix][OceanBase] 移除 OceanBase catalog 对 MySQL 驱动的依赖 (#7311)
  • [Fix][Tdengine] 修复连接 Taos 读取数据时的 SQL 异常和 ConcurrentModifyException 异常 (#6088)
  • [Hotfix][Kafka] 修复 Kafka 消费者日志的下次启动偏移量问题 (#7312)
  • [Fix][Doris] 修复 CDC 场景下删除数据的异常问题 (#7315)
  • [Hotfix][Hbase] 修复和优化 HBase 源问题 (#7148)
  • [Fix][Iceberg] 修复无法为标识符 'Iceberg' 创建源的问题 (#7182) (#7279)

Zeta(ST-Engine)

  • [Fix][Zeta] 修复由于锁定指标失败导致任务无法结束的问题 (#7357)
  • [Hotfix][Zeta] 修复系统繁忙时任务无法停止的问题 (#7292)
  • [Hotfix][Zeta] 修复系统繁忙时任务无法停止的问题 (#7280)

E2E

  • [Fix][Http] 修复 HTTP E2E 测试用例 (#7356)

文档

  • [Docs] 在 setup.md 中更改弃用的连接器名称 (#7366)
  • [Docs] 修复 SFTP 汇文档中的用户名参数错误 (#7334)
  • [Docs] 修复选择 OSS 作为检查点时的配置问题 (#7332)
  • [Docs] 修复 sidebars 中缺失的 sink-options-placeholders.md (#7310)
  • [Docs] 更新 Oracle-CDC.md (#7285)
  • [Docs] 修复混合集群部署文档显示错误 (#7306)
  • [Docs] 将事件监听器文档翻译成中文 (#7274)

其他

  • 更新 org.apache.activemq:activemq-client (#7323)
  • [Improve] 移除未使用的代码 (#7324)
  • [Improve] 更新快照版本至 2.3.7 (#7305)

贡献者名单

特别感谢 wuchunfu 的主持发版工作,感谢下列社区成员对本次发版工作的贡献:

Carl-Zhou-CN Hisoka-X Jarvis OswinWu TyrantLucifer XenosK alextinng asapekia chaos-cn corgy-w dailai dependabot[bot] gdliu3 hailin0 hawk9821 jackyyyyyssss liugddx luzongzhu q3356564 virvle whhe wuchunfu xxsc0529 zhangshenghang

总结

Apache SeaTunnel 2.3.7 的发布,是我们持续提升产品性能和用户体验的重要一步。通过新增功能、优化现有功能以及修复已知问题,我们希望为用户提供更好的数据集成和处理体验。同时,我们也期待有更多的用户和开发者加入到 SeaTunnel 社区中来,共同推动这个开源项目的发展。

欢迎下载 SeaTunnel 2.3.7 版本,体验最新功能和改进。如果您在使用过程中有任何问题或建议,欢迎随时与我们联系。让我们一起,共同构建一个更加开放、强大、灵活的数据集成工具!

  • 如何参与贡献:您可以通过提交代码、报告问题、撰写文档等多种方式参与到 SeaTunnel 的开源社区中来。我们的 GitHub 页面上有详细的贡献指南,帮助您快速入门。

  • 加入我们的讨论:我们非常重视社区的声音,并鼓励大家在 GitHub Issue 页面、邮件列表和其他讨论渠道中分享您的想法和建议。您的每一个建议,都是我们改进和提升 Apache SeaTunnel 的宝贵财富。

本文由 白鲸开源科技 提供发布支持!

这篇关于Apache SeaTunnel 2.3.7发布:全新支持大型语言模型数据转换的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1130844

相关文章

Debezium 与 Apache Kafka 的集成方式步骤详解

《Debezium与ApacheKafka的集成方式步骤详解》本文详细介绍了如何将Debezium与ApacheKafka集成,包括集成概述、步骤、注意事项等,通过KafkaConnect,D... 目录一、集成概述二、集成步骤1. 准备 Kafka 环境2. 配置 Kafka Connect3. 安装 D

python使用fastapi实现多语言国际化的操作指南

《python使用fastapi实现多语言国际化的操作指南》本文介绍了使用Python和FastAPI实现多语言国际化的操作指南,包括多语言架构技术栈、翻译管理、前端本地化、语言切换机制以及常见陷阱和... 目录多语言国际化实现指南项目多语言架构技术栈目录结构翻译工作流1. 翻译数据存储2. 翻译生成脚本

定价129元!支持双频 Wi-Fi 5的华为AX1路由器发布

《定价129元!支持双频Wi-Fi5的华为AX1路由器发布》华为上周推出了其最新的入门级Wi-Fi5路由器——华为路由AX1,建议零售价129元,这款路由器配置如何?详细请看下文介... 华为 Wi-Fi 5 路由 AX1 已正式开售,新品支持双频 1200 兆、配有四个千兆网口、提供可视化智能诊断功能,建

0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型的操作流程

《0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeekR1模型的操作流程》DeepSeekR1模型凭借其强大的自然语言处理能力,在未来具有广阔的应用前景,有望在多个领域发... 目录0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型,3步搞定一个应

Deepseek R1模型本地化部署+API接口调用详细教程(释放AI生产力)

《DeepseekR1模型本地化部署+API接口调用详细教程(释放AI生产力)》本文介绍了本地部署DeepSeekR1模型和通过API调用将其集成到VSCode中的过程,作者详细步骤展示了如何下载和... 目录前言一、deepseek R1模型与chatGPT o1系列模型对比二、本地部署步骤1.安装oll

Spring AI Alibaba接入大模型时的依赖问题小结

《SpringAIAlibaba接入大模型时的依赖问题小结》文章介绍了如何在pom.xml文件中配置SpringAIAlibaba依赖,并提供了一个示例pom.xml文件,同时,建议将Maven仓... 目录(一)pom.XML文件:(二)application.yml配置文件(一)pom.xml文件:首

Go语言中三种容器类型的数据结构详解

《Go语言中三种容器类型的数据结构详解》在Go语言中,有三种主要的容器类型用于存储和操作集合数据:本文主要介绍三者的使用与区别,感兴趣的小伙伴可以跟随小编一起学习一下... 目录基本概念1. 数组(Array)2. 切片(Slice)3. 映射(Map)对比总结注意事项基本概念在 Go 语言中,有三种主要

Java数字转换工具类NumberUtil的使用

《Java数字转换工具类NumberUtil的使用》NumberUtil是一个功能强大的Java工具类,用于处理数字的各种操作,包括数值运算、格式化、随机数生成和数值判断,下面就来介绍一下Number... 目录一、NumberUtil类概述二、主要功能介绍1. 数值运算2. 格式化3. 数值判断4. 随机

Redis的数据过期策略和数据淘汰策略

《Redis的数据过期策略和数据淘汰策略》本文主要介绍了Redis的数据过期策略和数据淘汰策略,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录一、数据过期策略1、惰性删除2、定期删除二、数据淘汰策略1、数据淘汰策略概念2、8种数据淘汰策略

轻松上手MYSQL之JSON函数实现高效数据查询与操作

《轻松上手MYSQL之JSON函数实现高效数据查询与操作》:本文主要介绍轻松上手MYSQL之JSON函数实现高效数据查询与操作的相关资料,MySQL提供了多个JSON函数,用于处理和查询JSON数... 目录一、jsON_EXTRACT 提取指定数据二、JSON_UNQUOTE 取消双引号三、JSON_KE