flink on yarn paimon

2024-03-05 10:12
文章标签 flink yarn paimon

本文主要是介绍flink on yarn paimon,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

  • 概述
  • 实践
    • paimon
  • 结束

概述

ogg kafka paimon

实践

前置准备请看如下文章

文章链接
hadoop一主三从安装链接
spark on yarn链接
flink的yarn-session环境链接

paimon

目标:

  • 1.同步表
  • 2.能过 kafka 向 paimon写入
SET parallelism.default =2;
set table.exec.sink.not-null-enforcer = drop;SET jobmanager.memory.process.size = 2048m;
SET taskmanager.memory.process.size = 10240m;
SET taskmanager.memory.managed.size = 128m;CREATE CATALOG paimon WITH ('type' = 'paimon','warehouse' = 'hdfs:///data/paimon','default-database'='ods'
);USE CATALOG paimon;DROP TABLE IF EXISTS xx_REFDES_KAFKA;
CREATE  TEMPORARY xx_REFDES_KAFKA
(   `PCBID` STRING,`RID` STRING,`REFDES` STRING,`BM_CIRCUIT_NO` DECIMAL(38,0),`TIMESTAMP` TIMESTAMP,`PICKUPSTATUS` STRING,`SERIAL_NUMBER` STRING,`FLAG` DECIMAL(2,0),`KITID` STRING,`ID` STRING,`CREATEDATE` TIMESTAMP,`ETL` STRING COMMENT 'etl标识',`OPT1` STRING COMMENT '备用1',`OPT2` STRING COMMENT '备用2',`OPT3` STRING COMMENT '备用3',`OPT4` STRING COMMENT '备用4',`OPT5` STRING COMMENT '备用5',`NOZZLEID` STRING COMMENT 'nxt的NOZZLEID',`LANENO` STRING COMMENT 'nxt的LANENO',`COMPONENTBARCODE` STRING COMMENT 'asm的componentBarcode nxt的Part2DCode',`PN` STRING,`LOTCODE` STRING,`DATECODE` STRING,`VERDOR` STRING,`WORKORDER` STRING,primary key(ID) not enforced)
WITH('connector' = 'kafka','topic' = 'TRACE_LOG_REFDES','properties.bootstrap.servers' = '10.xx.xx.30:9092','properties.group.id' = 'xx_REFDES_GROUP','scan.startup.mode' = 'earliest-offset','format' = 'ogg-json'
);create table if not exists  yy_refdes_hive_ro
(     `pcbid` string,`rid` string,`refdes` string,`bm_circuit_no` decimal(38,0),`timestamp` string COMMENT '{"type":"DATE"}',`pickupstatus` string,`serial_number` string,`flag` decimal(2,0),`kitid` string,`id` string,`createdate` string COMMENT '{"type":"DATE"}',`etl` string comment 'etl标识',`opt1` string comment '备用1',`opt2` string comment '备用2',`opt3` string comment '备用3',`opt4` string comment '备用4',`opt5` string comment '备用5',`nozzleid` string comment 'nxt的nozzleid',`laneno` string comment 'nxt的laneno',`componentbarcode` string comment 'asm的componentbarcode nxt的part2dcode',`pn` string,`lotcode` string,`datecode` string,`verdor` string,`workorder` string,`dt` string,primary key (id,dt) not enforced)partitioned by (dt) with ('connector' = 'paimon','file.format' = 'parquet','metastore.partitioned-table' = 'true','bucket' = '-1','partition.expiration-time' = '730 d','partition.expiration-check-interval' = '1 d','partition.timestamp-formatter' = 'yyyy-MM-dd','partition.timestamp-pattern' = '$dt');INSERT INTO yy_refdes_hive_ro  SELECT 
PCBID,RID,REFDES,BM_CIRCUIT_NO,DATE_FORMAT(`TIMESTAMP`,'yyyy-MM-dd HH:mm:ss'),PICKUPSTATUS,SERIAL_NUMBER,FLAG,KITID,ID,DATE_FORMAT(CREATEDATE,'yyyy-MM-dd HH:mm:ss'),ETL,OPT1,OPT2,OPT3,OPT4,OPT5,NOZZLEID,LANENO,COMPONENTBARCODE,PN,LOTCODE,DATECODE,VERDOR,WORKORDER,DATE_FORMAT(`TIMESTAMP`,'yyyy-MM-dd') 
FROM xx_REFDES_KAFKA;

结束

ogg数据通过 flink 写入 paimon至此结束。

这篇关于flink on yarn paimon的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/776173

相关文章

Flink任务重启策略

概述 Flink支持不同的重启策略,以在故障发生时控制作业如何重启集群在启动时会伴随一个默认的重启策略,在没有定义具体重启策略时会使用该默认策略。如果在工作提交时指定了一个重启策略,该策略会覆盖集群的默认策略默认的重启策略可以通过 Flink 的配置文件 flink-conf.yaml 指定。配置参数 restart-strategy 定义了哪个策略被使用。常用的重启策略: 固定间隔 (Fixe

大数据之Flink(二)

4、部署模式 flink部署模式: 会话模式(Session Mode)单作业模式(Per-Job Mode)应用模式(Application Mode) 区别在于集群的生命周期以及资源的分配方式;以及应用的main方法到底在哪里执行。 4.1、会话模式 先启动一个集群,保持一个会话,在这个会话中通过客户端提交作业。集群启动时资源已经确定,所有提交的作业会晶振集群中的资源。适合规模小、执

是谁还不会flink的checkpoint呀~

1、State Vs Checkpoint State:状态,是Flink中某一个Operator在某一个时刻的状态,如maxBy/sum,注意State存的是历史数据/状态,存在内存中。 Checkpoint:快照点, 是Flink中所有有状态的Operator在某一个时刻的State快照信息/存档信息 一句话概括: Checkpoint就是State的快照 目的:假设作业停止了,下次启动的

Flink读取kafka数据并以parquet格式写入HDFS

《2021年最新版大数据面试题全面开启更新》 《2021年最新版大数据面试题全面开启更新》 大数据业务场景中,经常有一种场景:外部数据发送到kafka中,flink作为中间件消费kafka数据并进行业务处理;处理完成之后的数据可能还需要写入到数据库或者文件系统中,比如写入hdfs中; 目前基于spark进行计算比较主流,需要读取hdfs上的数据,可以通过读取parquet:spark.read

Apache-Flink深度解析-State

来源:https://dwz.cn/xrMCqbk5 Flink系列精华文章合集入门篇: Flink入门Flink DataSet&DataSteam APIFlink集群部署Flink重启策略Flink分布式缓存Flink重启策略Flink中的TimeFlink中的窗口Flink的时间戳和水印Flink广播变量Flink-Kafka-connetorFlink-Table&SQLFlink

Apache-Flink深度解析-Temporal-Table-JOIN

在《JOIN LATERAL》中提到了Temporal Table JOIN,本篇就向大家详细介绍什么是Temporal Table JOIN。在ANSI-SQL 2011 中提出了Temporal 的概念,Oracle,SQLServer,DB2等大的数据库厂商也先后实现了这个标准。Temporal Table记录了历史上任何时间点所有的数据改动,Temporal Table的工作流程如下:

Flink 原理与实现:Operator Chain原理

硬刚大数据系列文章链接: 2021年从零到大数据专家的学习指南(全面升级版) 2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇 2021年从零到大数据专家面试篇之SparkSQL篇 2021年从零到大数据专家面试篇之消息队列篇 2021年从零到大数据专家面试篇之Spark篇 2021年从零到大数据专家面试篇之Hbase篇

Flink原理与实现:如何生成ExecutionGraph及物理执行图

硬刚大数据系列文章链接: 2021年从零到大数据专家的学习指南(全面升级版) 2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇 2021年从零到大数据专家面试篇之SparkSQL篇 2021年从零到大数据专家面试篇之消息队列篇 2021年从零到大数据专家面试篇之Spark篇 2021年从零到大数据专家面试篇之Hbase篇

Flink原理与实现:Window的实现原理

硬刚大数据系列文章链接: 2021年从零到大数据专家的学习指南(全面升级版) 2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇 2021年从零到大数据专家面试篇之SparkSQL篇 2021年从零到大数据专家面试篇之消息队列篇 2021年从零到大数据专家面试篇之Spark篇 2021年从零到大数据专家面试篇之Hbase篇

Flink原理与实现:详解Flink中的状态管理

硬刚大数据系列文章链接: 2021年从零到大数据专家的学习指南(全面升级版) 2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇 2021年从零到大数据专家面试篇之SparkSQL篇 2021年从零到大数据专家面试篇之消息队列篇 2021年从零到大数据专家面试篇之Spark篇 2021年从零到大数据专家面试篇之Hbase篇