ETL考试当天学习总结:

2024-03-09 10:38
文章标签 学习 总结 考试 etl 当天

本文主要是介绍ETL考试当天学习总结:,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

ETL考试当天学习总结:
昨天自己考的并不理想,选择题错了九个,其中有一半时oracle的,说明了一件事,你并没有去认真学,最起码这段时间
没有认真学,既然发现了这个弊端 该怎么做呢 脚落地面的踏踏实实的,保持谦虚保持谨慎
现在有如下内容:是考试前记错或者没有记住甚至不知道的
以下为一点都不会,也没蒙对的:
1.union是主动组件
2.ETL工具:
informatica、datasatge、kettle
3.数据仓库建设中一般先建设原始凭证层
4.oracle 没有for循环
有的是for loop 、 while loop、 loop 这是oracle的知识点
5.在PL/SQL代码块的异常处理
块中铺货所有异常的关键词是OTHERS 这是oracle的知识点
6.数据抽取阶段的主要任务是
连接并访问原系统的数据OBDC
变化数据捕获
抽取数据到数据准备区
为后续处理做数据准备
7.元数据主要包含以下几个方面的内容:
(最不该错的 ,中午还手写了一遍)
对数据库方面的描述,包括各种对象和对象属性的定义
对实体的属性和实体之间关系的描述
对数据库中各种物理表、表之间的搞关系和属性的描述
数据流动的描述,各种维度的描述
对ETL过程中产生的映射关系、转换规则、数据的流动进行描述
8.SQL语句中修改表结构的命令是ALTER TABLE
9.数据的完整性约束是对数据描述的某种约束条件,属于关系型数据模型完整星星约束的是
实体完整性
参照完整性
用户定义完整性
10.is_date(invoice_date,‘yyyy-mm-dd’)
注:匹配返回1 不匹配返回0 null 返回null
11.优化数据库的方法:
建立索引
过滤条件后将重复次数高的放在前面
有group by时 尽量用where 先做筛选 having 只是做剔除不需要的分组工作
需要统计行数时,使用count(1) 而不是count(*)
尽量减少嵌套查询

以下为真的不会或真的记忆模糊但是蒙对的:
12.数据缺陷包含以下几种情况:
数据重复、数据缺失、数据错误、数据范围混淆
13.在oracle中获取前十条数据的关键字是rownum
14.下列属于元数据的是:
Mapping的名字
Session名字
数据库表里的明细数据
Workflow的名字
15.数据质量衡量标准:
定义的数据是否和实际数值相同
指标数据是否符合业务规则
数据是否和业务源系统中的信息保持一致
数据是否违背自然规律或者不符合常理
16.ETL转换过程可能包括以下几个方面:
对空值的处理:如果在转换过程中捕获到某些字段存在空值,在进行加载时需要将空值替换成某一数据
或者直接进行加载,不做任何转换
对数据格式的规范化:根据业务数据源中在那个各个字段的数据类型,进行数据格式的规范和统一。
例如,统一数值类型转换成字符串类型
对缺失数据的替换,根据业务需求对缺失数据进行替换
根据业务规则对数据进行过滤
17.数据加载策略
时间戳的加载方式
全表对比的加载方式
通过读取日志表进行加载的方式
全表删除后再进行加载的方式
18.ETL的框架结构包括以下几个方面:
ETL调度
抽取策略
转换策略
加载策略
19.影响ETL数据质量的关键因素包括以下几种情况:
可能会有一部分数据因为客观或者人为的原因导致数据格式混乱
源系统设计存在不合理性
在开发过程中,因为开发人员的错误或者设计人员对业务规则描述的问题,同样会导致数据质量问题出现
20.元数据的作用:
帮助用户理解数据仓库系统中的数据
用于数据仓库系统的集成
保证数据的质量
提高数据仓库系统的灵活性
21.属于元数据的有:
Mapping的名字,Session的名字,Workflow的名字
22.数据仓库特性:
面向主题,时变性,继承性,稳定性
23.DDL
:CREATE SELECT DROP
24.DCL:
GRANT REVOKE COMMIT ROLLBACK
25.数据更新策略:
DD_INSERT DD_UPDATE DD_DELETE DD_REJECT
记住了但是需要重复重复的:
26.informatica客户端与服务端通信需要配置:
域名、网关主机、网关端口
27.数据抽取时需要考虑很多因素,
包括抽取方式、抽取时间、抽取周期
在抽取之前确定业务系统的数据情况

28.统一调度是ETL中较为重要的功能。通常有以下两种调度方式:
自动调度方式和手动调度方式
29.Mapplet/Reusable Transformation及区别
mapplet 可以包含多个组件 reusable transformation 只能有一个组件
30.ETL及其目的:
etl即抽取、转换、装载的过程;
目的:将企业中分散的、凌乱的、标准不统一的数据整合到一起,用于支持管理决策
31.简述informatica更新策略
DD_INSERT DD_UPDATE DD_DELETE DD_REJECT
32.简述增量抽取条件并详细论述informatica是如何实现增量抽取的
条件:1.数据量较大 2.随着时间的推移数据不断增加
1).第一个增量抽取模型string最好用
SETVARIABLE( d a t e , t o c h a r ( S E S S S T A R T T I M E , ′ y y y y − m m − d d h h 24 : m i : s s ′ ) ) 2 ) . 第 二 个 增 量 抽 取 模 型 d a t e 类 型 S E T V A R I A B L E ( date,to_char(SESSSTARTTIME,'yyyy-mm-dd hh24:mi:ss')) 2).第二个增量抽取模型date类型 SETVARIABLE( date,tochar(SESSSTARTTIME,yyyymmddhh24:mi:ss))2.dateSETVARIABLE(date,SESSSTARTTIME)
3).第三种增量抽取模型,
按最大值 SETMAXVARIABLE(hiredate)
下次对大于上次的最大值的进行抽取
SETMAXVARIABLE($$date,EMPLOYEE_ID)
4).增量抽取第四个模型,
对当天的数据进行抽取 trunc(sysdate)
5).还有第五种增量抽取变形在前四种基础上进行,为原表添加额外字段,将需要修改的行,此行该列值设为最新时间,用前四种方法进行筛选更新hiredate>$date or 新字段 >$date
33.主被动组件及informatica数据流规则:
主动组件:数据流经记录数发生改变(union)
被动组件:数据流经记录数不发生改变
数据流规则:主动组件不允许分叉、被动组件允许分叉
34.存储过程和ETL区别:
存储过程和ETL工具都是实现ETL过程的重要步骤。
ETL工具:时数据处理可视化,比较容易理解和操作;
减少数据库的压力,把数据处理的压力转移到ETL服务器上;
方便部署和调度
缺点:对于复杂逻辑的开发有些难度;维护及修改开销较大
存储过程:后期方便维护和修改;对于复杂逻辑的开发较容易实现
35.简述informatica上笛卡尔积和自连接时怎样实现的:
笛卡尔积时用f(x)组件在两表分别添加一个字段 列值均相同 用joiner组件对新添字段进行关联
自连接用两个排序组件对需要关联的字段进行排序 然后连接到joiner组件 需要对joiner组件的input sort打对勾
36.行列转换
行转列 需要用分组组件 对需要专列的行进行筛选过滤到N个新字段,然后输出
列转行 需要用规范器组件 和f(x)组件 然后输出
37.SQ和joiner组件及union组件异同及使用条件
SQ只能关联同构数据源 可以关联两个以上
joiner可以关联异构数据源 每次只能关联两个表 如果需要关联N个表 需要N-1个组件
SQ只能合并同构数据源
union可以合并异构数据源
38.infa优化
抽取数据时之抽取需要字段,尽量减少输入输出端口
尽早过滤,尽早去重
尽量避免类型转换
优化设计,减少不必要组件的使用

这篇关于ETL考试当天学习总结:的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/790427

相关文章

java常见报错及解决方案总结

《java常见报错及解决方案总结》:本文主要介绍Java编程中常见错误类型及示例,包括语法错误、空指针异常、数组下标越界、类型转换异常、文件未找到异常、除以零异常、非法线程操作异常、方法未定义异常... 目录1. 语法错误 (Syntax Errors)示例 1:解决方案:2. 空指针异常 (NullPoi

Java反转字符串的五种方法总结

《Java反转字符串的五种方法总结》:本文主要介绍五种在Java中反转字符串的方法,包括使用StringBuilder的reverse()方法、字符数组、自定义StringBuilder方法、直接... 目录前言方法一:使用StringBuilder的reverse()方法方法二:使用字符数组方法三:使用自

Java进阶学习之如何开启远程调式

《Java进阶学习之如何开启远程调式》Java开发中的远程调试是一项至关重要的技能,特别是在处理生产环境的问题或者协作开发时,:本文主要介绍Java进阶学习之如何开启远程调式的相关资料,需要的朋友... 目录概述Java远程调试的开启与底层原理开启Java远程调试底层原理JVM参数总结&nbsMbKKXJx

Python依赖库的几种离线安装方法总结

《Python依赖库的几种离线安装方法总结》:本文主要介绍如何在Python中使用pip工具进行依赖库的安装和管理,包括如何导出和导入依赖包列表、如何下载和安装单个或多个库包及其依赖,以及如何指定... 目录前言一、如何copy一个python环境二、如何下载一个包及其依赖并安装三、如何导出requirem

Rust格式化输出方式总结

《Rust格式化输出方式总结》Rust提供了强大的格式化输出功能,通过std::fmt模块和相关的宏来实现,主要的输出宏包括println!和format!,它们支持多种格式化占位符,如{}、{:?}... 目录Rust格式化输出方式基本的格式化输出格式化占位符Format 特性总结Rust格式化输出方式

如何利用Java获取当天的开始和结束时间

《如何利用Java获取当天的开始和结束时间》:本文主要介绍如何使用Java8的LocalDate和LocalDateTime类获取指定日期的开始和结束时间,展示了如何通过这些类进行日期和时间的处... 目录前言1. Java日期时间API概述2. 获取当天的开始和结束时间代码解析运行结果3. 总结前言在J

Java深度学习库DJL实现Python的NumPy方式

《Java深度学习库DJL实现Python的NumPy方式》本文介绍了DJL库的背景和基本功能,包括NDArray的创建、数学运算、数据获取和设置等,同时,还展示了如何使用NDArray进行数据预处理... 目录1 NDArray 的背景介绍1.1 架构2 JavaDJL使用2.1 安装DJL2.2 基本操

Python中连接不同数据库的方法总结

《Python中连接不同数据库的方法总结》在数据驱动的现代应用开发中,Python凭借其丰富的库和强大的生态系统,成为连接各种数据库的理想编程语言,下面我们就来看看如何使用Python实现连接常用的几... 目录一、连接mysql数据库二、连接PostgreSQL数据库三、连接SQLite数据库四、连接Mo

Git提交代码详细流程及问题总结

《Git提交代码详细流程及问题总结》:本文主要介绍Git的三大分区,分别是工作区、暂存区和版本库,并详细描述了提交、推送、拉取代码和合并分支的流程,文中通过代码介绍的非常详解,需要的朋友可以参考下... 目录1.git 三大分区2.Git提交、推送、拉取代码、合并分支详细流程3.问题总结4.git push

Kubernetes常用命令大全近期总结

《Kubernetes常用命令大全近期总结》Kubernetes是用于大规模部署和管理这些容器的开源软件-在希腊语中,这个词还有“舵手”或“飞行员”的意思,使用Kubernetes(有时被称为“... 目录前言Kubernetes 的工作原理为什么要使用 Kubernetes?Kubernetes常用命令总