阿里云大数据ACA及ACP复习题(101~120)

2024-01-08 14:28

本文主要是介绍阿里云大数据ACA及ACP复习题(101~120),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

101.阿里云DataWorks是数据上云下云的枢纽,致力于提供复杂网络环境下、丰富的 (B) 之间高速稳定的数据移动及同步能力。
A:关系型数据库
B:异构数据源
C:NosQL
D:非结构化存储

解析:DataWorks的数据集成功能模块是稳定高效、弹性伸缩的数据同步平台,致力于提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力。 https://help.aliyun.com/document_detail/113298.html?spm=a2c4g.464901.0.i5

102.Logstash是一款开源的数据收集引擎,具有实时管道处理能力。Logslash数据处理流程由几部分组成。(ABC)
A:Input
B:Filter
C:Output
D:Kibana

解析:logstash数据处理过程包括三个部分:input、filter、output

103.阿里云的云计算提供了多种服务模式,其中基础设施使用的是©
A:SaaS
B:Paas
C:laas
D:全部本地布署

解析:IaaS: Infrastructure-as-a-Service(基础设施即服务)

104.进行数据清洗时,针对于不同的情况和场景需要选择不同的方法,以下关于清洗内容的描述正确的是(ABC)
A:缺失值处理是由于调查、编码和录入的误差,数据中可能存在一些缺失值,需要给予适当的处理
B:异常值处理是指根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据
C:数据类型转换是指数据类型不一致,影响到后续的数据处理分析环节,因此,需要明确每个字段的数据类型,并做统一处理
D:数据中可能存在重复记录或重复字段(列),对于这些重复项目(行和列),只需要删除所有重复行

解析:缺失值处理是指由于调查、编码和录入误差,数据中可能存在一些无效值和缺失值,需要给予适当的处理; 异常值处理是指根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据; 数据类型转换是指数据类型往往会影响到后续的数据处理分析环节,因此,需要明确每个字段的数据类型,在数据清洗的时候就需要对二者的数据类型进行统一处理。 重复值处理是指重复值的存在会影响数据分析和挖掘结果的准确性,所以,在数据分析和建模之前需要进行数据重复性检验,如果存在重复值,还需要进行重复值的删除。

105.在大数据生态体系的数据处理中,有两种计算引擎MapReduce与Spark,两种计算引擎在数据处理的流程中有着本质区别,下面选项中关于这两种引擎说法正确的是?(BD)
A:MapReduce做数据计算时,首先会从文件系统读取文件,后续为了提升计算效率,会将第一次读取的数据存入内存中,方便后续计算从内存中读取
B:Spark做数据计算时,首先会从文件系统读取文件,后续为了提升计算效率,会将第一次读取的数据存入内存中,方便后续计算从内存中读取
C:MapReduce跟Spark相比,处理速度更快
D:MapReduce做数据迭代计算时,必须从文件系统中,不停的读取写入,以完成计算

解析:MapReduce计算框架是基于磁盘的,做数据迭代计算时,必须从文件系统中,不停的读取写入,以完成计算,IO开销大,效率低,但适用于大数据量 Spark计算框架是基于内存的,首先会从文件系统读取文件,后续为了提升计算效率,会将第一次读取的数据存入内存中,方便后续计算从内存中读取,基于内存计算IO开销小,内存消耗大,适用于相对小数据量,计算效率要求较高的场景

106.Mahout是Apache Software Foundation(ASF)旗下的一个开源项目,提供一些可扩展的(B)领域经典算法的实现,旨在帮助开发人员更加方便快捷的实现算法,创建只能应用程序。
A:人工智能
B:机器学习
C:云计算
D:数据分析

解析:Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。

107.临近年终,小明在制作年终总结PPT时,发现表格列属性由月份、行属性计划销售额和实际销售额组成不够美观,更不够直观,如果你是小明,你会怎么做(A)。
A:插入柱状图
B:插入散点图
C:插入直方图
D:插入瀑布图

解析:数据可视化常用图表,更直观的体现数据属性,柱状图是的主要作用是将多个或者2个以上的在同一条件下,进行数据值的比较以此来判断多个数据值哪些数据值相对比较大或相对比较小

108.阿里云QuickBI数据可视化分析平台提供了8种主要组件,比较、趋势、表格、指标、时序、空间、关系和(D)
A:画布
B:媒体
C:素材
D:分布

解析:阿里云QuickBI数据可视化分析平台提供了8种主要组件,比较、趋势、表格、指标、时序、空间、关系和分布,每个组件都有自己的适用场景和独特优势

109.下列哪一项(D)不是机器学习深度学习领域常用的框架。
A:tensorflow
B:torch
C:sklearn
D:jupyter

解析:jupyter不是框架,是交互式python环境

110.MaxCompute的存储和计算独立扩展,支持企业将全部数据资产在一个平台上进行联动分析,消除数据孤岛;实时根据业务峰谷变化来分配资源。上述文字体现了MaxCompute在大数据处理与分析中的(A)作用?
A:弹性能力与扩展型
B:集成AI能力
C:支持流式采集和近实时分析
D:数据存储能力

解析
https://help.aliyun.com/document_detail/27800.html 弹性能力与扩展性 存储和计算独立扩展,支持企业将全部数据资产在一个平台上进行联动分析,消除数据孤岛。 支持实时根据业务峰谷变化分配资源。

111.HBase依赖 ( A ) 提供消息通信机制,在Master和RegionServers之间协调、通信和共享状态。
A:Zookeeper
B:Socket
C:TCP/IP
D:ActiveMQ

解析:在HBase中,ZooKeeper在 Masters 和 RegionServers 之间协调、通信和共享状态。

112.使用阿里云DataWorks进行实时数据同步时,在单表增量实时数据同步配置的步骤是(A)。
A:创建单表实时同步节点一配置资源组一配置单表实时同步任务一提交并发布实时同步任务
B:创建单表实时同步节点一配置单表实时同步任务一配置资源组一提交并发布实时同步任务
C:创建单表实时同步节点一配置资源组一提交并发布实时同步任务一配置单表实时同步任务
D:创建单表实时同步节点一提交并发布实时同步任务一配置资源组一配置单表实时同步任务

解析:https://help.aliyun.com/document_detail/203628.html
操作流程
步骤一:创建单表实时同步节点
步骤二:配置资源组
步骤三:配置单表实时同步任务
步骤四:提交并发布实时同步任务

113.Flume是一个分布式、高可靠、高可用的服务,它是用于分布式的什么框架?(B)
A:网络数据收集
B:日志收集
C:企业业务数据收集
D:传感器数据收集

解析:Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。

114.K-Means是典型的基于划分的聚类算法,下列描述基于划分的概念正确的是?(C)
A:一种基于网格的具有多分辨率的聚类方法
B:通过稀疏区域来刻分高密度区域以发现明显的聚类和孤立点,主要用于空间型数据的聚类
C:通过构造一个迭代过程来优化目标函数,当优化到目标函数的最小值或极小值时,可以得到数据集的一些不相交的子集,通常认为此时得到的每个子集就是一个聚类
D:使用一个距离矩阵作为输入,经过聚类后得到一个反映该数据集分布状况的聚类层次结构图

解析:基于划分的聚类算法通过构造一个迭代过程 来优化目标函数,当优化到目标函数的最小值或极小值时,可以得到数据集的一些不相交的子集,通常认为此时得到的每个子集就是一个聚类。

115.下列关于Hadoop生态组件Flume的概念,说法正确的是?(A)
A:是Apache下的一个项目,支持在日志系统中定制各类数据发送方,用于收集数据
B:是一种支持Apache Hadoop集群的安装、部署、配置和管理的工具
C:是一种基于Web的工具,支持Apache Hadoop集群的安装、部署、配置和管理
D:是一个用于在Hadoop和关系数据库之间传输数据的工具

解析:ZooKeeper 是一个用于分布式应用的高性能协调服务
Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的安装、部署、配置和管理
Sqoop是一个用于在Hadoop和关系数据库之间传输数据的工具
Flume最早是Cloudera提供的日志收集系统,是Apache下的一个孵化项目,Flume支持在日志系统中定制各类数据发送方,用于收集数据。

116.( C )指对本地资源库中,已下载的网页数据进行增量式更新,运行过程中只爬行新产生页面或内容发生变化的网页,需要对网页的重要性进行排序。
A:通用网络爬虫
B:聚集网络爬虫
C:增量式网络爬虫
D:深层网络爬虫

解析:增量式网终爬虫(Incremental Web Crawler)是指对已下载的网页采取增量式更新,只抓取新产生或者已经发生变化的网页的网络爬虫。

117.Kafka是一种高吞吐量的分布式发布订阅消息系统,一般对日志数据和实时数据进行处理,它的优点是(D)。
A:支持一个生产者
B:支持一个消费者
C:不支持分布式
D:支持broker的横向扩展

解析:Kafka 优点: 支持多个生产者和消费者; 支持broker的横向拓展;

118.在Hadoop中,HDFS组件的DataNode节点有什么作用?(B)
A:支配其它节点
B:保存数据的作用
C:管理其它节点
D:降低数据丢失的风险

解析:文件的各个 block 的具体存储管理由 datanode 节点承担。

119.下列关于回归分析的用法,描述不正确的是?(D)
A:在大数据分析中,回归分析常用于预测分析,主要研究自变量与因变量的关系
B:回归分析指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法
C:回归分析就是通过一定变量或一些变量的变化解释另一变量的变化
D:按因变量的多少,回归分析都只有简单回归分析

解析:按照因变量的多少,可分为简单回归分析和多重回归分析。

120.为大数据提供了技术基础,大数据为其提供用武之地。上述是哪项技术?(C)
A:内存计算机
B:网络计算机
C:云计算
D:并行计算

解析:云计算为大数据提供了技术基础,大数据为云计算提供了用武之地。

这篇关于阿里云大数据ACA及ACP复习题(101~120)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/583754

相关文章

Redis的数据过期策略和数据淘汰策略

《Redis的数据过期策略和数据淘汰策略》本文主要介绍了Redis的数据过期策略和数据淘汰策略,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录一、数据过期策略1、惰性删除2、定期删除二、数据淘汰策略1、数据淘汰策略概念2、8种数据淘汰策略

轻松上手MYSQL之JSON函数实现高效数据查询与操作

《轻松上手MYSQL之JSON函数实现高效数据查询与操作》:本文主要介绍轻松上手MYSQL之JSON函数实现高效数据查询与操作的相关资料,MySQL提供了多个JSON函数,用于处理和查询JSON数... 目录一、jsON_EXTRACT 提取指定数据二、JSON_UNQUOTE 取消双引号三、JSON_KE

Python给Excel写入数据的四种方法小结

《Python给Excel写入数据的四种方法小结》本文主要介绍了Python给Excel写入数据的四种方法小结,包含openpyxl库、xlsxwriter库、pandas库和win32com库,具有... 目录1. 使用 openpyxl 库2. 使用 xlsxwriter 库3. 使用 pandas 库

SpringBoot定制JSON响应数据的实现

《SpringBoot定制JSON响应数据的实现》本文主要介绍了SpringBoot定制JSON响应数据的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们... 目录前言一、如何使用@jsonView这个注解?二、应用场景三、实战案例注解方式编程方式总结 前言

使用Python在Excel中创建和取消数据分组

《使用Python在Excel中创建和取消数据分组》Excel中的分组是一种通过添加层级结构将相邻行或列组织在一起的功能,当分组完成后,用户可以通过折叠或展开数据组来简化数据视图,这篇博客将介绍如何使... 目录引言使用工具python在Excel中创建行和列分组Python在Excel中创建嵌套分组Pyt

在Rust中要用Struct和Enum组织数据的原因解析

《在Rust中要用Struct和Enum组织数据的原因解析》在Rust中,Struct和Enum是组织数据的核心工具,Struct用于将相关字段封装为单一实体,便于管理和扩展,Enum用于明确定义所有... 目录为什么在Rust中要用Struct和Enum组织数据?一、使用struct组织数据:将相关字段绑

在Mysql环境下对数据进行增删改查的操作方法

《在Mysql环境下对数据进行增删改查的操作方法》本文介绍了在MySQL环境下对数据进行增删改查的基本操作,包括插入数据、修改数据、删除数据、数据查询(基本查询、连接查询、聚合函数查询、子查询)等,并... 目录一、插入数据:二、修改数据:三、删除数据:1、delete from 表名;2、truncate

Java实现Elasticsearch查询当前索引全部数据的完整代码

《Java实现Elasticsearch查询当前索引全部数据的完整代码》:本文主要介绍如何在Java中实现查询Elasticsearch索引中指定条件下的全部数据,通过设置滚动查询参数(scrol... 目录需求背景通常情况Java 实现查询 Elasticsearch 全部数据写在最后需求背景通常情况下

Java中注解与元数据示例详解

《Java中注解与元数据示例详解》Java注解和元数据是编程中重要的概念,用于描述程序元素的属性和用途,:本文主要介绍Java中注解与元数据的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参... 目录一、引言二、元数据的概念2.1 定义2.2 作用三、Java 注解的基础3.1 注解的定义3.2 内

将sqlserver数据迁移到mysql的详细步骤记录

《将sqlserver数据迁移到mysql的详细步骤记录》:本文主要介绍将SQLServer数据迁移到MySQL的步骤,包括导出数据、转换数据格式和导入数据,通过示例和工具说明,帮助大家顺利完成... 目录前言一、导出SQL Server 数据二、转换数据格式为mysql兼容格式三、导入数据到MySQL数据