阿里云大数据ACA及ACP复习题（101~120)

本文主要是介绍阿里云大数据ACA及ACP复习题（101~120)，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

101.阿里云DataWorks是数据上云下云的枢纽，致力于提供复杂网络环境下、丰富的 (B) 之间高速稳定的数据移动及同步能力。
A:关系型数据库
B:异构数据源
C:NosQL
D:非结构化存储

解析：DataWorks的数据集成功能模块是稳定高效、弹性伸缩的数据同步平台，致力于提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力。 https://help.aliyun.com/document_detail/113298.html?spm=a2c4g.464901.0.i5

102.Logstash是一款开源的数据收集引擎，具有实时管道处理能力。Logslash数据处理流程由几部分组成。（ABC）
A:Input
B:Filter
C:Output
D:Kibana

解析：logstash数据处理过程包括三个部分：input、filter、output

103.阿里云的云计算提供了多种服务模式，其中基础设施使用的是©
A:SaaS
B:Paas
C:laas
D:全部本地布署

解析：IaaS: Infrastructure-as-a-Service（基础设施即服务）

104.进行数据清洗时，针对于不同的情况和场景需要选择不同的方法，以下关于清洗内容的描述正确的是（ABC）
A:缺失值处理是由于调查、编码和录入的误差，数据中可能存在一些缺失值，需要给予适当的处理
B:异常值处理是指根据每个变量的合理取值范围和相互关系，检查数据是否合乎要求，发现超出正常范围、逻辑上不合理或者相互矛盾的数据
C:数据类型转换是指数据类型不一致，影响到后续的数据处理分析环节，因此，需要明确每个字段的数据类型，并做统一处理
D:数据中可能存在重复记录或重复字段（列），对于这些重复项目（行和列），只需要删除所有重复行

解析：缺失值处理是指由于调查、编码和录入误差，数据中可能存在一些无效值和缺失值，需要给予适当的处理；异常值处理是指根据每个变量的合理取值范围和相互关系，检查数据是否合乎要求，发现超出正常范围、逻辑上不合理或者相互矛盾的数据；数据类型转换是指数据类型往往会影响到后续的数据处理分析环节，因此，需要明确每个字段的数据类型，在数据清洗的时候就需要对二者的数据类型进行统一处理。重复值处理是指重复值的存在会影响数据分析和挖掘结果的准确性，所以，在数据分析和建模之前需要进行数据重复性检验，如果存在重复值，还需要进行重复值的删除。

105.在大数据生态体系的数据处理中，有两种计算引擎MapReduce与Spark,两种计算引擎在数据处理的流程中有着本质区别，下面选项中关于这两种引擎说法正确的是？（BD）
A:MapReduce做数据计算时，首先会从文件系统读取文件，后续为了提升计算效率，会将第一次读取的数据存入内存中，方便后续计算从内存中读取
B:Spark做数据计算时，首先会从文件系统读取文件，后续为了提升计算效率，会将第一次读取的数据存入内存中，方便后续计算从内存中读取
C:MapReduce跟Spark相比，处理速度更快
D:MapReduce做数据迭代计算时，必须从文件系统中，不停的读取写入，以完成计算

解析：MapReduce计算框架是基于磁盘的，做数据迭代计算时，必须从文件系统中，不停的读取写入，以完成计算，IO开销大，效率低，但适用于大数据量 Spark计算框架是基于内存的，首先会从文件系统读取文件，后续为了提升计算效率，会将第一次读取的数据存入内存中，方便后续计算从内存中读取，基于内存计算IO开销小，内存消耗大，适用于相对小数据量，计算效率要求较高的场景

106.Mahout是Apache Software Foundation(ASF)旗下的一个开源项目，提供一些可扩展的（B）领域经典算法的实现，旨在帮助开发人员更加方便快捷的实现算法，创建只能应用程序。
A:人工智能
B:机器学习
C:云计算
D:数据分析

解析：Mahout 是 Apache Software Foundation（ASF）旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。

107.临近年终，小明在制作年终总结PPT时，发现表格列属性由月份、行属性计划销售额和实际销售额组成不够美观，更不够直观，如果你是小明，你会怎么做（A）。
A:插入柱状图
B:插入散点图
C:插入直方图
D:插入瀑布图

解析：数据可视化常用图表，更直观的体现数据属性，柱状图是的主要作用是将多个或者2个以上的在同一条件下，进行数据值的比较以此来判断多个数据值哪些数据值相对比较大或相对比较小

108.阿里云QuickBI数据可视化分析平台提供了8种主要组件，比较、趋势、表格、指标、时序、空间、关系和（D）
A:画布
B:媒体
C:素材
D:分布

解析：阿里云QuickBI数据可视化分析平台提供了8种主要组件，比较、趋势、表格、指标、时序、空间、关系和分布，每个组件都有自己的适用场景和独特优势

109.下列哪一项（D）不是机器学习深度学习领域常用的框架。
A:tensorflow
B:torch
C:sklearn
D:jupyter

解析：jupyter不是框架，是交互式python环境

110.MaxCompute的存储和计算独立扩展，支持企业将全部数据资产在一个平台上进行联动分析，消除数据孤岛；实时根据业务峰谷变化来分配资源。上述文字体现了MaxCompute在大数据处理与分析中的（A）作用？
A:弹性能力与扩展型
B:集成AI能力
C:支持流式采集和近实时分析
D:数据存储能力

解析：
https://help.aliyun.com/document_detail/27800.html 弹性能力与扩展性存储和计算独立扩展，支持企业将全部数据资产在一个平台上进行联动分析，消除数据孤岛。支持实时根据业务峰谷变化分配资源。

111.HBase依赖 ( A ) 提供消息通信机制，在Master和RegionServers之间协调、通信和共享状态。
A:Zookeeper
B:Socket
C:TCP/IP
D:ActiveMQ

解析：在HBase中，ZooKeeper在 Masters 和 RegionServers 之间协调、通信和共享状态。

112.使用阿里云DataWorks进行实时数据同步时，在单表增量实时数据同步配置的步骤是（A）。
A:创建单表实时同步节点一配置资源组一配置单表实时同步任务一提交并发布实时同步任务
B:创建单表实时同步节点一配置单表实时同步任务一配置资源组一提交并发布实时同步任务
C:创建单表实时同步节点一配置资源组一提交并发布实时同步任务一配置单表实时同步任务
D:创建单表实时同步节点一提交并发布实时同步任务一配置资源组一配置单表实时同步任务

解析：https://help.aliyun.com/document_detail/203628.html
操作流程
步骤一：创建单表实时同步节点
步骤二：配置资源组
步骤三：配置单表实时同步任务
步骤四：提交并发布实时同步任务

113.Flume是一个分布式、高可靠、高可用的服务，它是用于分布式的什么框架？（B）
A:网络数据收集
B:日志收集
C:企业业务数据收集
D:传感器数据收集

解析：Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。

114.K-Means是典型的基于划分的聚类算法，下列描述基于划分的概念正确的是？（C）
A:一种基于网格的具有多分辨率的聚类方法
B:通过稀疏区域来刻分高密度区域以发现明显的聚类和孤立点，主要用于空间型数据的聚类
C:通过构造一个迭代过程来优化目标函数，当优化到目标函数的最小值或极小值时，可以得到数据集的一些不相交的子集，通常认为此时得到的每个子集就是一个聚类
D:使用一个距离矩阵作为输入，经过聚类后得到一个反映该数据集分布状况的聚类层次结构图

解析：基于划分的聚类算法通过构造一个迭代过程来优化目标函数，当优化到目标函数的最小值或极小值时，可以得到数据集的一些不相交的子集，通常认为此时得到的每个子集就是一个聚类。

115.下列关于Hadoop生态组件Flume的概念，说法正确的是？（A）
A:是Apache下的一个项目，支持在日志系统中定制各类数据发送方，用于收集数据
B:是一种支持Apache Hadoop集群的安装、部署、配置和管理的工具
C:是一种基于Web的工具,支持Apache Hadoop集群的安装、部署、配置和管理
D:是一个用于在Hadoop和关系数据库之间传输数据的工具

解析：ZooKeeper 是一个用于分布式应用的高性能协调服务
Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的安装、部署、配置和管理
Sqoop是一个用于在Hadoop和关系数据库之间传输数据的工具
Flume最早是Cloudera提供的日志收集系统，是Apache下的一个孵化项目，Flume支持在日志系统中定制各类数据发送方，用于收集数据。

116.( C )指对本地资源库中，已下载的网页数据进行增量式更新，运行过程中只爬行新产生页面或内容发生变化的网页，需要对网页的重要性进行排序。
A:通用网络爬虫
B:聚集网络爬虫
C:增量式网络爬虫
D:深层网络爬虫

解析：增量式网终爬虫(Incremental Web Crawler)是指对已下载的网页采取增量式更新，只抓取新产生或者已经发生变化的网页的网络爬虫。

117.Kafka是一种高吞吐量的分布式发布订阅消息系统，一般对日志数据和实时数据进行处理，它的优点是(D)。
A:支持一个生产者
B:支持一个消费者
C:不支持分布式
D:支持broker的横向扩展

解析：Kafka 优点：支持多个生产者和消费者；支持broker的横向拓展；

118.在Hadoop中，HDFS组件的DataNode节点有什么作用？（B）
A:支配其它节点
B:保存数据的作用
C:管理其它节点
D:降低数据丢失的风险

解析：文件的各个 block 的具体存储管理由 datanode 节点承担。

119.下列关于回归分析的用法，描述不正确的是？（D）
A:在大数据分析中，回归分析常用于预测分析，主要研究自变量与因变量的关系
B:回归分析指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法
C:回归分析就是通过一定变量或一些变量的变化解释另一变量的变化
D:按因变量的多少，回归分析都只有简单回归分析