阿里云大数据ACA及ACP复习题(121~140)

2024-01-14 20:44

本文主要是介绍阿里云大数据ACA及ACP复习题(121~140),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

121.数据清洗(Data Cleaning)是用于检测和纠正(或删除)记录集,表或数据库中的不准确或损坏的记录。下列选项中,对数据清洗描述正确的是(ABC)
A:数据清洗可以检测表中的不准确或损坏的记录
B:数据清洗可以识别不正确,不完整,不相关,不准确或其他有问题(“脏”)的数据
C:数据清洗时检测出不正确的数据可以替换,修改或删除
D:数据清洗不可以纠正脏数据

解析:数据清洗或数据清理是从记录集、表或数据库中检测和纠正损坏或记录不准确的数据的过程。广义地说,数据清洗包括识别和替换不完整、不准确、不相关或有问题的数据和记录。

122.Flink在大数据处理与分析中的作用不包含(B)?
A:实时推荐
B:实时存储
C:实时反作弊
D:实时IOT数据分析

解析:Flink的功能有: 实时数仓、实时ETL、实时反作弊、 实时监测、实施推荐、实时IoT数据分析 ,Flink是实时处理引擎,不进行数据存储

123.数据采集是指使用技术手段进行(A)?
A:数据收集
B:数据存储
C:数据分析
D:数据挖掘

解析:数据采集是指对目标领域、场景的特定原始数据进行采集的过程。

124.Hadoop在底层维护多个数据副本,使应用运行稳定运作。这是Hadoop的©特点。
A:安全性
B:易扩展
C:高可靠
D:高效率

解析:“使应用运行稳定运作”体现了高可靠的特点

125.以下属于分布式文件系统的是哪个文件系统?(B)
A:FAT32
B:GFS
C:NTFS
D:EXT6

解析:GFS(Google File System)是Google公司专为满足公司需求而开发的基于Linux的可扩展的分布式文件系统,用于大型的、分布式的、对大数据进行访问和应用,成本低,应用于廉价的普通硬件上。

126.大数据的5V特征及其与《大数据时代》一书中提出的“4V”特征的区别(D)
A:Volume规模性
B:Velocity高速性
C:Variety多样性
D:Veracity准确性
E:Value价值性

解析:大数据的 5v 特征包括容量(Volume)、速率(Velocity)、多样性(Variety)和真实性(Veracity)以及价值(Value),区别于4V(容量,速率,多样性,价值),多了一项(Veracity)准确性。

127.HDFS主要采用主从结构模型,主节点负责数据请求与元数据的保存,以下选项中哪个节点负责数据存储?(C)
A:NameNode
B:Jobtracker
C:DataNode
D:SecondaryNameNode

解析:DataNode 负责存储数据的,提供真实文件数据的存储服务。

128.下列选项中属于阿里云数据可视化产品是?(AB)
A:Quick BI
B:DataV
C:DataX
D:Data Integration

解析:数据可视化DataV是阿里云一款数据可视化应用搭建工具; Quick BI通过智能的数据分析和可视化能力帮助企业构建数据分析系统 数据集成(Data Integration) DataX是异构数据源离线同步的工具

129.数据采集的技术有许多种,下列选项中不是采集技术的是(D)
A:Sqoop采集技术
B:Flume采集技术
C:网络爬虫技术
D:MapReduce处理技术

解析:大数据的并行处理利器——MapReduce

130.随着时代的发展,业务中需要保存的数据量成倍增长,传统的文件系统已不能满足业务发展的需要,而分布式文件系统的出现可以解决以下哪个向题?(A)
A:存储扩展
B:数据压缩
C:文件查找
D:文件命名

解析:存储扩展

131.案例:当用户在国外某地进行一笔5万块的线上交易,从风控模型库中读取相应的风控模型集合中对用户的额度和交易地点进行判断,从风控数据库中拿到的用户征信信息中,用户的额度为10万,但是上次交易发生在1个小时前,且地点为国内,那么额度判断PASS,交易地点判断FAIL,那么此次交易有盗刷或者欺诈嫌疑,系统则判定此次交易失败。该案例体现了大数据在( C )领域的应用。
A:电商
B:人工智能
C:金融风险管控
D:政府决策

解析:体现了在金融风险管控的应用

132.在数据预处理过程中,数据集成的方法有三种,以下正确的是(ACD)
A:联邦数据库
B:数据删除
C:中介者
D:数据仓库

解析:数据集成的一般方法可以概括为联邦式、中间件式、数据仓库模式等。

133.关于HDFS的特性,下列说法错误的是?(D)
A:数据分布式存储
B:强大的跨平台兼容性
C:兼客廉价的硬件设备
D:多次写入、多次读取

解析:HDFS的模式是一次写入多次读取

134.数据分析与数据挖掘的概念是容易被混淆。下列选项中,正确描述数据分析与数据挖掘之间的关系的是?(ABC)
A:数据分析强调结果,数据挖掘强调过程
B:数据分析目标明确,根据目标做出假设,得出结论。数据挖掘是寻找数据末知的模式与规律
C:数据分析常采用数学分析的方法,如对比分析、回归分析、交叉分析等。数据挖掘主要采用统计学、机器学习等常用方法挖掘数据
D:数据分析是输出模型或规则,根据模型应用。数据挖掘是得到己知的指标预测值,根据预测值跟业务结合,发挥数据价值

解析:数据分析一般都是得到一个指标统计量结果,如总和、平均值等,这些指标数据都需要与业务结合进行解读,才能发挥出数据的价值与作用。 数据挖掘输出模型或规则,并且可相应得到模型得分或标签 数据分析目标明确,根据目标做出假设,得出结论。数据挖掘是寻找数据未知的模式与规律 数据分析常采用数学分析的方法,如对比分析、回归分析、交叉分析等。数据挖掘主要采用统计学、机器学习等常用方法挖掘数据

135.网络爬虫由控制节点、爬虫结点、资源库构成,以下关于网络爬虫特性的描述正确的有(ABD)。
A:网络爬虫中可以有多个控制节点
B:每个控制节点下可以有多个爬虫节点
C:多个控制节点间不允许相互通信
D:多个爬虫节点间可以进行互相通信

解析:网络爬虫中可以有多个控制节点; 每个控制节点下可以有多个爬虫节点,控制节点之间可以互相通信; 控制节点和其下的各爬虫节点之间也可以进行互相通信,属于同一个控制节点下的各爬虫节点间,亦可以互相通信。

136.MapReduce是一个分布式运算程序的编程框架,下面对MapReduce描述正确的是(ABD)。
A:MapReduce的核心为Map函数和Reduce函数
B:MapReduce用于大规模数据集的并行运算
C:MapReduce不需要应用开发者编写程序来实现功能
D:MapReduce设计理念就是“计算向数据靠拢”

解析:MapReduce 主要是依靠开发者通过编程来实现功能的

137.使用QuickBl进行数据可视化开发的过程中,需要了解Quick Bl的操作流程,下面哪一项属于Quick Bl正确的操作流程?(C)
A:准备工作-数据建模一连接数据源一数据可视化分析一发布共享
B:准备工作一连接数据源一数据可视化分析一数据建模一发布共享
C:准备工作一连接数据源-数据建模一数据可视化分析一发布共享
D:准备工作一数据可视化分析-连接数据源-数据建模一发布共享

解析
https://help.aliyun.com/document_detail/161417.html?spm=a2c4g.33813.0.i5
步骤一:连接数据源
步骤二:数据建模
步骤三:数据可视化分析
步骤四:发布共享

138.在进行数据预处理时,经常会遇到异常值,下列选项中处理异常值的方法有(ABC)
A:删除含有异常值的记录
B:将异常值视为缺失值,交给缺失值处理方法类处理如插补的方法
C:用平均值来修正
D:所有异常值不能删除

解析:异常值的的处理有删除含有异常值的观测(直接删除,当样本少时直接删除会造成样本量不足,改变变量的分布)、当作缺失值(利用现有的信息,对其当缺失值填补)、平均值修正(用前后两个观测值的均值修正该异常值)、不处理。

139.图比文本或电子表格更容易理解,人脑对视觉信息的处理速度要比书面信息快很多。这体现了数据可视化的哪个优势?( B )
A:传播速度快
B:数据更直观
C:多维展示
D:容易记忆

解析:数据更直观:图比文本或表格更加直观呈现

140.在进行数据清洗时,每个步骤有对应的注意事项。以下选项中,步骤和注意事项匹配的有 (ABCE)。
A:数据清洗时先处理缺失值、异常值和数据类型转换,最后进行重复值的处理
B:对缺失值和异常值处理时,一般根据业务需求进行填充,进行统计值填充、前/后值填充、零值填充
C:在数据清洗之前,要明确表的结构和发现需要处理的值,方便数据清洗的更彻底
D:数据量大且异常数据量也较大时,可直接删除异常数据:数据量小,则每个数据都可能影响分析结果,需要认真去对异常数据进行处理
E:确保数据表的每列都进行清洗

解析:如果总数据量较大,而异常的数据(包括缺失值和异常值)的量较少时可以选择直接删除处理,因为这并不太会影响到最终的分析结果;但是如果总数据量较小,则每个数据都可能影响这分析的结果,这时候就需要费心思去对数据进行处理(可能需要通过其他的关联表去找到想过数据进行填充)

这篇关于阿里云大数据ACA及ACP复习题(121~140)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/606455

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

pandas数据过滤

Pandas 数据过滤方法 Pandas 提供了多种方法来过滤数据,可以根据不同的条件进行筛选。以下是一些常见的 Pandas 数据过滤方法,结合实例进行讲解,希望能帮你快速理解。 1. 基于条件筛选行 可以使用布尔索引来根据条件过滤行。 import pandas as pd# 创建示例数据data = {'Name': ['Alice', 'Bob', 'Charlie', 'Dav