Hadoop+Spark大数据技术(微课版)曾国荪、曹洁版思维导图第五次作业 第五章 Scala基础与编程

本文主要是介绍Hadoop+Spark大数据技术(微课版)曾国荪、曹洁版思维导图第五次作业 第五章 Scala基础与编程,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  • 第五次作业

    • 1. 简述Scala语言的基本特性

      • 1. 面向对象:Scala是一种完全面向对象的语言。其每一种数据类型都是一个对象,这使得它具有非常统一的模型。

      • 2. 函数式编程:Scala同时支持函数式编程,它拥有高阶函数、闭包、不可变数据结构、递归等函数式编程的关键特性。

      • 3. 扩展性:Scala的语法非常灵活,允许开发者自定义运算符和语法糖。也支持模式匹配、类型推断和匿名函数等高级特性,这些都为编写简洁、高效的代码提供了可能。此外,Scala的语法允许在单个文件中定义类、对象、函数等,使得代码组织更加灵活。

      • 4. 并发性:Scala支持Actor模型(处理并发的轻量级机制)。通过Actor,可以编写出线程安全的、易于管理的并发代码,有效地利用多核处理器资源。

      • 5. 可以和Java混编:Scala运行在Java虚拟机(JVM)上,并兼容Java的API。可以直接使用Java库,或者在Scala代码中调用Java方法,反之亦然。这为已有的Java项目提供了无缝迁移到Scala的可能,也使得Scala成为一个非常实用的工具,可以在不完全重构的情况下逐步引入新的编程范式。

    • 2. 简述Scala语言的9种基本数据类型。 说明关键字Unit、Nothing、Any的含义。

      • Unit无返回值,通常用于不返回任何内容的方法。

      • Nothing是任何其他类型的子类,用于表示永远不会正常终止的程序部分。

      • Any是所有其他类型的超类(父类)

    • 3. 简述Scala中数组、列表、集合、元组、映射的名称及特点。

      • 数组(Array):固定大小的集合,元素类型相同,性能较好但不支持动态修改大小。

      • 列表(List):不可变的序列集合,适合于递归处理和模式匹配,但头部插入和删除效率低。

      • 集合(Set):无序且不重复元素的集合,分为可变和不可变两种。

      • 元组(Tuple):固定长度、不同类型的元素组合,最多支持22个元素,常用于同时携带多种类型信息。

      • 映射(Map):键值对的集合,键唯一,分为可变和不可变两种,适合快速查找。

    • 4. 举例说明匿名函数和高阶函数的含义,

      • 匿名函数

        • 也称为Lambda函数。箭头“=>”定义,箭头的左边是参数列表,箭头的右边是表达式,表达式的值即匿名函数的返回值。 在代码中直接定义的函数,没有具体的函数名。通常用于一些简单的、一次性的操作。

          • val sum = (x: Int, y: Int) => x + y

          • val result = sum(3, 5) /

          • / result = 8

      • 高阶函数

        • 高阶函数是指使用其他函数作为参数,或者返回一个函数作为结果的函数。

          • val numbers = List(1, 2, 3, 4)

          • val doubled = numbers.map(x => x * 2)

          • // doubled = List(2, 4, 6, 8)

    • 5. 阅读、分析下列程序段,并给出运行结果。

      (1)       var v = 0for (i <- 1 to 9) {for (j <- 1 to i) {v = i*jprint(f"$j%s*$i%s=$v%-3s")}println()}
      (2)          val a = Array("Hello Spark","Hello Hadoop","Hello Scala")val b = a.flatMap(_.split(" ")).map((_,1)).groupBy(t => t._1).map(t => (t._1,t._2.length)).toList.sortBy(t => t._2).reverseb.foreach(x => println(x))
      (3)       class Person(val namec:String,val agec:Int) {var name:String = namecvar age:Int = agecdef printPerson() : Unit = {printf(f"name:$name%8s, age:$age%-4d")}}object Test2 {def main(args:Array[String]):Unit = {val x = new Person("zhang",21)x.printPerson()}}
      (4)        val a = List(("a",85),("b",95),("c",75),("a",95))a.groupBy(_._1)
      (5)       val s = List("Spark","Python","Hadoop","HBase")s.foreach(e => print(e+" "))print(s.count(e => e.length == 5))
      (1) 九九乘法表
      这段代码使用嵌套循环打印九九乘法表。外层循环控制行数,内层循环控制每行打印的乘法算式。
      运行结果:
      ```
      1*1=1   
      1*2=2   2*2=4   
      1*3=3   2*3=6   3*3=9   
      ...
      1*9=9   2*9=18  3*9=27  ... 8*9=72  9*9=81  
      ```(2) 单词计数
      这段代码统计字符串数组中每个单词出现的次数,并按出现次数降序排列。
      步骤解析:
      1. `flatMap(_.split(" "))`:将每个字符串按空格分割成单词列表,并合并成一个新的列表。
      2. `map((_,1))`:将每个单词映射成一个元组,元组的第一个元素是单词本身,第二个元素是 1。
      3. `groupBy(t => t._1)`:按照单词分组。
      4. `map(t => (t._1,t._2.length))`:统计每个单词出现的次数。
      5. `toList.sortBy(t => t._2).reverse`:将结果转换为列表,并按出现次数降序排列。
      运行结果:
      ```
      (Hello,3)
      (Spark,1)
      (Scala,1)
      (Hadoop,1)
      ```(3) 类定义与对象创建
      这段代码定义了一个 `Person` 类,并创建了一个 `Person` 对象,然后调用该对象的 `printPerson` 方法打印信息。
      运行结果:
      ```
      name:zhang    , age:21  
      ```(4) 按第一个元素分组
      这段代码将列表 `a` 按照元组的第一个元素分组。
      结果:
      ```
      Map(a -> List((a,85), (a,95)), b -> List((b,95)), c -> List((c,75)))
      ```(5) 字符串操作
      这段代码遍历字符串列表 `s` 并打印每个元素,然后统计长度为 5 的字符串个数。
      运行结果:
      ```
      Spark Python Hadoop HBase 2
      ``` 
      

这篇关于Hadoop+Spark大数据技术(微课版)曾国荪、曹洁版思维导图第五次作业 第五章 Scala基础与编程的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/945474

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

hadoop开启回收站配置

开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、备份等作用。 开启回收站功能参数说明 (1)默认值fs.trash.interval = 0,0表示禁用回收站;其他值表示设置文件的存活时间。 (2)默认值fs.trash.checkpoint.interval = 0,检查回收站的间隔时间。如果该值为0,则该值设置和fs.trash.interval的参数值相等。

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

作业提交过程之HDFSMapReduce

作业提交全过程详解 (1)作业提交 第1步:Client调用job.waitForCompletion方法,向整个集群提交MapReduce作业。 第2步:Client向RM申请一个作业id。 第3步:RM给Client返回该job资源的提交路径和作业id。 第4步:Client提交jar包、切片信息和配置文件到指定的资源提交路径。 第5步:Client提交完资源后,向RM申请运行MrAp