如何理解spark中RDD和DataFrame的结构?

2024-08-27 12:08

本文主要是介绍如何理解spark中RDD和DataFrame的结构?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

RDD中可以存储任何的单机类型的数据,但是,直接使用RDD在字段需求明显时,存在算子难以复用的缺点。

例如,现在RDD存的数据是一个Person类型的数据,现在要求所有每个年龄段(10年一个年龄段)的人中最高的身高与最大的体重。

使用RDD接口,因为RDD不了解其中存储的数据的具体结构,数据的结构对它而言是黑盒,于是这就需要用户自己去写一个很特化的聚合的函数来完成这样的功能。

而有了DataFrame,则框架会去了解RDD中的数据是什么样的结构的,用户可以说清楚自己对每一列进行什么样的操作,这样就有可能可以实现一个算子,用在多个列上,比较容易进行算子的复用。甚至,未来又要同时求出每个年龄段内不同的姓氏有多少个,则使用RDD接口,之前的函数需要改动很大才能满足需求,而使用DataFrame接口,则只需要添加对这一个列的处理,原来的max/min的相关列处理都可保持不变。

总而言之,DataFrame相关接口就是RDD的一个扩展,让RDD了解了RDD中存储的数据包含哪些列,并可以在列上进行操作。

另外,DataFrame基本上快要被Dataset接口取代了,你可以再去了解下Dataset接口。


作者:张云聪
链接:https://www.zhihu.com/question/48684460/answer/112346482
来源:知乎

著作权归作者所有,转载请联系作者获得授权。


作者:CyannyLiang
链接:https://www.zhihu.com/question/48684460/answer/123355450
来源:知乎
著作权归作者所有,转载请联系作者获得授权。

旅行中无意看到这个问题,最近的项目和spark dataframe相关,也来谈谈自己的理解啦
Spark RDD是分布式弹性数据集,一个比较核心的是粗粒度的分布式计算,粗粒度是指用户不用关心太多的分布式细节,用声明式的API就能完成分布式计算,比如Word Count用一行就能写完。RDD易用性很好,那Spark为啥还要有Dataframe呢?
DataFrame的从API上借鉴了R和pandas的DataFRame的概念,是业界标准结化数据处理API。DataFrame的数据抽象是命名元组,代码里是Row类型,Dataframe结合了过程化编程和声名式的API,让用户能用过程化编程的方法处理结构化数据。
Dataframe比RDD多了限制,带来了更多的优化,基于Spark Catalyst优化器,提供如列裁剪,谓词下推,map join等优化。同时,采用code generation ,动态编译表达式,提升性能,比用rdd的自定义函数性能高5倍左右。
举个例子,
rdd.map(lambda line: line.split("\t")).map(lambda items: (items[0], items[1], items[2], items[3])).filter(lambda items: int(items[2]) >= 19).select(lambda items: (items[0], items[1]))
sqlContext.table("people").filter(col("age") >= 19).select("id", "name")
用rdd读结构化文本要用map函数,需要按位置获取数据,没有schema,性能和可读性都不好。
而用dataframe可以直接通过sede读取结构化数据,性能比RDD高2到3倍左右,比MR高5倍左右,同时,具有结构化的数据,可读性更好。
DataFrame具有很好的易用性,支持多种语言,在一个上下文可以写udf,具有部署一致性,以前写HQL Transform的用户可以试试Dataframe,在复杂统计分析中,有dataframe可以过程化编程,模块化会更好,可读性强。
Dataframe可以用df.rdd等方式转化为RDD,处理更多灵活的操作。

Spark2.0推出DataSet,是更加强类型的API,用了scala的泛型,能在编译是发现更多的编译问题DataFrame是DataSet〈Row〉类型,DS在接口上和DataFrame很相似。感觉是为了和structured streaming 统一做铺垫。

另外,看到Apache Beam这个google的开源项目正在用flume java的API统一google cloud api ,spark和flink这个和bigflow很像。

从用过dataframe的同事反馈,dataframe的易用性、性能都挺好。

这篇关于如何理解spark中RDD和DataFrame的结构?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1111627

相关文章

一文带你理解Python中import机制与importlib的妙用

《一文带你理解Python中import机制与importlib的妙用》在Python编程的世界里,import语句是开发者最常用的工具之一,它就像一把钥匙,打开了通往各种功能和库的大门,下面就跟随小... 目录一、python import机制概述1.1 import语句的基本用法1.2 模块缓存机制1.

深入理解C语言的void*

《深入理解C语言的void*》本文主要介绍了C语言的void*,包括它的任意性、编译器对void*的类型检查以及需要显式类型转换的规则,具有一定的参考价值,感兴趣的可以了解一下... 目录一、void* 的类型任意性二、编译器对 void* 的类型检查三、需要显式类型转换占用的字节四、总结一、void* 的

深入理解Redis大key的危害及解决方案

《深入理解Redis大key的危害及解决方案》本文主要介绍了深入理解Redis大key的危害及解决方案,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着... 目录一、背景二、什么是大key三、大key评价标准四、大key 产生的原因与场景五、大key影响与危

Python使用Pandas库将Excel数据叠加生成新DataFrame的操作指南

《Python使用Pandas库将Excel数据叠加生成新DataFrame的操作指南》在日常数据处理工作中,我们经常需要将不同Excel文档中的数据整合到一个新的DataFrame中,以便进行进一步... 目录一、准备工作二、读取Excel文件三、数据叠加四、处理重复数据(可选)五、保存新DataFram

深入理解C++ 空类大小

《深入理解C++空类大小》本文主要介绍了C++空类大小,规定空类大小为1字节,主要是为了保证对象的唯一性和可区分性,满足数组元素地址连续的要求,下面就来了解一下... 目录1. 保证对象的唯一性和可区分性2. 满足数组元素地址连续的要求3. 与C++的对象模型和内存管理机制相适配查看类对象内存在C++中,规

SpringBoot操作spark处理hdfs文件的操作方法

《SpringBoot操作spark处理hdfs文件的操作方法》本文介绍了如何使用SpringBoot操作Spark处理HDFS文件,包括导入依赖、配置Spark信息、编写Controller和Ser... 目录SpringBoot操作spark处理hdfs文件1、导入依赖2、配置spark信息3、cont

Java中switch-case结构的使用方法举例详解

《Java中switch-case结构的使用方法举例详解》:本文主要介绍Java中switch-case结构使用的相关资料,switch-case结构是Java中处理多个分支条件的一种有效方式,它... 目录前言一、switch-case结构的基本语法二、使用示例三、注意事项四、总结前言对于Java初学者

结构体和联合体的区别及说明

《结构体和联合体的区别及说明》文章主要介绍了C语言中的结构体和联合体,结构体是一种自定义的复合数据类型,可以包含多个成员,每个成员可以是不同的数据类型,联合体是一种特殊的数据结构,可以在内存中共享同一... 目录结构体和联合体的区别1. 结构体(Struct)2. 联合体(Union)3. 联合体与结构体的

PostgreSQL如何查询表结构和索引信息

《PostgreSQL如何查询表结构和索引信息》文章介绍了在PostgreSQL中查询表结构和索引信息的几种方法,包括使用`d`元命令、系统数据字典查询以及使用可视化工具DBeaver... 目录前言使用\d元命令查看表字段信息和索引信息通过系统数据字典查询表结构通过系统数据字典查询索引信息查询所有的表名可

认识、理解、分类——acm之搜索

普通搜索方法有两种:1、广度优先搜索;2、深度优先搜索; 更多搜索方法: 3、双向广度优先搜索; 4、启发式搜索(包括A*算法等); 搜索通常会用到的知识点:状态压缩(位压缩,利用hash思想压缩)。