本文主要是介绍大数据开发之Spark篇---SparkSQL入门(5),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
Catalog
Catalog是一个抽象类,我们一般用它来对Spark里面的元数据进行操作的,其实现类是CatalogImpl这个类型
我们一般使用catalog是在sparkSession的实例对象里调用的,将返回一个Catalog对象,使用这个对象就可以直接查看元数据了。
val spark = SparkSession.builder().master("local[2]").appName("catalogApp").getOrCreate()
spark.catalog.listTables("doudou_test")
Dataset
我们先来说一下Dataset的历史,在Spark1.0版本的时候,SparkSQL出现了,但那个时候没有DataFrame这个名称而是使用SchemaRDD这个名称,直到Spark1.3版本的时候改名叫做DataFrame了,然后到了Spark1.6版本的时候,Dataset出来了。其主要是为了解决compile-time type safety这个问题,就是强行给DataFrame加多一个泛型。
调用df的as方法,后面跟一个泛型定义好一个case class
def main(args: Array[String]): Unit = {
val spark = SparkSession.builder().master("local[2]").appName("catalogApp").getOrCreate()
import spark.implicits._
case class Schema1(id:Int,name:String,age:Int)
这篇关于大数据开发之Spark篇---SparkSQL入门(5)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!