spark Scala中dataframe的常用关键字：withColumn

本文主要是介绍spark Scala中dataframe的常用关键字：withColumn，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

withColumn关键字：

用于操作dataframe原表某一列的数据，将操作完的每一行数据形成一列，用来替换一个表原有的列或者在原表后面追加新的列！

语法如下：

def withColumn(colName: String, col: Column): DataFrame

withColumn传入两个参数：

先说第二个参数：

该参数传入的是操作dataframe表中指定”列”的数据。他会对dataframe表中的每一行数据进行操作，最后返回一个新的列。如果第一个参数传入的列名和第二个参数传入的列名参数相同的话，就会替换原来的列。如果第一个参数和原列名参数不同，则会追加新增加一列数据在表后面。具体例子如下：

现用withColumn关键字将city字段类似于“成都·双流区” 操作转换成 “成都” ，思路是将city字段数据“·”后面的数据去除，然后替换掉原来列或者新增一列两种情况：

原数据：

情况一（替换原列）：传入的第一个参数和原列名相同：

在withColumn的第二个参数传入正则匹配将“·”后面的数据替换成空。但是第一个参数city和原列名city相同，则替换原列的数据：

df.withColumn("city", regexp_replace(col("city"), "·.*", "")).show

替换dataframe表原列city的数据：

情况二（追加新列）：传入的第一个参数和原列名不同

在withColumn的第二个参数传入正则匹配将“·”后面的数据替换成空。但是第一个参数newCity和原列名city不相同，则在dataframe表后面追加新列newCity：

df.withColumn("newCity", regexp_replace(col("city"), "·.*", "")).show

dataframe表末尾追加新列newCity：

总结：

该关键字第二个参数可以对表中的指定的字段进行操作，操作完之后会返回一列数据，这列数据是以替换的形式还是以追加的形式存在，要看第一个参数列名是否与第二个参数列名是否相同，相同则是替换原表的列数据，不相同则在原表中追加新增列。

这篇关于spark Scala中dataframe的常用关键字：withColumn的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

spark Scala中dataframe的常用关键字：withColumn

相关文章

Java String字符串的常用使用方法

Java并发编程必备之Synchronized关键字深入解析

Linux上设置Ollama服务配置(常用环境变量)

Java常用注解扩展对比举例详解

Mysql中深分页的五种常用方法整理

Python实现常用文本内容提取

Redis中的常用的五种数据类型详解

Python中DataFrame转列表的最全指南

python中time模块的常用方法及应用详解

C#中的 Dictionary常用操作