【SparkML系列2】DataSource读取图片数据

2024-02-01 20:36

本文主要是介绍【SparkML系列2】DataSource读取图片数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

DataSource(数据源)

在本节中,我们将介绍如何在机器学习中使用数据源加载数据。除了一些通用的数据源,如 Parquet、CSV、JSON 和 JDBC 外,我们还提供了一些专门用于机器学习的数据源。

###Image data source(图像数据源)
该图像数据源用于从目录加载图像文件,它可以通过 Java 库中的 ImageIO 加载压缩图像(jpeg、png 等)到原始图像表示。加载的 DataFrame 有一个 StructType 列:“image”,包含存储为图像模式的图像数据。图像列的模式是:

origin:StringType(表示图像的文件路径)
height:IntegerType(图像的高度)
width:IntegerType(图像的宽度)
nChannels:IntegerType(图像通道的数量)
mode:IntegerType(与 OpenCV 兼容的类型)
data:BinaryType(以 OpenCV 兼容的顺序排列的图像字节:在大多数情况下为逐行 BGR)


import org.apache.spark.sql.SparkSession/*** @description TODO* @date 2024/1/31 15:30* @author by fangwen1*/
object ImageDataSource {def main(args: Array[String]): Unit = {val spark = SparkSession.builder.master("local[*]").appName("ImageDataSource").getOrCreate()//.format("image") 告诉 Spark 读取器数据是以图像格式存储的,而 .option("dropInvalid", true) 设置了一个选项,指示读取器在加载过程中丢弃任何无效的图像文件。val df = spark.read.format("image").option("dropInvalid", true).load("data/mllib/images/origin/kittens")df.select("image.origin", "image.width", "image.height", "image.nChannels", "image.mode").show(truncate=false)//.format("libsvm") 告诉 Spark 读取器数据是以 LIBSVM 格式存储的,而 .option("numFeatures", "780") 设置了一个选项,指定特征向量的数量为 780。val df1 = spark.read.format("libsvm").option("numFeatures", "780").load("data/mllib/sample_libsvm_data.txt")df1.show()}
}

这篇关于【SparkML系列2】DataSource读取图片数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/668395

相关文章

Java图片压缩三种高效压缩方案详细解析

《Java图片压缩三种高效压缩方案详细解析》图片压缩通常涉及减少图片的尺寸缩放、调整图片的质量(针对JPEG、PNG等)、使用特定的算法来减少图片的数据量等,:本文主要介绍Java图片压缩三种高效... 目录一、基于OpenCV的智能尺寸压缩技术亮点:适用场景:二、JPEG质量参数压缩关键技术:压缩效果对比

使用Python开发一个简单的本地图片服务器

《使用Python开发一个简单的本地图片服务器》本文介绍了如何结合wxPython构建的图形用户界面GUI和Python内建的Web服务器功能,在本地网络中搭建一个私人的,即开即用的网页相册,文中的示... 目录项目目标核心技术栈代码深度解析完整代码工作流程主要功能与优势潜在改进与思考运行结果总结你是否曾经

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

Python FastAPI+Celery+RabbitMQ实现分布式图片水印处理系统

《PythonFastAPI+Celery+RabbitMQ实现分布式图片水印处理系统》这篇文章主要为大家详细介绍了PythonFastAPI如何结合Celery以及RabbitMQ实现简单的分布式... 实现思路FastAPI 服务器Celery 任务队列RabbitMQ 作为消息代理定时任务处理完整

使用C#代码在PDF文档中添加、删除和替换图片

《使用C#代码在PDF文档中添加、删除和替换图片》在当今数字化文档处理场景中,动态操作PDF文档中的图像已成为企业级应用开发的核心需求之一,本文将介绍如何在.NET平台使用C#代码在PDF文档中添加、... 目录引言用C#添加图片到PDF文档用C#删除PDF文档中的图片用C#替换PDF文档中的图片引言在当

详解C#如何提取PDF文档中的图片

《详解C#如何提取PDF文档中的图片》提取图片可以将这些图像资源进行单独保存,方便后续在不同的项目中使用,下面我们就来看看如何使用C#通过代码从PDF文档中提取图片吧... 当 PDF 文件中包含有价值的图片,如艺术画作、设计素材、报告图表等,提取图片可以将这些图像资源进行单独保存,方便后续在不同的项目中使

Java实现文件图片的预览和下载功能

《Java实现文件图片的预览和下载功能》这篇文章主要为大家详细介绍了如何使用Java实现文件图片的预览和下载功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... Java实现文件(图片)的预览和下载 @ApiOperation("访问文件") @GetMapping("

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区?1.2 分区的类型1.3 分区的优点1.4 分

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T