【深度学习:Synthetic Training Data 】合成训练数据简介

2024-01-12 12:12

本文主要是介绍【深度学习:Synthetic Training Data 】合成训练数据简介,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述

【深度学习:Synthetic Training Data 】合成训练数据简介

    • 什么是合成训练数据?
    • 创建合成数据的两种方法

尽管文明正在产生大量的数据(根据最近的研究,每天有 2.5 万亿字节的新数据),但计算机视觉和机器学习数据科学家在获取足够的数据来训练和制作计算机视觉模型时仍然面临许多挑战。

算法生成的模型需要对大量数据进行训练,但有时这些数据并不容易获得。

设计高风险生产模型的机器学习工程师在整理训练数据时面临困难,因为大多数模型在投入生产时必须处理大量边缘情况。

只有少数错误的人工智能模型仍然可能产生灾难性的结果。考虑一家寻求将其汽车上路的自动驾驶汽车公司。在这些汽车中运行的人工智能模型需要对每种边缘情况具有准确、快速和实时的预测能力,例如区分行人和行人的倒影,以便车辆可以采取规避行动或继续正常驾驶。

不幸的是,高质量的行人反射图像并不像行人照片那样容易获得。

在机器学习可能产生最重大潜在影响的某些领域,很难找到足够大的训练数据。

考虑一家医疗人工智能公司,试图建立一个诊断罕见疾病的模型。该模型可能需要在数十万张图像上进行训练才能准确执行,但对于这种边缘情况,可能只有几千张图像。其他医学成像数据可能被锁定在私人患者记录中,构建这些模型的数据科学团队可能无法访问这些记录。

即使使用大量开源数据集,您所需的图像或视频数据集也可能不可用。

在这个场景中你能做什么?

答案是生成合成数据、图像、视频和合成数据集。

在这里插入图片描述

开源合成脑图像

什么是合成训练数据?

简而言之,图像和视频等合成数据是人工制造的,而不是从真实世界的事件(如MRI扫描或卫星图像)中捕获的。

合成数据会显著增加这些难以找到的数据集的大小。因此,使用合成数据增强真实世界的数据集可能意味着可行的生产就绪型计算机视觉模型与由于没有足够的数据进行训练而不可行之间的差异。

请记住,任何一种以数据为中心的方法都取决于将正确数据导入模型的能力。以下是我们对为您的计算机视觉模型选择最佳数据的看法。

在无法查找数据的情况下,为机器学习模型创建和使用合成数据集是最有效的方法。

创建合成数据的两种方法

多年来,Unity和Unreal等游戏引擎使游戏工程师能够构建虚拟环境。这些 3D 物理模型与编写代码很好地集成在一起,因此在生成某些类型的合成数据时非常有用。

由于人类现在对物理世界的物理学和相互作用有了深刻的理解,因此数字工程师可以设计这些模型来复制光与不同材料和表面的相互作用。这意味着他们可以继续改变 3D 环境并生成更多包含各种情况和边缘情况的数据。

例如,如果机器学习工程师正在训练自动驾驶汽车模型,数据工程师可以模拟不同的照明场景来创建行人的反射。然后,机器学习工程师将有足够的数据来训练模型,以学习区分行人和实际行人的反射。同样,数据工程师还可以生成代表不同天气情况(晴天、多云、朦胧、下雪)的数据,以便 ML 工程师可以训练模型在各种天气条件下表现适当。

在这里插入图片描述

Unity游戏引擎的实际应用

不幸的是,游戏引擎在生成合成数据时有一定的局限性。有时,没有足够的信息或对工作原理的理解来创建数据科学团队所需的边缘案例的 3D 版本。例如,在医学成像方面,来自相机型号和软件、图像格式文件、肠道健康、患者饮食等的许多因素 ⏤ 使模拟数据具有挑战性。

在这些场景中,数据工程师可以使用真实世界的数据,通过深度学习综合生成更多数据,而不是构建 3D 表示。

机器学习使他们能够生成人工数据,而不是从科学家或游戏工程师编程的一组参数中生成人工数据,而是从在真实世界数据集上训练的神经网络中生成。

生成对抗网络 (GAN) 是一个相对较新的发展,它允许我们通过设置两个神经网络来创建合成数据。其中一个模型(生成模型)接受随机输入并生成数据,另一个模型(判别模型)的任务是确定它输入的数据是真实世界的示例还是生成器模型制作的示例。

随着GAN的迭代,这两个“对立的模型”将相互训练和学习。如果生成器未能完成创建可信/逼真的合成数据的任务,它会调整其参数,而鉴别器保持不变。如果鉴别器未能完成将合成数据识别为“假”数据的任务,则会在生成器保持原样的情况下调整其参数。

在这里插入图片描述
在多次迭代中,这种相互作用将提高判别模型区分真实数据和合成数据的准确性。同时,生成模型在每次未能“愚弄”鉴别器时都会纳入反馈,从而随着时间的推移提高其创建准确合成数据的有效性。当这个训练完成时,GAN将创建高质量的合成数据,这些数据可以补充训练数据集,否则这些数据集将缺乏足够的真实世界数据来训练模型。

当然,使用合成数据有利有弊。在我的下一篇文章中,我将讨论使用 GAN 生成的合成数据的一些好处,以及这种方法带来的一些挑战。

这篇关于【深度学习:Synthetic Training Data 】合成训练数据简介的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/597835

相关文章

SpringBoot集成Milvus实现数据增删改查功能

《SpringBoot集成Milvus实现数据增删改查功能》milvus支持的语言比较多,支持python,Java,Go,node等开发语言,本文主要介绍如何使用Java语言,采用springboo... 目录1、Milvus基本概念2、添加maven依赖3、配置yml文件4、创建MilvusClient

SpringValidation数据校验之约束注解与分组校验方式

《SpringValidation数据校验之约束注解与分组校验方式》本文将深入探讨SpringValidation的核心功能,帮助开发者掌握约束注解的使用技巧和分组校验的高级应用,从而构建更加健壮和可... 目录引言一、Spring Validation基础架构1.1 jsR-380标准与Spring整合1

MySQL 中查询 VARCHAR 类型 JSON 数据的问题记录

《MySQL中查询VARCHAR类型JSON数据的问题记录》在数据库设计中,有时我们会将JSON数据存储在VARCHAR或TEXT类型字段中,本文将详细介绍如何在MySQL中有效查询存储为V... 目录一、问题背景二、mysql jsON 函数2.1 常用 JSON 函数三、查询示例3.1 基本查询3.2

SpringBatch数据写入实现

《SpringBatch数据写入实现》SpringBatch通过ItemWriter接口及其丰富的实现,提供了强大的数据写入能力,本文主要介绍了SpringBatch数据写入实现,具有一定的参考价值,... 目录python引言一、ItemWriter核心概念二、数据库写入实现三、文件写入实现四、多目标写入

使用Python将JSON,XML和YAML数据写入Excel文件

《使用Python将JSON,XML和YAML数据写入Excel文件》JSON、XML和YAML作为主流结构化数据格式,因其层次化表达能力和跨平台兼容性,已成为系统间数据交换的通用载体,本文将介绍如何... 目录如何使用python写入数据到Excel工作表用Python导入jsON数据到Excel工作表用

Mysql如何将数据按照年月分组的统计

《Mysql如何将数据按照年月分组的统计》:本文主要介绍Mysql如何将数据按照年月分组的统计方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录mysql将数据按照年月分组的统计要的效果方案总结Mysql将数据按照年月分组的统计要的效果方案① 使用 DA

鸿蒙中Axios数据请求的封装和配置方法

《鸿蒙中Axios数据请求的封装和配置方法》:本文主要介绍鸿蒙中Axios数据请求的封装和配置方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录1.配置权限 应用级权限和系统级权限2.配置网络请求的代码3.下载在Entry中 下载AxIOS4.封装Htt

基于Python和MoviePy实现照片管理和视频合成工具

《基于Python和MoviePy实现照片管理和视频合成工具》在这篇博客中,我们将详细剖析一个基于Python的图形界面应用程序,该程序使用wxPython构建用户界面,并结合MoviePy、Pill... 目录引言项目概述代码结构分析1. 导入和依赖2. 主类:PhotoManager初始化方法:__in

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

SpringCloud动态配置注解@RefreshScope与@Component的深度解析

《SpringCloud动态配置注解@RefreshScope与@Component的深度解析》在现代微服务架构中,动态配置管理是一个关键需求,本文将为大家介绍SpringCloud中相关的注解@Re... 目录引言1. @RefreshScope 的作用与原理1.1 什么是 @RefreshScope1.