(2024,街景生成,道路拓扑生成器,对象布局生成器,成分集成和天气生成)Text2Street:街景的可控文本到图像生成

本文主要是介绍(2024,街景生成,道路拓扑生成器,对象布局生成器,成分集成和天气生成)Text2Street:街景的可控文本到图像生成,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

公和众和号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群)

Text2Street: Controllable Text-to-image Generation for Street Views

目录

0. 摘要

2. 相关工作

3. 方法

3.1. 概述

3.2. 车道感知的道路拓扑生成器

3.3. 基于位置的对象布局生成器

3.4. 多控图像生成器

4. 实验与结果


0. 摘要

文本到图像生成在扩散模型出现后取得了显著的进展。然而,基于文本生成街景图像仍然是一项困难的任务,主要是因为街景的道路拓扑结构复杂,交通状况多样,天气条件各异(如图 1 所示),这使得传统的文本到图像模型难以处理。为了解决这些挑战,我们提出了一种新颖的可控文本到图像框架,名为Text2Street。在该框架中,我们首先引入了具有车道感知的道路拓扑生成器,该生成器通过带有计数适配器的车道线进行文本到地图的生成,实现了可控的道路拓扑生成。然后,提出了基于位置的对象布局生成器,通过对象级边界框扩散策略实现了文本到布局的生成,实现了可控的交通对象布局生成。最后,设计了多控(multiple control)图像生成器,将道路拓扑、对象布局和天气描述集成在一起,实现了可控的街景图像生成。大量实验证明了所提方法实现了可控的街景文本到图像生成,并验证了 Text2Street 框架在街景中的有效性。

2. 相关工作

近年来,对于街景图像生成方法的研究出现了明显的增长。

  • SDM [31] 对语义布局和嘈杂图像进行了不同处理。它将嘈杂图像馈送到 U-Net [26] 结构的编码器中,而通过多层空间自适应归一化运算符将语义布局馈送到解码器中。
  • BEVGen [30] 合成一组真实且空间一致的周围图像,与交通场景的鸟瞰图 (bird’s-eye view,BEV) 布局相匹配。BEVGen 融入了一种具有空间注意设计的新型跨视图转换,学习摄像头和地图视图之间的关系以确保它们的一致性。
  • GeoDiffusion [6] 将各种几何条件转化为文本提示,并增强预训练的文本到图像扩散模型,用于高质量的检测数据生成,能够编码不仅包围框,还包括自动驾驶场景中的摄像机视图等额外的几何条件。
  • BEVControl [32] 提出了一种两阶段生成方法,能够生成准确的前景和背景内容。这些方法通常需要 BEV 地图、物体边界框或语义蒙版的输入来生成图像。

然而,几乎没有研究仅依赖文本生成街景图像的情况。本文主要关注解决街景文本到图像生成的问题。

3. 方法

为了解决街景文本到图像生成中的挑战(即复杂的道路拓扑结构、多样化的交通状况和各种各样的天气条件),我们引入了 Text2Street,这是一个在图 2 中示意的新颖的可控框架。在本节中,详细描述了该方法的细节。

3.1. 概述

Text2Street 以街景描述提示(例如,“一个带有十字路口、3 条车道、4 辆车和 1 辆卡车在晴天行驶的街景图像”)作为输入,并生成相应的街景图像。在主要过程之前,输入提示由大型语言模型(例如,GPT-4 [20])解析,以提取道路拓扑、交通状态和天气条件的描述,然后将其馈送到三个主要组件中:

  • 第一个组件是车道感知的道路拓扑生成器,它以道路拓扑描述(“十字路口、3条车道”)作为输入,并生成局部语义地图。
  • 第二个组件是基于位置的对象布局生成器,它以交通状态中的交通对象描述(“4辆车和1辆卡车”)作为输入,并生成交通对象布局。
  • 第三个组件是多控图像生成器,它以道路拓扑、对象布局和天气条件的描述(“晴天”)作为输入,并输出与原始街景描述提示相匹配的图像。

3.2. 车道感知的道路拓扑生成器

对于 Stable Diffusion [25],直接生成符合道路拓扑结构的图像,包括道路结构和车道拓扑,是困难的。为了解决这个问题,我们引入了车道感知的道路拓扑生成器(lane-aware road topology generator,LRTG),如图 3 所示。该生成器不直接生成道路图像;相反,它首先创建一个描述道路结构的本地语义地图,代表一个完整的区域级道路结构,包括可行驶区域、十字路口、人行道、斑马线等。同时,为了确保生成的车道线遵守交通规则(即等距和平行车道),我们在语义地图上对车道线进行表征和生成,这比直接在透视视图图像上生成车道线更容易和更可控。此外,为了确保车道线的数量与提供的文本一致,我们引入了一个计数适配器,用于精确生成指定数量的车道线。在 LRTG 中,我们仅生成语义地图,它作为街景图像的关键中介,如第 3.4 节中进一步详细描述。

在生成局部语义地图时,我们利用 Stable Diffusion 来根据 CLIP [21] 文本编码器对道路拓扑描述进行编码。随后,编码输入被馈送到 U-Net [26] 的交叉注意力层,以去噪图像潜变量,最终输出相应的语义地图。与 Stable Diffusion 一致,学习目标如下:

其中,x ∈ R^(H×W×3) 是从标记的语义地图中裁剪得到的 RGB 空间的给定图像,E(x) 指的是预训练自动编码器 [8] 的编码器,z = E(x) 代表编码图像的潜在变量,z_t 是来自时步 t 的前向扩散过程,y 是文本提示,τ(·) 代表预训练的 CLIP 文本编码器,ϵ 表示目标噪音,ϵθ(·) 表示用于预测噪音的时态条件 U-Net。这种方式确保在语义地图中合理生成道路结构和车道线形状。

为了精确控制车道线数量,计数适配器 f_CA 从 U-Net 的所有交叉注意力层中聚集注意力分数。然后,这些分数被整形以匹配相同的分辨率,然后平均以产生所有 token 的注意力特征。从这些注意力特征中,选择与 token “车道线” 相对应的特征 F_l。这些选定的特征经过两个卷积层(卷积核为3×3)和一个全连接层的进一步处理,用于预测车道线的数量 N_l。实现对车道线数量的精确控制的学习目标如下:

基于方程 1 和 2,LRTG 可以联合优化,生成包含所需道路结构和车道线的局部语义地图。

3.3. 基于位置的对象布局生成器

为了确保生成的图像能够呈现多样化的交通状况,我们利用大型语言模型将交通状态转化为交通对象的数量(例如,汽车、卡车、行人等)。然后,提出基于位置的对象布局生成器(POLG)来根据对象数量的文本描述创建对象布局,如图 4 所示。为了确保生成指定数量的对象,我们引入了一个对象级边界框扩散策略来生成对象边界框的位置。同时,为了确保生成的交通对象符合交通规则,我们将 LRTG 的局部语义地图纳入到框扩散过程中。通过POLG,我们生成交通对象的布局信息,这也作为生成最终街景图像的中介,如第 3.4 节中所介绍的。

在边界框扩散策略中,我们首先将交通对象表示为位置向量 Oi = [xi, yi, zi, li, wi, hi, ζi, ci](i = 1, 2, ..., N_o,N_o 是对象的数量),其中 xi, yi, zi 表示对象位置的坐标,li, wi, hi 表示对象的尺寸,ζi 表示对象的偏航角度(yaw angle),ci 表示对象的类别。随后,基于扩散模型 DDPM [14] 对位置向量进行扩散。此外,为了确保对象遵守交通规则(例如,汽车必须在道路上行驶而不能逆行),我们使用 ControlNet [33],将 LRTG 的局部语义地图作为控制输入到 POLG 中。最终的学习目标如下:

其中,o 表示对象的位置向量,ot 是来自时间步 t 的前向扩散过程,m 表示局部语义地图,C(·) 表示 ControlNet。其他符号与方程 1 中的符号一致。

基于方程 3,通过根据文本描述使用 POLG 生成符合交通状态的交通对象布局信息。

3.4. 多控图像生成器

为了生成与道路拓扑和交通状态一致的具有逼真天气的图像,我们引入了多控图像生成器(multiple control image generator,MCIG),如图 5 所示。在这两个信息进入 MCIG 之前,我们进行了摄像机姿态采样和图像投影,以有效利用先前生成的局部语义地图和交通对象布局。这导致了来自透视视图的 2D 道路语义掩模 M_r 和交通对象布局地图 M_o,如图 2 所示。2D 交通对象布局图也被表示为 2D 交通对象位置向量

投影使用基于内外参数的传统方法,其中内部参数使用固定的摄像机参数,而外部参数在先前摄像机高度附近进行采样。

如图 5 所示,MCIG 包括五个模块:对象级位置编码器、文本编码器、语义掩模 ControlNet、对象布局 ControlNet 和朴素 Stable Diffusion。前四个模块基于四种不同类型的信息控制图像生成,即2D 交通位置向量、描述天气的文本、2D 道路语义掩模和 2D 交通对象布局图。

对象级位置编码器对 2D 交通对象位置向量进行编码,包括 2D 边界框和对象类别,表示为:

边界框编码器将对象边界框映射到更高维度的空间,确保网络可以学习更高频率的映射函数并聚焦每个对象的位置。具体而言,边界框编码器是一个基于正弦和余弦的编码函数。编码函数的数学形式如下:

其中 BE(·) 应用于每个对象 P_i 的边界框的每个组件(即 x^1_i, y^1_i, x^2_i, y^2_i),L 被经验性地设定为 10。同时,类别编码器 CE 利用CLIP文本编码器对对象类别(例如,“car”)进行编码。随后,边界框编码和类别编码在每个对象的特征嵌入维度上进行串联。串联的特征然后通过一个两层全连接网络 f_PE(·) 映射到与原始文本编码器嵌入相同维度的特征,充当位置嵌入。基于 CLIP 文本编码器的文本编码器对天气描述文本 T 进行编码,生成文本嵌入。

对象位置编码和天气文本嵌入在标记维度上进行串联后,分别输入到 Stable Diffusion 的交叉注意力层,用于在图像生成过程中分别控制对象位置和天气。同时,语义掩模 ControlNet 和对象布局ControlNet 使用两个相似的 ControlNet,利用图像(即语义掩模和布局地图)作为输入,在街景图像生成过程中控制道路拓扑和对象布局。MCIG 的学习目标函数如下:

其中 P 是为了方便展示而设定的 {E(x), P, T, M_r, M_o, ε, t} 集合。

通过使用方程 6 对 MCIG 进行优化,我们得到符合有关道路拓扑、交通状况和天气状况的初始提示的街景图像。

4. 实验与结果

这篇关于(2024,街景生成,道路拓扑生成器,对象布局生成器,成分集成和天气生成)Text2Street:街景的可控文本到图像生成的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/698084

相关文章

MybatisGenerator文件生成不出对应文件的问题

《MybatisGenerator文件生成不出对应文件的问题》本文介绍了使用MybatisGenerator生成文件时遇到的问题及解决方法,主要步骤包括检查目标表是否存在、是否能连接到数据库、配置生成... 目录MyBATisGenerator 文件生成不出对应文件先在项目结构里引入“targetProje

Mybatis官方生成器的使用方式

《Mybatis官方生成器的使用方式》本文详细介绍了MyBatisGenerator(MBG)的使用方法,通过实际代码示例展示了如何配置Maven插件来自动化生成MyBatis项目所需的实体类、Map... 目录1. MyBATis Generator 简介2. MyBatis Generator 的功能3

Python使用qrcode库实现生成二维码的操作指南

《Python使用qrcode库实现生成二维码的操作指南》二维码是一种广泛使用的二维条码,因其高效的数据存储能力和易于扫描的特点,广泛应用于支付、身份验证、营销推广等领域,Pythonqrcode库是... 目录一、安装 python qrcode 库二、基本使用方法1. 生成简单二维码2. 生成带 Log

Spring常见错误之Web嵌套对象校验失效解决办法

《Spring常见错误之Web嵌套对象校验失效解决办法》:本文主要介绍Spring常见错误之Web嵌套对象校验失效解决的相关资料,通过在Phone对象上添加@Valid注解,问题得以解决,需要的朋... 目录问题复现案例解析问题修正总结  问题复现当开发一个学籍管理系统时,我们会提供了一个 API 接口去

基于WinForm+Halcon实现图像缩放与交互功能

《基于WinForm+Halcon实现图像缩放与交互功能》本文主要讲述在WinForm中结合Halcon实现图像缩放、平移及实时显示灰度值等交互功能,包括初始化窗口的不同方式,以及通过特定事件添加相应... 目录前言初始化窗口添加图像缩放功能添加图像平移功能添加实时显示灰度值功能示例代码总结最后前言本文将

Java如何通过反射机制获取数据类对象的属性及方法

《Java如何通过反射机制获取数据类对象的属性及方法》文章介绍了如何使用Java反射机制获取类对象的所有属性及其对应的get、set方法,以及如何通过反射机制实现类对象的实例化,感兴趣的朋友跟随小编一... 目录一、通过反射机制获取类对象的所有属性以及相应的get、set方法1.遍历类对象的所有属性2.获取

通过C#获取PDF中指定文本或所有文本的字体信息

《通过C#获取PDF中指定文本或所有文本的字体信息》在设计和出版行业中,字体的选择和使用对最终作品的质量有着重要影响,然而,有时我们可能会遇到包含未知字体的PDF文件,这使得我们无法准确地复制或修改文... 目录引言C# 获取PDF中指定文本的字体信息C# 获取PDF文档中用到的所有字体信息引言在设计和出

Python使用Pandas库将Excel数据叠加生成新DataFrame的操作指南

《Python使用Pandas库将Excel数据叠加生成新DataFrame的操作指南》在日常数据处理工作中,我们经常需要将不同Excel文档中的数据整合到一个新的DataFrame中,以便进行进一步... 目录一、准备工作二、读取Excel文件三、数据叠加四、处理重复数据(可选)五、保存新DataFram

SpringBoot生成和操作PDF的代码详解

《SpringBoot生成和操作PDF的代码详解》本文主要介绍了在SpringBoot项目下,通过代码和操作步骤,详细的介绍了如何操作PDF,希望可以帮助到准备通过JAVA操作PDF的你,项目框架用的... 目录本文简介PDF文件简介代码实现PDF操作基于PDF模板生成,并下载完全基于代码生成,并保存合并P

SpringCloud集成AlloyDB的示例代码

《SpringCloud集成AlloyDB的示例代码》AlloyDB是GoogleCloud提供的一种高度可扩展、强性能的关系型数据库服务,它兼容PostgreSQL,并提供了更快的查询性能... 目录1.AlloyDBjavascript是什么?AlloyDB 的工作原理2.搭建测试环境3.代码工程1.