(2024,街景生成,道路拓扑生成器,对象布局生成器,成分集成和天气生成)Text2Street:街景的可控文本到图像生成

本文主要是介绍(2024,街景生成,道路拓扑生成器,对象布局生成器,成分集成和天气生成)Text2Street:街景的可控文本到图像生成,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

公和众和号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群)

Text2Street: Controllable Text-to-image Generation for Street Views

目录

0. 摘要

2. 相关工作

3. 方法

3.1. 概述

3.2. 车道感知的道路拓扑生成器

3.3. 基于位置的对象布局生成器

3.4. 多控图像生成器

4. 实验与结果


0. 摘要

文本到图像生成在扩散模型出现后取得了显著的进展。然而,基于文本生成街景图像仍然是一项困难的任务,主要是因为街景的道路拓扑结构复杂,交通状况多样,天气条件各异(如图 1 所示),这使得传统的文本到图像模型难以处理。为了解决这些挑战,我们提出了一种新颖的可控文本到图像框架,名为Text2Street。在该框架中,我们首先引入了具有车道感知的道路拓扑生成器,该生成器通过带有计数适配器的车道线进行文本到地图的生成,实现了可控的道路拓扑生成。然后,提出了基于位置的对象布局生成器,通过对象级边界框扩散策略实现了文本到布局的生成,实现了可控的交通对象布局生成。最后,设计了多控(multiple control)图像生成器,将道路拓扑、对象布局和天气描述集成在一起,实现了可控的街景图像生成。大量实验证明了所提方法实现了可控的街景文本到图像生成,并验证了 Text2Street 框架在街景中的有效性。

2. 相关工作

近年来,对于街景图像生成方法的研究出现了明显的增长。

  • SDM [31] 对语义布局和嘈杂图像进行了不同处理。它将嘈杂图像馈送到 U-Net [26] 结构的编码器中,而通过多层空间自适应归一化运算符将语义布局馈送到解码器中。
  • BEVGen [30] 合成一组真实且空间一致的周围图像,与交通场景的鸟瞰图 (bird’s-eye view,BEV) 布局相匹配。BEVGen 融入了一种具有空间注意设计的新型跨视图转换,学习摄像头和地图视图之间的关系以确保它们的一致性。
  • GeoDiffusion [6] 将各种几何条件转化为文本提示,并增强预训练的文本到图像扩散模型,用于高质量的检测数据生成,能够编码不仅包围框,还包括自动驾驶场景中的摄像机视图等额外的几何条件。
  • BEVControl [32] 提出了一种两阶段生成方法,能够生成准确的前景和背景内容。这些方法通常需要 BEV 地图、物体边界框或语义蒙版的输入来生成图像。

然而,几乎没有研究仅依赖文本生成街景图像的情况。本文主要关注解决街景文本到图像生成的问题。

3. 方法

为了解决街景文本到图像生成中的挑战(即复杂的道路拓扑结构、多样化的交通状况和各种各样的天气条件),我们引入了 Text2Street,这是一个在图 2 中示意的新颖的可控框架。在本节中,详细描述了该方法的细节。

3.1. 概述

Text2Street 以街景描述提示(例如,“一个带有十字路口、3 条车道、4 辆车和 1 辆卡车在晴天行驶的街景图像”)作为输入,并生成相应的街景图像。在主要过程之前,输入提示由大型语言模型(例如,GPT-4 [20])解析,以提取道路拓扑、交通状态和天气条件的描述,然后将其馈送到三个主要组件中:

  • 第一个组件是车道感知的道路拓扑生成器,它以道路拓扑描述(“十字路口、3条车道”)作为输入,并生成局部语义地图。
  • 第二个组件是基于位置的对象布局生成器,它以交通状态中的交通对象描述(“4辆车和1辆卡车”)作为输入,并生成交通对象布局。
  • 第三个组件是多控图像生成器,它以道路拓扑、对象布局和天气条件的描述(“晴天”)作为输入,并输出与原始街景描述提示相匹配的图像。

3.2. 车道感知的道路拓扑生成器

对于 Stable Diffusion [25],直接生成符合道路拓扑结构的图像,包括道路结构和车道拓扑,是困难的。为了解决这个问题,我们引入了车道感知的道路拓扑生成器(lane-aware road topology generator,LRTG),如图 3 所示。该生成器不直接生成道路图像;相反,它首先创建一个描述道路结构的本地语义地图,代表一个完整的区域级道路结构,包括可行驶区域、十字路口、人行道、斑马线等。同时,为了确保生成的车道线遵守交通规则(即等距和平行车道),我们在语义地图上对车道线进行表征和生成,这比直接在透视视图图像上生成车道线更容易和更可控。此外,为了确保车道线的数量与提供的文本一致,我们引入了一个计数适配器,用于精确生成指定数量的车道线。在 LRTG 中,我们仅生成语义地图,它作为街景图像的关键中介,如第 3.4 节中进一步详细描述。

在生成局部语义地图时,我们利用 Stable Diffusion 来根据 CLIP [21] 文本编码器对道路拓扑描述进行编码。随后,编码输入被馈送到 U-Net [26] 的交叉注意力层,以去噪图像潜变量,最终输出相应的语义地图。与 Stable Diffusion 一致,学习目标如下:

其中,x ∈ R^(H×W×3) 是从标记的语义地图中裁剪得到的 RGB 空间的给定图像,E(x) 指的是预训练自动编码器 [8] 的编码器,z = E(x) 代表编码图像的潜在变量,z_t 是来自时步 t 的前向扩散过程,y 是文本提示,τ(·) 代表预训练的 CLIP 文本编码器,ϵ 表示目标噪音,ϵθ(·) 表示用于预测噪音的时态条件 U-Net。这种方式确保在语义地图中合理生成道路结构和车道线形状。

为了精确控制车道线数量,计数适配器 f_CA 从 U-Net 的所有交叉注意力层中聚集注意力分数。然后,这些分数被整形以匹配相同的分辨率,然后平均以产生所有 token 的注意力特征。从这些注意力特征中,选择与 token “车道线” 相对应的特征 F_l。这些选定的特征经过两个卷积层(卷积核为3×3)和一个全连接层的进一步处理,用于预测车道线的数量 N_l。实现对车道线数量的精确控制的学习目标如下:

基于方程 1 和 2,LRTG 可以联合优化,生成包含所需道路结构和车道线的局部语义地图。

3.3. 基于位置的对象布局生成器

为了确保生成的图像能够呈现多样化的交通状况,我们利用大型语言模型将交通状态转化为交通对象的数量(例如,汽车、卡车、行人等)。然后,提出基于位置的对象布局生成器(POLG)来根据对象数量的文本描述创建对象布局,如图 4 所示。为了确保生成指定数量的对象,我们引入了一个对象级边界框扩散策略来生成对象边界框的位置。同时,为了确保生成的交通对象符合交通规则,我们将 LRTG 的局部语义地图纳入到框扩散过程中。通过POLG,我们生成交通对象的布局信息,这也作为生成最终街景图像的中介,如第 3.4 节中所介绍的。

在边界框扩散策略中,我们首先将交通对象表示为位置向量 Oi = [xi, yi, zi, li, wi, hi, ζi, ci](i = 1, 2, ..., N_o,N_o 是对象的数量),其中 xi, yi, zi 表示对象位置的坐标,li, wi, hi 表示对象的尺寸,ζi 表示对象的偏航角度(yaw angle),ci 表示对象的类别。随后,基于扩散模型 DDPM [14] 对位置向量进行扩散。此外,为了确保对象遵守交通规则(例如,汽车必须在道路上行驶而不能逆行),我们使用 ControlNet [33],将 LRTG 的局部语义地图作为控制输入到 POLG 中。最终的学习目标如下:

其中,o 表示对象的位置向量,ot 是来自时间步 t 的前向扩散过程,m 表示局部语义地图,C(·) 表示 ControlNet。其他符号与方程 1 中的符号一致。

基于方程 3,通过根据文本描述使用 POLG 生成符合交通状态的交通对象布局信息。

3.4. 多控图像生成器

为了生成与道路拓扑和交通状态一致的具有逼真天气的图像,我们引入了多控图像生成器(multiple control image generator,MCIG),如图 5 所示。在这两个信息进入 MCIG 之前,我们进行了摄像机姿态采样和图像投影,以有效利用先前生成的局部语义地图和交通对象布局。这导致了来自透视视图的 2D 道路语义掩模 M_r 和交通对象布局地图 M_o,如图 2 所示。2D 交通对象布局图也被表示为 2D 交通对象位置向量

投影使用基于内外参数的传统方法,其中内部参数使用固定的摄像机参数,而外部参数在先前摄像机高度附近进行采样。

如图 5 所示,MCIG 包括五个模块:对象级位置编码器、文本编码器、语义掩模 ControlNet、对象布局 ControlNet 和朴素 Stable Diffusion。前四个模块基于四种不同类型的信息控制图像生成,即2D 交通位置向量、描述天气的文本、2D 道路语义掩模和 2D 交通对象布局图。

对象级位置编码器对 2D 交通对象位置向量进行编码,包括 2D 边界框和对象类别,表示为:

边界框编码器将对象边界框映射到更高维度的空间,确保网络可以学习更高频率的映射函数并聚焦每个对象的位置。具体而言,边界框编码器是一个基于正弦和余弦的编码函数。编码函数的数学形式如下:

其中 BE(·) 应用于每个对象 P_i 的边界框的每个组件(即 x^1_i, y^1_i, x^2_i, y^2_i),L 被经验性地设定为 10。同时,类别编码器 CE 利用CLIP文本编码器对对象类别(例如,“car”)进行编码。随后,边界框编码和类别编码在每个对象的特征嵌入维度上进行串联。串联的特征然后通过一个两层全连接网络 f_PE(·) 映射到与原始文本编码器嵌入相同维度的特征,充当位置嵌入。基于 CLIP 文本编码器的文本编码器对天气描述文本 T 进行编码,生成文本嵌入。

对象位置编码和天气文本嵌入在标记维度上进行串联后,分别输入到 Stable Diffusion 的交叉注意力层,用于在图像生成过程中分别控制对象位置和天气。同时,语义掩模 ControlNet 和对象布局ControlNet 使用两个相似的 ControlNet,利用图像(即语义掩模和布局地图)作为输入,在街景图像生成过程中控制道路拓扑和对象布局。MCIG 的学习目标函数如下:

其中 P 是为了方便展示而设定的 {E(x), P, T, M_r, M_o, ε, t} 集合。

通过使用方程 6 对 MCIG 进行优化,我们得到符合有关道路拓扑、交通状况和天气状况的初始提示的街景图像。

4. 实验与结果

这篇关于(2024,街景生成,道路拓扑生成器,对象布局生成器,成分集成和天气生成)Text2Street:街景的可控文本到图像生成的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/698084

相关文章

Java利用docx4j+Freemarker生成word文档

《Java利用docx4j+Freemarker生成word文档》这篇文章主要为大家详细介绍了Java如何利用docx4j+Freemarker生成word文档,文中的示例代码讲解详细,感兴趣的小伙伴... 目录技术方案maven依赖创建模板文件实现代码技术方案Java 1.8 + docx4j + Fr

Java编译生成多个.class文件的原理和作用

《Java编译生成多个.class文件的原理和作用》作为一名经验丰富的开发者,在Java项目中执行编译后,可能会发现一个.java源文件有时会产生多个.class文件,从技术实现层面详细剖析这一现象... 目录一、内部类机制与.class文件生成成员内部类(常规内部类)局部内部类(方法内部类)匿名内部类二、

使用Jackson进行JSON生成与解析的新手指南

《使用Jackson进行JSON生成与解析的新手指南》这篇文章主要为大家详细介绍了如何使用Jackson进行JSON生成与解析处理,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. 核心依赖2. 基础用法2.1 对象转 jsON(序列化)2.2 JSON 转对象(反序列化)3.

java中使用POI生成Excel并导出过程

《java中使用POI生成Excel并导出过程》:本文主要介绍java中使用POI生成Excel并导出过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录需求说明及实现方式需求完成通用代码版本1版本2结果展示type参数为atype参数为b总结注:本文章中代码均为

springboot简单集成Security配置的教程

《springboot简单集成Security配置的教程》:本文主要介绍springboot简单集成Security配置的教程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,... 目录集成Security安全框架引入依赖编写配置类WebSecurityConfig(自定义资源权限规则

在java中如何将inputStream对象转换为File对象(不生成本地文件)

《在java中如何将inputStream对象转换为File对象(不生成本地文件)》:本文主要介绍在java中如何将inputStream对象转换为File对象(不生成本地文件),具有很好的参考价... 目录需求说明问题解决总结需求说明在后端中通过POI生成Excel文件流,将输出流(outputStre

springboot集成Deepseek4j的项目实践

《springboot集成Deepseek4j的项目实践》本文主要介绍了springboot集成Deepseek4j的项目实践,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价... 目录Deepseek4j快速开始Maven 依js赖基础配置基础使用示例1. 流式返回示例2. 进阶

使用Python实现文本转语音(TTS)并播放音频

《使用Python实现文本转语音(TTS)并播放音频》在开发涉及语音交互或需要语音提示的应用时,文本转语音(TTS)技术是一个非常实用的工具,下面我们来看看如何使用gTTS和playsound库将文本... 目录什么是 gTTS 和 playsound安装依赖库实现步骤 1. 导入库2. 定义文本和语言 3

Python实现常用文本内容提取

《Python实现常用文本内容提取》在日常工作和学习中,我们经常需要从PDF、Word文档中提取文本,本文将介绍如何使用Python编写一个文本内容提取工具,有需要的小伙伴可以参考下... 目录一、引言二、文本内容提取的原理三、文本内容提取的设计四、文本内容提取的实现五、完整代码示例一、引言在日常工作和学

Spring Boot 集成 Quartz 使用Cron 表达式实现定时任务

《SpringBoot集成Quartz使用Cron表达式实现定时任务》本文介绍了如何在SpringBoot项目中集成Quartz并使用Cron表达式进行任务调度,通过添加Quartz依赖、创... 目录前言1. 添加 Quartz 依赖2. 创建 Quartz 任务3. 配置 Quartz 任务调度4. 启