VLM视觉语言大模型在智能驾驶中的应用

2024-09-05 11:36

本文主要是介绍VLM视觉语言大模型在智能驾驶中的应用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

VLM在自动驾驶中的任务

 single or multiple Object Referring

即带条件的目标检测,用语言指示模型识别图像中特定目标。

Referred Object Tracking

和Object Referring相比,Object Referring Tracking会根据自然语言描述在连续帧中对目标进行跟踪。

Open-Vocabulary 3D Object Detection

开放式3D目标检测,利用VLM的zero-shot能力检测场景中在白名单之外的目标类型。

Visual Question Answering

交通场景视觉问答,这需要vlm的高维场景理解能力。自动驾驶领域的问答可以划分为感知、规划、空间推理、时序推理、因果逻辑推理。感知问题可以用来识别交通参与者,如外观描述、存在性、数量、状态等。planning问题则可用于基于当前交通状态做决策。空间推理可以确定目标的相对、绝对位置。时序推理则可以过去或未来的目标行驶轨迹、行为。因果推理则可以通过逻辑推理分析事件的原因。

Captioning

 生成一个对于环境的文本描述。和VQA任务不同之处,captioning更关注于特定的任务如场景描述重要性排序、行为解释。Captioning也可以理解为固定问题的VQA。

captioning和VQA的metrics评测指标都是open-ended VQA。在选择题VQA任务中,正确答案出现次数除以总问题数即为accuracy。在开放式问题形式中BLEU、METEOR、ROUGE、CIDEr等评测指标作为评估预测结果和答案的相关性、正确性。

Language-Guided Navigation

根据语言指令指示VLM找到目标位置并给出到达目标位置的规划结果。

Conditional Autonomous Driving Data Generation

即可控的自动驾驶数据生成,应用大模型合成真实的驾驶场景图片。可控的数据生成可以加入prompts控制,可以让他生成BEV图像,可以让他有特定的行为等等。

相关端到端文章DriveGPT4、DriveMLM、VLP

Datasets

参考文献

LLM4Drive: A Survey of Large Language Models for Autonomous Driving.

Vision Language Models in Autonomous Driving: A Survey and Outlook.

这篇关于VLM视觉语言大模型在智能驾驶中的应用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1138851

相关文章

Go语言实现将中文转化为拼音功能

《Go语言实现将中文转化为拼音功能》这篇文章主要为大家详细介绍了Go语言中如何实现将中文转化为拼音功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 有这么一个需求:新用户入职 创建一系列账号比较麻烦,打算通过接口传入姓名进行初始化。想把姓名转化成拼音。因为有些账号即需要中文也需要英

Go语言使用Buffer实现高性能处理字节和字符

《Go语言使用Buffer实现高性能处理字节和字符》在Go中,bytes.Buffer是一个非常高效的类型,用于处理字节数据的读写操作,本文将详细介绍一下如何使用Buffer实现高性能处理字节和... 目录1. bytes.Buffer 的基本用法1.1. 创建和初始化 Buffer1.2. 使用 Writ

深入理解C语言的void*

《深入理解C语言的void*》本文主要介绍了C语言的void*,包括它的任意性、编译器对void*的类型检查以及需要显式类型转换的规则,具有一定的参考价值,感兴趣的可以了解一下... 目录一、void* 的类型任意性二、编译器对 void* 的类型检查三、需要显式类型转换占用的字节四、总结一、void* 的

将Python应用部署到生产环境的小技巧分享

《将Python应用部署到生产环境的小技巧分享》文章主要讲述了在将Python应用程序部署到生产环境之前,需要进行的准备工作和最佳实践,包括心态调整、代码审查、测试覆盖率提升、配置文件优化、日志记录完... 目录部署前夜:从开发到生产的心理准备与检查清单环境搭建:打造稳固的应用运行平台自动化流水线:让部署像

Linux中Curl参数详解实践应用

《Linux中Curl参数详解实践应用》在现代网络开发和运维工作中,curl命令是一个不可或缺的工具,它是一个利用URL语法在命令行下工作的文件传输工具,支持多种协议,如HTTP、HTTPS、FTP等... 目录引言一、基础请求参数1. -X 或 --request2. -d 或 --data3. -H 或

在Ubuntu上部署SpringBoot应用的操作步骤

《在Ubuntu上部署SpringBoot应用的操作步骤》随着云计算和容器化技术的普及,Linux服务器已成为部署Web应用程序的主流平台之一,Java作为一种跨平台的编程语言,具有广泛的应用场景,本... 目录一、部署准备二、安装 Java 环境1. 安装 JDK2. 验证 Java 安装三、安装 mys

Python中构建终端应用界面利器Blessed模块的使用

《Python中构建终端应用界面利器Blessed模块的使用》Blessed库作为一个轻量级且功能强大的解决方案,开始在开发者中赢得口碑,今天,我们就一起来探索一下它是如何让终端UI开发变得轻松而高... 目录一、安装与配置:简单、快速、无障碍二、基本功能:从彩色文本到动态交互1. 显示基本内容2. 创建链

Node.js 中 http 模块的深度剖析与实战应用小结

《Node.js中http模块的深度剖析与实战应用小结》本文详细介绍了Node.js中的http模块,从创建HTTP服务器、处理请求与响应,到获取请求参数,每个环节都通过代码示例进行解析,旨在帮... 目录Node.js 中 http 模块的深度剖析与实战应用一、引言二、创建 HTTP 服务器:基石搭建(一

C语言线程池的常见实现方式详解

《C语言线程池的常见实现方式详解》本文介绍了如何使用C语言实现一个基本的线程池,线程池的实现包括工作线程、任务队列、任务调度、线程池的初始化、任务添加、销毁等步骤,感兴趣的朋友跟随小编一起看看吧... 目录1. 线程池的基本结构2. 线程池的实现步骤3. 线程池的核心数据结构4. 线程池的详细实现4.1 初

java中VO PO DTO POJO BO DO对象的应用场景及使用方式

《java中VOPODTOPOJOBODO对象的应用场景及使用方式》文章介绍了Java开发中常用的几种对象类型及其应用场景,包括VO、PO、DTO、POJO、BO和DO等,并通过示例说明了它... 目录Java中VO PO DTO POJO BO DO对象的应用VO (View Object) - 视图对象