本文主要是介绍VLM视觉语言大模型在智能驾驶中的应用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
VLM在自动驾驶中的任务
single or multiple Object Referring
即带条件的目标检测,用语言指示模型识别图像中特定目标。
Referred Object Tracking
和Object Referring相比,Object Referring Tracking会根据自然语言描述在连续帧中对目标进行跟踪。
Open-Vocabulary 3D Object Detection
开放式3D目标检测,利用VLM的zero-shot能力检测场景中在白名单之外的目标类型。
Visual Question Answering
交通场景视觉问答,这需要vlm的高维场景理解能力。自动驾驶领域的问答可以划分为感知、规划、空间推理、时序推理、因果逻辑推理。感知问题可以用来识别交通参与者,如外观描述、存在性、数量、状态等。planning问题则可用于基于当前交通状态做决策。空间推理可以确定目标的相对、绝对位置。时序推理则可以过去或未来的目标行驶轨迹、行为。因果推理则可以通过逻辑推理分析事件的原因。
Captioning
生成一个对于环境的文本描述。和VQA任务不同之处,captioning更关注于特定的任务如场景描述重要性排序、行为解释。Captioning也可以理解为固定问题的VQA。
captioning和VQA的metrics评测指标都是open-ended VQA。在选择题VQA任务中,正确答案出现次数除以总问题数即为accuracy。在开放式问题形式中BLEU、METEOR、ROUGE、CIDEr等评测指标作为评估预测结果和答案的相关性、正确性。
Language-Guided Navigation
根据语言指令指示VLM找到目标位置并给出到达目标位置的规划结果。
Conditional Autonomous Driving Data Generation
即可控的自动驾驶数据生成,应用大模型合成真实的驾驶场景图片。可控的数据生成可以加入prompts控制,可以让他生成BEV图像,可以让他有特定的行为等等。
相关端到端文章DriveGPT4、DriveMLM、VLP
Datasets
参考文献
LLM4Drive: A Survey of Large Language Models for Autonomous Driving.
Vision Language Models in Autonomous Driving: A Survey and Outlook.
这篇关于VLM视觉语言大模型在智能驾驶中的应用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!