UniAD大模型开路,智能车驶入AGI时代

2024-05-13 21:36

本文主要是介绍UniAD大模型开路,智能车驶入AGI时代,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

作者 |老缅

编辑 |德新

f1b41808e81ca0742228d95af56ed8d1.jpeg

在刚刚结束不久的北京车展上,除一众明星车型亮相,供应链企业也开始大秀肌肉,其中尤其以端到端大模型为代表,焕新一代的智驾技术栈掀起了新一轮热潮。

作为首个提出感知决策一体化自动驾驶通用模型的公司,商汤绝影也在这次车展上第一次向公众展示了面向量产的端到端自动驾驶解决方案UniAD(Unified Autonomous Driving)的道路测试表现

一、UniAD,让智能驾驶「像人一样」

相信不少用户已经关注到,今年以来,几乎所有车企或产业链公司在宣传智驾时,最常用的形容词之一,就是「媲美真人驾驶」。

端到端大模型的出现,其重要方向之一就是解决「驾驶拟人化」的问题。

dd994d86be4b7fe893864dab00bccea5.jpeg

商汤绝影在这次北京车展上,展示出了在无高精地图、仅靠视觉感知的实际道路测试成果

无论是城市道路还是无线的乡村道路上,搭载UniAD的车辆都能准确地完成大角度左转上桥、避让占道车辆及施工区域、绕行跑步行人等一系列高难度操作。

通常城市道路错综复杂,乡村道路更是路况难测,比如永远不知道什么时候会有慢行车挡路;什么时候会有电动小三轮突然从侧方出现;什么时候前方会有占道施工或临时堵塞等等。

这种无固定性、遇到情况需要依靠车主自身经验解决的行驶场景,在自动驾驶领域被称之为Corner Case。

尽管类似场景和挑战,在整个驾驶过程中的占比可能不到10%,能否解决这样的场景,却是智驾从定位「小众科技」赢得大众信任的关键,也是智驾系统安全性的关键。

随着城区智驾成为高阶智驾竞争的主战场,场景计算的复杂度呈指数级增长。大量的人力资源投入也只是增加有限的规则,无法应对数量无限的复杂场景和长尾路况。

基于此,端到端技术的出现开辟了一条新路径,将智驾的开发范式从铺设大量人力,转变为持续算力投入和高质量数据输入。

今年年初,特斯拉开始向部分用户推送FSD V12版本的端到端自动驾驶方案,业内也出现了越来越多的端到端智驾方案,不过大部分端到端方案采用的是更容易落地的由感知和决策两个模型组成的「两段式」架构,两个模型之间依然存在信息传递过滤或丢失的问题。

而UniAD将感知、决策、规划等模块都整合到一个全栈Transformer端到端模型,也就是一个完全感知决策一体化的「端到端」技术栈。

8aa0cd4d5c6909f9f81720a40cd12c70.jpeg

借助商汤科技大装置的算力、高质量仿真数据以及模型性能,UniAD端到端方案有更高的能力上限,以及强大的学习和思考能力;数据驱动的端到端模型泛化能力强、迭代效率快,可以帮助车企低成本快速开城;纯视觉感知的无图方案,进一步降低系统的软硬件成本,助力智驾普及,实现全国都能开。

在端到端系统基础上,商汤绝影在这次车展期间还介绍了新一代自动驾驶大模型DriveAGI,推动自动驾驶从数据驱动向认知驱动的跃迁。

e8829fbed352fc6131526c7cb44dd786.jpeg

二、大模型登陆小米SU7,智能座舱升维开卷

在此之前的4月23日,商汤科技发布全新升级的「日日新SenseNova 5.0」大模型。

据悉,6000亿参数的「日日新5.0」采用混合专家架构(MOE),具备更强的知识、数学、推理及代码能力,成为国内首个全面对标甚至超越GPT-4 Turbo的大模型,多模态能力领先GPT-4V

基于端云结合的架构,商汤端侧大模型大幅超越同量级大模型,越级比肩7B、13B大模型,更适合车端部署。

据官方透露,前不久上市的小米SU7将AI大模型带进座舱,而商汤日日新大模型也全面助力小爱同学车载语音场景应用。

但这不是商汤绝影发力座舱体验升维的全部。

据悉,商汤绝影从去年发售的Apple Vision Pro汲取灵感,凭借感知技术和高效的迭代效率,将3D Gaze高精视线交互和3D动态手势交互这两大全新座舱3D交互演示带到现场,让观众体验到更符合人类直觉的舱内交互方式,推动座舱交互向更安全、更便利的3D交互升维进化。

据现场演示,操作人员坐在模仿座舱的屏幕前,通过3D Gaze高精视线交互和3D动态手势交互,方法与Apple Vision Pro相类似。据说,这是全球首创的能够通过视线定位与屏幕图标进行交互的智能座舱技术

目前,采用「非接触式」交互已经成为智能座舱交互革命的必然趋势,而视线交互是最为直接和便捷的方案之一。但过去,受限于精度等原因,DMS通常只能做到分心监测等舱内大面积区域的识别,很难通过它进行具体的交互动作。

商汤绝影全球首创3D Gaze高精视线交互,通过提升视线的精度,能精准识别到驾驶员注视中控屏或者后排用户看向后排屏幕的具体的某个图标并进行交互,实现「所见即所选」。

这背后,是一套「千人千眼」的高精度三维眼球模型

商汤绝影使用先进的眼动追踪技术和高精度的眼部成像设备,收集并分析驾驶员的眼部数据,精准为每个人的定制个性化的眼球模型,再以「千人千眼」的高精度三维眼球模型为基础,结合创新的亚像素级细节定位和信息融合技术,突破了座舱场景下的视线精度难题,配合手势、语音甚至是眨眼等方式,将给用户带来更智能、更个性化的舱内视觉交互体验。

3D动态手势交互则是以超高精的三维手部重建为基础,实时捕捉、识别与分析用户的三维手势动作,实现对车辆功能控制的技术,能让用户通过手势隔空进行各类座舱交互。

商汤绝影表示,已经实现这两大舱内3D交互功能相互配合,如同Vision Pro裸眼上车,革命性改变了座舱交互的方式,让用户从传统的物理按键和屏幕触控方式中解脱出来,打造更符合人类直觉的自然交互体验。

三、绝影寻找自己的「问界」

未来汽车智能化的竞争,本质上是通用人工智能技术融合应用的比拼。」这是商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚的观点。

而在智能汽车的浪潮里,商汤绝影给自己的定位是:加速智能汽车驶入AGI时代的核心技术伙伴,将人工智能技术与汽车产业深度融合,构建了驾 - 舱 - 云三位一体的通用人工智能 (AGI) 技术架构,打造了智能驾驶、智能座舱和AI云的多元产品体系。

从技术实力上来看,背靠商汤的商汤绝影,有毋庸置疑的技术底蕴和研发实力,但再好的技术也需要强力的产品来推动落地和背书。

在这一方面,商汤绝影还需要更多强有力的合作伙伴。

截至2023年12月,商汤绝影已与本田、比亚迪、长城、广汽、红旗、极氪、哪吒、奇瑞、蔚来等超过30家国内外车企携手合作,覆盖超90款车型,累计交付195万辆智能汽车。

其中不乏广汽埃安旗下高端豪华品牌昊铂王牌车型GT这样的高端车型,也有极氪X、奇瑞捷途旅行者等中端定位的车型,但商汤绝影还需要更加强有力的爆款车型,让真正的消费级市场有所感知。

智能车时代,商汤绝影也在找寻自己的那个「问界」。

这篇关于UniAD大模型开路,智能车驶入AGI时代的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/986891

相关文章

Golang的CSP模型简介(最新推荐)

《Golang的CSP模型简介(最新推荐)》Golang采用了CSP(CommunicatingSequentialProcesses,通信顺序进程)并发模型,通过goroutine和channe... 目录前言一、介绍1. 什么是 CSP 模型2. Goroutine3. Channel4. Channe

Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)

《Python基于火山引擎豆包大模型搭建QQ机器人详细教程(2024年最新)》:本文主要介绍Python基于火山引擎豆包大模型搭建QQ机器人详细的相关资料,包括开通模型、配置APIKEY鉴权和SD... 目录豆包大模型概述开通模型付费安装 SDK 环境配置 API KEY 鉴权Ark 模型接口Prompt

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

嵌入式QT开发:构建高效智能的嵌入式系统

摘要: 本文深入探讨了嵌入式 QT 相关的各个方面。从 QT 框架的基础架构和核心概念出发,详细阐述了其在嵌入式环境中的优势与特点。文中分析了嵌入式 QT 的开发环境搭建过程,包括交叉编译工具链的配置等关键步骤。进一步探讨了嵌入式 QT 的界面设计与开发,涵盖了从基本控件的使用到复杂界面布局的构建。同时也深入研究了信号与槽机制在嵌入式系统中的应用,以及嵌入式 QT 与硬件设备的交互,包括输入输出设

让树莓派智能语音助手实现定时提醒功能

最初的时候是想直接在rasa 的chatbot上实现,因为rasa本身是带有remindschedule模块的。不过经过一番折腾后,忽然发现,chatbot上实现的定时,语音助手不一定会有响应。因为,我目前语音助手的代码设置了长时间无应答会结束对话,这样一来,chatbot定时提醒的触发就不会被语音助手获悉。那怎么让语音助手也具有定时提醒功能呢? 我最后选择的方法是用threading.Time

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费