毫末AI DAY的智驾弹药:上有「世界模型」,下有3000元方案

2023-10-12 21:20

本文主要是介绍毫末AI DAY的智驾弹药:上有「世界模型」,下有3000元方案,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

作者 | 张祥威

编辑 | 德新

6a78ac2c959a51578e7b7d58ef007b5c.jpeg

「我们的感知能力可以说能做到识别万物了。」毫末智行在第九届毫末AI DAY上抛出这一豪言。

识别万物的底气,源于毫末的DriveGPT自动驾驶大模型引入了通用语义大模型,可以对交通参与者者、道路环境等做到全面感知。

今年是智驾获得公众接受度的关键节点

而明年,随着技术门槛更高的「无图」城市NOA落地,头部智驾头部玩家大概率会迎来收获期。毫末在自动驾驶大模型上的诸多准备,正是为迎接大战。

不止有进化的大模型,毫末还带来三款高级辅助驾驶产品HP170、HP370、HP570,剑指无图城市NOH、记忆行车等大热功能。

当下,毫末智驾方案已经在山海炮HEV版、新摩卡Hi-4S等车型上搭载,明年一季度,搭载毫末城市NOH功能的魏牌蓝山将量产交付

智驾大规模普及的时刻就要到来,毫末开始加快脚步。

与众多公司的科技日如特斯拉AI  DAY、蔚来NIO DAY相比,这届毫末AI DAY的既有前沿技术进展的分享,又有极具竞争力的落地方案,有诸多看点。


一、克制的智驾方案

AI DAY上,毫末一口气推出三款智驾方案产品,共同点是「极致性价比」。

  • HP170:算力5 TOPS,传感器方案标配1个前视相机、4个鱼眼相机、2个后角雷达、12个超声波雷达,支持选装1个前视雷达和2个前角雷达。
  • HP370:算力32 TOPS,传感器方案标配2个前视相机、2个侧视相机、1个后视相机、4鱼眼相机、1个前雷达、2个后角雷达、12个超声波雷达,支持选装2个前角雷达。
  • HP570:算力可选72 TOPS和100 TOPS两款芯片,传感器方案标配2个前视相机、4个侧视相机、1个后视相机、4个鱼眼相机、1个前雷达、12个超声波雷达,支持选配1颗激光雷达。

d9fd5659565346bfe8848ec7fbad16c8.jpeg

对比同行,这几套方案有以下特点:

首先,更低的芯片算力。

毫末采用基于5TOPS的芯片算力平台实现高速NOA,而实现城市NOA的方案,最高只需要要100TOPS的算力,比主流城市NOA智驾方案所需的算力都要低。

据HiEV了解,三套方案中的芯片分别为地平线征程3、TI的TDA4,以及高通Ride的SA8650芯片,这种高中低采用不同芯片方案的策略,也为量产搭载更多款车型提供了条件。

主流的智驾方案中,实现城市NOA通常需要两颗英伟达Oin X芯片,算力为508TOPS,少数玩家如智己、腾势,可以基于单颗英伟达Orin X芯片,算力为254TOPS。当然,更低算力的要属特斯拉的FSD,仅需144TOPS。

更低算力,意味着需要对算力有更极致地有效利用,同时要强化算法的能力。用更低的算力实现城市NOA,毫末的智驾技术水准和市场野心可见一斑。

其次,在传感器规模上也相对克制。

相较行业主流方案,毫末的智驾方案数量会更少一些。以搭载高阶智驾全享包的腾势N7作对比,这款车搭载33个传感器:

2个激光雷达、5个毫米波雷达、2个前视摄像头、4个环视摄像头、12个超声波雷达、4个侧视摄像头、1个后视摄像头、1个OMS摄像头、1个DMS摄像头、1个DVR摄像头。

毫末可以实现高阶智驾同等功能的HP570,传感器数量为24个,其缩减的部分是,方案中减少了毫米波雷达,而且激光雷达也并非标配。

最后,由于更低的算力的芯片,以及克制的传感器规模,还带来第三个特点,更低的BOM成本。

3ee01a818d4bde4d98eb08a98b0413f6.jpeg

毫末智行董事长张凯认为,「让中阶智驾便宜好用,让高阶智驾好用更便宜,是毫末未来一年提交给中国智驾市场的答卷。」

毫末的三款智驾产品,最低为3000元级别,最高的高阶自动驾驶方案大概8000元级别,这与现在动辄上万的智驾选装包相比,无疑颇具杀伤力。

HiEV了解到,毫末的最新方案中,HP170已经定点,配合整车开发和上市的节奏,预计会在明年初上市;HP550预计在明年上半年蓝山的下一代车型搭载上市,支持记忆行车和记忆泊车;HP370 预计明年Q4量产,而更新一代的HP570则会稍晚一些。

长线看,毫末的产品会全面平台化,提供高中低全系的智驾方案。

祭出成本更低的杀招,那么毫末的产品技术实力究竟如何呢?


二、可实现无图城市NOH,2024落地百城

一家公司的智驾能力,既体现在产品的上车规模和行驶里程,也体现在技术能够达到的广度和上限。

毫末的智驾方案HPilot产品已经搭载超过20款车型,用户辅助驾驶行驶里程突破8700万公里。由于起步不如蔚小理早,用户辅助驾驶行驶里程规模还不像对方那么庞大,但从搭载车型上,搭载车型规模是远超蔚小理的。

14cb2b5ce211df419f048b0b4a36444f.jpeg

毫末的技术能力能力广度和上限,体现在可实现的功能上。

顾维灏说,毫末可以做到在城市道路中时速最高70公里在50米的距离下,就能检测到大概35cm高的小目标障碍物,可以做到100%的成功绕障或刹停

下面一段视频,可见毫末智驾方案的技术能力。‍‍

面向L4的小魔驼,在城市开放道路进行无人驾驶时,也已经快于普通人骑自行车的速度。在行驶安全和通行效率上,均已达到商用状态

与那些从基于高精地图转为去高精地图方案的玩家相比,毫末一早确立了重感知轻地图的技术路线。

基于高精地图的技术路线,开头容易,之后要在不同城市落地时,会面临泛化挑战。而重感知轻地图的好处是,开始难,但越走越快,能完成更快的城市落地。

毫末的高速无图NOH功能,可以实现高速、城市快速路上的无图NOH,短距离记忆泊车等功能,并获E-NCAP 5星AEB的高安全标准认证

此外,毫末还可实现高速、城快,以及城市内的记忆行车,免教学记忆泊车、智能绕障等功能。高阶方案还支持无图记忆行车和泊车。 ‍ ‍ ‍ 

城市全场景无图NOH,则可实现全场景城市无图NOH、全场景辅助泊车、全场景智能绕障、跨层免教学记忆泊车等功能。

早期行业主打的智驾功能是高速NOA,之后是城市NOA,并在研发城市NOA时同步去掉高精地图,逐渐迈向今天的 去高精地图的“无图“阶段

眼下能做到无图的,仅有小鹏、华为、蔚来等少数几家。谁具备无图能力,基本上便是智驾第一梯队成员。

毫末三款智驾产品的推出,意味着其智驾方案出手即高点,广度覆盖了当下热门功能,上限与头部玩持平,让自身站位来到第一梯队。按照计划,毫末的城市NOH落地目标是100城

以上这些是毫末在乘用车NOH上的布局,会为明年智驾的普及大年做好准备。而之所以能在成立后短短几年做到无图等水平,离不开其核心,也是近几届AI DAY上常提到的自动驾驶大模型。

 

三、DriveGPT进化,可识别万物

38b935c0a9062033f3d63f85d387d9c9.jpeg

自动驾驶其实是让汽车学习人类驾驶,这需要感知道路上的各类交通参与者,处理真实世界中无穷无尽的突发状况,最终顺利抵达目的地。

行业惯常做法,是在云端建立一个自动驾驶生成式大模型,然后通过剪枝、蒸馏的方式,把云端大模型的能力下放到车端,从而让汽车像人类司机一样开车

9a0ad314c88b86495349653a8e068f39.jpeg

与人类大脑一样,自动驾驶生成式大模型也要不断进化。

今年的CVPR 2023,特斯拉和英国自动驾驶公司Wayve等均展示了自动驾驶大模型的新进展。

目前,特斯拉可以利用大模型生成连续视频,打造World Model即世界模型。

Wayve也在朝类似方向努力,其自动驾驶大模型GAIA-1,在通过持续扩展后已经拥有90亿个参数,可以生成驾驶场景视频,描述场景以及做出预测。

上月,Wayve还推出了视觉语言动作模型LINGO-1,可用于描述自动驾驶的行为和推理。

这些做法,直白地讲就是从原来仅学习文本,开始向看图、视频学习,从而与自动驾驶不断地更好融合。

根据毫末官方数据,目前团队已筛选出超过100亿帧互联网图片数据集,480万包含人驾行为的自动驾驶4D Clips。

毫末将自动驾驶分为三个时代,其中,自动驾驶3.0时代需要1亿公里。目前,用户辅助驾驶行驶里程已经达到8700多万公里,预计到年底可达到这一目标。

随着数据规模的增加,也为了更好地进入3.0时代,自动驾驶大模型需要不断进化。

感知模型中引入图文多模态大模型,以完成4D向量空间到语义空间的对齐,做到可以具备「万物识别」的能力,毫末将其称之为自动驾驶语义感知大模型

基于自动驾驶语义感知大模型,毫末还会通过构建驾驶语言来描述驾驶环境和驾驶意图,再结合导航引导信息和自车历史动作,借助LLM大语言模型做出驾驶决策。

2e3584e26cb90b4f7aba6c0656eb398b.jpeg

方向上,毫末正在沿着与特斯拉、Wayve同样的方向,让自动驾驶大模型拥有更多的学习进化途径,这相当于在建立自己的世界模型。

这一过程中,大模型的进化发生在多个方面:

早期,Transformer是用于自然语言处理(NLP)的大模型,主要应用于文本。之后Vision Transformer 又称ViT出现,主要用于图像。

直到后来,又出现Swin transformer,一种由微软提出的视觉领域的Transformer大模型。

在ViT图像大模型的基础上,Swin transformer进一步对图片进行图像分割,可以用于处理多视觉任务,更好地完成CV领域的目标检测和语义分割任务。

过去两年,毫末的视觉大模型的进化,与行业趋势一致,其CV Backbone先是从CNN模型全面切换到ViT,并又在今年全面升级到Swin transformer。

训练大模型方面,行业早期主要基于人工标注的单帧图片有监督,后来结合4D自动标注,再进一步升级到基于自动标注的4D Clip的有监督训练,到今天基于大规模数据的自监督学习训练,从而可以轻松吃下上百亿帧图片。

在毫末最新的模型中,已经可以采用视频生成的方式,通过预测生成视频下一帧的方式来构建4D表征空间,使CV Backbone学到三维的几何结构、图片纹理、时序信息等全面的物理世界信息。

以上这些动作,主要解决了大模型领域的数据采集和标注效率低、泛化能力差等问题,解决的其他问题还包括:

  • 怎么做到高效、低成本地从上百亿的数据中,筛选出几万个有效数据;
  • 怎么做到从闭集到开集,可以标注任意物体;
  • 如何高效的场景迁移;
  • 怎样让驾驶行为具备可解释性等等。

毫末将自动驾驶分为三个时代,其中,自动驾驶3.0时代需要1亿公里。目前,用户辅助驾驶行驶里程已经达到8700多万公里,预计到年底可达到这一目标

总体上,这届AI DAY为毫末迈过自动驾驶3.0时代提供了更多弹药支持,从云端到车端做了充分准备。上有愈发聪明的自动驾驶大模型,下有性价比十足的智驾方案,毫末已经做好了明年智驾的卡位。

这篇关于毫末AI DAY的智驾弹药:上有「世界模型」,下有3000元方案的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/198527

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

无人叉车3d激光slam多房间建图定位异常处理方案-墙体画线地图切分方案

墙体画线地图切分方案 针对问题:墙体两侧特征混淆误匹配,导致建图和定位偏差,表现为过门跳变、外月台走歪等 ·解决思路:预期的根治方案IGICP需要较长时间完成上线,先使用切分地图的工程化方案,即墙体两侧切分为不同地图,在某一侧只使用该侧地图进行定位 方案思路 切分原理:切分地图基于关键帧位置,而非点云。 理论基础:光照是直线的,一帧点云必定只能照射到墙的一侧,无法同时照到两侧实践考虑:关

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

高效+灵活,万博智云全球发布AWS无代理跨云容灾方案!

摘要 近日,万博智云推出了基于AWS的无代理跨云容灾解决方案,并与拉丁美洲,中东,亚洲的合作伙伴面向全球开展了联合发布。这一方案以AWS应用环境为基础,将HyperBDR平台的高效、灵活和成本效益优势与无代理功能相结合,为全球企业带来实现了更便捷、经济的数据保护。 一、全球联合发布 9月2日,万博智云CEO Michael Wong在线上平台发布AWS无代理跨云容灾解决方案的阐述视频,介绍了

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

揭秘世界上那些同时横跨两大洲的国家

我们在《世界人口过亿的一级行政区分布》盘点全球是那些人口过亿的一级行政区。 现在我们介绍五个横跨两州的国家,并整理七大洲和这些国家的KML矢量数据分析分享给大家,如果你需要这些数据,请在文末查看领取方式。 世界上横跨两大洲的国家 地球被分为七个大洲分别是亚洲、欧洲、北美洲、南美洲、非洲、大洋洲和南极洲。 七大洲示意图 其中,南极洲是无人居住的大陆,而其他六个大洲则孕育了众多国家和

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了