竞争力榜单!大模型加持高阶智驾,TOP10数据服务提供商

本文主要是介绍竞争力榜单!大模型加持高阶智驾,TOP10数据服务提供商,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

随着高阶智驾在乘用车前装赛道的规模化部署,过去仅仅依靠L4级自动驾驶生存(零散项目)的数据服务公司,有了全新的可持续商业化落脚点。

无论是小模型,还是大模型,都没有逃脱一个定律:就是依赖高质量的数据训练;同时,从数据采集、清洗、标注和质检,则形成一个完整的数据服务闭环工具链。

比如,2006年发布的ImageNet,就是机器学习社区最流行的图像分类基准数据集,包含超过1400万张标注图像,也成为评估计算机视觉模型在视觉感知能力的试金石。

而随着CNN卷积神经网络在汽车智能驾驶领域的导入,带动数据服务领域的需求提升。CNN训练需要大量的标注数据集,足够的多样性和覆盖范围,以保证网络的泛化能力。

而随着近年来,BEV+Transformer代表的大模型架构在智能驾驶领域的落地,对数据量提出了更高的要求。

比如,毫末智行在业内发布的首个自动驾驶生成式大模型DriveGPT雪湖·海若,就是基于自动化标注能力,解决数百亿4D Clips的不菲标注成本。而这种能力的背后,需要从下到上的经验。

图片

这在行业内也有先例。比如,百度智能云「云智一体」战略和百度在自动驾驶领域的十年研发经验,从而可以实现提供全流程配套产品和服务,助力智能驾驶技术的快速落地。

这背后,百度智能云数据众包覆盖2D/3D超过10种不同类型的标注任务,累计在自动驾驶领域标注2D/3D数据1亿帧以上。同时,还有业内领先的智能辅助标注技术和自动质检算法。

公开信息显示,大模型预训练阶段的数据需求和深度学习技术路线下的传统训练数据需求,两者在形态上基本一致,但在数据规模、质量、来源等方面存在较大的差异。

图片

比如,在智能驾驶赛道,大模型通常意味着主要通过量产车进行“影子模式”的数据采集,而并非此前小规模训练来自的定向采集,涉及到海量高质量数据来源。同时,万亿量级的规模,也远超传统模型的10亿量级。

同时,由于大模型预训练阶段的原始数据规模更大,相比于初期阶段的纯人工标准,更加注重数据清洗的工程化能力(半自动、自动化甚至是AI处理),这对都整体系统提出了更高要求。

这也意味着,数据标注等服务的门槛进一步提升;目前,在汽车智能驾驶赛道,以标注业务为代表的数据服务提供商,主要有几种不同的角色。比如,互联网AI巨头、纯数据标注公司(部分语音标注延伸业务)、工程服务平台以及全链路数据服务平台等。

比如,以百度智能云数据众包、海天瑞声为代表的厂商,是行业内为数不多具备甲/乙级测绘资质的企业,意味着,可以参与全流程的合规智能驾驶数据采集、标注等业务能力。

其中,排名市场竞争力首位的百度智能云数据众包,背靠百度的甲级测绘资质,自建采集车队,在原始数据采集、数据处理/标注、数据交付全流程实现合规处理,保证数据安全。

依托百度强大的技术积累与数据众包多年的服务经验,百度智能云数据众包为车企提供覆盖数据采集、数据标注、数据管理、模型训练、仿真测试环节的自动驾驶系统研发全链条所需的数据服务及工具平台。

此外,百度智能云的全链路数据解决方案,既能为企业提供全套数据运营服务及工具,也可以通过独立解耦的服务模式,为企业多样化的数据需求提供技术支撑。

图片

百度智能云全链路数据解决方案

同时,和其他同行相比,借助百度大模型的技术能力,百度智能云推出了智搜引擎模块,具有高效的数据检索和样本管理优势,提供低成本、高效率、高质量、规模化、自动化的数据挖掘服务。

特别是针对特殊场景和长尾有效场景,智搜引擎均可以快速从海量数据库中筛选所需要案例并进行相应标注,以更高的效率和更低的成本进行数据资源获取及数据价值挖掘。

,时长00:10

智搜引擎的以图搜图关键操作步骤演示

截至2023年6月底,排名第二的海天瑞声已服务超过70家智能驾驶领域客户,覆盖传统车企、新势力车企、智能驾驶技术公司等。目前公司也在该领域进行持续的客户拓展,进一步加固客户储备。

目前,海天瑞声围绕智能驾驶领域的市场需求,推出了多款服务自动驾驶数据生产的工具,比如,专为自动驾驶场景设计的全栈式数据标注平台“DOTS-AD自动驾驶标注平台”。

此外,作为人工智能数据领域的A股科创板上市公司,海天瑞声在持续研发投入及企业经营方面,相比于大部分中小型公司优势明显。

比如,该公司今年开始投入基础研发并进行大模型训练、调优及评测服务等的技术研究,将数据服务拓宽范围至预训练以及模型评测阶段。

排名第三的亮道智能,则是唯一一家深度布局智能驾驶相关工程化技术的公司,今年正式对外发布感知训练数据解决方案,包括全套欧洲数据采集解决方案、智能数据标注生产服务、一站式大数据管理平台等。

目前,该方案已获得多个主机厂智能车型量产项目订单。其中,自研智能数据处理工具链,基于自动化标注算法,可实现数据95%自动标注;半自动数据编辑平台,可快速检索定位错误,对自动化标注结果进行修正。

在标注特色方面,LDEditor工具可以标注激光雷达点云数据,以及点云与图像融合数据,同时针对连续帧数据标注的优化,极大提高标注效率和准确率,并满足主机厂的严格数据质量要求。

此外,一些新的企业,也在近几年陆续进场。

原因是智能驾驶尤其是高阶智驾正在成为整车数据采集、标注和闭环应用的主赛道。相比于传统的L2级辅助驾驶,NOA及后续L3级自动驾驶的落地,对数据服务提出了更多的需求。

比如,标贝数据,从传统的语音数据处理,逐步进入智能驾驶赛道。该公司自主研发的3D标注工具,支持23D融合标注,通过3D物体标注映射2D结果,同时可单独针对2D标注。

从Momenta离开创业的恺望数据,推出的“数据标注产线”则是实现了在持续提升数据生产规模化的同时,减少成本20%-50%。

同时,从去年开始,恺望数据还推出了人才培训计划,与高职院校进行合作,希望培养有基础标注知识的人才。这其中,还有很关键的原因是,传统的数据标注等服务主要服务于通用AI,对于汽车行业的理解和要求,普遍认知不高。

高工智能汽车研究院最新发布数据显示,2023年1-9月,中国市场(不含进出口)乘用车前装标配(软硬件)NOA交付新车37.73万辆,同比上年同期增长151.20%。

不过,在前装搭载率方面,也仅仅不到3%(2.55%)。这意味着,大量车企和Tier1对于数据服务的需求,还处于早期阶段,整体市场潜在空间依然巨大。

这篇关于竞争力榜单!大模型加持高阶智驾,TOP10数据服务提供商的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/612730

相关文章

Java的IO模型、Netty原理解析

《Java的IO模型、Netty原理解析》Java的I/O是以流的方式进行数据输入输出的,Java的类库涉及很多领域的IO内容:标准的输入输出,文件的操作、网络上的数据传输流、字符串流、对象流等,这篇... 目录1.什么是IO2.同步与异步、阻塞与非阻塞3.三种IO模型BIO(blocking I/O)NI

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区?1.2 分区的类型1.3 分区的优点1.4 分

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

Redis 中的热点键和数据倾斜示例详解

《Redis中的热点键和数据倾斜示例详解》热点键是指在Redis中被频繁访问的特定键,这些键由于其高访问频率,可能导致Redis服务器的性能问题,尤其是在高并发场景下,本文给大家介绍Redis中的热... 目录Redis 中的热点键和数据倾斜热点键(Hot Key)定义特点应对策略示例数据倾斜(Data S

Android Kotlin 高阶函数详解及其在协程中的应用小结

《AndroidKotlin高阶函数详解及其在协程中的应用小结》高阶函数是Kotlin中的一个重要特性,它能够将函数作为一等公民(First-ClassCitizen),使得代码更加简洁、灵活和可... 目录1. 引言2. 什么是高阶函数?3. 高阶函数的基础用法3.1 传递函数作为参数3.2 Lambda

Python实现将MySQL中所有表的数据都导出为CSV文件并压缩

《Python实现将MySQL中所有表的数据都导出为CSV文件并压缩》这篇文章主要为大家详细介绍了如何使用Python将MySQL数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到... python将mysql数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到另一个

SpringBoot整合jasypt实现重要数据加密

《SpringBoot整合jasypt实现重要数据加密》Jasypt是一个专注于简化Java加密操作的开源工具,:本文主要介绍详细介绍了如何使用jasypt实现重要数据加密,感兴趣的小伙伴可... 目录jasypt简介 jasypt的优点SpringBoot使用jasypt创建mapper接口配置文件加密

使用Python高效获取网络数据的操作指南

《使用Python高效获取网络数据的操作指南》网络爬虫是一种自动化程序,用于访问和提取网站上的数据,Python是进行网络爬虫开发的理想语言,拥有丰富的库和工具,使得编写和维护爬虫变得简单高效,本文将... 目录网络爬虫的基本概念常用库介绍安装库Requests和BeautifulSoup爬虫开发发送请求解