【智驾深谈】George Hotz 开源代码复现与分析(80G数据云盘下载)

本文主要是介绍【智驾深谈】George Hotz 开源代码复现与分析(80G数据云盘下载),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!


GeoHot智驾系统开源这件事情还是很多人关注的,也问了很多问题,其中包括渐进式路线的车企,直接L4的互联网企业,很多创业团队和风投。先回答一个问到最多的问题:这代码离实际路上能用还差很多。


  • 对于大公司来讲,车企做渐进式ADAS其实都是工况分解而来,流行使用状态机,深度模型是个黑盒子他们肯定不喜欢。


  • 互联网企业愿意尝试新方法,但这个系统其实还需要在车辆控制方面做大量的改进才能够跟现有系统对标。


  • 对于创业团队来讲,这个系统是个很好的参考,可以学习一下深度学习,以及comma.ai是如何短时间内聚焦并发力赢得投资人青睐的。


  • 而对于风投来讲,要谨慎看待,AI创业团队有的很靠谱,而不靠谱的会特别不靠谱,比如直接用人家代码跑别的数据做展示,不冷静的投资人很可能会被忽悠投一笔。


下面的内容就都是程序啊论文啊代码啊,不感兴趣的可以撤退了。


具体怎么复现


先扯两句倒腾数据的情况,一般对于国外这种项目,下载很大的压缩包,普通人用浏览器、迅雷或者云盘等常规办法是很难快速拿到的,主要原因有两个,一个是直连速度太慢,另一个是往往国外网盘都需要代理访问。因此我一般习惯是在国外临时开一个VPS做中继,具体来讲就是AWS或者随便有海外机房的云服务提供商那里按小时买一个16M带宽主机,反正用一天就销毁了,最后不到五十块,成功拖回到赵师傅在学校的服务器上。有三个倒腾数据的命令值得一提:wget的continue断点续传模式,resync的-P断点续传模式,screen –r把进程丢后台。


具体来讲,先来配置环境,赵师傅的服务器是这样的,所以跑的还挺快。


  • Ubuntu 14.04

  • Python 2.7

  • nVidia Geforce Titan X (12GB Memory)


软件的安装顺序建议Anaconda,tensorflow,keras,具体如下:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


然后在Python中 import tensorflow看看是不是成功了


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

然后赵师傅做了几件事:


  • GeoHot代码:在训练集上train了一个转向控制模型

  • GeoHot代码:在测试集上validate了一下

  • 赵师傅改进:在训练集上train了一个离散分类转向控制模型

  • 赵师傅改进:在测试集上validate了一下


640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

GeoHot原本的转向控制是个回归模型,整个训练大概用了六小时,而回归问题在深度学习中还尚且没有得到彻底解决,因此赵师傅给改了一下变成一个36桶的离散分类问题,softmax没跟loss层整合,分类用的是one-hot。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


上图绿色是驾驶员数据,红色是模型输出数据。从最终的结果来看,两种方式在训练集上都表现不错,但测试集上都不太好。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


主要原因可能是80G数据中有很多低速非典型的数据,会影响训练效果,比如上图中停在路边的例子。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

赵师傅分析了一下九个视频中车速的情况,觉得后续尝试可以专门找车速大于一定阈值的片段,或者把低速模型跟高速模型分开,同时考虑速度和转向的训练。


论文有啥看点


然后哥几个讨论了一下论文,还扯了之前一些相关的工作吧。


首先,Geohot给出了两种在comma.ai数据集上的尝试,第一种是直接从图像回归驾驶员的操作(方向盘转角),第二种是预测(猜测)下一帧时车辆前置摄像头看到的图像。第一个任务一般被称为steering angle prediction,这个任务最早可以追溯到Dean A.Pomerleau在1989年和1992年发表的两篇文章(见下图)。当时还没有使用卷积网,使用的图像输入分辨率也很低,更没有标准的大规模公开数据集。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

2005年Lecun的一项工作试图用卷积网解决这个问题,但是其数据集有以下几点值得改进的地方(以当前的自动驾驶标准看):(1)不公开;(2)不是在公路上拍摄的(off-road)。并且该文章并没有给出严格的定量实验,只是提供了如下的定性结果(蓝色输出,红色真值):


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


综上,总的来说,comma.ai是第一个公开的大规模的有着详细标注的可以用来研究steeringangle prediction的数据集。Geohot的文章给出了一些初步的探索,但并不是其强调的重点。


然后, Geohot的文章主要专注于解决第二个任务,即预测(猜测)下一帧时车辆前置摄像头看到的图像。该系统结合了RNN和GAN。GAN在计算机视觉领域中一般都以反卷网的形式存在,用以生成稠密的输出。Geohot的文章在这个任务上有很强的原创性,但是并没有给出严谨的定量实验,就目前的情况来看,其理论价值大于实用价值。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


最后,关于别人家的工作,除了steering angle prediction(对应下图的behavior reflex)以外,还有两种可能的方式用以学习自动驾驶,一种是把自动驾驶转化为其他的子任务,例如行人和汽车检测、车道线检测、场景语义分割等,在下图中被称为mediated  perception。另一种由princeton vision组提出,在下图中被称为direct perception,可以理解为把自动驾驶拆分为一些语义层级较高的子任务(下下图所示)。此项工作在虚拟的赛车游戏中进行训练,在真实数据集kitti上汇报了有关前车距离的定量实验。


代码核心在哪


最后就是折腾着半夜看了看代码,主要都是李师傅带看。代码中使用了基于tensorflow后台的Keras进行CNN网络的构造。steering回归模型是一个单帧处理的网络,比较简单:


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


使用一个三层卷积网络加两层全链接,输入一幅图像,最后全链接输出要回归的steering角度。如前文所讲到的,这种简单的单帧回归难以对同一场景不同的steering情况进行学习。

 

文章中的generator模型则相对复杂,其中`models/autoencoder.py`定义了GAN网络下的生成网络和判别网络等模块。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


Encoder网络使用了VAE模型,类似于一个卷积回归网络对图像进行基层卷积操作之后,使用全链接构造回归输出,输出结果为VAE编码的mean结果和扰动sigma方差。


生成网络部分比较简单,用全链接将输入的code转换为2Dmap,然后使用Deconv反卷积逐层上采样放大,最终得到生成图像。

 

Discriminator网络也比较简单,卷积层操作后使用全链接回归输出,输出结果为判别结果,中间的隐层结果也一并输出。

 

损失函数都比较直观,可以和原文中的内容进行对应,提一下`kl_loss`的计算:

对于一个N(mean, sigma^2)的分布和N(0, 1)计算KL散度即可得到该式。该式的计算网上有很多资料,比如可参考:https://home.zhaw.ch/~dueo/bbs/files/vae.pdf

 

另外值得一提的是文中`Dis(Gen(Enc(x))`的计算,`Gen(Enc(x))`对应了代码中的


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

其中`Z2`是一个N(0, 1)分布的采样。因为要强制encoder的输出是N(0, 1),且分布中的所有编码都可产生逼真的图像,因此每次训练中生成一个分布中的样本,也即`E_mean + Z2 * E_logsigma`,约束其解码判别结果`D_dec_fake`与`F_dec_fake`逼真。在上面提到的VAE参考资料中,也可以找到这一采样优化方法的相关介绍。


结语


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

人家车也在路上跑了,数据也采集了,输入输出也同步了,代码也开源了,论文也公开了,GitHub回答问题还那么及时,我们也都给放到百度云了,没什么槽点了吧……


文章转自新智元公众号,原文链接

这篇关于【智驾深谈】George Hotz 开源代码复现与分析(80G数据云盘下载)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/483571

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

常用的jdk下载地址

jdk下载地址 安装方式可以看之前的博客: mac安装jdk oracle 版本:https://www.oracle.com/java/technologies/downloads/ Eclipse Temurin版本:https://adoptium.net/zh-CN/temurin/releases/ 阿里版本: github:https://github.com/

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X