自动驾驶圈又㕛叒叕“出”大事了!
今天一大早,在朋友圈和各种群里刷到这样一条新闻:DriveGPT来了!
DriveGPT到底是个啥?百度搜一下。
(相关资料图)
这才一天,已经爆了!百度搜索结果就冲到700万了。然后是谷歌和Bing:
然后注意到这家外媒(这是火出汉语圈了呀)
看热闹怎么能不去Twitter……这里竟然也有人在讨论DriveGPT
居然这位大叔圈了马斯克,说:
有人比你们更快啊!
言外之意,这不是挑事么?
当然,估计有网友也想看看马斯克同志能回个信~手动狗头
吃了半天瓜,还是要言归正传,简单回顾下这个事情。
首先,毫末是谁?
这家公司全名是毫末智行,是中国一家刚刚成立三年的自动驾驶独角兽公司,有乘用车辅助驾驶和末端物流自动配送车等业务。在短时间内,就做到了中国量产自动驾驶第一名的位置。
这家公司很努力,两年间就搞出了中国第一个自动驾驶数据智能体系,而且发展速度还特别快。
稍微关注这家公司的话,基本就是每三四个月迭代一次技术版本,交的作业还特别亮眼~
比如去年4月,毫末就在行业率先喊出了“重感知”的路线,其实就是特斯拉技术路线的中国版。不过,毫末的感知方案里还保留了“激光雷达”,搞一个双冗余。
里面大篇幅提到了“Transformer”、“BEV感知”,这些概念后面承包了整个自动驾驶行业的新闻稿。
那么,DriveGPT又是啥?
DriveGPT,按毫末官方的说法,就是一个自动驾驶认知大模型,具体的叫法就是“人驾自监督认知大模型”。
字每个都认识,连起来就不知道啥意思了吧。
简单来说,实现自动驾驶,分这么三步:
感知(看见东西)、认知(预测、决策、规划)、控制执行
以往行业的关注点都是在感知层面,因为感知这一块就已经够难搞了,认知层面其实是更加难搞。
很多自动驾驶公司谈到这块都会隐晦不言。
那不如看看毫末是怎么说的吧
当前自动驾驶认知主要是靠传统规则定义的算法来做决策规划。但是这一方法进入瓶颈期,难以取得图谱。特别是在马上到来的复杂城市场景。
所以,毫末就开始尝试使用人驾自监督大模型的方式来提升决策效果。
那么,毫末是怎么做的呢?——大致也分了三阶段:
第一个阶段,引入个别场景的端到端的模仿学习,直接拟合人驾行为;
第二个阶段,通过认知大模型,引入海量正常人驾数据,通过Prompt的方式实现认知决策的可控、可解释;
第三个阶段,也就是毫末认知决策算法现在处于的阶段,引入真实接管数据,并在大模型中开始使用RLHF(人类反馈强化学习)算法,让模型学习人驾接管数据。
为啥要开始采用RLHF算法呢?
毫末CEO顾维灏说,用大模型去拟合海量人驾数据,会导致训练出的模型倾向于拟合平均值,而非最优值,也就是练出一个普通司机的水平。
所以,第三阶段,引入这个和ChatGPT采用同样强化学习的RLHF技术,就是要去学习那些人类更好的驾驶策略,来优化自己的算法。
也就是说,当毫末认知决策算法通过拟合、学习人驾数据,具有一定的驾驶决策能力后,毫末构建了一个自动驾驶决策的奖励模型(reward model),从而在各种规划场景情况下做出最优的决策。
所以,毫末CEO顾维灏才会在今年1月AI DAY上,提到自家的认知大模型和ChatGPT思路不谋而合。现在想来,当时的判断确实是比较有前瞻性的!
事实上,毫末最早在行业就布局研究Transformer大模型,现在又提前将ChatGPT技术纳入自己的技术体系
所以,为啥是毫末搞出了DriveGPT!
其实就是天下武功,唯快不破!
那DriveGPT到底有多能打呢?恐怕还得期待今年4月份毫末的发布。
如果说,从毫末DriveGPT里学到点什么经验呢?
我们可以从这个图里找到答案!
每一次的技术飞跃,不就是一群技术狂人的孤注一掷吗?
如果说一次技术革命必然有一个确定的结果的话,那恐怕这个世界会非常的无聊。
但正是一些难以企及的目标和一些敢为人先的勇气,就会鞭策我们全力奔跑。
取乎其上,得乎其中……古人把生存的智慧早就写好了。