特斯拉自动驾驶的“通用世界模型”和视频生成技术｜Ashok23年CVPR主题演讲

瓦砾村夫

17 Mar 202419:54

Summary

TLDR特斯拉Autopilot团队的Asha Kisami介绍了他们的自动驾驶技术进展。目前，全自动驾驶Beta软件已在美国和加拿大的约400,000辆车上运行，行驶里程超过5亿英里。他们的自动驾驶堆栈主要基于八个摄像头，提供360度全方位覆盖，利用现代机器学习技术，尤其是神经网络，来处理转弯、交通灯和与其他物体的互动。他们还开发了一种基于占用网络的3D空间预测技术，以及预测未来行人和车辆流动的模型。特斯拉正在构建一个通用的世界模型，通过大量视频剪辑和先进的生成模型来训练，以实现更准确的未来预测。此外，特斯拉还在开发Dojo，一种定制的训练硬件，以支持这些基础模型的大量计算需求。

Takeaways

🚗 特斯拉全自动驾驶(FSD)软件已向美国和加拿大购买此服务的约400,000辆车辆推出，这些车辆已累计行驶约2.5亿英里。
📸 特斯拉FSD的核心是一个基于现代机器学习的系统，主要依赖车辆上的8个摄像头提供的360度全景视图，不同于传统的依赖本地化地图和雷达的自动驾驶技术。
🧠 特斯拉的自动驾驶技术将多个自驾驶组件集成到神经网络中，包括使用大型变压器模型进行空间和时间注意力的计算。
🛣️ 特斯拉开发了一种状态-of-the-art的生成模型，用于实时预测道路线和移动物体，这些预测不仅仅基于摄像头视频流，还包括车辆自身的运动信息和导航指令。
🔮 特斯拉正在开发一种更通用的世界模型，这个模型能够基于过去的数据和条件预测未来的状态，这可能会对自动驾驶技术产生重大影响。
🎓 该技术的成功依赖于特斯拉强大的自动标记系统，该系统可以处理来自全球范围内数百万视频片段的数据，以构建精确的3D场景重建和标签。
🚦 特斯拉的自动标记技术能够无需人工干预地准确标记交通灯、道路线等关键信息，极大地提高了数据处理效率和精度。
🌍 特斯拉的技术不仅限于汽车，还旨在跨越不同的机器人平台，展现了强大的通用性和适应性。
💻 为了支持这些先进模型的训练，特斯拉正在成为全球计算能力领先者，开发了名为Dojo的自定义训练硬件。
🤖 特斯拉强调其技术的核心是建立一套基础模型，这套模型能够理解世界上的各种复杂情况，并且这些模型将在接下来的12到18个月内进一步发展。

Q & A

特斯拉自动驾驶团队的核心研究方向是什么？
-特斯拉自动驾驶团队的核心研究方向是构建能够实现自动驾驶和机器人自主性的基础模型，这包括通过摄像头实现360度全方位覆盖的现代机器学习堆栈。
特斯拉FSD Beta软件已经覆盖了多少辆车辆？
-特斯拉FSD Beta软件已经覆盖了大约400,000辆车辆。
特斯拉自动驾驶技术与传统自动驾驶技术有什么不同？
-特斯拉自动驾驶技术主要依赖摄像头，而不是传统的定位、地图和雷达超声波等传感器，通过现代机器学习技术实现自动驾驶功能。
什么是占用网络，它在自动驾驶中扮演什么角色？
-占用网络是一种预测3D空间中某个体素是否被占用的模型，它可以代表任意场景，无需特定的标签或本体论设计，是特斯拉自动驾驶技术中的一个关键部分。
特斯拉如何处理车道的预测和表示？
-特斯拉使用最新的生成模型技术，如自回归变换器，以GPT类似的方式模型化车道，并将它们表示为向量，如多边形线、样条线或多项式，以便在实时中容易使用。
特斯拉是如何实现对移动对象的理解和预测的？
-特斯拉通过综合考虑摄像头视频流和其他输入（如自我运动学和导航指令）来实现对移动对象的全面理解和预测，包括对象的形状、未来运动等信息。
特斯拉的自动标记管道是如何工作的？
-特斯拉的自动标记管道通过汇总多辆特斯拉车辆上传的视频片段和其他数据，重建完整的3D场景，并在此基础上使用更多神经网络自动生成标签。
特斯拉如何处理紧急刹车情况？
-特斯拉系统可以自动检测潜在的撞车风险，如忽略停车标志的车辆或横穿车道的车辆，并自动刹车以避免碰撞。
特斯拉的未来世界模型将如何帮助自动驾驶技术？
-特斯拉正在开发一个能够基于过去的情况预测未来并模拟不同未来情景的神经网络世界模型，这将大大增强自动驾驶系统处理复杂场景和未知变量的能力。
特斯拉如何确保有足够的计算资源来训练其基础模型？
-特斯拉正在生产自定义的训练硬件Dojo，并计划成为全球计算平台的领导者，以确保有足够的计算资源来训练和实验其基础模型。