行业动态

开云网站：18k个、专为自动驾驶世界模型设计DrivingDojo数据集来了

发布时间：2024-12-10 20:53人气：

　　AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀Kaiyun全站网页的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：；

开云网站：18k个、专为自动驾驶世界模型设计DrivingDojo数据集来了(图1)

　　世界模型被广泛认为是实现通用人工智能的关键技术，其核心能力在于模拟真实世界的动态变化，并为决策提供精准的未来状态预测。在自动驾驶领域，世界模型的应用尤为引人注目。然而，现有数据集在视频多样性和行为复杂性方面的不足，限制了世界模型潜力的全面发挥。为了解决这一瓶颈，中国科学院自动化研究所联合美团无人车团队推出了 DrivingDojo 数据集 —— 全球规模最大、专为自动驾驶世界模型研究设计的高质量视频数据集。该数据集已被 NeurIPS 2024 的 Dataset Track 接收。

开云网站：18k个、专为自动驾驶世界模型设计DrivingDojo数据集来了(图2)

开云网站：18k个、专为自动驾驶世界模型设计DrivingDojo数据集来了(图3)

　　交互：世界模型应具备合理预测动态交互行为的能力。例如，在自动驾驶场景中，系统需要准确预测自车与行人或其他道路使用者之间的交互。除了理解静态环境的变化，更重要的是能够提供动态反馈，以支持系统在复杂场景中的应对。

　　知识：世界模型应具备对环境中世界知识的深刻理解。例如，在自动驾驶场景中，系统需要能够理解红绿灯、升降杆等关键场景元素，以便作出恰当的驾驶决策。然而，仅通过像素级重建是否能准确建模这些知识仍然存在疑问，因此引入语言模型成为提升系统理解能力的关键手段。

　　泛化：世界模型的预测能力应能够扩展到新的未知场景，尤其是各种长尾场景，如稀有事件或极端环境下的驾驶表现。这种泛化能力是确保模型在真实世界中稳定运行的关键。

开云网站：18k个、专为自动驾驶世界模型设计DrivingDojo数据集来了(图4)

　　DrivingDojo 数据集相较于传统的感知数据集，经过精心的挖掘与筛选，更加注重视频多样性的设计。从掉落的水桶、倒下的栅栏，到突然窜出的动物、夜晚的篝火、路上的羊群，包含了海量的长尾驾驶场景，为世界模型的研究提供了坚实的基础。

开云网站：18k个、专为自动驾驶世界模型设计DrivingDojo数据集来了(图5)

开云网站：18k个、专为自动驾驶世界模型设计DrivingDojo数据集来了(图6)

　　DrivingDojo 数据集包含大约 18k 个视频，平均时长约为 20 秒。整个数据集可以划分为三个子集，分别聚焦于驾驶行为、动态交互和世界知识的探索。

　　我们精心构建了一个名为 DrivingDojo-Action 的子集，全面覆盖驾驶操作的多样化场景，呈现纵向与横向行为的均衡分布：

　　除了在静态道路网络环境中进行导航外，建模多智能体之间的动态交互（如并入和让行）也是世界模型的一个关键任务。我们精心挖掘了这一子集，比如并线、会车、被阻挡、超车、被超车。这一子集为世界模型提供了丰富的交互场景，助力其更好地应对复杂的交通环境。

　　不同于感知和预测模型通过将高维传感器输入压缩为低维向量表示，世界模型在像素空间中运行，展现出更强的场景建模能力。这种增强的能力使得世界模型能够有效捕捉开放世界驾驶场景中的复杂动态，例如动物突然横穿马路或货物从车辆后备厢掉落等意外情况。通过在像素层面上的深度理解，世界模型为处理复杂交通情境提供了更可靠的基础。

　　我们提出了运动指令跟随的视频预测任务，这也是世界模型的核心。以往的研究主要依赖于定性观察，而在实际驾驶中，控制精度需要通过定量指标进行评估。由于生成视频中缺少真实轨 Kaiyun全站网页迹，我们采用了 COLMAP 重建方法对生成的轨迹进行重建，从而实现粗略的定量评测。

开云网站：18k个、专为自动驾驶世界模型设计DrivingDojo数据集来了(图7)