GPT-4V的自动驾驶梦想：它能否在真实的道路上安全驾驶？一文给出了答案

周大发表于 2023-11-21 16:34:13

一论文对 GPT-4V 在自动驾驶场景下的能力进行了难度递增的测试，从情景理解到推理，再到作为真实场景驾驶员的连续判断和决策。

情景理解能力：GPT-4V 可以识别驾驶时的时间、天气、交通信号灯和标志，以及其他交通参与者的位置和行为。它还可以处理不同类型的传感器输入，如 2D 图像、3D 点云、V2X 设备和模拟软件的图像。

推理能力：GPT-4V 可以处理复杂的 corner case，利用多视角图像和时间序列图像实现对环境的全面感知，并能推断出交通参与者的动机和意图。它还可以利用地图导航 app 的信息来辅助驾驶决策。

驾驶能力：GPT-4V 可以在不同的驾驶场景中做出决策，如离开停车场、通过十字路口等，并能解释其选择的原因。

局限性总结：GPT-4V 在一些任务中表现不佳，如区分左右、信号灯识别、视觉定位和空间推理。这些问题可能源于模型的训练数据、空间推理能力或二维图像输入的局限性。

原文：https://mp.weixin.qq.com/s/-Ih-PkGvPoVWezhI2djKyQ

页: [1]

靠浦ai课堂's Archiver

GPT-4V的自动驾驶梦想：它能否在真实的道路上安全驾驶？一文给出了答案