GPT-4V的自动驾驶梦想:它能否在真实的道路上安全驾驶?一文给出了答案
一论文对 GPT-4V 在自动驾驶场景下的能力进行了难度递增的测试,从情景理解到推理,再到作为真实场景驾驶员的连续判断和决策。情景理解能力:GPT-4V 可以识别驾驶时的时间、天气、交通信号灯和标志,以及其他交通参与者的位置和行为。它还可以处理不同类型的传感器输入,如 2D 图像、3D 点云、V2X 设备和模拟软件的图像。
推理能力:GPT-4V 可以处理复杂的 corner case,利用多视角图像和时间序列图像实现对环境的全面感知,并能推断出交通参与者的动机和意图。它还可以利用地图导航 app 的信息来辅助驾驶决策。
驾驶能力:GPT-4V 可以在不同的驾驶场景中做出决策,如离开停车场、通过十字路口等,并能解释其选择的原因。
局限性总结:GPT-4V 在一些任务中表现不佳,如区分左右、信号灯识别、视觉定位和空间推理。这些问题可能源于模型的训练数据、空间推理能力或二维图像输入的局限性。
原文:https://mp.weixin.qq.com/s/-Ih-PkGvPoVWezhI2djKyQ
页:
[1]