斯坦福大学吴佳俊团队开发了IKEA Video Manuals数据集,涵盖36种IKEA家具的3D模型、组装说明书和实际组装视频,共1120个子步骤。该数据集首次实现了组装指令在真实场景中的4D对齐,为机器人学习组装提供了重要基准。研究团队通过6D Pose追踪,精确记录每个部件的空间轨迹,建立了视频帧、说明书和3D模型之间的密集对应关系。数据集基于IKEA-Manual和IAW两个数据集,应对了真实视频带来的多种挑战,如部件遮挡、相似部件识别等。团队还设计了多个核心任务,评估AI系统在家具组装和空间推理方面的能力,揭示了当前AI模型的局限性。
来源:https://mp.weixin.qq.com/s/uiGQ03_HbZfDvhU9S2Qwjw