第一视角下的动作图像生成，Meta等提出LEGO模型

周大发表于 2024-10-2 14:37:02

Meta与佐治亚理工等机构合作开发的LEGO模型，通过结合大语言模型与扩散模型，实现了第一视角动作图像生成。该模型利用GPT-3.5生成详细动作描述，并通过微调丰富动作细节，显著提升了图像生成质量和准确性。实验结果显示，LEGO模型在Ego4D和Epic-Kitchens数据集上表现优异，超60%用户认为其生成图片最符合需求。
来源：https://mp.weixin.qq.com/s/ipzFgKN5dROsMuCNblHnhA

页: [1]

靠浦ai课堂's Archiver

第一视角下的动作图像生成，Meta等提出LEGO模型