第一视角下的动作图像生成,Meta等提出LEGO模型

[复制链接]
周大 发表于 2024-10-2 14:37:02 | 显示全部楼层 |阅读模式
Meta与佐治亚理工等机构合作开发的LEGO模型,通过结合大语言模型与扩散模型,实现了第一视角动作图像生成。该模型利用GPT-3.5生成详细动作描述,并通过微调丰富动作细节,显著提升了图像生成质量和准确性。实验结果显示,LEGO模型在Ego4D和Epic-Kitchens数据集上表现优异,超60%用户认为其生成图片最符合需求。
来源:https://mp.weixin.qq.com/s/ipzFgKN5dROsMuCNblHnhA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-18 07:12 , Processed in 0.314099 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表