斯坦福大学开发多模态语言模型，实现自然动作生成

周大发表于 2024-12-18 14:59:12

斯坦福大学团队开发了一种多模态语言模型，能够同时接受音频和文本输入，生成自然流畅的动作，并支持动作编辑。该模型通过两阶段训练流程，包括预训练和指令遵循后训练，表现出强大的泛化能力。实验结果显示，该模型在伴语手势生成和其他任务上优于现有方法，尤其在数据有限的情况下表现突出。
来源：https://mp.weixin.qq.com/s/W8wS87YlW_z9rsDfnmtDLQ

页: [1]

靠浦ai课堂's Archiver

斯坦福大学开发多模态语言模型，实现自然动作生成