周大 发表于 2024-12-18 14:59:12

斯坦福大学开发多模态语言模型,实现自然动作生成

斯坦福大学团队开发了一种多模态语言模型,能够同时接受音频和文本输入,生成自然流畅的动作,并支持动作编辑。该模型通过两阶段训练流程,包括预训练和指令遵循后训练,表现出强大的泛化能力。实验结果显示,该模型在伴语手势生成和其他任务上优于现有方法,尤其在数据有限的情况下表现突出。
来源:https://mp.weixin.qq.com/s/W8wS87YlW_z9rsDfnmtDLQ
页: [1]
查看完整版本: 斯坦福大学开发多模态语言模型,实现自然动作生成