斯坦福大学开发多模态语言模型,实现自然动作生成

[复制链接]
周大 发表于 5 天前 | 显示全部楼层 |阅读模式
斯坦福大学团队开发了一种多模态语言模型,能够同时接受音频和文本输入,生成自然流畅的动作,并支持动作编辑。该模型通过两阶段训练流程,包括预训练和指令遵循后训练,表现出强大的泛化能力。实验结果显示,该模型在伴语手势生成和其他任务上优于现有方法,尤其在数据有限的情况下表现突出。
来源:https://mp.weixin.qq.com/s/W8wS87YlW_z9rsDfnmtDLQ

学员登陆|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2024-12-23 11:51 , Processed in 0.276670 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表