Character.AI 发布新研究 TalkingMachines,这是一种可实现逼真 AI 角色互动的自回归扩散模型。用户只需输入图片和语音,即可生成类似 FaceTime 的实时视觉对话效果。该模型基于 Diffusion Transformer 技术,并融合流匹配扩散、音频驱动注意力等多种关键技术,使 AI 能根据语调生成自然表情与动作。目前仍在研究阶段,但标志着实时音视频 AI 角色的重要进展,适用于真实感人类、动漫及 3D 形象等多种风格。
来源:https://tech.ifeng.com/c/8kjvynZrpmX