文档秒变演讲视频还带配音!开源Agent商业报告/学术论文接近人类水平
来自澳大利亚人工智能研究所、利物浦大学和拉筹伯大学的研究团队联合提出多模态智能体PresentAgent,可将各类文档自动转化为包含语音讲解和同步幻灯片的高质量演示视频。该系统通过语义分块、布局规划、语音合成与时间同步等步骤,实现接近人类水平的表现。团队构建了包含30组“文档-演示视频对”的测试集,并设计了综合评估框架PresentEval,从内容忠实度、视觉清晰度和观众理解度三个维度进行评分。实验结果显示,PresentAgent在多个领域的演示任务中展现出强大潜力,为自动化演示生成提供了新思路。来源:https://mp.weixin.qq.com/s/EYRU-KKbaMzXhqVkPKw7oQ
页:
[1]