WritingBench:全面评估大模型写作能力

[复制链接]
周大 发表于 2025-3-20 21:28:55 | 显示全部楼层 |阅读模式
阿里研究团队联合中国人民大学与上海交通大学推出开源项目WritingBench,为生成式写作提供全面评估基准。该基准覆盖学术、金融、文学等六大领域,包含1000多条评测数据。通过动态评估体系,WritingBench实现了87%的人类一致性得分。实验表明,思维链技术可提升创意写作能力,但长文本生成仍面临瓶颈,超过3000 token时质量显著下降。这一工具为高质量写作评估提供了新路径。
来源:https://mp.weixin.qq.com/s/VYgvMt8p9wKOoUNknA9ywg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-5 14:48 , Processed in 0.274020 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表