WritingBench：全面评估大模型写作能力

周大发表于 2025-3-20 21:28:55

阿里研究团队联合中国人民大学与上海交通大学推出开源项目WritingBench，为生成式写作提供全面评估基准。该基准覆盖学术、金融、文学等六大领域，包含1000多条评测数据。通过动态评估体系，WritingBench实现了87%的人类一致性得分。实验表明，思维链技术可提升创意写作能力，但长文本生成仍面临瓶颈，超过3000 token时质量显著下降。这一工具为高质量写作评估提供了新路径。
来源：https://mp.weixin.qq.com/s/VYgvMt8p9wKOoUNknA9ywg

页: [1]

靠浦ai课堂's Archiver

WritingBench：全面评估大模型写作能力