WritingBench:全面评估大模型写作能力
阿里研究团队联合中国人民大学与上海交通大学推出开源项目WritingBench,为生成式写作提供全面评估基准。该基准覆盖学术、金融、文学等六大领域,包含1000多条评测数据。通过动态评估体系,WritingBench实现了87%的人类一致性得分。实验表明,思维链技术可提升创意写作能力,但长文本生成仍面临瓶颈,超过3000 token时质量显著下降。这一工具为高质量写作评估提供了新路径。来源:https://mp.weixin.qq.com/s/VYgvMt8p9wKOoUNknA9ywg
页:
[1]