多机构联合发布LEXam法律AI评估标准，专精推理模型表现优异，展现法律推理新趋势

周大发表于 2025-6-5 13:37:18

研究人员发布多语言法律推理基准数据集LEXam，涵盖4886道问题，涉及瑞士及国际法等领域。实验显示，专精推理优化模型（如Gemini-2.5-Pro）在复杂法律推理中表现最佳，而通用模型如GPT-4亦有不俗成绩。研究发现，模型在英文任务和国际法领域表现更优，但在多选项或地区法律任务中准确率下降明显，揭示了当前大模型在法律推理领域的潜能与局限性。
来源：https://mp.weixin.qq.com/s/RpXrssl8vhwFqO_ZeN0jPA

页: [1]

靠浦ai课堂's Archiver

多机构联合发布LEXam法律AI评估标准，专精推理模型表现优异，展现法律推理新趋势