周大 发表于 2025-3-15 13:39:36

淘天推出电商问答基准ChineseEcomQA

淘天集团推出ChineseEcomQA,首个专注电商基础概念的问答基准。该基准通过覆盖20大行业及10类核心概念的1800组高质量问答,结合LLM生成、RAG验证与人工标注,确保数据专业性。评估结果显示,DeepSeek-R1和V3表现最佳,而中文社区模型如Qwen系列在电商场景适应性上突出。研究还发现,引入RAG策略能显著提升模型性能,但模型普遍存在过度自信问题,且蒸馏模型易出现“思维链中的事实性错误累积”。这些发现为优化电商领域大模型提供了重要参考。
来源:https://mp.weixin.qq.com/s/Hcu0RCx_5mf0QnKX4ZT0Fg
页: [1]
查看完整版本: 淘天推出电商问答基准ChineseEcomQA