淘天推出电商问答基准ChineseEcomQA

[复制链接]
周大 发表于 2025-3-15 13:39:36 | 显示全部楼层 |阅读模式
淘天集团推出ChineseEcomQA,首个专注电商基础概念的问答基准。该基准通过覆盖20大行业及10类核心概念的1800组高质量问答,结合LLM生成、RAG验证与人工标注,确保数据专业性。评估结果显示,DeepSeek-R1和V3表现最佳,而中文社区模型如Qwen系列在电商场景适应性上突出。研究还发现,引入RAG策略能显著提升模型性能,但模型普遍存在过度自信问题,且蒸馏模型易出现“思维链中的事实性错误累积”。这些发现为优化电商领域大模型提供了重要参考。
来源:https://mp.weixin.qq.com/s/Hcu0RCx_5mf0QnKX4ZT0Fg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-6 14:13 , Processed in 0.270136 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表