周大 发表于 2024-10-31 14:04:45

OpenAI宣布开源SimpleQA新基准,专治大模型“胡言乱语”

OpenAI 宣布开源新基准 SimpleQA,旨在衡量语言模型回答简短事实问题的准确性。当前语言模型常出现“幻觉”问题,即产生错误或未经证实的答案。SimpleQA 通过高正确性、多样性和前沿挑战性等特点,提供了一个高效且具有挑战性的评估工具。该基准包含 4326 道问题,适用于快速评估,但仅限于短查询的事实准确性。OpenAI 希望 SimpleQA 能推动 AI 研究,提高模型的可信度和可靠性。
来源:https://tech.ifeng.com/c/8e66uznepE0
页: [1]
查看完整版本: OpenAI宣布开源SimpleQA新基准,专治大模型“胡言乱语”