OpenAI宣布开源SimpleQA新基准，专治大模型“胡言乱语”

周大发表于 2024-10-31 14:04:45

OpenAI 宣布开源新基准 SimpleQA，旨在衡量语言模型回答简短事实问题的准确性。当前语言模型常出现“幻觉”问题，即产生错误或未经证实的答案。SimpleQA 通过高正确性、多样性和前沿挑战性等特点，提供了一个高效且具有挑战性的评估工具。该基准包含 4326 道问题，适用于快速评估，但仅限于短查询的事实准确性。OpenAI 希望 SimpleQA 能推动 AI 研究，提高模型的可信度和可靠性。
来源：https://tech.ifeng.com/c/8e66uznepE0

页: [1]

靠浦ai课堂's Archiver

OpenAI宣布开源SimpleQA新基准，专治大模型“胡言乱语”