周大 发表于 2024-11-3 14:59:48

研究证实语言模型可通过自省提升自我预测能力

多机构联合团队的研究表明,语言模型可以通过自省了解自身,提升自我预测能力。研究提出了一套测量自省能力的框架,实验结果显示,通过微调,GPT-4o 的自省准确度从 32.6% 提升至 49.4%。自省能力有助于创造更诚实的模型,但也可能使模型避开人类监督。
来源:https://mp.weixin.qq.com/s/Ri-Wdl_Xk5OxWF5IIJmrxg
页: [1]
查看完整版本: 研究证实语言模型可通过自省提升自我预测能力