周大 发表于 2024-6-23 15:51:22

TDPO:提升大语言模型安全与多样性的新算法

在人工智能领域,大语言模型的安全控制一直是焦点。继RLHF方法后,科学家们发展出DPO以降低资源消耗,但可能导致生成内容的多样性减少。为解决这一问题,中国科学院和伦敦大学学院的研究团队提出了TDPO,这是一种从token-level优化策略的新方法,旨在增强对齐性能的同时保持生成多样性。初步实验结果显示,TDPO在多个数据集上展现出优越的性能,为大语言模型的优化提供了新途径。
来源:https://mp.weixin.qq.com/s/JQDc9D5vbd1NBtaEx0cyAg
页: [1]
查看完整版本: TDPO:提升大语言模型安全与多样性的新算法