TDPO：提升大语言模型安全与多样性的新算法

周大发表于 2024-6-23 15:51:22

在人工智能领域，大语言模型的安全控制一直是焦点。继RLHF方法后，科学家们发展出DPO以降低资源消耗，但可能导致生成内容的多样性减少。为解决这一问题，中国科学院和伦敦大学学院的研究团队提出了TDPO，这是一种从token-level优化策略的新方法，旨在增强对齐性能的同时保持生成多样性。初步实验结果显示，TDPO在多个数据集上展现出优越的性能，为大语言模型的优化提供了新途径。
来源：https://mp.weixin.qq.com/s/JQDc9D5vbd1NBtaEx0cyAg

页: [1]

靠浦ai课堂's Archiver

TDPO：提升大语言模型安全与多样性的新算法