TDPO:提升大语言模型安全与多样性的新算法

[复制链接]
周大 发表于 2024-6-23 15:51:22 | 显示全部楼层 |阅读模式
在人工智能领域,大语言模型的安全控制一直是焦点。继RLHF方法后,科学家们发展出DPO以降低资源消耗,但可能导致生成内容的多样性减少。为解决这一问题,中国科学院和伦敦大学学院的研究团队提出了TDPO,这是一种从token-level优化策略的新方法,旨在增强对齐性能的同时保持生成多样性。初步实验结果显示,TDPO在多个数据集上展现出优越的性能,为大语言模型的优化提供了新途径。
来源:https://mp.weixin.qq.com/s/JQDc9D5vbd1NBtaEx0cyAg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-19 11:27 , Processed in 0.285269 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表