只要9美元!LoRA+强化学习,DeepSeek 1.5B推理性能暴涨20%

[复制链接]
周大 发表于 7 天前 | 显示全部楼层 |阅读模式
南加州大学团队通过LoRA与强化学习技术,开发出Tina模型,在AIME 24数学基准测试中实现超过20%的推理性能提升,Pass@1准确率达43%,而训练和评估总成本仅为9美元。该模型基于1.5B参数推理模型,结合轻量基础模型、参数高效微调及精选数据集三大关键技术,性能媲美甚至超越现有SOTA模型。研究还发现,LoRA模型中减少计算量反而能提升性能。
来源:https://mp.weixin.qq.com/s/v3bq8a8ux0ltRxW8YVDGJQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-9 09:18 , Processed in 0.278212 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表