周大 发表于 7 天前

只要9美元!LoRA+强化学习,DeepSeek 1.5B推理性能暴涨20%

南加州大学团队通过LoRA与强化学习技术,开发出Tina模型,在AIME 24数学基准测试中实现超过20%的推理性能提升,Pass@1准确率达43%,而训练和评估总成本仅为9美元。该模型基于1.5B参数推理模型,结合轻量基础模型、参数高效微调及精选数据集三大关键技术,性能媲美甚至超越现有SOTA模型。研究还发现,LoRA模型中减少计算量反而能提升性能。
来源:https://mp.weixin.qq.com/s/v3bq8a8ux0ltRxW8YVDGJQ
页: [1]
查看完整版本: 只要9美元!LoRA+强化学习,DeepSeek 1.5B推理性能暴涨20%