只要9美元！LoRA+强化学习，DeepSeek 1.5B推理性能暴涨20%

周大发表于 2025-5-2 16:10:11

南加州大学团队通过LoRA与强化学习技术，开发出Tina模型，在AIME 24数学基准测试中实现超过20%的推理性能提升，Pass@1准确率达43%，而训练和评估总成本仅为9美元。该模型基于1.5B参数推理模型，结合轻量基础模型、参数高效微调及精选数据集三大关键技术，性能媲美甚至超越现有SOTA模型。研究还发现，LoRA模型中减少计算量反而能提升性能。
来源：https://mp.weixin.qq.com/s/v3bq8a8ux0ltRxW8YVDGJQ

		自动登录	找回密码
密码			立即注册

课程导航

只要9美元！LoRA+强化学习，DeepSeek 1.5B推理性能暴涨20%