MIT推出SEAL自适应语言模型,自主生成训练数据性能超GPT-4.1
麻省理工团队提出SEAL框架,使大语言模型能通过自生成微调数据和指令实现自我适应。该方法结合强化学习,以任务表现作为奖励信号,显著提升了模型在少样本学习(如ARC-AGI)和知识整合(如SQuAD)任务中的性能。实验表明,SEAL在无上下文SQuAD任务中将准确率提升至47.0%,优于GPT-4.1生成数据;在少样本设置下适应成功率高达72.5%。SEAL采用在线策略ReSTEM训练,确保模型稳定进化,展现出强大的泛化能力和自主优化潜力。来源:https://mp.weixin.qq.com/s/ZvzVqAZQl11q866PUrH9QA
页:
[1]