周大 发表于 2024-8-25 14:30:10

Meta浙大校友让评估模型「自学成才」,数据全合成无需人工标注,训练Llama 3 70B超过405B

Meta FAIR研发出一种迭代式自我训练方法,该方法完全依赖合成数据,使得70B参数的Llama-3-Instruct模型在评估准确度上超越了405B参数的Llama模型。这种方法解决了人工标注数据成本高昂且容易过时的问题,通过指令选择、响应对构建和迭代训练等步骤,模型能够持续提升评估性能。
来源:https://mp.weixin.qq.com/s/yxl85mXsIhoMrymlAOCa3A
页: [1]
查看完整版本: Meta浙大校友让评估模型「自学成才」,数据全合成无需人工标注,训练Llama 3 70B超过405B