8B尺寸达到GPT-4级性能!北大等提出医疗专家模型训练方法
北京大学和香港科技大学的研究揭示了大语言模型在领域持续预训练中出现的“稳定性差距”现象,即初期性能下降然后回升。为解决这一问题,研究者提出多轮小数据集预训练、选择优质子语料和混合数据的策略。实验结果显示,这些策略显著提升了8B医学大模型Llama-3-Physician-8B的性能,使其在医疗任务中超越其他开源模型,甚至接近GPT-4的水平。来源:https://mp.weixin.qq.com/s/Y0IsaHAiKPH-W6DBhYXtmg
页:
[1]