中科大华为发布生成式推荐大模型,昇腾NPU可部署,背后认知一同公开
中科大与华为联合开发的生成式推荐大模型HSTU,在国产昇腾NPU上成功部署。该模型将推荐参数扩展至万亿级别,通过增加深度和宽度结合大量数据,显著提升推荐效果。团队对比HSTU、Llama、GPT和SASRec四种架构,发现HSTU和Llama具备更强扩展性。消融实验表明,HSTU中的相对注意力偏移(RAB)是其扩展性的关键组件。此外,HSTU在多域联合训练和排序任务中表现优异,尤其在冷启动问题上有明显优势。团队还探讨了推荐大模型扩展定律的影响因素,并展望了未来研究方向。来源:https://mp.weixin.qq.com/s/zUU-BNpy-3_SERaL-zJPpA
页:
[1]