ModernBERT发布:更快更强的BERT回归
时隔6年,“BERT”再度崛起,ModernBERT发布即开源。该模型参数量分别为139M和395M,上下文长度达8192 token,相较于传统编码器提升了16倍。它在信息检索、分类等任务中表现出色,速度是DeBERTa的两倍至四倍,内存占用更少。ModernBERT采用现代化Transformer架构,注重效率,并使用多样化数据训练。团队由来自Answer.AI和LightOn的研究者组成,他们表示encoder-only模型被低估,仍具广泛应用价值。来源:https://mp.weixin.qq.com/s/MRQO9s5V2CzLLlYFl9Kn_w
页:
[1]