周大 发表于 2025-6-5 13:19:47

南京大学等团队提出TALE框架,显著降低大模型推理Token成本60%

近日,南京大学、罗格斯大学和马萨诸塞大学阿默斯特分校的研究团队提出了一种名为 TALE 的新型推理框架,旨在解决大型语言模型(LLM)推理过程中 Token 冗余导致的高计算成本问题。TALE 引入了「Token 预算感知」机制,通过限制生成 Token 的数量来优化推理效率。该框架包括两种具体实现方式:轻量级的 TALE-EP 和基于后训练的 TALE-PT。实验结果显示,TALE-EP 能节省超过 60% 的推理开销,而 TALE-PT 则可降低 40% 以上的 Token 使用量,同时保持高准确率。研究成果已被 ACL 2025 接收,且 Qwen3 和 Claude 3.7 等大模型已开始采用类似技术,推动 LLM 在资源受限场景下的广泛应用。
来源:https://mp.weixin.qq.com/s/ErKi3J41U33C-TzMgHmXPw
页: [1]
查看完整版本: 南京大学等团队提出TALE框架,显著降低大模型推理Token成本60%