周大 发表于 2024-6-12 15:02:41

手机流畅运行470亿大模型:上交大发布LLM手机推理框架PowerInfer-2

为解决手机上运行大模型的内存和算力限制,上海交通大学IPADS实验室推出PowerInfer-2.0推理引擎,搭配Turbo Sparse技术,有效降低模型内存使用,实现大模型在手机上的快速推理。该技术通过动态神经元缓存和针对手机异构计算环境的优化,成功提升了Mixtral47B等大模型的运行速度,有望推动AI在移动设备上的应用。
来源:https://www.chinaz.com/2024/0612/1622868.shtml
页: [1]
查看完整版本: 手机流畅运行470亿大模型:上交大发布LLM手机推理框架PowerInfer-2