手机流畅运行470亿大模型:上交大发布LLM手机推理框架PowerInfer-2
为解决手机上运行大模型的内存和算力限制,上海交通大学IPADS实验室推出PowerInfer-2.0推理引擎,搭配Turbo Sparse技术,有效降低模型内存使用,实现大模型在手机上的快速推理。该技术通过动态神经元缓存和针对手机异构计算环境的优化,成功提升了Mixtral47B等大模型的运行速度,有望推动AI在移动设备上的应用。来源:https://www.chinaz.com/2024/0612/1622868.shtml
页:
[1]