手机流畅运行470亿大模型：上交大发布LLM手机推理框架PowerInfer-2

周大发表于 2024-6-12 15:02:41

为解决手机上运行大模型的内存和算力限制，上海交通大学IPADS实验室推出PowerInfer-2.0推理引擎，搭配Turbo Sparse技术，有效降低模型内存使用，实现大模型在手机上的快速推理。该技术通过动态神经元缓存和针对手机异构计算环境的优化，成功提升了Mixtral47B等大模型的运行速度，有望推动AI在移动设备上的应用。
来源：https://www.chinaz.com/2024/0612/1622868.shtml

页: [1]

靠浦ai课堂's Archiver

手机流畅运行470亿大模型：上交大发布LLM手机推理框架PowerInfer-2