后摩智能助力中国移动构建算力网络，MWC展示边端大模型运行成果

2024-03-15

在刚刚落幕的2024年世界移动通信大会（MWC2024）上，后摩智能联合中国移动，成功展示了参数规模超70亿的大语言模型在边端侧的实时运行，这是业内首次以存算一体芯片支持大模型实现端到端的运行。

边端大模型实时运行演示视频

在 MWC2024 中国移动的算力网络创新产品展示区，基于存算一体创新技术，后摩智能与中国移动研究院共研的大语言模型测试 Demo ，以流畅的中英文会话以及知识问答等实时互动，吸引了众多参会观众驻足体验，Demo 实现了业内主流的6B/7B/13B边端侧大语言模型（LLM）的端到端运行，实测性能达到了每秒15-20 tokens的高速度。

后摩智能与中国移动共研存算一体大语言模型DEMO 在MWC 2024展示

边端侧部署大模型面临着多方面的技术挑战。首先，大模型对计算资源的需求与边端侧设备的有限计算能力之间存在矛盾。其次，边端侧设备的功耗和散热限制要求在高性能输出的同时控制能耗。此外，边端侧设备需要处理实时数据，对延迟敏感，这要求在保证快速响应的同时进行高效的数据处理。

后摩智能存算一体芯片架构的核心优势在于将存储和计算紧密结合，减少了数据在芯片内部的搬运，从而降低了延迟并提高了处理速度。同时，它通过对大模型的算子实现和数据流调度进行深度优化，可以实现计算任务的高效执行，确保在有限的功耗预算下，芯片依然能提供持续的高性能输出，能效比相较于传统 GPU 有显著提升，能够为边缘计算、端侧计算提供更高效节能的解决方案。

除此之外，后摩智能基于存算一体芯片自研的 IPU（处理器架构），针对Transformer 模型进行了特别优化，通过多核和多硬件线程设计，提高了计算效率并实现了算力的灵活扩展。再结合后摩大道®️软件平台的技术优化，如模型量化、数据并行等，后摩智能的存算一体芯片能够支持运行包括 Llama 2、ChatGLM3 在内的行业大语言模型，功耗可降低5倍，在提高芯片的利用率的同时，还能为未来算法的迭代和优化提供坚实的算力基础。