新闻资讯

2024全球AI芯片峰会聚焦“智算纪元”,可重构芯片引领未来边缘计算新纪元

9月6日至7日,2024全球AI芯片峰会(GACS 2024)在北京成功举办,以“智算纪元 共筑芯路”为主题,汇聚了超过1500名现场观众及210万线上观众,共同探讨AI芯片产业的最新进展与未来趋势。峰会邀请了50余位来自AI芯片、Chiplet、RISC-V、智算集群等领域的顶尖专家,分享了前沿技术创新与商业化挑战。

 

 

珠海市芯动力创始人李原受邀出席此次峰会,并在会议上发表了主题演讲《面向边缘端大语言模型的RPP架构芯片与落地实践》。
李原在演讲中指出未来可重构芯片将成主流,因性价比是边缘计算核心要求,且性能与 TOPS 不直接挂钩,不同计算阶段对性能要求不同。针对此,珠海芯动力推出 RPP芯片架构,其基于数据流架构,兼容 CUDA 指令集,融合 GPU 和 NPU 优势。RPP 第一代产品算力达 32TOPS,DRAM 带宽 59GB/s,性能高、面积效率高、功耗低、灵活性强,FOStrip 封装工艺使芯片面积和厚度缩小至 1/3。在客户实测中,计算机视觉和信号处理性能较同类产品提升大,以 14nm 工艺达甚至超英伟达 A100 芯片功耗。

「正文」

随着 AI 技术的日臻成熟,算力需求正从云端训练逐渐向边缘端推理转移,预计未来推理端与训练端的算力比例将达 4:6,为大语言模型在边缘端的广泛应用开辟了广阔空间。当前的 AI 应用场景中,出现了 AI PC、AI 手机以及人形机器人等形态,人工客服、办公文档生成、翻译系统等实际应用已开始盈利。算力芯片作为生产力基石,在国内市场发展迅猛,各类应用场景均需边缘端算力支持。
目前大语言模型在边缘端部署面临两大挑战:模型体积庞大与计算性能受限。解决这些问题需提升存储效率、深度压缩模型、采用模型蒸馏等技术。而边缘端算力所需的计算芯片,性价比是关键。联想发布的白皮书将性价比拆解为性能、可编程性、功耗与成本四大核心要素,并提出公式:性价比 = (性能 × 可编程性)/(功耗 × 成本),为评估边缘计算算力芯片提供了科学框架。
以 LLaMA2 7B 大模型计算过程为例,分为准备阶段和解码阶段。准备阶段对算力要求高,需高效处理矩阵乘法,可能采用高算力指令并适时降低核心频率,同时进行模型参数压缩和精度转换。解码阶段对算力需求降低,可使用低功耗指令如 MAC 指令执行计算,但对带宽需求显著增加,需调整接口频率。基于此,芯动力科技提出 RPP 架构解决方案。
RPP 架构是一种通用并行处理器架构,基于数据流设计,从指令集开始兼容 CUDA,比传统 GPU 效率提高一个数量级,融合了专用芯片的高效性与通用芯片的灵活性,实现了 NPU 与 GPU 的更好融合。采用二维计算单元堆叠形成阵列,每个 PE 计算单元内部包含 32 个并列的 ALU,实现高并行度与高效能计算,还支持多种计算,如Tensor计算指令,BF16, FP32, 和INT8等等;进一步提升了其在特定应用场景下的计算能力。并且,RPP 架构的论文已被国际知名计算机体系架构会议 ISCA 2024 收录。
芯动力的第一代产品是 17×17 毫米的小芯片,可放入标准 M.2 卡,计算能力强,支持 32Tops 算力,内存带宽配比良好。软件方面,确保了从底层指令集到上层驱动的全面兼容,沿用英伟达软件栈,做了指令集、驱动层和开发库。采用扩展语言编写,加速开发过程,使逻辑实现更直观高效。除了 AI 应用场景,还开发了传统信号处理 FFT 计算等应用场景。在同样 512 个计算单元情况下,相比12 nm 工艺芯片面积约 90 平方毫米,芯动力采用14nm 工艺,芯片面积仅 11 平方毫米,远小于传统 GPU 芯片面积占比,功耗也更低。

从架构角度看,数据在指令间或处理单元(PE)间的传递效率至关重要。芯动力的设计缩短了数据搬运距离,仅用 2 个周期就可完成一次搬运,而 GPU 架构中 PE 与寄存器文件间的搬移过程需要 22 个周期,大幅减少了功耗。
为将芯片融入笔记本电脑,芯动力革新了封装技术,采用扇出型封装,用玻璃载板替代昂贵的 ABF 材料,实现低成本先进封装。此封装方式提升了线密度至 5 微米以下,通过三层金属线设计减小了芯片面积,优化了散热与电气性能。封装后的 M.2 卡为AI PC 提供了 DNPU 解决方案。

在当前大语言模型下,RPP实现了 8 W功耗时 14 tokens/s 的性能,但此性能主要受限于带宽,若带宽提升,处理性能也将大幅提升。与传统 GPU 在计算机视觉性能对比中,RPP在 Yolo 运行性能实测中具有竞争力。并且在传统信号处理算法的部署,一颗芯片能代替约 6 – 8 颗 DSP 的性能。
RPP 与先进的 7nm工艺 GPU 架构(如 A100)对比,虽 14nm工艺在门电路密度上不及 7nm GPU,但 RPP 在每平方毫米逻辑单元数量上以 0.4 倍比例超越 7 纳米 GPU;理论上 7nm应更低功耗,而际测试中 RPP 功耗有 1:0.6 反向优势,对边缘计算领域重要,因功耗是边缘设备关键因素。
展望未来,随着大语言模型向支持多模态、多专家系统的复杂模型转变,对存储能力和计算灵活性要求更高,可重构芯片以其低功耗和高灵活性成为极具潜力的解决方案。最后,在边缘计算场景下,人力与芯片技术的性价比孰优孰劣,值得深思。