Arm KleidiAI与XNNPack集成实现AI性能提升
作者:Arm 工程部首席软件工程师 Gian Marco Iodice
自 Arm KleidiAI 首次集成到 XNNPack 已过去整整一年。KleidiAI 是一款高度优化的软件库,旨在加速 Arm CPU 上的人工智能 (AI) 推理。在过去一年中,从推出 INT4 矩阵乘法 (matmul) 优化以增强 Google Gemma 2 模型性能开始,到后续完成多项底层技术增强,Arm 在 XNNPack 上实现了显著的性能提升。
而更值得注意的是,开发者对此无需做任何改动。所有这些提升均实现了完全透明化,既不用修改代码,也无需额外的依赖项。只需像往常一样基于 XNNPack 构建并运行应用,就能自动享受到 Arm 通过 KleidiAI 引入的最新底层优化。
本文就将为你详细介绍最新的增强功能。
XNNPack 中的最新 KleidiAI 优化
面向 SDOT 和 i8mm 的 F32 x INT8 矩阵乘法
在先前 INT4 优化基础上,此次优化聚焦于通过动态量化加速 INT8 矩阵乘法,拓宽性能提升的覆盖范围,以支持各类 AI 模型。从卷积神经网络到前沿的生成式 AI 模型(例如 2025 年 5 月发布的 Stable Audio Open Small),这项优化带来了切实可见的性能提升。例如,该优化使扩散模块 (diffusion module) 的性能提升了 30% 以上。
与此前的 INT4 增强功能一样,INT8 优化借助 SDOT 指令和 i8mm 指令,在各类 CPU 上提升了动态量化性能。
面向 F32、F16 和 INT8 矩阵乘法的 SME2 优化
近期最令人振奋的进展之一,是 Armv9 架构上对可伸缩矩阵扩展 (SME2)的支持。这为 F32 (Float32)、F16 (Float16) 和 INT8 矩阵乘法带来了显著的性能跃升,为新的高性能应用铺平道路。因此,无论是对于当前还是未来的 AI 工作负载,都能从一开始实现无缝加速,且无需任何额外投入。
什么是 SME2?
SME2 是 Armv9-A CPU 架构中引入的一项全新 Arm 技术。SME2 基于可伸缩向量扩展 (SVE2) 技术构建,并通过可惠及 AI、计算机视觉、线性代数等多个领域的特性拓展了其应用范围。
SME2 的一项突出特性是矩阵外积累加 (Matrix Outer Product Accumulate, MOPA) 指令,该指令能够实现高效的外积运算。如下图所示,外积与点积的区别在于,点积的运算结果是一个标量,而外积则由两个输入向量生成一个矩阵。
通过以下矩阵乘法示例来直观理解这一区别:
该矩阵乘法可分解为一系列外积运算,如下图所示:
明确这一概念后,再来深入探讨构成优化的矩阵乘法例程核心的 SME2 汇编指令:
FMOPA za0.s, p0/m, p1/m, z1.s, z3.s
各操作数的含义如下:
FMOPA:浮点矩阵外积累加指令。
ZA0.s:用于存储和累积外积结果的 ZA 寄存器块。
p0/m 和 p1/m:用于定义有效计算通道(掩码操作)的 Predicate 寄存器。
z1.s 和 z3.s:参与外积运算的输入向量。
该指令支持多种数据类型,涵盖浮点格式(如 F32 和 F16)及整数类型(如 INT8)。得益于 SVE 技术的应用,它具备向量长度无关性,这意味着其能随硬件向量尺寸自动适配扩展,无需修改任何代码。
为展现 SME2 的性能潜力,不妨看看它在 Google Gemma 3 模型中通过 INT8 外积指令加速 INT4 矩阵乘法的效果。相比同一设备未启用 SME2 的情况,当 Gemma 3 模型部署在支持 SME2 的硬件上时,聊天机器人用例的 AI 响应速度最高可提升六倍。
此外,借助单 CPU 核心上的 SME2 加速,Gemma 3 能在一秒内开始对一篇四段文字的文本内容生成摘要,充分印证了该架构在响应速度与运行效率上的提升。
优化所带来的实际意义
通过这些更新,XNNPack 成为首个支持 SME2 的 AI 推理库,能够在 Arm CPU 上进一步实现前所未有的性能表现。
无论是专注于生成式 AI 还是基于 CNN 神经网络的开发者,都能在无需修改任何代码的情况下,在其应用上实现显著的性能提升。
展望 Arm KleidiAI 的未来
过去一年的实践证明,透明化加速不仅切实可行,更已具备实际应用价值。随着 KleidiAI 不断突破 XNNPack 上的性能表现,开发者可专注于打造出色的 AI 体验,而运行时性能也将持续提升。
- 随机文章
- 热门文章
- 热评文章
- 全球乳业大会开幕!伊利作为亚洲乳企代表受邀出席,斩获世界乳品创新奖,全球乳业大会开幕!伊利作为亚洲乳企代表受邀出席,斩获世界乳品创新奖
- 广西举办残疾人大学生分享活动 搭建学业到职业“无障碍通道”,广西举办残疾人大学生分享活动 搭建学业到职业“无障碍通道”
- 第七届黑龙江省旅游产业发展大会将在“华夏东极”抚远启幕,第七届黑龙江省旅游产业发展大会将在“华夏东极”抚远启幕
- 京津冀文化产业协同发展天津中心成立,京津冀文化产业协同发展天津中心成立
- VR触电模拟、救援机器人亮相 江西应急救援“黑科技”护航安全生产,VR触电模拟、救援机器人亮相 江西应急救援“黑科技”护航安全生产
- 中国—上海合作组织数字技术合作发展论坛在新疆开幕,中国—上海合作组织数字技术合作发展论坛在新疆开幕
- 两周销量突破1120万杯,瑞幸系列新品与周边火出圈,两周销量突破1120万杯,瑞幸系列新品与周边火出圈
- 广州从化晚熟荔枝陆续上市 今年出口将超4000吨,广州从化晚熟荔枝陆续上市 今年出口将超4000吨
- 直击广东怀集雨灾现场:洪水渐退 清淤工作全面展开,直击广东怀集雨灾现场:洪水渐退 清淤工作全面展开
- 四川:退役军人及军属专场招聘活动在成都等7地同步启幕,四川:退役军人及军属专场招聘活动在成都等7地同步启幕
- “618”期间广州海关监管跨境电商零售进出口清单超6900万票,“618”期间广州海关监管跨境电商零售进出口清单超6900万票
- “甘味”出海新象:从“鲜”到优的全球吸引力,“甘味”出海新象:从“鲜”到优的全球吸引力
- 河南:固强补弱推动文旅产业成支柱,河南:固强补弱推动文旅产业成支柱
- 1电源测试系统:高压性能二合一,高效测试新选择
- 2“刻骨铭心——甲骨文化展”在广西桂林开幕,“刻骨铭心——甲骨文化展”在广西桂林开幕
- 3中国首创 “蒸笼” 法,蒸出高性能 “黄金半导体”
- 4AI产业链掘金潮蔓延:OCS概念股爆发 这些“头号玩家”已率先进场
- 5(寻味中华|非遗)蒙古族搏克:摔跤之力在腰,决胜之智在心,(寻味中华|非遗)蒙古族搏克:摔跤之力在腰,决胜之智在心
- 6海默科技(300084):披露权益变动报告书的提示性公告
- 7结题材料不合格,只因订书钉没用不锈钢?
- 8汇隆活塞(833455):第四届监事会第七次会议决议
- 9钓鱼打窝船总掉链?仁懋 TOLL 封装 “芯” 方案
- 10居然智家迎来新实控人:汪林朋配偶杨芳继承43.93%公司股权 其余法定继承人自愿放弃
- 11来了!广西首批高考录取通知书送达→
- 12赣州市章贡区市场监管局开展“你送我检”进市场服务惠民生暨整治制售假劣肉制品宣传活动
- 13声桥—中欧艺术交流音乐会在德国法兰克福举行,声桥—中欧艺术交流音乐会在德国法兰克福举行
- 12025年廊坊经洽会:小箱包“圈粉”大咖 县域特色产业快速出海,2025年廊坊经洽会:小箱包“圈粉”大咖 县域特色产业快速出海
- 2宇树科技完成C轮融资 注册资本增至3.64亿,宇树科技完成C轮融资 注册资本增至3.64亿
- 3第六届西部数博会文旅“黑科技”破壁虚实,第六届西部数博会文旅“黑科技”破壁虚实
- 4四川乐山:餐饮行业大咖齐聚共绘美食产业新蓝图,四川乐山:餐饮行业大咖齐聚共绘美食产业新蓝图
- 5黑龙江省水运口岸首次进口铜矿粉 “铁水联运”激活跨境物流新引擎,黑龙江省水运口岸首次进口铜矿粉 “铁水联运”激活跨境物流新引擎
- 6全球乳业大会开幕!伊利作为亚洲乳企代表受邀出席,斩获世界乳品创新奖,全球乳业大会开幕!伊利作为亚洲乳企代表受邀出席,斩获世界乳品创新奖
- 7河南粮食重点领域贷款余额超2595亿元,河南粮食重点领域贷款余额超2595亿元
- 8廊坊经洽会观察:跨境电商如何赋能产业出海?,廊坊经洽会观察:跨境电商如何赋能产业出海?
- 92025夏季达沃斯实现全绿色用能 减排二氧化碳约600吨,2025夏季达沃斯实现全绿色用能 减排二氧化碳约600吨
- 10上合组织国家留学生探访山东青岛体验“智造”魅力,上合组织国家留学生探访山东青岛体验“智造”魅力
- 11浙江加速城乡融合高质量发展步伐,浙江加速城乡融合高质量发展步伐
- 12合肥推动“车机人”协同计划 打造聚合型智能产业集群,合肥推动“车机人”协同计划 打造聚合型智能产业集群
- 13(活力中国调研行)百年高炉遇见未来 北京科幻产业加速跑,(活力中国调研行)百年高炉遇见未来 北京科幻产业加速跑