安谋科技:端侧NPU技术创新,拉动AI算力落地引擎

    科创经济 朗峰江湖 2025-12-11 4828 次浏览

    电子发烧友网报道(文/黄晶晶)在日前举行的2025集成电路发展论坛(成渝)暨三十一届集成电路设计业展览会(ICCAD-Expo2025)上,安谋科技产品总监鲍敏祺接受行业媒体采访,谈及最新发布的周易X3 NPU IP以及生态建设、NPU发展趋势等话题。

    图:安谋科技产品总监鲍敏祺

    周易X3 NPU IP正当时

    安谋科技周易X3 NPU IP面向端侧AI落地需求,基于专为大模型的DSP+DSA架构,协同AI软件平台,可应用于加速卡、智能座舱、具身智能、ADAS、AI PC等设备为其提供AI计算核芯。

    该产品支持CNN与Transformer模型架构,单Cluster最高支持4核配置,可提供8~80 FP8TFLOPS灵活算力范围。其单核带宽达256GB/s,相较于上一代周易产品在同等工艺下FP16算力提升16倍,计算核心带宽提升4倍,Softmax与LayerNorm性能提升超过10倍,多核算力线性度达70%~80%。

    该产品具备多项核心技术优势,包括通用与专用计算单元深度融合的DSP+DSA架构;支持横向扩展的多核设计与层级化内存互连方案;软硬件协同优化的任务调度机制;同时面向开发者提供开放的生态系统,支持硬件自定义接口与软件层面的算子扩展,增强平台适配性与应用灵活性。

    鲍敏祺表示,周易NPU的核心优势根植于研发阶段对软件生态的巨大投入,成熟的软件体系与完善的生态布局,构成了其立足市场的核心竞争力。

    在端侧 AI 领域,当行业聚焦于同工艺下冯诺依曼架构相差无几的面积与功耗指标时,周易NPU走出差异化路线。产品面向大模型重点强化了浮点支持能力。这并非简单集成 FP8浮点等计算单元,更关键的是攻克特定精度下模型稳定运行的量化相关技术难题。团队融入 W4A16、W4A8等一系列计算范式,通过降低神经网络模型的数值表达位宽来减少计算量、内存占用和功耗,同时尽量保持模型性能,从而让浮点运算与大模型适配。

    周易NPU 的推出时机,源于一年半前的产品定义与对市场趋势的精准预判。彼时,端侧 AI 的价值尚存在争议,全球 AI 应用还普遍依赖云端算力。而当下,端侧 AI 的发展必要性已然凸显,这既顺应行业风向,也契合国内市场的特殊需求。

    从行业趋势来看,今年3月起国际大厂纷纷转向端侧AI赛道,释放出明确的技术信号。从国内市场来看,面临着与国外不同的发展环境,例如在算力卡领域,国外已采用3 纳米工艺,而由于工艺限制,国内大算力芯片(如 GPU)的单卡性能仅为国际先进水平的 1/5。

    同时,中国庞大的用户群体,也对算力供给提出更高要求。从前些年2T、4T 的算力需求,到如今 8T 乃至更高的算力诉求,市场对端侧算力的需求持续攀升。以运行 Llama2 7B 模型为例,仅支撑 256token 的对话功能,算上50%利用率,理论上就需要 3.2TFLOPS 的算力,算力需求的增长可见一斑。正是基于对行业趋势的深刻洞察,以及对客户真实需求的精准把握,安谋科技认为当下正是周易NPU 推向市场的最佳时机。

    生态伙伴协同

    鲍敏祺表示,从生态上来看不同类型企业在AI 赛道的侧重点各有不同。算法公司更关注如何通过高效的 AI 算法,在具体业务场景中创造效益、提升效率,底层的算力与芯片并非其关注的核心;SoC公司则聚焦快速go to market的目标,部分企业选择自研算法,更多企业则倾向于挑选适配的 IP 来加速产品市场化进程。无论是算法公司的效率诉求,还是SoC公司的市场化需求,最终都指向IP高效交付与快速推向市场的核心能力,而这正是安谋科技践行 AI Arm China 战略的发力点。

    从行业趋势来看,AI 算法正逐步走向收敛。以往 CNN 等传统模型迁移过程中,基于cuda编写的算子往往面临迁移难题。如今,无论是英伟达向上层 Python、应用层MaaS延伸,还是 OpenAI 等企业的技术推动,国内厂商都形成较高的适配统一性。大模型的运行门槛已大幅降低,仅需支持几十个左右的算子即可实现大模型部署,所需计算量相较以往大幅减少。与此同时,行业也正经历从GPGPU 向 ASIC AI 的转型,博通等企业的快速发展印证了这一趋势。专用架构能更好地突破GPGPU的能效天花板,实现更优的能效与面积表现。

    端侧NPU技术趋势

    伴随 AI 技术的深入演进,端侧 NPU 的发展方向逐渐清晰,其未来趋势将围绕云边端协同、通用性提升、专用算力强化三大核心展开,同时在物理工艺与算力功耗的限制下,探寻效率与灵活性的最优解。

    鲍敏祺谈到,以机器人领域为例,云端负责统筹规划,边侧承担协调部署,端侧聚焦执行落地。在这一体系中,国外凭借先进算力优势,可通过持续堆叠硬件提升性能。国内则受限于工艺天花板,难以无限突破物理边界,因此云边端协同成为破局关键。

    算力与功耗的限制,进一步框定端侧 NPU 的发展边界。在电池技术未出现革命性突破的前提下,短期之内端侧 AI难以复刻云端的超大算力规模。因此,在有限算力范围内,提升NPU的通用性与综合能力,成为行业的核心发力点。

    以安谋科技周易X3 NPU IP为代表,DSP+DSA 的组合架构已成为兼顾效率与灵活性的关键选择。周易NPU已支持270余个公开模型,加上客户定制模型更是达到 400 余个,端侧 NPU的通用化已成为必然趋势。未来,NPU不再局限于适配单一类型模型,而是要具备快速对接多元算法、满足多场景需求的能力。

    针对端侧AI不同需求,NPU未来需在专用与通用之间找到平衡。如NPU需要强化Tensor 计算能力,通过增加 Tensor core与带宽,提升专用算力的效率,但同时也需保留一定的通用 Vector core能力。

    总体而言,端侧 NPU 的未来发展,将是在云边端协同的大框架下,以通用化适配海量模型,以专用算力保障运行效率,最终在有限的物理与功耗约束中,实现性能与灵活性的双重提升。周易NPU从2018 年发展至今已迭代至第六代,最新一代重点面向大模型,未来还将不断拔高端侧NPU IP规格,持续迭代升级稳步深耕。

    端侧AI时代已经到来,秉持AI Arm China这一发展战略,安谋科技将聚焦AI技术,依托Arm生态,全力服务于中国本土市场的创新。