
近年来,NPU异军突起,成为AI浪潮中备受瞩目的芯片之一。从人手必备的智能手机,到日益增多的笔记本电脑,NPU正加速内置化进程。厂商们力推的AI功能,其核心驱动力正是NPU。
然而对多数人而言,NPU仍显陌生:它与熟知的CPU、GPU有何区别?为何在AI时代变得如此关键?这颗看似神秘的芯片,实则技术积淀深厚、发展脉络清晰。要理解它何以在短短数年间从实验室原型走向规模商用,不妨追溯其最初的起源。
NPU的诞生
传统中央处理器(CPU)在数学运算与逻辑控制方面表现出色,但其运行机制与人脑存在本质差异。CPU采用串行指令处理,而人脑依赖千亿神经元实现并行激活与实时响应。这种架构差异使CPU在模拟类脑计算时效率低下,难以胜任复杂智能任务。
NPU的设计理念则另辟蹊径。它并非简单模拟大脑,而是从结构层面汲取灵感——借硬件级并行架构重构计算范式。这一理念的萌芽可追溯至20世纪中叶的开创性研究。
1943年,神经生理学家沃伦·麦卡洛克(Warren McCulloch)与数学逻辑学家沃尔特·皮茨(Walter Pitts)联合提出人工神经网络的数学模型,并设计了首个“神经网络”电路原型。这项里程碑式研究在1950-60年代引发学界热烈探索,但因技术限制与算力不足,进展缓慢,最终被蓬勃发展的传统数字计算所掩盖,渐趋边缘化。
“那个时代,仅日本和德国的少数研究者坚守神经网络研究,远未形成完整学科体系。”图灵奖得主、“深度学习三巨头”之一的扬·勒坎(Yann LeCun)回忆1980年代初与杰弗里·辛顿(Geoffrey Hinton)等先驱合作的岁月时坦言,“直至1986年反向传播算法突破,该领域才重焕生机。”
然而,神经网络真正回归主流,得益于2000年代初语音识别技术的商业化成功。即便如此,勒坎指出:“当时‘神经网络’概念背负沉重历史包袱,为摆脱刻板印象,我们索性创造了新名词——‘深度学习’。”
“神经处理单元”(NPU)术语最早见于1990年代末的学术论文,但其产业化进程离不开苹果、IBM、谷歌等科技巨头的巨额投入。这些公司斥资数百亿美元推动专用芯片研发,终将数十年理论积淀转化为可嵌入智能手机与笔记本电脑的实用产品——一种真正受脑启发的处理器架构。如今,身为Meta首席AI科学家的勒坎,正见证这一技术的商业化浪潮。
本质上,现代NPU的核心架构与麦卡洛克-皮茨模型并无根本差异:均采用仿生并行框架。不同于CPU的串行执行,NPU能同步进行数百万乃至数万亿次微小运算,这正是“每秒万亿次运算(TOPS)”性能指标的技术基石。但NPU工作机制远比表象复杂。它依赖深度学习算法框架,这些模型需经海量数据集预训练方能生效。以图像边缘检测为例,系统通常采用卷积神经网络(CNN)架构实现。
在CNN运算中,卷积层通过预设的“卷积核”滤波器滑动扫描图像区域,利用训练习得的特征模式识别“边缘”信息。卷积计算构成NPU执行的核心数学运算,通过在原始图像上生成多层特征图谱,逐步提取并强化目标特征,直至神经网络达到预设识别置信度。
NPU在执行此类卷积密集型计算时优势显著——处理速度快且功耗控制优异,相比CPU具备压倒性效率。图形处理器(GPU)虽支持并行计算,但其架构为通用图形渲染优化,在AI推理任务的专业化程度与能效比上不及NPU。此差异在移动设备上尤为关键,直接影响续航,成为推动NPU在智能手机普及的核心动力。
2017年成为NPU商业化关键节点。华为率先在Mate 10中集成基于寒武纪架构的NPU,苹果亦于iPhone X首次引入集成NPU的A11仿生芯片。尽管初代NPU算力不足1 TOPS,却开启了移动AI计算新纪元。相比之下,当今高端笔记本搭载的高通骁龙X系列芯片,其NPU算力已达惊人45 TOPS。短短八年,AI功能已深度融入日常:手机“智能抠图”、“背景虚化”由NPU驱动,谷歌“圈选搜索”(Circle to Search)、“魔法消除”(Magic Eraser)等创新体验亦依托NPU强大算力。
如今,NPU应用版图正向笔记本电脑全面扩张。2024年,微软正式推出“AI PC”类别——Copilot+ PC,明确要求设备内置不低于40 TOPS的NPU算力。此标准直接将AMD和英特尔早期芯片(仅15 TOPS)排除在外,而高通凭骁龙X系列45 TOPS高算力NPU抢占先机,率先获微软Surface Laptop、宏碁Swift AI等旗舰产品采用。
尽管后续AMD与英特尔均推出符合微软最低门槛的新一代处理器,却也揭示出市场分化现实——大量800美元以下的入门级笔记本仍采用不满足AI PC要求的传统处理器。更值得关注的是,众多企业与用户已不满足当前集成NPU的算力水平,一场专属于NPU的发展革命,似乎已然降临。
独立NPU的崛起
在刚刚闭幕的2025年戴尔科技世界大会(Dell Technologies World)上,AI工作负载的去中心化成为核心议题。这意味着AI计算需从云端数据中心向边缘节点分散,最终下沉至各类终端设备。尽管集成NPU的AMD Ryzen AI 300系列和英特尔酷睿Ultra 200系列可胜任此工作,但独立NPU显然具备更优性能。
大会展台上,戴尔展示了一款名为Pro Max Plus的概念笔记本。其内部搭载两颗占据传统NVIDIA GPU位置的高通Cloud AI 100处理器,重构了AI加速架构。该设备目前仍为原型,仅有少量手工组装样机,但技术规格已令人瞩目。
每颗Cloud AI 100配备32GB专用内存,两颗以统一内存架构协同工作,为AI模型提供高达64GB的加速器内存空间。戴尔技术团队已成功在该平台运行包括1090亿参数的Llama 4 Scout在内的多个大模型,性能远超传统集成NPU。
此方案的核心优势在于突破内存瓶颈:顶级NVIDIA RTX PRO 5000 Blackwell Generation的24GB显存难以容纳千亿级模型,而64GB NPU内存则为移动端部署超大规模模型开辟了可能。尽管具体能效数据未公布,戴尔声称该高通独立NPU系统的功耗显著低于同等性能的NVIDIA GPU。值得一提的是,戴尔推出的Pro AI Studio软件平台旨在降低开发门槛,通过预验证AI模型库和一键部署工具,让开发者更便捷地利用NPU算力。现场演示中,开发人员使用此软硬件组合完成了游戏引擎的AI驱动开发任务,展现了独立NPU在专业创作领域的潜力。
起
目前,戴尔-高通的独立NPU方案仍处原型阶段,具体规格、定价和上市时间待定,但戴尔明确表示正推进其商业化进程。无独有偶,普林斯顿大学初创公司Encharge AI凭借革命性的模拟内存计算技术,成功融资1.44亿美元,并推出AI加速器EnCharge EN100。
据Encharge AI介绍,EN100的核心创新在于采用精确且可扩展的模拟内存计算架构。区别于传统数字芯片,其通过精密的金属线开关电容器替代易受噪声影响的晶体管,从根源上解决了模拟计算的长期噪声挑战。此突破带来显著性能提升:相比竞品,EN100在各种AI负载下实现高达20倍的每瓦性能提升;其约30 TOPS/mm²的计算密度远超传统数字架构的3 TOPS/mm²;同时支持高达128GB的高密度LPDDR内存,带宽达272 GB/s。
EN100提供两种配置:M.2版本在8.25W功耗下可提供超200 TOPS AI算力,支持笔记本本地运行复杂AI应用而不损续航与便携性;PCIe版本集成四颗NPU,算力约1 PetaOPS,以极低成本和功耗提供GPU级性能,专为复杂模型与大型数据集的专业AI应用设计。
此外,EnCharge AI构建了全面的软件生态,支持PyTorch、TensorFlow等主流框架,结合优化工具、高性能编译器与开发资源,提供完整解决方案。此全栈方法确保了对当前模型的优化性能,并具备适应未来演进的能力。
EnCharge AI强调其采用差异化市场策略,聚焦快速增长的AI PC与边缘设备市场,而非直接挑战数据中心巨头。EN100的高计算密度使OEM厂商能在不牺牲设备尺寸与重量的前提下集成强大AI功能,打造更紧凑时尚的产品。
其运行先进AI模型的能耗仅相当于一个灯泡,在移动与边缘设备应用中极具竞争力。事实上,戴尔的概念笔记本与EnCharge AI的加速器,正标志着AI PC从“AI功能”试水向“AI能力”专职部署的演进。
NPU革命
EnCharge AI与戴尔概念笔记本之所以引人瞩目,正是因其精准契合了当前AI计算的发展趋势。当下AI计算主要集中于两大阵地:数据中心与本地终端。前者强调集中化与强大算力,后者则关注隐私、延迟与能效。显然,上述两者均立足于“本地派”阵营。
过去,复杂AI推理模型几乎只能在云端完成,根源在于本地芯片性能不足。然而,随着AI持续演进,独立NPU反而凸显出其相对于传统GPU的独特优势。首先,GPU在AI计算领域虽强,但其资源分配更侧重图形渲染与CUDA生态维护,对于纯AI推理任务而言,存在“资源冗余”与“能效浪费”的弊端。 专为AI定制的NPU,在功耗控制、封装密度、并行优化等方面,能实现更高的每瓦效能与更专一的成本效益。
其次,内存瓶颈一直是GPU的痛点。 并非所有用户都需要GPU的图形渲染能力,但越来越多的专业用户、AI开发者及行业解决方案商,正迫切需求能在本地加载50B+参数模型的AI平台。NPU搭配大容量LPDDR或HBM内存的方案,更契合未来“本地大模型”的发展方向。
最后,专用NPU展现了更多可能性,它正在为一种全新的计算架构探路: CPU负责通用计算与系统管理,NPU专注高效AI推理,GPU(选配)提供图形渲染能力。这种模块化AI协处理器设计,将NPU从SoC内核中解放出来,允许根据应用场景灵活组合。这进而催生出多样化的AI PC形态:
轻量办公设备: 采用集成NPU(如酷睿Ultra系列)
专业AI创作平台: 配备独立NPU(如戴尔Pro Max Plus和EnCharge AI方案)
游戏与AI双重需求场景: 选择GPU+NPU双芯协同方案
目前,戴尔-高通的Pro Max Plus仍是原型,EnCharge AI的商业化进程也刚起步,产品形态、量产成本与市场接受度尚未完全明朗。但它们共同描绘的未来图景令人振奋:当NPU的性能与容量超越GPU,却无需承担图形任务时,一种全新的、纯粹服务于AI的“智能计算层”正逐渐浮现。
无论最终形态如何演变,这些先行者敢于绕开既有生态、押注专用NPU的勇气,已在AI PC芯片赛道上树立了鲜明的旗帜。
从集成走向独立,从通用迈向专用,NPU正经历一场深刻变革。 这块新兴的芯片或许不会让人立刻淘汰旧电脑,但它清晰地预示着一个不远的未来:AI正从云端真正走入用户的终端设备之中。