- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

边缘 AI 芯片，为啥越来越“不像芯片”？聊聊这些年我看到的架构创新

Echo_Wish 发表于 2025/12/27 20:07:41 2025/12/27

【摘要】边缘 AI 芯片，为啥越来越“不像芯片”？聊聊这些年我看到的架构创新

边缘 AI 芯片，为啥越来越“不像芯片”？聊聊这些年我看到的架构创新

作者：Echo_Wish

这几年跟不少做 AI、嵌入式、边缘计算 的朋友聊天，我发现一个很有意思的变化：

大家已经不太爱聊制程、频率了，反而更爱聊“架构”。

为啥？
因为在边缘 AI 这个赛道里，制程不是万能解药，架构才是生死线。

今天这篇文章，我不打算从论文视角讲“某某新架构”，而是站在一个工程老兵 + 爱折腾的角度，跟你聊聊：

边缘 AI 芯片到底在“难”什么
这些年架构上都在怎么“反常规”
为啥说：边缘 AI 芯片，已经越来越不像传统芯片了

一、先说现实：边缘 AI 的约束，真的太狠了

在云端，你可以这么玩：

GPU 插满
内存堆大
功耗？反正机房兜着

但一到边缘，画风立马变了。

我们先列几个真实约束：

功耗：几百 mW ～几 W
内存：几十 MB 已经算豪华
延迟：不能抖，不能等
成本：一颗芯片几美元是常态

所以边缘 AI 的本质问题不是：

“我能不能算得更快”

而是：

“我能不能在这么憋屈的条件下，把模型跑起来”

这就直接逼着芯片架构，开始走一条和云端完全不同的路。

二、从 CPU 到 GPU，再到 NPU：这不是升级，是“分工革命”

1️⃣ CPU：能跑，但太累了

最早大家都用 CPU 跑推理，结果很现实：

算得动
但功耗直接起飞
延迟不稳定

CPU 的问题不在“算力”，而在于：

它是为“通用逻辑”设计的，不是为矩阵乘法生的。

2️⃣ GPU：能打，但不适合边缘

GPU 在并行计算上确实猛，但在边缘设备上：

功耗太高
片上资源太复杂
调度和上下文切换成本不低

说白了，GPU 更像是：

“通才中的猛男”

而边缘 AI 需要的是：

“干一件事，干到极致的狠角色”

3️⃣ NPU / AI Accelerator：为模型而生

于是我们看到了 NPU、TPU、各种 AI Accelerator：

专为卷积、矩阵乘设计
指令极少
数据流高度可控

架构思路发生了根本变化：
👉 不再追求“什么都能算”，而是“只算 AI，算到极致”。

三、真正的创新点一：数据流驱动，而不是指令驱动

这是边缘 AI 芯片一个非常重要、但很少被聊透的点。

传统 CPU / GPU：指令驱动

取指令 → 解析 → 执行 → 写回

问题在哪？

控制逻辑复杂
指令流本身就很耗能
对 AI 这种重复算子来说，浪费严重

边缘 AI 芯片：数据流驱动

核心思想一句话：

“数据来了，我就算；数据走了，我就停。”

算子被固化成硬件流水线，
数据像水一样在算子间流动。

结果是什么？

控制逻辑大幅简化
功耗显著下降
延迟更可预测

这也是为什么你会看到很多 NPU 架构图，长得特别“流水线”。

四、真正的创新点二：存储，比算力更值钱

说句可能有点反直觉的话👇

在边缘 AI 芯片里，存储架构比算力架构更重要。

1️⃣ 为啥？

因为在 AI 推理里：

算一次 MAC 的能耗：≈ 1
从 DRAM 读一次数据：≈ 100

这不是夸张，是工程现实。

2️⃣ 典型创新：算存一体 & 近存计算

边缘 AI 芯片开始大量采用：

SRAM 紧贴计算单元
Tile / PE 本地缓存
减少数据“来回搬家”

你会发现一个趋势：

芯片不再是“算力中心 + 存储外围”，而是“存储包围算力”。

五、量化不是妥协，而是设计的一部分

很多人一听边缘 AI 就想到：

INT8、INT4、甚至二值网络

以前我也觉得这是“没办法的妥协”，但后来越看越觉得：

这是架构与算法共谋的结果。

举个直观的例子

# FP32
y = w * x

# INT8（边缘设备）
y_int = (w_q * x_q) >> scale

硬件更简单
功耗更低
带宽需求更小

现在很多边缘 AI 芯片，干脆直接在硬件层面：

原生支持 INT8 / INT4
FP32 反而成了“特权模式”

这不是倒退，而是为场景服务。

六、异构 SoC：边缘 AI 芯片越来越“像系统”

再看一个明显趋势：
边缘 AI 芯片越来越不像“单一计算芯片”，而像一个微型系统。

常见组合是：

CPU：控制、调度
NPU：AI 推理
DSP：信号处理
ISP：图像前处理

这背后的逻辑是：

别让 AI 单元干不该干的活。

前处理、后处理都丢给更合适的模块，
NPU 只负责最“值钱”的那一段算力。

七、我个人的一点感受：边缘 AI 拼的是“克制”

最后说点不那么技术的。

我这几年看下来，对边缘 AI 芯片最大的感受是：

真正厉害的设计，往往都很克制。

不追求极致峰值算力
不盲目堆通用性
不幻想“一个芯片干所有事”

它更像是在不断问自己：

“我到底服务的是谁？”

是摄像头？
是工业设备？
是可穿戴？
还是车端？

一旦这个问题想清楚，架构选择反而变简单了。

写在最后

如果你让我用一句话总结边缘 AI 芯片的架构创新，我会说：

这是一次从“以芯片为中心”到“以场景为中心”的转变。

它不炫技，但很务实。
它不完美，但足够落地。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

边缘 AI 芯片，为啥越来越“不像芯片”？聊聊这些年我看到的架构创新

边缘 AI 芯片，为啥越来越“不像芯片”？聊聊这些年我看到的架构创新

一、先说现实：边缘 AI 的约束，真的太狠了

二、从 CPU 到 GPU，再到 NPU：这不是升级，是“分工革命”

1️⃣ CPU：能跑，但太累了

2️⃣ GPU：能打，但不适合边缘

3️⃣ NPU / AI Accelerator：为模型而生

三、真正的创新点一：数据流驱动，而不是指令驱动

传统 CPU / GPU：指令驱动

边缘 AI 芯片：数据流驱动

四、真正的创新点二：存储，比算力更值钱

1️⃣ 为啥？

2️⃣ 典型创新：算存一体 & 近存计算

五、量化不是妥协，而是设计的一部分

举个直观的例子

六、异构 SoC：边缘 AI 芯片越来越“像系统”

七、我个人的一点感受：边缘 AI 拼的是“克制”

写在最后

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

边缘 AI 芯片，为啥越来越“不像芯片”？聊聊这些年我看到的架构创新

边缘 AI 芯片，为啥越来越“不像芯片”？聊聊这些年我看到的架构创新

一、先说现实：边缘 AI 的约束，真的太狠了

二、从 CPU 到 GPU，再到 NPU：这不是升级，是“分工革命”

1️⃣ CPU：能跑，但太累了

2️⃣ GPU：能打，但不适合边缘

3️⃣ NPU / AI Accelerator：为模型而生

三、真正的创新点一：数据流驱动，而不是指令驱动

传统 CPU / GPU：指令驱动

边缘 AI 芯片：数据流驱动

四、真正的创新点二：存储，比算力更值钱

1️⃣ 为啥？

2️⃣ 典型创新：算存一体 & 近存计算

五、量化不是妥协，而是设计的一部分

举个直观的例子

六、异构 SoC：边缘 AI 芯片越来越“像系统”

七、我个人的一点感受：边缘 AI 拼的是“克制”

写在最后

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品