- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

大模型原理--多头自注意力在推理效率上的进化

举报

剑指南天发表于 2026/04/30 16:53:21 2026/04/30

【摘要】随着模型越来越大，上下文越来越长，传统注意力机制的问题逐渐暴露出来。为了解决问题，业界提出了一系列结构的改进，在保持模型能力的同时显著提升了推理效率。

1.概述

基于Decoder-only的大模型在自回归生成过程中，模型的输出使逐token。每一个新token，模型都会与上下文的所有token进行注意力计算,这将造成巨大的重复计算。随着模型越来越大，上下文越来越长，传统注意力机制的问题逐渐暴露出来。为了解决问题，业界提出了一系列结构的改进，在保持模型能力的同时显著提升了推理效率。

2.在MHA（Multi-Head Attention）架构引入KV Cache

MHA是Transformer最初采用的注意力机制，其结构在大模型时代逐渐暴露出明显的工程瓶颈。首先研究下生成token的Attention的计算过程：

在step1中，在生成a₁向量，需要计算生成的向量有q₁，k₁，v₁，w₁₁。

在step2中，在生成a₂向量，需要计算生成的向量q₂，k₁，k₂，v₁，v₂，w₂₁，w₂₂。其中k₁，v₁可以从step1中获得，不需要计算生成。

在step3中，在生成a₃向量，需要计算生成的向量q₃，k₁，k₂，k₃，v₁，v₂，v₃，w3₁，W_32，W₃₃。其中k₁，k₂和v₁，v₂可以从step2中获得，不需要计算生成

为了避免这种重复计算，在推理阶段将历史 token 的 Key 和 Value 缓存下来，供后续步骤直接使用。这一机制就是 KV Cache。

优点：减少重复计算。

不足：影响KV Cache显存占用的因素有大模型的层数、MHA中的头数、kv向量的长度、数字表示的精度、上下文长度以及推理请求的个数。其中上下文长度，推理请求的个数会动态的影响KV Cache，会造成KV Cache缓存规模成倍的增加，显存带宽的大小会影响计算效率。

3. MQA（Multi-Query Attention）

MQA 的核心思想是让多个注意力头共享同一套 Key 和 Value，而不是像传统 MHA 那样为每个头分别维护独立的 k/v。

优点：这种共享方式大幅减少了需要缓存和读取的 K/V 张量量级，显著降低存储需求与内存带宽压力，从而大幅提升了推理速度。

不足：这种共享机制会削弱注意力头的表达能力，使其精度逊于传统 MHA。

4. GQA（Group-Query Attention）

GQA 的核心思想是：将注意力头划分为多个组（Group），每组内部的多个 Query 共享同一套 Key 和 Value，而不同组之间则使用独立的 K/V.

优点：GQA 在推理效率和表达能力之间实现了更优平衡。因此被主流大模型所采用，在长序列推理和高并发场景中表现极为出色。

不足：依然会削弱注意力头的表达能力。

5. MLA（Multi-Head Latent Attention）

MLA的核心思想是不再直接缓存多头 K/V，而是先把它们压缩到一个共享的低维“潜在向量”里，只缓存这个低维向量，再在需要算注意力时从中恢复出各头的 K/V。

优点：MLA 能显著减少推理阶段的 KV Cache，同时保持多头注意力的表达多样性。

【版权声明】本文为华为云社区用户原创内容，未经允许不得转载，如需转载请自行联系原作者进行授权。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

评论（0）

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长