9 注意力机制

1 注意力汇聚: Nadaraya-Watson 核回归

1.1 非参数注意力汇聚

我们想要学习数据集 ${(x_{1}, y_{1}), \dots, (x_{n}, y_{n})}$ . 直接基于平均值是很差的选择, 可以基于位置对 $y_{i}$ 加权: $f (x) = \sum_{i = 1}^{n} \frac{K (x - x_{i})}{\sum_{j = 1}^{n} K (x - x_{j})} y_{i} .$ 受这个启发, 对注意力机制框架, $x$ 是查询, $(x_{i}, y_{i})$ 是键值对, $f (x) = \sum_{i = 1}^{n} α (x, x_{i}) y_{i} .$
例如, 定义 Gauss 核: $K (u) = \frac{1}{\sqrt{2 π}} \exp (- \frac{u^{2}}{2})$ , 则 $f (x) = \sum_{i = 1}^{n} softmax (- \frac{1}{2} (x - x_{i})^{2}) y_{i} .$ 说明 $x$ 越接近 $x_{i}$ , 分配的权重就越大. 当然权重中也可以带参数.

1.2

2 注意力评分函数

把上面的高斯核称为 (注意力)评分函数. 它会对输入加权, 最后用 softmax 归一化.

Pasted image 20250503235631.png

也即: 查询 $q \in R^{q}$ , 键值对 ${(k_{1}, v_{1}), \dots, (k_{m}, v_{m})}, k_{i} \in R^{k}, v_{i} \in R^{v}$ , 则 $f (q, (k_{1}, v_{1}), \dots, (k_{m}, v_{m})) = \sum_{i = 1}^{m} α (q, k_{i}) v_{i} \in R^{v},$ 其中 $α (q, k_{i}) = softmax (a (q, k_{i})) = \frac{\exp (a (q, k_{i}))}{\sum_{j = 1}^{m} \exp (a (q, k_{j}))} \in R .$

2.1 掩蔽 softmax 操作

用来屏蔽没有意义的词元.

def masked_softmax(X, valid_lens):
    """通过在最后一个轴上掩蔽元素来执行softmax操作"""
    #X:3D张量，valid_lens:1D或2D张量
    if valid_lens is None:
        return npx.softmax(X)
    else:
        shape = X.shape
        if valid_lens.ndim == 1:
            valid_lens = valid_lens.repeat(shape[1])
        else:
            valid_lens = valid_lens.reshape(-1)
        #最后一轴上被掩蔽的元素使用一个非常大的负值替换，从而其softmax输出为0
        X = npx.sequence_mask(X.reshape(-1, shape[-1]), valid_lens, True,
                              value=-1e6, axis=1)
        return npx.softmax(X).reshape(shape)

在超出我们定义的 valid_lens 部分用很大的负值替换, 使得 softmax 后为 0.

2.2 加性注意力

a (q, k) = w_{v}^{T} \tanh (W_{q} q + W_{k} k) \in R

2.3 缩放点积注意力

点积计算效率更高, 但是要求 $q, k$ 有相同长度 $d$ . 假设两者的所有元素都 $\overset{i . i . d}{\sim} (0, 1)$ , 则 $k \cdot d \sim (0, d)$ , 为此标准化 (除以 $\sqrt{d}$ ): $a (q, k) = q^{T} k / \sqrt{d} .$
小批量版本, 有 $n$ 个查询, $m$ 个键值对, 则查询 $Q \in R^{n \times d}$ , 键 $K \in R^{m \times d}$ , 值 $V \in R^{m \times v}$ : $softmax (\frac{Q K^{T}}{\sqrt{d}}) V \in R^{n \times v} .$

3 Bahdanau 注意力

为了解决解码步骤使用和编码相同的上下文变量: 需要改变上下文变量.

3.1 模型

在 seq2seq 中, 我们把 $c$ (上下文变量) 变成 $c_{t^{'}}$ . 假设 $T$ 个词元, $c_{t^{'}} = \sum_{t = 1}^{T} α (s_{t^{'} - 1}, h_{t}) h_{t} .$ 这里 $s_{t^{'} - 1}$ 是查询, $h_{t}$ 既是键也是值, 我们暂时使用加性注意力作为评分函数.
Pasted image 20250504003713.png

3.2 注意力编码器

4 多头注意力

用多组注意力汇聚来学习不同行为并进行连结.

Pasted image 20250504004609.png

每一个注意力头 $h_{i} (i = 1, \dots, h)$ : $h_{i} = f (W_{i}^{(q)} q, W_{i}^{(k)} k, W_{i}^{(v)} v) \in R^{p_{v}},$ 这里 $q \in R^{d_{q}}, k \in R^{d_{k}}, v \in R^{d_{v}}$ .
此外, 对多头注意力, 还需要线性转换 $W_{o} (h_{1}, \dots, h_{h})^{T} \in R^{p_{o}}$ .

5 自注意力和位置编码

自注意力: 同一组词元同时充当查询、键、值, 也即每一个查询都会关注所有键值对生成一个注意力输出, 称为自注意力.
给定 $x_{1}, \dots, x_{n}$ , 自注意力输出为 $y_{i} = f (x_{i}, (x_{1}, x_{1}), \dots, (x_{n}, x_{n})) \in R^{d} (1 \leq i \leq n)$
Pasted image 20250504010042.png

架构类型	计算复杂性	顺序操作数	最大路径长度
卷积神经网络	𝒪(kn·d²)	𝒪(1)	𝒪(n/k)
循环神经网络	𝒪(n·d²)	𝒪(n)	𝒪(n)
自注意力机制	𝒪(n²·d)	𝒪(1)	𝒪(1)

5.1 位置编码

为了并行计算, 自注意力放弃了顺序操作, 改为添加位置编码, 对输入 $X \in R^{n \times d}$ , 输出 $X + P$ , 其中 $p_{i, 2 j} = \sin (\frac{i}{10000^{2 j / d}}), p_{i, 2 j + 1} = \cos (\frac{i}{10000^{2 j / d}}) .$

6 Transformer

Pasted image 20250504011231.png

class PositionWiseFFN(nn.Module):
    """基于位置的前馈网络"""
    def __init__(self, ffn_num_input, ffn_num_hiddens, ffn_num_outputs,
                 **kwargs):
        super(PositionWiseFFN, self).__init__(**kwargs)
        self.dense1 = nn.Linear(ffn_num_input, ffn_num_hiddens)
        self.relu = nn.ReLU()
        self.dense2 = nn.Linear(ffn_num_hiddens, ffn_num_outputs)

    def forward(self, X):
        return self.dense2(self.relu(self.dense1(X)))