我们有一些已知的身高（作为键 $K$ ）和对应的体重（作为值 $V$ ）。现在，我们想使用一种基于注意力机制的方法来“查询”一个特定身高（比如 170cm）对应的体重。虽然这通常不是注意力机制的典型应用，但我们可以构造一个类似的计算过程。

定义键和值：
- 键矩阵 $K$ ：包含已知的身高值，形状为 $[n, 1]$ ，其中 $n$ 是已知数据点的数量。
- 值矩阵 $V$ ：包含与键对应的体重值，形状为 $[n, 1]$ 。
定义查询向量：
- 查询向量 $Q$ ：包含要查询的身高值（170cm），形状为 $[1, 1]$ 。
计算相似度：
- 在这个例子中，我们可以使用身高的差的负数作为相似度的度量。对于每个键 $K_i$ ，计算相似度 $s_i$ ：
  $s_i = -( |Q - K_i| )$
  或者，为了保持数值稳定性，我们可以使用：
  $s_i = -\alpha \cdot (Q - K_i)^2$
  其中 $\alpha$ 是一个缩放因子（比如 $\alpha = 0.01$ ），用于调整相似度的敏感度。
应用 softmax 函数：
- 对相似度向量 $s$ 应用 softmax 函数，得到注意力权重 $a$ ：
  $a_i = \frac{e^{s_i}}{\sum_j e^{s_j}}$
计算加权求和：
- 使用注意力权重 $a$ 对值向量 $V$ 进行加权求和，得到预测的体重：
  $\text{体重} = \sum_i a_i V_i$

假设我们有以下数据：

计算相似度：
- $s_1 = -( |170 - 160| ) = -10$
- $s_2 = -( |170 - 165| ) = -5$
- $s_3 = -( |170 - 175| ) = -5$
- $s_4 = -( |170 - 180| ) = -10$
应用 softmax 函数：
- 首先计算指数：
  $e^{s_1} = e^{-10} \approx 0.000045$
  $e^{s_2} = e^{-5} \approx 0.006738$
  $e^{s_3} = e^{-5} \approx 0.006738$
  $e^{s_4} = e^{-10} \approx 0.000045$
- 然后计算总和：
  $\sum_j e^{s_j} \approx 0.013566$
- 最后计算权重：
  $a_1 \approx \frac{0.000045}{0.013566} \approx 0.0033$
  $a_2 \approx \frac{0.006738}{0.013566} \approx 0.4967$
  $a_3 \approx \frac{0.006738}{0.013566} \approx 0.4967$
  $a_4 \approx \frac{0.000045}{0.013566} \approx 0.0033$
计算加权求和：
- $\text{体重} = a_1 \times 50 + a_2 \times 55 + a_3 \times 65 + a_4 \times 70$
- $\text{体重} \approx 0.0033 \times 50 + 0.4967 \times 55 + 0.4967 \times 65 + 0.0033 \times 70$
- $\text{体重} \approx 0.165 + 27.3185 + 32.2855 + 0.231$
- $\text{体重} \approx 60$