LLaMA2
| 是否改动 | LLaMA | LLaMA2 | |
|---|---|---|---|
| 模型整体构架 | 无 | transformer | transformer |
| 规范化函数 | 无 | RMSNorm | RMSNorm |
| 位置编码 | 无 | RoPE | RoPE |
| 激活函数 | 无 | SiLU | SiLU |
| 注意力机制 | 有 | 多头注意力机制 | 分组查询多头注意力机制 |
| 前馈函数 | 无 | 逐元素前馈函数 | 逐元素前馈函数 |
| 连接 | 无 | 残差连接 | 残差连接 |
| 掩码 | 无 | 因果掩码 | 因果掩码 |
| 推理 | 有 | 自回归推理 | 自回归推理 |
RoPE由苏神提出,通过绝对位置编码的方式实现相对位置编码,是一种可用于线性Attention的相对位置编码。
SiLU:$y=x*sigmoid(x)$
LLaMA2
https://lijianxiong.space/2023/20230719/