LLaMA2
是否改动 | LLaMA | LLaMA2 | |
---|---|---|---|
模型整体构架 | 无 | transformer | transformer |
规范化函数 | 无 | RMSNorm | RMSNorm |
位置编码 | 无 | RoPE | RoPE |
激活函数 | 无 | SiLU | SiLU |
注意力机制 | 有 | 多头注意力机制 | 分组查询多头注意力机制 |
前馈函数 | 无 | 逐元素前馈函数 | 逐元素前馈函数 |
连接 | 无 | 残差连接 | 残差连接 |
掩码 | 无 | 因果掩码 | 因果掩码 |
推理 | 有 | 自回归推理 | 自回归推理 |
RoPE由苏神提出,通过绝对位置编码的方式实现相对位置编码,是一种可用于线性Attention的相对位置编码。
SiLU:$y=x*sigmoid(x)$
LLaMA2
https://lijianxiong.work/2023/20230719/