LLaMA2


是否改动 LLaMA LLaMA2
模型整体构架 transformer transformer
规范化函数 RMSNorm RMSNorm
位置编码 RoPE RoPE
激活函数 SiLU SiLU
注意力机制 多头注意力机制 分组查询多头注意力机制
前馈函数 逐元素前馈函数 逐元素前馈函数
连接 残差连接 残差连接
掩码 因果掩码 因果掩码
推理 自回归推理 自回归推理

RoPE由苏神提出,通过绝对位置编码的方式实现相对位置编码,是一种可用于线性Attention的相对位置编码。

SiLU:$y=x*sigmoid(x)$


LLaMA2
https://lijianxiong.work/2023/20230719/
作者
LJX
发布于
2023年7月18日
许可协议