Ecotransformer-无需乘法的注意力机制

（arxiv 2025）2507.20096

众所周知，注意力为$softmax(\frac{QK^T}{\sqrt{D_k}})V$。

而QK内积可以写为$<Q,K>=\frac{1}{2}(||Q||^2_2+||K||^2_2-||Q-K||^2_2)$。

若Q、K被L2规范化，则括号内前两项为常数，化简后最终为$softmax(\frac{-1}{2/\sqrt{D}}||Q-K||^2_2)$。

于是作者把其扩充为softmax(QK距离)，作者使用了L1距离乘上$\lambda$系数。

评价

思路其实比较简单。

和用逐元素乘法代替点积的AFT，不过被ICLR 2021 拒了。

#深度学习

Ecotransformer-无需乘法的注意力机制

https://lijianxiong.space/2025/20250807/

作者

LJX

发布于

2025年8月7日

许可协议