诸神缄默不语-个人CSDN博文目录
开宗明义:attention就是一个加权机制,但是权重需要经过训练得到。
本文介绍一些我自己整理的常见attention类型。
本文不关注别的博文里已经写烂了的attention机制的重要性和直觉解释(又不是写论文还要写introduction)。
最近更新时间:2022.11.23
最早更新时间:2022.11.23
经典用例:Transformer1
KQV都由输入通过线性转换运算得到。
经典用例:Transformer1
Attention Is All You Need ↩︎ ↩︎