Slide 14
Slide 14 text
confidential
14
“⾮”Transformer系アーキテクチャ
最近では、Attentionの限界を取り払った⾮Transformer系アーキテクチャが提案されています:
Mamba, RWKV, RetNet, 等
その⼀つであるRetNetは、”Retention機構”というものを採⽤しています。
Retentionの計算は⽂字列の⻑さが増えても計算量は増えない性質を持っており、無限に過去のこ
とを参照することができます。
⼀⽅で、記憶は徐々に薄れていくので、「短期記憶は弱いが、⻑期記憶に強い」と⾔えます。
どちらかというと、こちらのほうが「対話」には向いています。