𝑛 掛かる • SSMはTNNに性能が劣るものの,O 𝑑ℎ と⾼速に推論可 → TNNをSSMの形式に変換できれば,両者の利点を享受できて便利 性能 速度 計算量 (推論時) Transformer [Vaswani+, NIPS17] ◎ ✗ O 𝑛'𝑑 + 𝑛𝑑' Transformer w/ KV-Cache [Pope+, 22] ◎ △ O 𝑛𝑑' Linear Attention […] △ ◎ O 𝑑ℎ State Space Model [Gu+, ICLR22] ◦ ◎ O 𝑑ℎ Toeplitz Neural Network [Qin+, ICLR23] ◦ △ O 𝑛𝑑 log 𝑛