~~TL; DR~~
この論文はVideoMamba【ECCV2024】を改良し、MambaとTransformerモデルのギャップを埋めることを目的とした論文です。そのために、TransformerとMambaを数学的な観点から分析し、CV分野におけるMamba特有の問題を発見・改善しています。結果としては、SSMが得意とする計算量やパラメータの優位性を保ちながらTransformerモデルの精度に近づけることに成功しています。
輪講で使った資料をほぼそのままアップロードしました!!!
zennにて解説も行っておりますので是非読んでくださると励みになります!
追記:資料を修正いたしました。(Element contradictionに関する記述)