事前学習モデルの使用(位置埋め込み)
e
e
e
e
e
e
e
e
e
e
e
e
e
e
e
e
e
e
e
e
e
e
e
e
(24x24)
e
e
e
e
e
e
e
e
e
e
e
e
e
e
e
e
• 位置埋め込みベクトルの流用方法の説明
• 補間を適用することで入力時間フレームの変動に対応
e
e
e
e
e
e
e
e
e
e
e
e
e
e
e
e
T <= 48
T > 48
ViT
流用
可変長
(12xT)
T > 48
e
e
e
e
e
e
e
e
e
e
e
e
e
e
e
e
AST
入力
パッチ
埋め込み
ベクトル
固定数
(24x24)
(12x48)
切り出して
使用
補間して使用
補間
(バイリニア)
音の長さによる
形状変形
パッチの位
置に対応
固定数
固定数
入力パッチ
埋め込み
ベクトル