重みを凍結した事前学習済み Transformer のレイヤー全体に渡り、情報を削除または再編成することによる影響を広範に調査した研究を紹介します。実験の結果、Transformer の中間層には大きな一貫性があること、Transformer は学習時と異なる実行方法に比較的頑健であることが確認され、レイヤーのスキップや並列化により認識性能とレンテンシを簡単にトレードオフできることが示唆されています。