「深層学習による自然言語処理」読書会第6章2.7

by Kei Shiratsuchi

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Ξϯαϯϒϧ๏ • 複数モデルを組み合わせて予測することで、予測のばらつきを減らす⼿法 • ニューラルネットのような複雑なモデルは、少しの違いによって学習結果が⼤きく異なる傾向があり、推定誤差が⼤きいため、特に有効 • 複数モデルの過半数が間違う可能性は低い • 有効であるための仮定は、個々のモデルがランダムな予測ではないこと、個々のモデルの予測が独⽴であること © 2017 Retrieva, Inc. 5

Slide 6

Slide 6 text

Ξϯαϯϒϧ๏ • ニューラルネットでは、以下のような⽅法がある 1. 初期値だけを変えて学習したモデルを複数⽤意する⽅法 • 初期値によって学習結果のばらつきが⼤きいため 2. 学習中のモデルを定期的に保存しておき、それぞれを違うモデルとする⽅法 3. 状態変数など設定の違うモデルを⽤意する⽅法 4. 訓練データから部分集合を何回も無作為抽出し、それぞれを使って異なるモデルを学習する⽅法（バギング） • 論⽂等では、アンサンブル法の有無の両⽅の実験結果を提⽰するのが⼀般的 © 2017 Retrieva, Inc. 6

Slide 7

Slide 7 text

υϩοϓΞ΢τ • 訓練時に、状態変数の⼀部をランダムに 0 に設定する⽅法 • 特定の状態変数だけを重視した学習を防ぐ • 確率pで1、1-pで0を取るベクトル(#)（ドロップアウトマスク）を隠れ状態ベクトルにかける ℎ(#) = (#)⨀ℎ(#()) • 微分計算のたびに異なるドロップアウトマスクを使⽤するため、別の部分構造を毎回評価してパラメータを更新することになる • 特定のネットワーク構造に依存しない学習ができると期待 © 2017 Retrieva, Inc. 7

Slide 8

Slide 8 text

υϩοϓΞ΢τ • 学習後に予測する場合には、決定的な予測をしたい場合がある • その場合、ドロップアウトマスクをかける代わりに、p倍して縮約した値を使う ℎ(#) = ℎ(#()) • この予測⽅法は、状態変数それぞれが{0,hi}の2つの値をとる複数モデルを組み合わせたアンサンブル効果があると⾔われている • 次の層の状態変数を計算する場合、h(l) ではなくパラメータ⾏列W(l+1)にpをかけることと等しいため、⼊⼒に関わらずあらかじめ計算できる © 2017 Retrieva, Inc. 8

Slide 9

Slide 9 text

υϩοϓΞ΢τ • 同じ⼊⼒に対して複数のドロップアウトマスクを適⽤した結果を組み合わせる⽅法がある • アンサンブル法を適⽤することに相当する • ドロップアウトをパラメータ分布からのサンプリング⽅法と考え、事後分布を変分近似しているという解釈がある（変分ドロップアウト） • RNNでは、パラメータは時刻⾮依存なので、時刻に⾮依存なドロップアウトマスク⽤ベクトルを⽤いることになる • 評価時は、モンテカルロドロップアウトという⼿法がある • 単⼀モデルを⽤いた単語単位の⾔語モデルで最⾼⽔準の性能 • アンサンブルをしていると解釈できる © 2017 Retrieva, Inc. 9

Slide 10

Slide 10 text

Slide 11

Slide 11 text

ॳظ஋ઃఆ • ニューラルネットでは、パラメータ⾏列Wを、通常乱数を使って初期化する • 同じ値で初期化すると、対応する状態変数の値が同じで、勾配や⾹⾟料も同じになり、複数の状態変数を使う利点がなくなる • 最適化誤差が初期値に⾮常に強く依存していることが知られている • ⼀様分布からパラメータ⾏列を⽣成し、複数の値で学習し、性能評価結果から選ぶこともある © 2017 Retrieva, Inc. 11

Slide 12

Slide 12 text

ॳظ஋ઃఆ • 学習の初期に勾配爆発や勾配消失が起きにくいようにパラメータを初期化する⼿法もある • ゼイヴィア初期値 • 以下の範囲の⼀様分布から無作為抽出する − 6 (#()) + (#) , 6 (#()) + (#) • N(l-1) は⼊⼒となるh(l-1)、N(l)は出⼒となるh(l) • ⾮線形活性化関数を使わない場合、各層の状態変数の分散と勾配の分散が⼀定に保たれるようにする(?) • ⾮線形の場合、理論的な裏付けはないが、広く使われている • ReLUの場合にも同様の初期化⽅法が提案されている • N(l-1),N(l)に⽐例した分散を持つ正規分布から無作為抽出する • 各層の勾配の分散が⼀定になるため、勾配爆発や勾配消失が軽減する © 2017 Retrieva, Inc. 12

Slide 13

Slide 13 text

Slide 14

Slide 14 text

ॳظ஋ઃఆ • バイアスパラメータの初期化⼿法 • 通常は0で初期化する • LSTMでは、忘却ゲートfのバイアスパラメータの初期値を⼤きな値(1など)にすることで性能が向上する • 忘却ゲートが1の時は単純なショートカットと同じになり、勾配消失が起こりにくくなる • fのバイアスパラメータの初期値を⼤きな値にすることで、シグモイド関数の⼊⼒値が底上げされ、忘却ゲートの値が1に近づく © 2017 Retrieva, Inc. 14

Slide 15

Slide 15 text

Slide 16

Slide 16 text

ΧϦΩϡϥϜֶश • 簡単な学習から始めて、徐々に複雑な概念を学習するようにする⽅法 1. 学習の初期は⾼頻度の単語のみ限定した訓練データを使⽤し、徐々に訓練データの多様性を増やす • ⾼頻度の単語同⼠の関係は学習しやすいという仮定 2. 学習の初期は短い⽂を使い、徐々に⻑い⽂を使⽤する • ⻑い⽂は⽂法的にも意味的にも複雑なことが多いという仮定 3. 学習中のモデルを使い、簡単な訓練データを選ぶ • 学習中のモデルにとって解きやすい訓練データが簡単なデータであるという仮定 4. タスクの性能が⾼くなるように単語埋め込みベクトルで学習する順番を学習する © 2017 Retrieva, Inc. 16

Slide 17

Slide 17 text

ਖ਼نԽ • 勾配法では、他のパラメータとの関係が考慮されない • あるパラメータの偏微分が⽰す⽅向は、他のパラメータが変わらないという仮定のもとでの最急降下⽅向 • パラメータ間に依存関係があると、学習率が⼤きい時に学習が安定しない • パラメータ間の関係が強い時は、ニュートン法などが有効だが、パラメータ数の２乗に⽐例した時間がかかる • 3層以上のニューラルネットでは、より⾼次のパラメータ間の関係については考慮できない © 2017 Retrieva, Inc. 17

Slide 18

Slide 18 text

ਖ਼نԽ • バッチ正規化は、各層の依存関係によって状態変数の値が⼤きく変化することを防ぐ • ℎ(#) = (#) (#)ℎ(#()) + (#) を次のように書き換える ℎ(#) = (#) Ψ(#)⨀ℎ 8(#) + (#) ℎ 8(#) = ℎ :(#) − (#) (#) + ℎ :(#) = (#)ℎ(#()) + (#) • m(l)とv(l)は、ミニバッチ内のℎ :(#)の値を使って計算した平均と分散 • ℎ 8(#)は、平均0分散1となるように変換されている • Ψ(#)、(#)は、平均0分散1に正規化されたスカラー値パラメータなので学習は容易 © 2017 Retrieva, Inc. 18

Slide 19

Slide 19 text

ਖ਼نԽ • ⼀度正規化することで、各層のでの変化が別の層に影響を及ぼしにくくなる • 正規化する前後で表現⼒は同等 • 誤差逆伝搬法の中でも平均・分散を計算する操作も含めて微分を計算する • パラメータを更新した後にパラメータの値を正規化するより効率的(?) • 決定的な予測をするためには、m(l)とv(l)を複数のミニバッチに対して計算し、その平均を使う © 2017 Retrieva, Inc. 19

Slide 20

Slide 20 text

֬཰తޯ഑๏ͷ֦ு "EBN • 学習率をパラメータごとに調整するアルゴリズム • 適応的に(adaptive)勾配の1次・2次モーメント(moment)を推定する • 勾配の指数移動平均m(k)、中⼼化されていない分散の指数移動平均v(k) (>) = ) (>()) + 1 − ) > (>) = C (>()) + (1 − C )( > )C • Beta1, beta2 は0.9、0.999が推奨値 • 過去の勾配への重みを指数的に減少させ、直近の勾配を重視する © 2017 Retrieva, Inc. 20

Slide 21

Slide 21 text

֬཰తޯ഑๏ͷ֦ு "EBN • 初期値の影響を補正する D(>) = (>) 1 − ) > , E(>) = (>) 1 − ) > • パラメータを更新する >F) = > − D(>) E(>) + • は学習率で、0.001が推奨値。は0除算を防ぐ値で、10^-8が推奨値 • 勾配の平均を勾配の標準偏差で割っている • 継続的に勾配が⼤きいパラメータは学習率を⼩さく • 勾配が⼩さいパラメータは学習率を⼤きく © 2017 Retrieva, Inc. 21

Slide 22

Slide 22 text

௒ύϥϝʔλબ୒ • グリッド探索 • 複数の超パラメータの候補値のあらゆる組み合わせを評価して、⼀番良い組み合わせを選ぶ⽅法 • 深層学習では、超パラメータが多いため、全て試すことは困難 • ランダム探索 • 状態変数の数 x 層の数 x 学習率、などをある設定した範囲からそれぞれランダムに選択する • ベイズ最適化 • 広い範囲から良い超パラメータを探すために、獲得関数を最適化することで、評価結果の不確実性が⾼く、評価結果が良さそうな点を選ぶことができる • ⼈⼿ • 学習中の結果を確認しながら、学習率を調整、学習を打ち切るなどの調整をする © 2017 Retrieva, Inc. 22