「深層学習による自然言語処理」読書会第2章2.1~2.5

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

ڭࢣ͋Γֶशͷఆٛ • 教師あり学習では、訓練データを使って所望の予測モデルを学習する。 • 訓練データ：正解事例の集合 • 式(2.1)：⼊⼒変数x(n)と出⼒変数y(n)について、損失を最⼩化するようなパラメータθを求める⼿続き • 損失： x(n), y(n) を損失関数にかけた結果の平均値 • つまり学習とは、最適化アルゴリズムを使って、ある関数を最⼩化するパラメータ値を求める、最適化問題である © 2017 Retrieva, Inc. 6

Slide 7

Slide 7 text

ଛࣦؔ਺ • 損失関数を何にするかも設計要素 • fθ (x,y) は予測モデル。本書ではニューラルネットとする • 交差エントロピー損失関数 • 真の分布とモデルとの距離を表す交差エントロピーを、訓練データで近似する • ヒンジ損失関数 • 正解y(n)と、正解を除いた中で最もスコアが⼤きい "だけを使って損失を定義する • これを⽤いて学習するアルゴリズムをサポートベクトルマシンと呼ぶ © 2017 Retrieva, Inc. 7

Slide 8

Slide 8 text

ڭࢣ͋Γֶशʹ༻͍Δσʔλ • 訓練データに対してだけ正しく予測できても意味がない • 本当は世の中全てのデータを訓練データとしたいが、不可能 • 最適化問題と違い、教師あり学習は訓練データに最適化できれば良いわけではない • 評価データと開発データを⽤意する • 評価データ：学習の最後に、モデルを評価するための正解事例 • 開発データ：学習の過程で使う正解事例 © 2017 Retrieva, Inc. 8

Slide 9

Slide 9 text

ॱ఻ൖܕχϡʔϥϧωοτɺϞσϧ • 最も単純な構造である順伝搬型ニューラルネット(FFNN) • ⾏列Wをかけてベクトルbを⾜す、という作業を層ごとに繰り返す • 活性化関数a(l)を通す • パラメータθは、{W(1),…W(l),b(1)…b(l)}となる • 隠れ状態ベクトルの次元数、または層の数が多いと、⼊⼒データを細かく分類できる • つまり深いニューラルネットは表現⼒が⾼いと⾔われる © 2017 Retrieva, Inc. 9 o h(2) h(1) h(0) = x h(1) = a(1)(W(1)x +b(1)) h(2) = a(2)( W(2)h(1) +b(2)) o = W(3)h(2) +b(3)

Slide 10

Slide 10 text

׆ੑԽؔ਺ • 活性化関数として⾮線形関数を適⽤する • sigmoid • tanh • ReLU • 勾配法と組み合わせるため、微分可能な関数を選ぶ • 活性化関数と性能の関係は明確になっていないので、実験的に選ぶことが多い • ⾮線形関数を通さない2層のFFNNは、等価な1層のFFNNで構成できてしまう • 深い構造を有効活⽤するため、⾮線形な活性化関数を適⽤する必要がある © 2017 Retrieva, Inc. 10

Slide 11

Slide 11 text

Slide 12

Slide 12 text

ϛχόονԽʹΑΔ֬཰తޯ഑๏ • 式(2.1)では訓練データのすべての事例を利⽤している。バッチ法と呼ぶ • ⼀回の評価に時間がかかりすぎる • 最急降下⽅向は局所的な性質なので、雑に早く計算してパラメータ更新回数を増やした⽅が、早く良い解にたどり着ける • 事例からランダムに選んで勾配法を実⾏する確率的勾配法がよく使われる • 1事例だけ使う（オンライン法）だとパラメータ更新回数は多くできるが、偏微分のバラツキが⼤きい • いいとこ取りをして、事例からランダムに複数選ぶ、ミニバッチ法を⽤いる • 選ぶ個数：バッチサイズ • 全データ数／バッチサイズ：1エポック © 2017 Retrieva, Inc. 12

Slide 13

Slide 13 text

Slide 14

Slide 14 text

ਂ͍χϡʔϥϧωοτͷ೉͠͞ • 隠れ層1層を持つニューラルネットをスコア関数 f とすると、 f(x,y) = f(o)(f(1)(x), y)=w y (o)w(1)x • 損失関数にかけた l(f(o)(f(1)(x), y)) を⽬的関数とすると、f(1)のパラメータw(1)における微分は(式2.31)、 ' ()) • これは関数評価とは逆⽅向に誤差（損失関数の⼊⼒による微分）がかけられている • 誤差が関数評価とは逆⽅向に伝達されることになるので誤差逆伝搬法 © 2017 Retrieva, Inc. 14

Slide 15

Slide 15 text

Slide 16

Slide 16 text

ਂ͍χϡʔϥϧωοτͷ೉͠͞ • 隠れ層を2つに増やすと(式2.33)、 ' ) (,)(-) • 層が増えると積の回数が増える • パラメータが⼤きいと、微分の値が⾮常に⼤きくなる：勾配爆発 • パラメータが⼩さいと、微分の値が⾮常に⼩さくなる：勾配消失 • 層を増やすと表現⼒は⼤きくなるが、学習が困難になる • ResNetのような⼿法を⽤いると、1000層も可能になる © 2017 Retrieva, Inc. 16