RNN 2 ℎ1 埋め込み ℎ2 RNN 3 埋め込み ℎ3 RNN 4 埋め込み ℎ4 品詞の予測分布 2 3 4 系列ラベリングの他の例: 固有表現抽出 ― 文章のどの部分が人名/地名/組織名/…なのか を判定する。 Denver United cancelled the flight from Francisco to San B O B O O O O B I IOB エンコーディング (Ramshaw and Marcus, 1995) 固有表現抽出時のアノテーション方法であり、以下の B, I, O のラベルを付けることで、「文章から 固有表現部分を抽出するタスク」を「単語ごとのクラス分類タスク」に帰着させることができる。 • B ― 興味がある固有表現の開始位置である • I ― 興味がある固有表現の内側である • O ― 興味がある固有表現の外側である 「人名」「地名」「組織名」のようにタイプ別で判定したいときは、B, I のラベルを B-PER, B-LOC, B-ORG, I-PER, I-LOC, I-ORG のように増やす。 文章中の単語
• お客様のお問合せ内容の分類 この場合、文章全体を入力し終わった時点での隠れ状態 hn が文章全体の特徴となっていると 考え、これを適当な feedforward network で変換してクラスの予測分布にする。 U + W g U + W g + W g x1 x2 x3 h1 h2 h3 U h0 + W g FFN softmax xn yn hn-1 hn 文章全体の特徴 予測分布 … 分類対象の文章 (の各単語の埋め込み) この場合、専ら文章の最後の単語を入れた時点での損失に対し てネットワークを学習することになる(文章の途中での出力に ついては何にフィットさせるとかはない)。 このように(中間タスクを置かず)最終目標に対してネット ワーク全体を学習するやり方を end-to-end training という。
例えば、以下の文章の were の箇所に(was でなく)were を正しく割り当てるには、flights を覚えていなければならない。 The flights the airline was cancelling were full. Simple RNN で何ステップも情報を伝達する ことが難しい理由は主に2点ある。 1. 行列 U が異なる2つの役割を担わされて しまっている。 • 前回の特徴をどれだけ取り入れるか • 現在の特徴を次回にどれだけ受け渡す か 2. 勾配消失問題 ― 未来の損失を現在まで 誤差逆伝播させると中間層が何回も掛け 合わされ、勾配が消失する。 U + W g V f U + W g V f + W g V f x1 x2 x3 h1 h2 h3 U h0 y1 y2 y3 h1 を どれだけ 取り入れ るか h2 を どれだけ 受け渡す か ሚ ℎ,, ( + 2) = 1 2 ሚ ℎ,+2,2 21 ′ +1,1 + +1,1 × 1 ′ , + ,
ℎ3 埋め込み Sample RNN ℎ4 埋め込み Sample ℎ5 Sample RNN 埋め込み ℎ6 Sample RNN 埋め込み ℎ7 “It is cloudy </s>” に続きそうな単語列 = It is cloudy の仏訳 … RNN ℎ2 埋め込み RNN ℎ1 埋め込み RNN ℎ0 埋め込み It is cloudy </s> Le temps est couvert Thanks </s> Merci </s> I see </s> Je comprends </s> I am busy </s> Je suis occupé </s> I want it </s> Je le veux </s> … 訓練データ(例) 推論(例) “It is cloudy”を受けた特徴 ※ 例の文章は適当。 ※ 機械翻訳モデルの学習に用いる言語Xの文章と言語Y の文章のペアのセットを bitexts という。 ※ 機械翻訳では翻訳対象の文章を source、それが翻訳 された文章を target という。