Upgrade to Pro — share decks privately, control downloads, hide ads and more …

第2回B3ゼミ

miyanishi
January 16, 2013
230

 第2回B3ゼミ

言語処理における識別モデルの発展
-HMMからCRFまで

miyanishi

January 16, 2013
Tweet

Transcript

  1. はじめに(問題の定式化) • 入力:x o 単語列 o 全てのxの集合=X • 出力:y o

    ラベル o 全てのyの集合=Y • xを入力して対応するyを出力 o 対応関係をルールとして書き出す o 過去の事例(学習データ)と統計的な推論を使う  限られた学習データから求めることが必要  未知の部分は確率的なもの
  2. はじめに(2つの問題点) • Pr(y|x)をどのような形にするか o 問題の特徴をうまくとらえる必要がある o Pr(y|x)がパラメータθで決まる=Pr(y|x;θ)  θをどのように定義するか? 

    Pr(y|x;θ)をどのような形にすればよいか? • どのようにPr(x|y;θ)を求めるか o 良い予測に結び付く基準(目的関数)を考える o 最適なθを決定する  正しいか?  効率的か?
  3. HMM:隠れマルコフモデル • Pr(y|x)=0,1 1,1 1,2 2,2 ⋯ , ,+1 o

    ,+1 = Pr +1 o , = Pr • は直前の−1 に, は にのみ依存する • HMMには“制約”がある o ,′ = 1 ′∈Σ および , = 1 ∈Σ  確率を用いたモデルになっていることを保証する
  4. HMM:隠れマルコフモデル • Pr(y,x)からPr(y|x)を求める o Pr y x = Pr (,)

    Pr () ・・・ベイズの定理 • 予測 を求める o = ∈ Pr , Pr  対数を取る = ( ∈ )logPr (, ) − logPr ()  Pr(x)はyに関係しない = ( ∈ )logPr (, ) • 予測は再帰を使えば求まる
  5. HMM:隠れマルコフモデル • N個の学習データが与えられるとする o パラメータ,′ , , の推定 • 学習データの表記について

    o i番目の学習データ((), ) i=1・・・N • HMMにおいてのパラメータ推定について o 学習データを最もよく再現するパラメータ o 学習データを生成する率が最も高いパラメータ
  6. HMM:隠れマルコフモデル • モデルから学習データが生成される確率 o 尤度(ゆうど) o Pr ( , ;

    ) =1 • ↑を最も大きくするパラメータ: o = () Pr ( , ; ) =1 o を用いる推定法:最尤推定
  7. HMMの問題点(1つ目) • パラメータについての“制約” o 制約: ,′ = 1 ′∈Σ および

    , = 1 ∈Σ  同じ位置に2つの単語が来るのは不可(当然) • 互いに疎である  パラメータについては・・・? (例)「大文字で始まる」「erで終わる」など • 互いに疎ではない • パラメータに制約を付けるのは困難 o 制約をなくす o 確率分布として正しいモデルにする o 「特徴の独立性」という問題
  8. CRF:条件付確率場 • 配列の性質を表現する特徴=素性f o 連続する変数の組に成立する特徴 o 素性の集合(素性集合)=F o 素性の例 

    yが名詞でxが大文字で始まる  Yが名詞でxが“day”で終わる →yが名詞,xがMondayなら両方を満たす (HMMでは困難)
  9. CRF:条件付確率場 • CRFで用いる記号 o f∈Fがある(x,y)の組に成立する箇所の数=ϕ (, )  ベクトル化: (,

    ) o それぞれの素性の重要度=  ベクトル化:Θ o パラメータΘに対して”制約“はついていない • (, )とΘの内積を用いて計算 o 1よりも大きくなる・マイナスになる・・・ o Pr(y|x) = exp<, (,)> Σ∈exp<, , > ・・・CRFの確率モデル  Pr(y|x)を直接求めてるところが特徴!
  10. CRF:条件付確率場 • 予測 を求める o Pr(y|x)を使う  = ∈ Pr

    o 対数を取る  = ∈ o 指数関数部分=単調増加関数,分母=yと関係なし  = ∈ < , (, ) > • HMMと同じように予測できる o HMMも同じ形に直せる o 隣り合う二つの変数について定義されている
  11. CRF:条件付確率場 • 学習データを用いたモデルの推定 o 条件付き確率を直接推定するのを目指す o 最尤推定に基づいて学習(HMMと同じ)  ある学習データ()が与えられたのを知っている →

    ()が最も高い確率で与えられるモデルが目標 • 学習データに対する尤度 o Pr ( | ; Θ) =1 • 尤度を最も大きくするパラメータΘ o Θ = (Θ) Pr ( | ; Θ) =1
  12. HMMとCRFの違い・まとめ • HMM o 配列の特徴を捉える際に“制約”が必要  用いる特徴の単位は単語レベル o xとyの同時確率Pr(y,x)を求める 

    余分な学習が必要  学習データが均一かつ大量に必要 o 識別・言語モデリングなどにも使える  汎用的な手法
  13. HMMとCRFの違い・まとめ • CRF o “制約”がない  単語より細かいレベルで特徴設計できる o Pr(x|y)を求める 

    正規化が必要  余分な学習が不必要 o 識別にしか使えない  汎用性が低い