b3semi_9.pdf

A3ea3bc5dde6ae2dd6eae71da9c418b0?s=47 MARUYAMA
April 06, 2017
60

 b3semi_9.pdf

A3ea3bc5dde6ae2dd6eae71da9c418b0?s=128

MARUYAMA

April 06, 2017
Tweet

Transcript

  1. 自然言語処理のための機械学習 第9回 B3 丸山 拓海 自然言語処理研究室

  2. 自然言語処理のための機械学習 2 2. 文書及び単語の数学的表現 3. クラスタリング 4. 分類 5. 系列ラベリング

    1. 必要な数学的知識
  3. 5. 系列ラベリング 3 5.2 隠れマルコフモデル 5.3 通常の分類器への逐次適用 5.4 条件付確率場 5.1

    系列ラベリングとは 5.5 チャンキングへの適用
  4. 5.1系列ラベリングとは 4 ▪ 系列ラベリング : 系列内のそれぞれの要素にラベルを付けること Ex.) Nurture[名詞] passes[動詞] nature[名詞]

    例えば, 品詞の数が10であるとして, 単語トークン20の文を入力 可能な品詞列は10#$ 分類器を作成するような形では解けない
  5. 5.2隠れマルコフモデル(HMM) 5 ▪ HMMの導入 仮定: 各状態はその直前の状態にのみ依存する 系列, ラベル列 ・ (*

    , * )は, *./ , *./ にのみ依存する ・ * は*./ にのみ依存し, * は* にのみ依存する との同時確率 , = 2 (* , * |*./ , *./ ) = 2 (* |* )(* |*./ ) ここで, / , / $ , $ = / , / , / $ = (/ )とする
  6. 5.2隠れマルコフモデル(HMM) 6 ▪ パラメータの推定 訓練データ = { / , /

    , … , ( 9 ), ( 9 ) } 最尤推定によりパラメータを決定する = > (), () (), () ∈ = > ( , , )B|C B,C + > ( ′, , )C|CG B,C ( , , ): データにおいてにラベルが付いていた回数 ( ′, , ): データにおいてyGの次にが出現した回数 B|C = (|), C|CG = (|′)
  7. 5.2隠れマルコフモデル(HMM) 7 ▪ パラメータの推定 = > (), () (), ()

    ∈ = > ( , , )B|C B,C + > ( ′, , )C|CG B,C ( , , ): データにおいてにラベルが付いていた回数 ( ′, , ): データにおいてyGの次にが出現した回数 ラグランジュ法により, パラメータを求めると B|C = ( , , ) ∑ ( , , ) B C|CG = ( ′, , ) ∑ ( ′, , ) C
  8. 5.2隠れマルコフモデル(HMM) 8 ▪ HMMの推論 = (, ) を解きたい ヴィタビアルゴリズム(Viterbi algorithm)

    先頭の要素から計算を始め, 「その要素がある値をとるとしたら, 直前の要素は何であったか」を決めていく
  9. 5.3通常の分類器の逐次適用 9 ▪ 分類器を逐次的に用いた系列ラベリング トークン* のラベル* は何であるか 各について独立に解く * のベクトル表現

    一般に計算時間は多くなるが, より高精度な分類が可能 太枠内の情報が素性として利用可能
  10. 5.4 条件付確率場 10 ▪ 条件付確率場の導入 条件付確率場(conditional random fields: CRF) 訓練データ

    = { / , / , … , ( 9 ), ( 9 ) } 対数線形モデルを系列ラベリングに適用したもの | = 1 B,Q (・ , ) B,Q = > (・ , ) C : 素性に対する重みベクトル ∗ = 1 B,Q ・ , = (・ , ) 分類する時は,
  11. 5.4 条件付確率場 11 ▪ 条件付確率場の導入 CRFでは, と表せるという仮定をおく , = >

    (, X , X./ ) X ・ , = ・ > (, X , X./ ) X = > ・ (, X , X./ ) X より, 分類においては次の最大化問題を解けばよい ∗ = ・ , = > ・ (, X , X./ ) X ヴィタビアルゴリズム
  12. 5.5 チャンキングへの適用 12 ▪ チャンキング 言語表現の意味的あるいは文法的にまとまった部分を発見する研究課題 After stubbing out the

    cigarette, Lunvalet talked to me. 周囲の情報から人名であることを推測 Ex.) 人を表している部分の抽出 人を指している表現が一語からなるとは限らない
  13. 5.5 チャンキングへの適用 13 ▪ IOB2タグ Suddenly, the tall German guy

    talked to me. O O O O I I I B B (beginning): 人を指す表現の開始地点 I (inside): 人を指す表現の内部 O (outside): 人を指す表現の外部 系列ラベリング問題
  14. 5. 系列ラベリング 14 5.2 隠れマルコフモデル 5.3 通常の分類器への逐次適用 5.4 条件付確率場 5.1

    系列ラベリングとは 5.5 チャンキングへの適用