長岡技術科学大学 自然言語処理研究室 学部3年 守谷歩
識別モデル2019/01/24長岡技術科学大学 自然言語処理研究室学部3年 守谷 歩マルコフモデル復習、隠れマルコフモデル、条件付確率場
View Slide
マルコフモデル⚫状態が過去の状態に依存するマルコフ性があるモデル。⚫過去データ数mに依存するモデルをm階マルコフモデルという。⚫このマルコフモデルの中でも状態が離散的なものをマルコフ連鎖と呼ぶ。⚫マルコフ性のある天気で考える。晴れ、雨、雪の3状態があったときその3状態に対して次に来る天気が以下のようであったとする。今日の天気 明日の天気の確率晴れ 雨 雪晴れ 0.8 0.15 0.05雨 0.7 0.2 0.1雪 0.5 0.2 0.3
天気(マルコフモデル復習)⚫今日の天気が70%の確率で晴れ、25%の確率で雨、5%の確率で雪であれば、晴れ晴れ雪雪雨晴れとくる確率は下の表と初期の確率からより状態をSとすると 1 ∗ 1 1 ∗ 3 1 ∗ 3 3 ∗ 2 3 ∗ 1 2= 0.7 ∗ 0.8 ∗ 0.05 ∗ 0.3 ∗ 0.2 ∗ 0.7 = 0.001176ということがわかる。これをマルコフモデルという。今日の天気 明日の天気の確率晴れS1 雨S2 雪S3晴れS1 0.8 0.15 0.05雨S2 0.7 0.2 0.1雪S3 0.5 0.2 0.3初期の確率晴れ=0.7雨=0.25雪=0.05
隠れマルコフモデル(HMM)⚫状態そのものを観測できないと仮定したときに状態に依存した観測可能な値より状態を推定することができる。⚫例えばある地域の天気の状態が晴れか雨の2値であるとする。天気がマルコフ性があるとしたとき、観測者はある人間の体調しか見ることができないとする。晴れの時は0.6の確率で元気で、0.4の確率で体調不良になる。また、雨の時は0.5の確率元気で、0.5の確率で体調不良になる。この人間の体調を見ればおおよその天気が推測できる。このように観測可能な変数に対して、状態が隠れているモデルを隠れマルコフモデルという。
図解状態遷移確率 XT 晴れ T 雨T-1 晴れ 0.8 0.2T-1 雨 0.7 0.3確率分布 Y元気 体調不良晴れ 0.6 0.4雨 0.5 0.5X X XYYYY観測可能領域状態(隠れ変数)体調不良元気晴れ雨
言語処理への展開⚫英語の品詞タグ付けの問題を、隠れ状態が品詞であるとし、品詞から単語が出力されると考えると品詞付与コーパスがあれば、コーパス中の品詞の頻度や品詞bi-gramの頻度で最も確率の高い品詞列を求める問題に変わる。
条件付確率場(CRF)⚫品詞のタグ付けを例として考える。⚫CRFでは入力x(ここでは文字列)が与えられたとき状態y(品詞)を持つ条件付確率を以下のように計算する。 =1 (λ∗ , −1, , )Z=σ = 1 で確率の和を1にする正規化項この時の(, −1, , )は素性関数と呼ばれる。λは各素性に対する重み
言語処理への展開条件付き確率が最大=品詞列は正しいっぽい正規化項とexpを無視すれば、= ( λ∗ , −1, , )となり、ビタビアルゴリズムによって最大値を与えるyを求めることができる。