「言語処理のための機械学習入門」#2

「言語処理のための機械学習入門」輪読会 #2 27 PAGES Shintaro Nomura 機械学
習 2016.12.11 @ Akiba Code

CAUTION！ この資料は、「言語処理のための機械学習入門（高村大地）」を読みながら作成していますが、本が簡潔に書かれすぎていてよく理解していないまま知ったかぶりで作られている可能性があります。 2

第３章の流れクラスタリング k-means GMM EMアルゴリズム 3

クラスタリング 4 似ているもの（文書や単語）同士を１つのグループにまとめる作業データ：D D = { d1, d2,
… , d|D| } データDのベクトル表現 x(1), x(2), … , x(|D|) ※文書ならbag-of-words表現や、単語なら文脈ベクトルなど sim( A, B ) A、B同士の似ている度合い。類似度（モデルに応じて定義）。 arg max/min 対象の関数値を最大／最小にする引数の集合を返す ex) arg max -(x – 1)2 = 1

凝集（ぎょうしゅう）性クラスタリング凝集性クラスタリングの概略 1.事例集合：Dを入力 D = {x(1) , x(2) ,
… , x(|D|) } 2.クラスタをまず|D|個用意し、各事例ｘ i を所属させる c1 = {x(1) }, c2 = {x(2) }, … c|D| = {x(|D|) } 3.クラスタ数が２個以上存在する限り、似たクラスタ対を融合(merge)し続ける (cm ,cn ) = arg max(ci , cj ) merge(cm ,cn ) 2.～3.をクラスタ数が１になるまでLoop 5 テキストではクラスタ同士の類似度(sim)を測る方法として、単連結法・完全連結法・重心法など３つの方法が示されている

重心法 6  なかでも一般的なクラスタリングでは、「重心法 (centroid method)」が活用されているのをよく見る気がします  各クラスタが含む事例すべての「重心（平均）ベクトル」間の類似度を、それらのクラ
スタの類似度とする方法  sim(ci , cj ) = sim(c i 内の全ベクトルの平均, c j 内の全ベクトルの平均)

k-means法 8 ざっくり言うと１．ｋ個のクラスタの代表ベクトル OLD （初期値）をランダムに決める２．各事例ベクトルと最も類似度が高いクラスタにそれを配属させる３．各クラスタの重心（代表ベクトル NEW ）を計算する（重心法）
４．各点が所属するクラスタを、一番代表ベクトルが近いクラスタに変更する５．変化がなければ終了。変化がある限りは３. に戻る。 K-means 法を D3.js でビジュアライズしてみた - てっく煮ブログ http://tech.nitoyon.com/ja/blog/2013/11/07/k-means/ 何度もポチポチ押してみると意味が分かる

k-means法の課題 9 ざっくり言うと１．ｋ個のクラスタの代表ベクトル（初期値）をランダムに決める２．各事例ベクトルと最も類似度が高いクラスタにそれを配属させる３．各クラスタの重心を計算する（重心法）４．各点が所属するクラスタを、一番近い重心のクラスタに変更する５．変化がなければ終了。変化がある限りは３. に戻る。
初期値（最初の割当て）次第で結果が変化する（対策）凝集性クラスタリングの結果を初期値とするランダム配置を何度も繰り返して平均的な結果を用いる「ｋ」はあなたが決める【悲報】ｋの数次第でアルゴリズムの挙動が全く変わってしまう

イメージが湧きやすいGMM使用例 マンションポエムで新築マンションをク 11 マンションポエムで新築マンションをクラスタリング http://smrmkt.hatenablog.jp/entry/2014/12/25/205630

マンションポエムのクラスタリングデータの収集 Linkにあったので助かったそうです辞書の作成普通に形態素解析しちゃうと単語を刻みすぎるため、オリジナルの辞書を作成形態素解析 MeCabを使って，ざっくりと形態素解析．必要な品詞だけPythonで抽出．ストップワードの除去
GitHub参照 LDAによるトピックモデル作成 gensimパッケージを利用し、各文書間に共通する、潜在的なトピックを抜き出す →1,700単語（1x1,700のベクトル）を20 個程度のトピック（1x20のベクトル）に集約（次元縮約） GMMによるクラスタリングその20次元ベクトルを用いてクラスタリング。いくつか試したところ、クラスタ数を４つにすると感じが良いことが判明ワードクラウドを作成して可視化次項参照 12

マンションポエム(2) 13 クラスタごとのワードクラウド（Tagxedo）による可視化平均坪単価が高く，都心からの距離が近いクラスタ都心から距離が遠いクラスタ坪単価が安いクラスタバランスの良いクラスタ

GMMの理解に必要な統計知識 結合確率と条件付き確率(p.26) 独立性(p.29) （多変量）正規分布(p.38) 14

同時確率と条件付き確率同時確率コインＸとダイスＹがあるとき、Ｘがオモテとなり、かつ、Ｙが４となる（同時）確率 P( X = “Heads”, Y =
4 ) = 1/2 ✕ 1/6 = 1 /12 15 条件付き確率コインＸとダイスＹがある。Ｘがオモテとなったとき、Ｙが４となる（条件付き）確率 P( Y = 4 | X = "Heads" ) = 1/6 この場合、コインの表裏とダイスの出目には何の関連もないと考えられる →それらは「独立事象」であると呼ばれる P( Y = 4 | X = “Heads” ) = P( Y = 4 ) # 条件なし確率と同じ値に

尤度（ゆうど）尤度を表現する式と、同時確率を表現する式は、同じ形をしている各データ（事例ベクトル、標本）がそれぞれ互いに独立であるとき、尤度 L = P(x1 ) P(x2 )…P(xn
) . ・同時確率はあくまでも事象が起きる確率であるのに対し、尤度は「観察データの下での仮説の尤（もっと）もらしさ」の指標である ※「いぬど」と読むと尤度警察がやってきます（尤度は観測データはすべて出尽くしていて、それらのデータに対して、あるパラメータの確率分布を当てはめた時、どれだけ尤もらしいかを意味している）・実際の観測データを仮説上の確率分布に当てはめた際、あてはまりが悪いと尤度は低く計算されてしまう →尤度を最大にするパラメータを求める（推定する）方法が最尤推定法 16

正規分布と尤度正規分布における尤度ある1次元の事例xi の生起確率を、正規分布の確率密度関数で表すとき、 xi = xi = 1 22
exp xi − 2 22 x1 , x2 , …, xn が観測された際の尤度は L = P(x1 ) P(x2 )…P(xn ) = Π(xi ) = Π 1 22 exp − 2 22 ※同時確率と区別するため、あくまでパラメータがμ, σであることを強調することも L( μ, σ|x ) = Π 1 22 exp − 2 22 17 多変量正規分布における尤度あるd次元の事例ベクトル()の生起確率を、正規分布の確率密度関数で表すとき（教科書では、それぞれの分散は同一と仮定されているので、） () = () = 1 22 exp () − 2 22 尤度は L = 1 22 exp ()− 2 22

正規分布と対数尤度 18 多変量正規分布における尤度尤度は（教科書では、それぞれの分散は同一と仮定されているので、） () = () = 1 22
exp () − 2 22 尤度は L = 1 22 exp ()− 2 22 積のカタチで表されている尤度は扱いにくいため、「対数尤度」が用いられることが多い。対数尤度は logL =log 1 22 exp − 2 22 = log 1 22 exp ()− 2 22

k-means法（重心法）とGMMの違い  テキストの表現が入門者に優しくない P(c) という概念（隠れ変数）が抽象的なため、理解がなかなか難しい 19 混合正規分布(Gaussian Mixture)によるクラスタリングざっくり言わないと
１．ｋ個のクラスタの代表ベクトルｍ’（初期値）をランダムに決める２．各事例ベクトルｘが、どのクラスタに、各々どの程度の確率で属するか（P( c | x(i); mOLD ）を、P( x | c )が正規分布に従うと仮定して計算する(GMM) ３．各クラスタの代表ベクトルを単純な重心ではなく、先ほど計算された確率の重み付きで計算し、ｍ NEW へ置き換える４．代表ベクトルの変化が十分小さければ終了。大きい限りは２. に戻る。

その意味を説明しようと思うけど  GMMは次章の「EMアルゴリズム」の一例にすぎないので、仕組みは次で説明します 20

EMアルゴリズム EMアルゴリズムは２つのステップからなるＥ(xpectation: 期待値)ステップ対数尤度をその期待値で置き換えるステップ M(aximization: 最大化)ステップその値を最大にするように未知のパラメータを推定するステップ 22
 一見、ただの最尤推定っぽいけど・EMアルゴリズムは、不完全データにも使える・不完全データとは、本来は観測されるべきだが観測できなかったデータ（欠損データ）を含むデータ・欠損データを含むと、本来、尤度がパラメータθの関数として定義できない・対数尤度をその期待値で置き換えた関数「Q関数」の最大化を通じてパラメータの最尤推定（的なもの?）を行う

P(C)を「隠れ変数」として扱う  今回は、各クラスタが含む事例の数（確率：P(c)）が不明である  そのようなクラスタに対応する確率変数を「隠れ変数」として扱い、 EMアルゴリズムの枠組みに基づいてパラメータ推定が可能になる 23 事例ベクトル事例ベクトル事例ベクトル
クラスタ1 クラスタ2 何個属すの？？

EMアルゴリズムの利点・特徴 24  不完全データからの最尤推定が可能（実際には、欠損データに関する周辺化を行って、観測データのみの周辺分布による最尤推定を行っている：周辺分布密度関数に観測データを代入した尤度を最大にする）  （対数）尤度を最大にする解を直接的に計算するのは困難だが、Mステップで求めたパラメータθNEW をEス
テップ（Q関数）のθOLD に代入して…とEMステップを繰り返すごとで、（対数）尤度が単調に増加することが知られている ※この場合の単調増加は、「不変または増加」の意味。なので、変化率が一定程度収束しても、真の意味では極大値を求めたにすぎないことも十分にあり得る

前ページの理論的背景が知りたい方は・「確率的言語モデル」北研二 See 2.6「EMアルゴリズム」・「これなら分かる最適化数学―基礎原理から計算手法まで」金谷健一 See 5.4 「不完全データからの最尤推
定」 25

じゃあQ関数ってどう定義されてるの Q(θNEW ; θOLD )=∑ ∑ P(c , x(i); θOLD
) * log P( c, x(i); θNEW ) ※連続的な場合にはQ(θNEW ; θOLD )=∬P(c , x(i); θOLD ) * log P( c, x(i); θNEW ) →「はじめての統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学―」（豊田秀樹）を読んだ方だと、左辺が事後分布、右辺が事前分布×尤度に対応してそうなことが想起されそう •確認事項・f( ・ ; θ ) の右側のθがその関数のパラメータであることを明示・Q関数をθNEW について解く上では、θOLD は定数である 26 θOLD とθNEW の更新を繰り返し、パラメータθの変化率が一定を下回ったら、最後のθNEW をパラメータ値として採用 →そのθ値に基いてクラスタリングを行う（今回の場合、求めたθは代表ベクトルmC ）

それでもこの課題からは逃れられない 27 初期値（最初の割当て）次第で結果が変化する（対策）凝集性クラスタリングの結果を初期値とするランダム配置を何度も繰り返して平均的な結果を用いるクラスタ数「ｋ」はあなたが決める
【悲報】ｋの数次第でアルゴリズムの挙動が全く変わってしまう

「言語処理のための機械学習入門」#2

「言語処理のための機械学習入門」#2

DSnomura

Other Decks in Technology

Featured

Transcript

「言語処理のための機械学習入門」輪読会 #2 27 PAGES Shintaro Nomura 機械学

CAUTION！ この資料は、「言語処理のための機械学習入門（高村大地）」を読みながら作成していますが、本が簡潔に書かれすぎていてよく理解していないまま知ったかぶりで作られている可能性があります。 2

第３章の流れクラスタリング k-means GMM EMアルゴリズム 3

クラスタリング 4 似ているもの（文書や単語）同士を１つのグループにまとめる作業データ：D D = { d1, d2,

凝集（ぎょうしゅう）性クラスタリング凝集性クラスタリングの概略 1.事例集合：Dを入力 D = {x(1) , x(2) ,

重心法 6  なかでも一般的なクラスタリングでは、「重心法 (centroid method)」が活用されているのをよく見る気がします  各クラスタが含む事例すべての「重心（平均）ベクトル」間の類似度を、それらのクラ

第３章の流れクラスタリング k-means GMM EMアルゴリズム 7

第３章の流れクラスタリング k-means GMM EMアルゴリズム 10

イメージが湧きやすいGMM使用例 マンションポエムで新築マンションをク 11 マンションポエムで新築マンションをクラスタリング http://smrmkt.hatenablog.jp/entry/2014/12/25/205630

マンションポエム(2) 13 クラスタごとのワードクラウド（Tagxedo）による可視化平均坪単価が高く，都心からの距離が近いクラスタ都心から距離が遠いクラスタ坪単価が安いクラスタバランスの良いクラスタ

GMMの理解に必要な統計知識 結合確率と条件付き確率(p.26) 独立性(p.29) （多変量）正規分布(p.38) 14

同時確率と条件付き確率同時確率コインＸとダイスＹがあるとき、Ｘがオモテとなり、かつ、Ｙが４となる（同時）確率 P( X = “Heads”, Y =

尤度（ゆうど）尤度を表現する式と、同時確率を表現する式は、同じ形をしている各データ（事例ベクトル、標本）がそれぞれ互いに独立であるとき、尤度 L = P(x1 ) P(x2 )…P(xn

正規分布と尤度正規分布における尤度ある1次元の事例xi の生起確率を、正規分布の確率密度関数で表すとき、 xi = xi = 1 22

正規分布と対数尤度 18 多変量正規分布における尤度尤度は（教科書では、それぞれの分散は同一と仮定されているので、） () = () = 1 22

k-means法（重心法）とGMMの違い  テキストの表現が入門者に優しくない P(c) という概念（隠れ変数）が抽象的なため、理解がなかなか難しい 19 混合正規分布(Gaussian Mixture)によるクラスタリングざっくり言わないと

その意味を説明しようと思うけど  GMMは次章の「EMアルゴリズム」の一例にすぎないので、仕組みは次で説明します 20

第３章の流れクラスタリング k-means GMM EMアルゴリズム 21

前ページの理論的背景が知りたい方は・「確率的言語モデル」北研二 See 2.6「EMアルゴリズム」・「これなら分かる最適化数学―基礎原理から計算手法まで」金谷健一 See 5.4 「不完全データからの最尤推

じゃあQ関数ってどう定義されてるの Q(θNEW ; θOLD )=∑ ∑ P(c , x(i); θOLD