データ指向モデリング「テキストマイニングの基礎」

データ指向モデリングテキストマイニング基礎工学系研究科村山友理

大量テキストデータを自然言語処理技術（形態素解析、構文解析、意味解析など）を用いて何らか単位に分解し、情報を抽出定量的分析（特徴分析、クラスタリング、トピックモデルなど）を行い、有益な知見を獲得テキストマイニングと 2
営業日報特許カルテ SNS 新聞口コミテキストデータマイニング (mining) ＝「発掘」テキスト山から価値を「掘り出す」という意味が込められている

トピックモデル：さまざまなデータに隠れた潜在的なトピックを推定するモデルトピックモデル 3 晴れ雨曇りスポーツ株価投資
市場陸上体操射撃 (Barnard+ 2003)より金融天気 Topic 1 Topic 0 Topic 2

テキスト複数トピック確率分布によって構成され、トピックさまざまな語句とそ出現頻度によって表される •
どんな話題（トピック）があるか？ • トピック毎にどんな語句が関連するか？データから自動的に学習できる！トピックモデル学習例 4 (Blei+ 2003)より

“car”を検索するときに “automobile”も検索対象にしたい -> “car” 潜在的意味と？ • 情報検索分野で開発されたLatent Semantic
Indexing (LSI) (Deerwester+ 1990) 、特異値分解による低ランク近似により定式化 • X=USVTを満たすような行列U, S, Vそれぞれに対し、各列ベクトルを特異値（S 対角要素）大きい順にK個並べた行列U~, S~, V~を用いることで、X 低ランク近似行列を得る古典的手法：Latent Semantic Indexing 5 X ~ U ~ S ≃ N×W N×K K×K K×W ~ VT

文書と語彙共起行列Xに対し、低ランク近似した行列X~を計算低ランク行列分解による潜在意味解析例 6 drive automobile car play music
文書A 2 3 0 0 0 文書B 2 0 2 0 0 文書C 0 0 0 2 2 文書D 0 0 0 3 1 X

トピック1 0 0 0 0.86 0.50 トピック2 0.70 0.67 0.25 0 0 トピック1 トピック2 トピック1 4.13 0 トピック2 0 3.9 トピック1 トピック2 文書A 0 0.87 文書B 0 0.48 文書C 0.66 0 文書D 0.75 0 drive automobile car play music 文書A 2 3 0 0 0 文書B 2 0 2 0 0 文書C 0 0 0 2 2 文書D 0 0 0 3 1 X ~ U ~ S ~ VT

トピック1 0 0 0 0.86 0.50 トピック2 0.70 0.67 0.25 0 0 トピック1 トピック2 トピック1 4.13 0 トピック2 0 3.9 トピック1 トピック2 文書A 0 0.87 文書B 0 0.48 文書C 0.66 0 文書D 0.75 0 drive automobile car play music 文書A 2 3 0 0 0 文書B 2 0 2 0 0 文書C 0 0 0 2 2 文書D 0 0 0 3 1 X ~ U ~ S ~ VT 複数単語共起性によって表されるベクトル＝潜在トピック

トピック1 0 0 0 0.86 0.50 トピック2 0.70 0.67 0.25 0 0 トピック1 トピック2 トピック1 4.13 0 トピック2 0 3.9 トピック1 トピック2 文書A 0 0.87 文書B 0 0.48 文書C 0.66 0 文書D 0.75 0 drive automobile car play music 文書A 2 3 0 0 0 文書B 2 0 2 0 0 文書C 0 0 0 2 2 文書D 0 0 0 3 1 X ~ U ~ S ~ VT 複数単語共起性によって表されるベクトル＝潜在トピック「音楽」トピック「車」トピック

トピック1 0 0 0 0.86 0.50 トピック2 0.70 0.67 0.25 0 0 トピック1 トピック2 トピック1 4.13 0 トピック2 0 3.9 トピック1 トピック2 文書A 0 0.87 文書B 0 0.48 文書C 0.66 0 文書D 0.75 0 drive automobile car play music 文書A 2 3 0 0 0 文書B 2 0 2 0 0 文書C 0 0 0 2 2 文書D 0 0 0 3 1 X ~ U ~ S ~ VT 複数単語共起性によって表されるベクトル＝潜在トピック「音楽」トピック「車」トピック文書クラスタリング

トピック1 0 0 0 0.86 0.50 トピック2 0.70 0.67 0.25 0 0 トピック1 トピック2 トピック1 4.13 0 トピック2 0 3.9 トピック1 トピック2 文書A 0 0.87 文書B 0 0.48 文書C 0.66 0 文書D 0.75 0 drive automobile car play music 文書A 2.38 2.29 0.85 0 0 文書B 1.32 1.27 0.47 0 0 文書C 0 0 0 2.36 1.37 文書D 0 0 0 2.67 1.55 drive automobile car play music 文書A 2 3 0 0 0 文書B 2 0 2 0 0 文書C 0 0 0 2 2 文書D 0 0 0 3 1 X ~ X ~ U ~ S ~ VT

トピック1 0 0 0 0.86 0.50 トピック2 0.70 0.67 0.25 0 0 トピック1 トピック2 トピック1 4.13 0 トピック2 0 3.9 トピック1 トピック2 文書A 0 0.87 文書B 0 0.48 文書C 0.66 0 文書D 0.75 0 drive automobile car play music 文書A 2.38 2.29 0.85 0 0 文書B 1.32 1.27 0.47 0 0 文書C 0 0 0 2.36 1.37 文書D 0 0 0 2.67 1.55 drive automobile car play music 文書A 2 3 0 0 0 文書B 2 0 2 0 0 文書C 0 0 0 2 2 文書D 0 0 0 3 1 X ~ X ~ U ~ S ~ VT 頻度が0でなくなった！

トピック1 0 0 0 0.86 0.50 トピック2 0.70 0.67 0.25 0 0 トピック1 トピック2 トピック1 4.13 0 トピック2 0 3.9 トピック1 トピック2 文書A 0 0.87 文書B 0 0.48 文書C 0.66 0 文書D 0.75 0 drive automobile car play music 文書A 2.38 2.29 0.85 0 0 文書B 1.32 1.27 0.47 0 0 文書C 0 0 0 2.36 1.37 文書D 0 0 0 2.67 1.55 drive automobile car play music 文書A 2 3 0 0 0 文書B 2 0 2 0 0 文書C 0 0 0 2 2 文書D 0 0 0 3 1 X ~ X ~ U ~ S ~ VT 潜在トピックを介して間接的に文書と単語共起性を抽出することで、文書Aと”car” ような潜在的共起性を抽出できる頻度が0でなくなった！

• U~, V~ 要素何を表しているか？ ◦ 負値をとりうるため、擬似的な頻度と考えづらく、意味付けがない
• 確率モデルとして再定式化 (1998~) ◦ 要素値確率値になる • ナイーブベイズ ◦ 文書トピックが与えられているとき簡単な生成モデル ◦ 未知文書トピックを予測できる LSI 問題点 14

トピックモデル歴史 15 • ナイーブベイズトピックを潜在変数としてEMアルゴリズムで推定 • Mixture of unigrams
(Nigam+ 2000) 文書にトピック分布が存在 • Probabilistic LSI (PLSI) (Hofmann 1999) 完全なベイズ化 • Latent Dirichlet Allocation (LDA) (Blei+ 2001, 2003)

複数文書に対して、文書ごと特徴を分析するに？特徴分析 16 文書A: apple, iphone, apple,
iphone, watch, take, charge, iphone 文書B: make, get, apple, get, charge, virtual

複数文書に対して、文書ごと特徴を分析するに？要素出現頻度を用いる場合：特徴分析 17 文書A: apple,
iphone, apple, iphone, watch, take, charge, iphone 文書B: make, get, apple, get, charge, virtual apple iphone watch take charge make get virtual 文書A 2 3 1 1 1 0 0 0 文書B 1 0 0 0 1 1 2 1

複数文書に対して、文書ごと特徴を分析するに？要素出現頻度を用いる場合：特徴分析 18 文書A: apple,
iphone, apple, iphone, watch, take, charge, iphone 文書B: make, get, apple, get, charge, virtual apple iphone watch take charge make get virtual 文書A 2 3 1 1 1 0 0 0 文書B 1 0 0 0 1 1 2 1 より多く文書に出現する語特徴として役に立たないで？ →文書を特徴づける「重要語」を計算したい！例) 開腹、恢復

• 重要語抽出について最もよく用いられる計算方法 • TF (Term Frequency): 文書dにおける語w 頻度 • IDF
(Inversed Document Frequency): 語wを含む文書頻度逆数 D: 文書集合 df: 語wを含む文書頻度 TF-IDF 19

• 重要語抽出について最もよく用いられる計算方法 • TF (Term Frequency): 文書dにおける語w 頻度 • IDF
(Inversed Document Frequency): 語wを含む文書頻度逆数 D: 文書集合 df: 語wを含む文書頻度 TF-IDF 20 文書dにおける語w 重要度語wが文書dに多く含まれる語w 他文書に出にくいと高くなるかつ

TF-IDF 計算 21 apple iphone watch take charge make get
virtual 文書A 2 3 1 1 1 0 0 0 文書B 1 0 0 0 1 1 2 1 文書ごと各語出現頻度

virtual 文書A 2 3 1 1 1 0 0 0 文書B 1 0 0 0 1 1 2 1 文書ごと各語出現頻度 apple iphone watch take charge make get virtual 文書A 文書B 文書ごと各語 TF-IDF ※ 底を2とする

virtual 文書A 2 3 1 1 1 0 0 0 文書B 1 0 0 0 1 1 2 1 apple iphone watch take charge make get virtual 文書A 0 文書B 文書ごと各語出現頻度文書ごと各語 TF-IDF 文書Aにおける語”apple” 頻度語”apple”を含む文書頻度文書総数 ※ 底を2とする

virtual 文書A 2 3 1 1 1 0 0 0 文書B 1 0 0 0 1 1 2 1 apple iphone watch take charge make get virtual 文書A 0 3 1 1 0 0 0 0 文書B 0 0 0 0 0 1 2 1 文書ごと各語出現頻度文書ごと各語 TF-IDF 文書Aにおける語”apple” 頻度語”apple”を含む文書頻度文書総数 ※ 底を2とする

TF-IDF値が0になるを防ぐ工夫もある： TF-IDF 拡張 25

文書ごと特徴を捉えたベクトルが得られたベクトル間類似度や距離を計算することで、文書相互似ている度合いを測る文書相互関係分析 27 文書A:
apple, iphone, apple, iphone, watch, take, charge, iphone 文書B: make, get, apple, get, charge, virtual [0, 3, 1, 1, 0, 0, 0, 0] [0, 0, 0, 0, 0, 1, 2, 1]

x=(x 1 , x 2 , …, x i ,
…, x n ), y=(y 1 , y 2 , …, y i , …, y n ) ピアソン積率相関係数 (Pearson product-moment correlation coefficient)（またピアソン相関係数、あるい単に相関係数）つぎように定義： x, y 変数x, y 平均 r xy -1から1まで実数値をとり、 • r xy が1に近いほどx, y間に強い正相関がある • r xy が-1に近いほどx, y間に強い負相関がある • r xy が0に近いときx, y 無相関類似度指標①　ピアソン積率相関係数 28 ‾ ‾

コサイン類似度 (cosine similarity) : ピアソン相関係数各変数平均がゼロである特殊な場合類似度指標②　コサイン類似度 29

文書Aと文書B コサイン類似度を計算まず、文書をベクトル化する各単語が何回出現したかを表現したbag-of-words表現（頻度ベクトル）を用いるコサイン類似度計算 30 文書A: apple, iphone,
apple, iphone, watch, take, charge, iphone 文書B: make, get, apple, get, charge, virtual apple iphone watch take charge make get virtual 文書A 2 3 1 1 1 0 0 0 文書B 1 0 0 0 1 1 2 1

文書Aと文書B コサイン類似度を計算するとコサイン類似度計算 31 apple iphone watch take charge
make get virtual 文書A 2 3 1 1 1 0 0 0 文書B 1 0 0 0 1 1 2 1

エントロピー (entropy) 乱雑さを測るため尺度「乱雑さ」＝「確率変数がど値をとるか言い当てにくさ」離散確率分布Pに対してつぎようにエントロピーH(P) 定義される：
エントロピー 34 対数底 2

距離 35 非負性同一性対称性三角不等式つぎ 4つ条件が真であるとき、関数d(x, y)
距離である距離公理 ※ 同一性条件を抜いたもを擬距離という

カルバック＝ライブラー・ダイバージェンス (KL: Kullback-Leibler divergence) • 二つ確率分布間異なり具合を測る • 二つ
確率分布P, Qが与えられたとき、PからみたQ KLダイバージェンス DKL(P||Q) つぎように計算： • KLダイバージェンス対称性と三角不等式を満たさないため、数学的に厳密な距離でない • 例え、単語間意味的な遠さを測ったり、文書全体からみたある文書に特徴的な単語を抽出するために用いられる距離指標①　カルバック＝ライブラー・ダイバージェンス 36

ジェンセン＝シャノン・ダイバージェンス (JS: Jensen-Shannon divergence) • 平均的な確率分布まで KLダイバージェンス平均 • JSダイバージェンス
対称性を満たすが、三角不等式を満たさないため厳密な距離でない距離指標②　ジェンセン＝シャノン・ダイバージェンス 37

ナイーブベイズ分類器 (naive Bayes classifier) • 「ベイズ定理」を用いた確率に基づく「素朴な」分類器 • 例え、データ集合Dが与えられたとき、新たなメールを普通
メールか迷惑メールに分類したいとするナイーブベイズ分類器 38 w1 w2 w3 w4 d1 3 1 0 0 普通メール D= d2 2 0 1 1 普通メール d3 0 2 1 1 迷惑メール ? ? ベイズ定理

確率復習：周辺化 39 y1 y2 y3 y4 x1 0.1 0.05
0 0.2 x2 0 0.25 0.05 0.15 x3 0 0.1 0.05 0.05 周辺化 (marginalization)

確率復習：連鎖則 40 y1 y2 y3 y4 x1 0.1 0.05
0 0.2 x2 0 0.25 0.05 0.15 x3 0 0.1 0.05 0.05 連鎖則 (chain rule) ← 周辺化

確率復習：連鎖則 41 y1 y2 y3 y4 x1 0.1 0.05
0 0.2 x2 0 0.25 0.05 0.15 x3 0 0.1 0.05 0.05 連鎖則 (chain rule)

連鎖則　　　　　　　　　　　　　　　　　　　　　よりベイズ定理 (Bayes’ theorem) ベイズ定理 42 条件付き確率を
ひっくり返せる！

新しいメール普通メールか迷惑メールどちらか？ -> 文書dについてp(c|d)が最大となるクラスc∈Cを求めたい p(d|c)が計算できれ良い訳だが、文書d あらゆる可能性を考えて直接計算する不可能
ナイーブベイズ分類器 43 ←p(d) クラスに依存しない ? ?

新しいメール普通メールか迷惑メールどちらか？ -> 文書dについてp(c|d)が最大となるクラスc∈Cを求めたい p(d|c)が計算できれ良い訳だが、文書d あらゆる可能性を考えて直接計算する不可能
→文書dに何らかモデルを仮定して p(d|c)を求めるナイーブベイズ分類器 44 ←p(d) クラスに依存しない ? ?

多項分布 (multinomial distribution) 全部でn回うちwが確率pwでnw回出る離散分布多項分布 45 0.4 0.3
0.2 0.1 p1 p2 p3 p4

• p(d|c)を多項分布でモデル化 ◦ pw,c: クラスがc ときに単語wが選れる確率 ◦ nw,d: 文書d内で単語wが起こる回数
多項モデルナイーブベイズ分類器 46

多項モデルナイーブベイズ分類器 47 単語wが確率pw,cでnw,d回出るかを n回決めていくことで文書が生成される

多項モデルナイーブベイズ分類器 48 単語wが確率pw,cでnw,d回出るかを n回決めていくことで文書が生成されるそもそもn、つまり文書長さが決まる確率

pcをクラスc 文書が生成される確率として、これを最大化するcを見つけるために、nw,d 観測可能なで、あと pcとpw,cさえ分かれ良い！多項モデルナイーブベイズ分類器
49

• データが与えられたとき、こデータがある確率分布から生成されたとする • しかし、パラメータ値分からない -> データからパラメータ値を推定したい
パラメータ推定法 50 データ確率分布生成パラメータ？推定

　　　　　　　　　　と書けることを保証する仮定である • 独立なで積に分解でき、同一確率分布に従うで1種類確率関数p(x)で書ける • データ
生成確率p(D)を尤度 (likelihood) とよぶ • 積形扱いにくいで対数をとった値を用いることが多く、log p(D)を対数尤度 (log-likelihood) とよぶ i.i.d.と尤度 51 「データ独立に同一確率分布に従う (independently, identically distributed; i.i.d.) 」と、確率変数X サンプルデータ生成確率p(D)が

• 最尤推定 (maximum likelihood estimation): ◦ 対数尤度log p(D)を最大化するようにパラメータθを決定最尤推定と最大事後確率推定
52 データD 確率分布生成パラメータθ？推定 ※ θ パラメータなでp(x|θ)とp(x;θ) 実質的に同じだと思って良い

• 最尤推定 (maximum likelihood estimation): ◦ 対数尤度log p(D)を最大化するようにパラメータθを決定 •
最大事後確率推定 (MAP: maximum a posteriori estimation): ◦ パラメータがどんな値をとりやすいかが事前にわかっている場合 ◦ 事後確率対数をとった値 log p(θ|D)を最大化するようにパラメータθを決定最尤推定と最大事後確率推定 53 パラメータ事前確率分布データD 確率分布生成パラメータθ？推定生成 ※ θ パラメータなでp(x|θ)とp(x;θ) 実質的に同じだと思って良い

• 最尤推定 (maximum likelihood estimation): ◦ 対数尤度log p(D)を最大化するようにパラメータθを決定 •
最大事後確率推定 (MAP: maximum a posteriori estimation): ◦ パラメータがどんな値をとりやすいかが事前にわかっている場合 ◦ 事後確率対数をとった値 log p(θ|D)を最大化するようにパラメータθを決定最尤推定と最大事後確率推定 54 パラメータ事前確率分布データD 確率分布生成パラメータθ？推定生成 ※ θ パラメータなでp(x|θ)とp(x;θ) 実質的に同じだと思って良い

ディリクレ分布 (Dirichlet distribution) • x = (x1,...,xn) に対して α =
(α1,...,αn): パラメータディリクレ分布 55 引用 (2023/11) https://ja.wikipedia.org/wiki/ディリクレ分布とき

(α1,...,αn): パラメータディリクレ分布 56 引用 (2023/11) https://ja.wikipedia.org/wiki/ディリクレ分布ディリクレ分布に従う確率変数一般に極端な値をとりにくいとき

(α1,...,αn): パラメータディリクレ分布条件 xが多項分布パラメータとなる条件と同じつまり、ディリクレ分布多項分布パラメータ確率分布を表すことができるただし、そ場合、多項分布パラメータ極端な値になりにくいことを仮定ディリクレ分布 57 引用 (2023/11) https://ja.wikipedia.org/wiki/ディリクレ分布ディリクレ分布に従う確率変数一般に極端な値をとりにくいとき

パラメータpw,cとpcをディリクレ分布を事前分布としてMAP推定により求める多項モデルパラメータ MAP推定 58 • Nc: クラスc 訓練文書数 •
nw,c: クラスcに属する訓練文書全体で w 出現回数

以下制約付き最適化問題を解く：等式制約付き凸計画問題なで、ラグランジュ未定乗数法を用いる多項モデルパラメータ MAP推定 59

小大 g(x) = 0 A B g(x) = 0
条件下で目的関数 f(x) を最大化したい：例え、xが2次元空間に存在し、制約を表す関数g(x)が1次関数である場合を考える制約がないとき：最適点点A 制約があるとき：直線 g(x) = 0上で目的関数 f(x) が最大となる点を求め、最適点点B 最適点において直線 g(x) = 0と等高線接していなくてならない等式制約付き凸計画問題とラグランジュ未定乗数法 60

等位面法線ベクトルと関数g(x) = 0 法線ベクトル平行なで、変数λを導入してつぎような関数 L(x,
λ) を定義する：こ関数をラグランジュ関数 (Lagrangian) と呼び、変数λをラグランジュ乗数 (Lagrange multiplier) と呼ぶ (1), (2) 連立方程式を解くと最適点が得られ、こ手法をラグランジュ未定乗数法 (the method of Lagrange multipliers) と呼ぶ等式制約付き凸計画問題とラグランジュ未定乗数法 61 一般化すると

未定乗数β, γを導入し、つぎようにラグランジュ関数 L(θ, β, γ) を定義：ただし、パラメータpw,cとpcに関して偏微分を計算すると多項モデル
パラメータ MAP推定 62

ここで、W 単語種類数、|C| クラス数を表す多項モデルパラメータ MAP推定 63 をそれぞれ0とし、と合わせると、

多項モデルパラメータ MAP推定 64 クラスcに属する訓練文書全体で w 出現回数クラスcに属する訓練文書全体で全単語出現回数
ここで、W 単語種類数、|C| クラス数を表すをそれぞれ0とし、と合わせると、

ここで、W 単語種類数、|C| クラス数を表すをそれぞれ0とし、と合わせると、 0にならないようにしている＝ディリクレスムージング

訓練文書数クラスcに属する訓練文書数 0にならないようにしている＝ディリクレスムージング 0にならないようにしているここで、W 単語種類数、|C| クラス数を表すをそれぞれ0とし、と合わせると、

• 坂地泰紀『テキストマイニング基礎』データ指向モデリング講義資料，2022年． • 高村大也『言語処理ため機械学習入門』コロナ社，2012年． •
持橋大地『確率的トピックモデル』 https://www.ism.ac.jp/~daichi/lectures/H24-TopicModel/ISM-2012-TopicModels-d aichi.pdf (参照 2023年11月)，2013年． • 佐藤一誠『トピックモデルによる統計的潜在意味解析』コロナ社，2015年． • 金明哲『テキストアナリティクス基礎と実践』岩波書店，2021年． • 那須川哲哉ほか『テキストマイニング基礎技術と応用』岩波書店，2020年．参考文献 71

データ指向モデリング「テキストマイニングの基礎」

データ指向モデリング「テキストマイニングの基礎」

More Decks by yuri

Other Decks in Education

Featured

Transcript