名古屋検索勉強会#18

名古屋検索勉強会 #18 18.行列の分解と潜在意味インデックス @tetsukitazawa

18.行列の分解と潜在意味インデックス •18.1　線形代数の復習 •18.2　用語文書行列と特異値分解 •18.3　低階数近似 •18.4　潜在意味インデックス

行列の分解と潜在意味インデックス 6.3スコア付ベクトル空間で導入した用語文書行列C(M*N)を扱う際に数学手法を用いて楽に退治してしまおう。使うテクニック　18.1　行列分解・・・行列を扱いやすい正方行列に変形させる　18.3　低階数近似・低階数近似インデックスと文書取り出し　18.4　低階数近似を応用した潜在意味インデックスを検証する　　　　　ー文書コレクションを含む領域でクラスタリング手法　　　　　　として残ってる

18.1　線形代数の復習復活ッ復活ッ　数C行列復活ッッッ

18.1　線形代数の復習

18.1　線形代数の復習飛ばします(´º﹃º｀)

左の計算からvが任意のベクトルであっても Sを掛ける効果は、 Sの固有値と固有ベクトルで決定される。仮にλ3=0出会った時のSvは　　　　　　　となり、このλ3を変えた2つのベクトルは相対的には近そう。つまり、ベクトルの乗算において固有値が小さいとその影響は小さいことが直感的にわかる。 18.1　線形代数の復習例18.1　行列Sの固有ベクトの線形和で表現できる任意のベクトル vがある。
このとき、Sにvを乗じた際を考察する。

18.2　用語文書行列と特異値分解 [用語×文書]行列C のサイズは[M×N]で対称行列でもないことがほとんど。数学的手法で楽に扱えるように、Cを特異値分解(SVD)で対称対角分解できる状態にしよう。　定理18.3：用語文書行列Cは以下のSVDが可能。 C：任意の行列[M×N](用語文書行列) U、V：　　の固有値ベクトルの集まりの直交行列 Σ：　　の固有値の平方根(特異値)を並べた対角行列直交行列とは？
各列互いに垂直で大きさ 1のものこのとき　　を計算すると以下のようになる。 ※直交行列の性質　転置行列を掛けると　単位行列になる

18.2　用語文書行列と特異値分解　の式的な意味は？ M次元の用語に対応した正方行列となる。(i,j)要素はi番目j番目の用語の狂気に基づく重なりの指標。細かいこと省くと、は用語iと用語jが両方存在する文書数がわかる。用語文書行列C

SVDの数式表記のお作法(縮退SVD) 　Σの固有値が並ばない0のみ部分はUもVも縮退(簡約)する形で表記しよう。 18.2　用語文書行列と特異値分解

18.3　低階数近似　用語文書行列Cを特異値分解し　　　　　　で扱いやすい形に変形した。それでも用語文書行列は万～数百万行にも及ぶことが多いので低階数近似をしてより扱いやす形にする。方法は特異値σの値が小さいものを0に置き換えるというもの。図の18.2はRank3をRank2に近似している。　例)画像の低階数近似ランク750を30に近似してもある程度復元できるのがわかる。この近似を用いた用語文書行列　　でベクトル空間を考えていけば良い。 750*1125pix
(r=750) k=1で近似 k=30で近似

18.3　低階数近似用語文書行列Cを階数kで低階数近似した　　の算出方法　1.Cに対しSVDを行い、　　　　　　をつくる。　※r=Rank(C) 　2.Σからシグマの対角上の r –k の小さい方の特異値を0で置換え　　を作る。　3.計算を行い　　　　　　　をCの階数kの近似とする。　に期待される精度は、元のデータを表すのには十分でありつつ，あまり重要ではない
データやノイズを復元するのには不十分であること。　以下式の定理18.4より、　は階数がkで誤差が　　に等しい近似とわかる。フロベニウスノルム：全成分の2乗和のルート

18.3　低階数近似 ※UとVはそもそも直交行列であるため、　大きさは１である。ざっくり途中式

18.4　潜在意味インデックス　用語文書行列でクエリと文書をベクトルとして扱うことで文書検索を超えてクラス分類など使えるが carやautomobileといった同義語は別次元にあり、 carで検索しても文書d1を見つけれない。　・単語の持つ潜在的な意味の連想を捉えて扱えないか？　・特異値分解を行い低階数近似による次元圧縮により　　潜在的なベクトル空間に落とせないか？この2つ目のプロセスを潜在意味インデックス(LSI)と呼ぶ。(検索分野) 一般的には潜在意味解析(LSA)と呼ばれる。
数万行の用語文書行列に対して、数百の小さいオーダーkでよく近似される。

k次元LSI表現を使うことでクエリベクトルは　は低次空間に写像される。 18.21式 18.4　潜在意味インデックス • 潜在意味インデックス付け(LSI) ◦ 低階数表現した用語文書行列Cとクエリ文書の類似度スコア付け ◦ 数万に及ぶ用語文書行列に対し、数百オーダーのkで近似する。ここでの　はクエリであることにはどんな形でも依存していない。
つまり、LSI表現されたコレクションにない文章も上記式を用いてLSI表現に織り込むことが可能・・・？？？　ただし新しく追加された文書の共起は捉えられず、新文書での新しい用語は無視されることに気をつけること。　　　　　にクエリが与えられた時クエリを短い文書と考える。もとの低階数近似の式から以下式　　　　　　　　　　が得られる？

18.4　潜在意味インデックス例18.4 以下の用語文書行列を2次元まで圧縮してみる。＝ C U Σ V^T C2 U2
Σ2 V2^T C2はCと比較すると密になっていることがわかる。また CとC2をみると　・C･･･　boatで検索　→　d2のみヒット　・C2･･･ boatで検索　→　d1,d2,d3ヒットこれは C2の oceanの共起性から shipとboatの潜在的な意味のつながりが抽出出来たといえる。次元圧縮により検索性があまり悪影響を受けないだけでなく、直感的に検索性の改善しうる可能性がある k=2で低階数近似！ ※計算によってはU2、V2 　の行・列で符号の反転　が起きることに注意 Σ2の0部分に合わせ縮退

18.4　潜在意味インデックス LSIを用いた実験での性能 • TREC文書コレクション(数万コレクション)にてLSIを実施。 ◦ 次元は350までに圧縮 ◦ 90年代でLSIの計算に一台の機械で一日分。 ◦ TREC参加者の中位と同等の適合率を達成。
◦ 標準のベクトル空間より平均的に少し良い結果。これの考察 • SVDの計算コストは非常に高い。100万超えでは成功したものはない。 ◦ 対策：ランダムに選ばれた文書の部分集合上で LSIを行い、 18.21式で織り込むこと • kをへらすことで再現率は増える傾向がある。 • 特筆すべき点として200<k<300の小さな値では適合率も向上。 (同義語に対する改善) • LSIはクエリと文書がほとんど重なりがないアプリで最もよく働く。 • 伝統的なインデックス、得点計算ほどの効果は上げられない。 ◦ ベクトル空間検索での、否定と論理条件の成立する方法がない。

まとめ数万以上にも及ぶM×Nの用語文書行列Cに対し、潜在意味インデックス付け (LSI)を行う動機づけは以下の2点。 • ベクトル空間表現で同義語に対し、その単語と利用形態の潜在的な繋がり (トピック) で捉えることで検索性をあげる。 • 低階数近似（次元圧縮）による計算コストの低減。
特異値が小さなものを削ることで、文書を特徴づける重要な次元が生き残り似た単語が多いが別々の文書ベクトルであっても、検索できる可能性があがる。重要な次元：文書を特徴づけるもの、つまりトピック（話題）をみつけられ、このトピックを用いて文書のクラスタリングも行える。

名古屋検索勉強会#18

名古屋検索勉強会#18

tetsukitazawa

Other Decks in Science

Featured

Transcript