Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LSAと特異値分解 / LSA and Singular Value Decomposition

Ikuma_w
January 09, 2025
16

LSAと特異値分解 / LSA and Singular Value Decomposition

Ikuma_w

January 09, 2025
Tweet

Transcript

  1. 目次 • LSAとは • まずはBoWについて • 特異値分解について • LSAとしての特異値分解:BoWへの活用 •

    どのように分析するのか • 分析(使用したデータ、今回の分析の流れ、クラスタリング結果) 理論的な話しはせず、自然言語処理としての特異値分解の性質とそれがどのように 扱われて分析が成立するのかについてを概要的に説明します。
  2. LSA(Latent Semantic Analysis)とは? • 統計的言語モデルの一つであり、トピック分析(文書が何の主題に属するかを計算し、そこから 示唆を得る)が行える分析手法の一つ。トピックモデルとも呼ばれる。 • BoW※1ベクトルを次元圧縮する手法の一つであり、特異値分解を用いる ▪LSAを用いた分析におけるデータの流れ 文書データ

    BoWベクトル 分解された ベクトル 分析の アウトプット 抽出されたトピックと文書・単語の関係 を分析(各行列の集計・可視化、クラス タリングなど) ※1 Bag of wordsの略 ※2 Singular Value Decomposition(特異値分解)の略 • 単語の数値表現 • 文章の数値表現 が得られる SVD※2 による分解されたベク トルは文章・単語・トピッ クについての次元圧縮され る (=似た意味をまとめる) • 形態素解析 • one-hotベクトル化 • (正規化) • (idfによる重みづけ)
  3. まずはBoWについて 文章のベクトル化(数値化)を行う手法 ①犬は人間の親友 と呼ばれることが 多いです。 ②猫は猫が好きで す。 ③猫と犬は多くの 家庭でペットとし て飼われています

    。 ④鳥は空を自由に 飛ぶことができま す。 ⑤魚は水中で生活 する生き物です。 ①犬/は/人間/の/親 友/と/呼ば/れる/こ と/が/多い/です/。 ②猫/は/猫/が/好き/ です/。 ③猫/と/犬/は/多く/ の/家庭/で/ペット/ と/して/飼わ/れ/て /い/ます/。 ④鳥/は/空/を/自由/ に/飛ぶ/こと/が/で き/ます/。 ⑤魚/は/水中/で/生 活/する/生き物/で す/。 猫 は 猫 です 好き が 。 0 : 1 : : : : : : : : : : : : : : : : 0 0 : : : : : : 1 : : : : : : : : : : : 0 0 : 1 : : : : : : : : : : : : : : : : 0 0 : : : : : : : : : 1 : : : : : : : : 0 0 : : : : : : : : : : : : : : : : 1 : 0 0 : : : : 1 : : : : : : : : : : : : : 0 0 : : : : : : : : : : : 1 : : : : : : 0 0 : 2 : : 1 : 1 : : 1 : 1 : : : : 1 : 0 + + + + + + = 猫 は です 好き が 。 元の文書 形態素解析後の 文書 BoWベクトル化 1 2 3 • ベクトル化前の文 書 • 形態素解析で単 語単位で区切られ た文書 • 各単語をone-hot ベクトル化し、足し 合わせる。各単語 のカウント数で数 値化されたベクト ルとなる。 1 2 3 BoWベクトル 他の成分は 全て0 BoWベクトル化の例
  4. 特異値分解について 行列をなるべく情報量を保ったまま低次元ベクトルに圧縮する手法の1つ 特異値分解 特異値分解からわかること A = TΛU-1と積の形に分解すること ✓ A :

    n2 ×n1 行列 ✓ T : n2 ×n2 の直交行列、U : n1 ×n1 の直交行列 ✓ Σ : n2×n1の対角行列(以下は、n2 ≧ n1 の場合) T = t1 t2 ... tn2 U = u1 u2 ... un1 式の説明 Λ = λ1 λ2 λn1 0 0 0 (λ1 ≧ λ2 ≧ λn2 ≧ 0) Aにui 方向のベクトルを入れると、λi 倍されたti 方向のベクトル となる 式の展開 ✓ Aui = TΛU-1ui = TΛei = Tλi ei = λi Tei = λi ti (直交行列であるため) 直交行列:各列ベクトルの長さが1で、互いに直行している • 正方行列Oが直交行列であれば、 OO-1=1(=単位行列) • 直交行列UはU・ui = ei よく出てくる性質
  5. LSAとしての特異値分解:BoWへの活用 単語-文書行列に対して、潜在的な意味構造を抽出する LSAの各行列の説明 トピック-文書の行列での低次元化のイメージ • A = TΛU-1 : BoWでの単語-文書行列の特異値分解

    A = Vd1 vd2 ... VdD ✓ 行:単語を配する ✓ 列:文書を配する ✓ T: 単語-トピックの行列(単語の数値表現) ✓ Λ: トピック-トピックの行列 ✓ U: トピック-文書の行列(文書の数値表現) 単語-文書行列Aのイメージ 単語の共起関係を元に、似た意味の文書をくくりだしている A = TΛ u1 ... u2 ud Vd1 Vd2 VdD ... U-1 トピック-文書の行列のイメージ Uの列ベクトルの特徴 u1 : ||x||=1である中で、||Ax||が最大のもの u2 : ||x||=1かつx⊥u1 である中で、||Ax||が最大のもの ... 多くの文章で登場回 数の多い単語に対 応する成分は、大き くなり強め合う u1 は共通の単語が出現する文章を集め、その文章たちに 対応する成分の値を大きくしたベクトル 特異値分解後の各行列の意味
  6. 分析:使用したデータ • livedoor ニュースコーパス • 自然言語処理で分析やモデルを試せるデータセット • 以下の9つのカテゴリーに分かれている 1. live

    door HOMME:男性向けのファッションやライフスタイル情報を発信するサイト 2. 家電チャンネル:最新の家電製品やガジェットに関するレビューやニュースを提供するサイト 3. エスマックス:スマートフォンやモバイル関連の情報を専門的に取り扱うサイト 4. トピックニュース:政治、経済、社会など幅広い分野の最新ニュースをまとめて配信するサイト 5. Peachy:女性向けのファッション、美容、恋愛、ライフスタイル情報を提供するサイト 6. ITライフハック:IT関連の最新情報や便利なテクニック、ガジェットレビューを紹介するサイト 7. Sports Watch:スポーツ全般の最新ニュースや試合結果、選手情報を提供するサイト 8. 独女通信:独身女性向けのライフスタイルや恋愛、キャリアに関する情報を発信するサイト 9. MOVIE ENTER:映画の最新情報、レビュー、インタビューなどを提供する映画専門サイト • wget https://www.rondhuit.com/download/ldcc-20140209.tar.gz でダウンロードできる
  7. 分析:今回の分析の流れ ニュース記事の特異値分解で得られた文書-トピック行列で文書分類を行った データの抽出 前処理 BoWベクトル化 特異値分解 クラスタリング 文書分類の手順 目 的

    実 施 内 容 • 各テーマから10個ず つテキストファイルを 抽出 • 形態素解析でベクト ル化できるデータに する • 空白部や改行、ト ピック分析の重要性 が低いと考えられる 単語・記号を削除 • BoWベクトル化する o 加えてtf-idf処 理を行う • 特異値分解により、 文書-トピック行列を 得る • パラメータ値を得るこ とで新しいデータの 分類もできる(idf値、 右特異ベクトル、固 有値) • 文書-トピック行列で 階層クラスタリングを 実施する • 9分類になるよう閾値 を決め、正解ラベル と比較する • 文書分類を行う • 次元削減を行い、ト ピックを抽出する(ク ラスタリングの計算 量が減らせる。分類 精度にも良い影響が あると考えられる。) • 文書をベクトル化(数 値化)する • (tf-idfにより)ベクト ルを長さを揃えて、 重要な単語を強調す る • モデリングができる 形式にし、精度が良 くなるようにデータを 加工する • データ量が多いた め、抽出してモデリン グする
  8. (補足):階層クラスタリングについて クラスターが構築される過程も視覚的に表現できる イメージ図 データを類似したものから順につなぎ合わせていく (補足) メリット ・クラスター数を決めなくて良い ・クラスターの結合がどうなっているかを確認できる デメリット ・計算量が多い

    ・データ量が多いと樹形図が巨大・複雑になる 1. データ一つ一つを、一つのクラスターとみなす 2. クラスター同士の距離を計算する • どの距離を使うか? 3. 最も距離が近い二つのクラスターだけをまとめ、一つのクラスター とする • クラスター間の距離はどうするか? 4. クラスターの数が一つになるまで、2、3を繰り返す 5. 全てのクラスターが一つにまとまったら完了 (補足) 距離の種類 ユークリッド距離、マンハッタン距離、コサイン類似度など クラスター間距離の種類 最短距離法、最長距離法、ウォード法、重心法など 階層クラスタリングのイメージ アルゴリズム ・ ・ ・ ・ ・
  9. 分析:クラスタリング結果 トピックを捉えられているクラスタもあるが、分類精度は高くない • 3:it-life-hack、kaden-channel、 smaxへの分類が多く、電子機器 関係のクラスタだと思われる • 4:dokujo-tsushin、peachyへの 分類が多く、女性というトピックの クラスタと思われる

    • 5:livedoor-hommeは男性向け のニュース記事であるため、男 性というトピックのクラスタと思わ れる クラスタリングの可視化 クラスタリングの分析結果 距離:ユークリッド距離 クラスター間距離:ウォード法