Slide 3
Slide 3 text
LSA(Latent Semantic Analysis)とは?
• 統計的言語モデルの一つであり、トピック分析(文書が何の主題に属するかを計算し、そこから
示唆を得る)が行える分析手法の一つ。トピックモデルとも呼ばれる。
• BoW※1ベクトルを次元圧縮する手法の一つであり、特異値分解を用いる
■LSAを用いた分析におけるデータの流れ
文書データ BoWベクトル
分解された
ベクトル
分析の
アウトプット
抽出されたトピックと文書・単語の関係
を分析(各行列の集計・可視化、クラス
タリングなど)
※1 Bag of wordsの略
※2 Singular Value Decomposition(特異値分解)の略
• 単語の数値表現
• 文章の数値表現
が得られる
SVD※2
による分解されたベク
トルは文章・単語・トピッ
クについての次元圧縮され
る
(=似た意味をまとめる)
• 形態素解析
• one-hotベクトル化
• (正規化)
• (idfによる重みづけ)