Slide 7
Slide 7 text
STRICTLY CONFIDENTIAL 7
LDAとは
LDA (Latent Dirichlet Allocation; 潜在的ディレクリ配分法)は、トピックモデルの基本的なモデルです。文章
中の潜在的なトピックを推定し、文章分類や、文章ベクトルの次元削減等に用いられる技術です。
チュートリアルにおいても説明しているため、本セッションではLDAの具体的な手順は説明しませんが、例え
ば、日経のニュースデータに適用すると以下のようなトピックが抽出でき、各トピックがそれぞれどのような意
味を持つかもある程度、人間にもわかる形で出力できます。この解釈性がニューラルネットワークとの大きな違
いです。
「新型コロナ」、「コロナ禍」や「トヨタ」、「工場」などが一緒のトピックとして出現しやすいという結果からもトピックの概
念がイメージできるかとおもいます。
(0, '0.058*"コロナ" + 0.010*"会長" + 0.009*"新型コロナ" + 0.008*"追加" + 0.008*"コロナ禍"')
(1, '0.020*"新型コロナ" + 0.018*"トヨタ" + 0.016*"生産" + 0.015*"工場" + 0.013*"中国"')
(2, '0.044*"発売" + 0.008*"用" + 0.006*"商品" + 0.006*"シリーズ" + 0.006*"日本"')
(3, '0.025*"日銀" + 0.024*"銀" + 0.023*"再開" + 0.012*"ポイント" + 0.011*"最終"')
(4, '0.024*"開始" + 0.020*"開発" + 0.014*"発売" + 0.013*"事業" + 0.013*"サービス"')
(5, '0.022*"社長" + 0.021*"氏" + 0.015*"提供開始" + 0.013*"サービス" + 0.012*"AI"')
(6, '0.064*"減" + 0.045*"期" + 0.041*"純利益" + 0.029*"増" + 0.025*"月"')
(7, '0.018*"発表" + 0.011*"店" + 0.009*"楽天" + 0.008*"開業" + 0.008*"JR東日本"')
(8, '0.091*"東証" + 0.021*"株" + 0.020*"マザーズ" + 0.018*"一時" + 0.017*"米"')
(9, '0.028*"発行" + 0.015*"格付け" + 0.013*"債" + 0.011*"R&I" + 0.011*" 社債"')