カテゴリ階層の拡張を目的とした階層的トピックモデル / A hierarchical topic model for expanding category hierarchies

カテゴリ階層の拡張を目的とした階層的トピックモデル 2014-03-04 ［火］DEIM2014 C4-6 山本浩平，江口浩二［神戸大］，高須淳宏[NII]

/27 ⚫カテゴリ階層の各ノードへ文書が配置されたデータが存在 ⚫Ex. Wikipedia, MEDLINE［生命科学系
文献のデータベース］ ⚫情報への効率的なアクセスを補助背景｜カテゴリ階層付きデータ 1

/27 ⚫ 既存のカテゴリ階層［観測カテゴリ階層］へ新しい概念を含む文書を配置 • 既存カテゴリ分割，新規カテゴリ挿入が必要 ⚫ 人による新規カテゴリ作成の判断 • 困難，煩雑［カテゴリ分割問題］
2 背景｜新カテゴリの挿入 Computers Mobile Computers Computer hardware Smartphones Netbooks Wearable computers ? Google Glass SmartWatch 新規文書管理者新規ノード

/27 ⚫カテゴリ階層の拡張が可能な技術 ⚫本研究では，データ中の潜在トピック階層を発見できる階層的トピックモデルに着目 3 背景｜求められる技術 Computers Mobile Computers
Computer hardware Smartphones Netbooks Wearable computers ! Google Glass SmartWatch 新規文書管理者新規ノード自動で適切にカテゴリ分割

/27 ⚫ 離散データ中の潜在トピックを解析 • 離散データの例：文書集合 • 代表的なモデル：Latent Dirichlet Allocation
[LDA] ⚫ 文書のモデル化 • 文書は潜在トピック ~ の混合 • 潜在トピックは単語が確率的に所属[~(|)] • 文書は () と (|) から生成 4 トピックモデル｜概要 tablet:0.02 computers:0.015 mobile:0.01 apple:0.03 jobs:0.015 steve:0.015 display:0.02 retina:0.02 resolution:0.01 ios:0.02 app:0.02 iwork:0.015 (|) iPad 文書単語 tablet, display, computer, apple, ios 潜在トピック生成

/27 ⚫ 現実には文書のみ観測可能 ⚫ 生成結果としての文書から，逆に潜在トピックを推定［ベイズ推定］ •
事後分布 (|) の推定 • ギブスサンプリング，変分ベイズ 5 トピックモデル｜推定 (|) ? ? ? ? iPad 文書単語 tablet, display, computer, apple, ios 潜在トピック ? ? 推定

/27 ⚫ データ中の階層化された潜在トピックをモデル化 • nested Chinese Restaurant Process [nCRP,
Blei+ 03, 10] で潜在トピックの階層を生成する 6 関連研究｜階層的トピックモデル hLDA SSHLDA Dir G-SSHLDA GEM G-SSHLDA 観測階層を利用既存モデル各モデルの関係図 GEM 分布を利用

/27 ⚫文書は潜在トピック［ノード］からなるパス ~nCRP に割り当て ⚫文書はレベル ~()の混合 7 関連研究｜hierarchical
LDA [1/2] topic model is:0.01, the:0.02 learning:0.015, machine:0.015 statistical:0.02, analysis:0.01 topic:0.015, model:0.02 svm:0.02, margin:0.02 ・・・レベル文書単語パス hLDA, [Blei+ 2003] ~Dir (|)~Dir

/27 ⚫ (),(|) の事前分布は Dirichlet 分布 • 有限個のレベルと単語に対する(),
(|) を決める ⚫ パス上のレベルで指定されるノードから文書を生成 8 関連研究｜hierarchical LDA [2/2] hLDA, [Blei+ 2003] topic model 文書 ~Dir is:0.01, the:0.02 learning:0.015, machine:0.015 statistical:0.02, analysis:0.01 topic:0.015, model:0.02 svm:0.02, margin:0.02 ・・・レベル単語パス (|)~Dir

/27 ⚫ 観測カテゴリ階層が付与されたデータのためのモデル ⚫ 観測葉ノードに配置された文書にパス ~nCRP 割り当て • 潜在ノード階層［潜在木］
が構成され，カテゴリ階層が拡張される ⚫ 観測・潜在ノード両方をトピックとして文書生成 9 関連研究｜Semi-Supervised hLDA computer:0.02, processing:0.01 algorithm:0.02, data:0.02 intelligent:0.01, machines:0.01 topic:0.02, model:0.02 learning:0.015, training:0.01 Computer Science Artificial Intelligence Algorithm Machine Learning Computer Vision images:0.015, vision:0.01 svm:0.02, margin:0.02 neural:0.02, learning:0.015 レベル単語パス SSHLDA, [Mao+ 2012] topic model 文書 ~Dir (|)~Dir

/27 ⚫ 階層は部分的に拡張されるが…… • 潜在木が葉ノードからのみ生成 • カテゴリ分割問題の解決のためには，任意ノードからの階層の拡張が必要 10 関連研究｜SSHLDA
の問題点 computer:0.02, processing:0.01 algorithm:0.02, data:0.02 intelligent:0.01, machines:0.01 topic:0.02, model:0.02 learning:0.015, training:0.01 Computer Science Artificial Intelligence Algorithm Machine Learning Computer Vision images:0.015, vision:0.01 svm:0.02, margin:0.02 neural:0.02, learning:0.015 レベル単語 topic model ~Dir (|)~Dir パス

/27 11 提案手法観測階層中の任意ノードを根とする潜在木を生成する階層的トピックモデル hLDA SSHLDA Dir G-SSHLDA GEM
G-SSHLDA 観測階層を利用提案モデル各モデルの関係図 GEM 分布を利用

/27 ⚫ Generalized SSHLDA [G-SSHLDA] • SSHLDA の一般化 • 任意ノードから潜在木生成，カテゴリ拡張
• カテゴリ拡張時に木構造を保持 12 提案手法｜概要 •G-SSHLDA による拡張カテゴリ階層の例黒色ノード - 観測ノード白色ノード - 潜在ノード

/27 ⚫ 観測内部ノードから，hLDA と同様に nCRP を利用して潜在木を生成 ⚫ 観測カテゴリ階層の拡張に利用可能 13 提案手法｜潜在木の生成
拡張潜在木・・・

/27 ⚫ 下位観測ノードの潜在木への接続方法 • 自明でない ⚫ 多くの文書が属するノードは階層全体において重要なノードと仮定 14 提案手法｜下位部分木の接続
? ?

/27 ⚫ 文書数を重みとした分布から上位の潜在葉ノードを確率的に選択し，接続 15 提案手法｜接ぎ木ノード選択数字は割り当たっている文書数接ぎ木
18 20 42 17 18 20 42 17 •例

/27 ⚫ の事前分布を GEM 分布に変更 • GEM 分布：() の事前分布とすることで，文書のパス長が自由になる
• パス長が自由なので，内部ノードに文書が割り当たり，内部ノードへの接ぎ木が考慮できる • これを GEM G-SSHLDA, 前述のモデルを Dir G-SSHLDA と呼ぶ 16 提案手法｜接ぎ木ノード選択の一般化数字は割り当たっている文書数 18 20 42 17 11 28 7 7 18 20 42 17 11 28 接ぎ木 •例

/27 ⚫拡張カテゴリ階層の例示 • 潜在ノードの内容を確認する ⚫汎化能力の評価 • 既存モデルと比較して汎化能力が変化しているか評価する ⚫クラスタリング能力の評価 •
カテゴリ内に多様なテーマの文書が混在したときに，階層の拡張によるカテゴリの分割を評価する 17 実験｜概要

/27 ⚫MEDLINE, Wikipedia データを利用 • MEDLINE:Face, Wikipedia:Programming を根ノードに持つ部分木 ⚫モデル推定 •
周辺化ギブスサンプリング 500 回 18 実験｜実験設定データセット MEDLINE Wikipedia 文書数 56,227 2,086 ラベル数 12 88 観測木の最大高さ 3 6 ラベル当り文書数 4,686 24

/27 19 実験｜拡張カテゴリ階層の例示 ⚫拡張された Wikipedia の観測階層の一部

/27 20 実験｜拡張カテゴリ階層の例示 ⚫ カテゴリを要約した単語、親子カテゴリの間の粒度の潜在ノードを発見

/27 ⚫ 汎化能力 • 未知データに対するトピック推定能力 ⚫ パープレキシティ • 汎化能力の評価尺度 •
パープレキシティが低いほど汎化能力高い ⚫ 評価法 • データを単語単位で 4:1 に分割 • 4 個を訓練，1 個をテストに利用 ⚫ 比較対象 • hLDA, SSHLDA, hLLDA [Petinot+ 2011] 21 実験｜汎化能力の評価

/27 22 実験｜MEDLINE に対するパープレキシティ Dirichlet 分布に基づくモデル GEM 分布に基づくモデルノード数良
Dir G-SSHLDA は最大 4.5 % 改善 GEM G-SSHLDA は GEM hLDA より同程度か劣化提案モデル提案モデル

/27 ⚫ カテゴリ分割問題への対応力を検証 1. 観測階層の内部レベルを一部縮約 ⚫ 縮約したノード中の文書は最も近い先祖ノードへ再配置 2. G-SSHLDA で階層拡張，各ノードへ文書を
クラスタリング 3. 縮約前を正解として，潜在木中のノードを F 値と正規化相互情報量 [NMI] で評価 23 実験｜クラスタリング能力の評価 [1/2] 1. 縮約 2. G-SSHLDA で拡張 …… 3. 正解とクラスタを比較し評価

/27 ⚫ Wikipedia データ • レベル 1,2 ・ 1,2,3 ・
2,3 ・ 3 を削除 ⚫ 比較対象 • hLDA, 単連結法［両方教師なしの手法］ ⚫ このタスクでは SSHLDA は直接比較不可能 • SSHLDA は内部ノードから潜在木生成できないため 24 実験｜クラスタリング能力の評価 [2/2] …… 1. 縮約 2. G-SSHLDA で拡張 …… 3. 正解とクラスタを比較し評価

/27 25 実験｜クラスタリング結果 [1/2] 一例：レベル 1, 2 削除 ※ 値が大きい方が良い
提案モデルの評価値が最高

/27 ⚫考察 • 内部レベルを復元できている ‒ 既存モデルでは不可能である • 観測階層を利用して潜在木を生成し，
各ノードに文書を配置できている ‒ 自動で観測カテゴリを分割し，新規カテゴリを作成できる 26 実験｜クラスタリング結果 [2/2] G-SSHLDA はカテゴリ分割問題を解決可能

/27 ⚫ 新たな階層的トピックモデルである G-SSHLDA を提案 • 任意観測ノードからカテゴリ拡張 ⚫ 現実データによる実験 •
拡張カテゴリ階層の例示 • 汎化能力・クラスタリング能力の評価 • カテゴリ分割問題解決のための基礎技術として利用可能 ⚫ 今後の展望 • 接ぎ木ノード選択分布への事前分布の考慮 • 文書集合以外のデータを考慮したモデルへの拡張 27 結論と今後の展望

/27 28

/27 ⚫ Latent Dirichlet Allocation [LDA] [Blei+ 2003] • 代表的なトピックモデル
• 文書は単語の集合であると考え，以下の流れで生成されると仮定 29 トピックモデル｜LDA 文書 1 文書 2 文書 3 トピック 1 トピック 2 語彙 1 語彙 2 語彙 3 語彙 4 0.9 0.1 0.5 0.5 0.3 0.7 0.6 0.4 0.4 0.2 0.4 Ex. 文書 1 はそれ自身が持つ単語数の分だけ，トピック，語彙を確率的に選択して生成

/27 ⚫ 現実には文書のみ観測可能 ⚫ 生成結果としての文書から，逆にトピックを推定可能 [ベイズ推定] • 周辺化ギブスサンプリング
，変分ベイズ，etc. 30 トピックモデル｜推定この部分をベイズ推定文書 1 文書 2 文書 3 トピック 1 トピック 2 語彙 1 語彙 2 語彙 3 語彙 4 0.9 0.1 0.5 0.5 0.3 0.7 0.6 0.4 0.4 0.2 0.4

LDA｜生成過程 31 ⚫ LDA の生成過程 • LDA が文書に対して置いている仮定を形式的に書いたもの 1.
各トピック ∈ {1,… , } に対して A) トピック-単語分布パラメータ ∼ Dir() を選択 2. 各文書 ∈ {1, …, } に対して A) 文書-トピック分布パラメータ ∼ Dir() を選択 B) 各単語 ∈ {1,… , } に対して i . トピック , ∼ Mult( ) を選択 i i . 単語 , ∼ Mult(, ) を選択

/27 ⚫ 木構造を生成する確率過程 ⚫ 比喩：文書が客，ノードが店 ⚫ 客は，以下の式にしたがって、下位の階層の店を選んでパスを生成し，木構造を構成 • 新規客は客の多い店に入りやすい
32 関連研究｜nested Chinese Restaurant Process はノード，はの客数，は前の店の客数，はパラメータ 1 2 3 1 1 1 4 2 2 2 5 6 3 3 3 店客 nCRP, [Blei+ 2003, 2010] 既存ノードを選択する確率新規ノードを選択する確率

/27 ⚫ 木構造を生成する確率過程 ⚫ 比喩：文書が客，ノードが店 ⚫ 客は，以下の式にしたがって次の店を選び，パスを生成 • 新規客は客の多い店に入りやすい
33 関連研究｜nested Chinese Restaurant Process •3 レベルの nCRP の例各ノードは店，各菱形は客客 1 のパスは <1, 2, 3> はノード，はの客数，は前の店の客数，はパラメータ 1 2 3 1 1 1 / ( 0 + ) / ( 0 + ) nCRP, [Blei+ 2003, 2010] 店客

34 関連研究｜nested Chinese Restaurant Process •3 レベルの nCRP の例各ノードは店，各菱形は客客 2 のパスは <1, 2, 4> はノード，はの客数，は前の店の客数，はパラメータ 1 2 3 1 1 1 4 2 2 2 1 / ( 1 + ) / ( 1 + ) 店客 nCRP, [Blei+ 2003, 2010]

35 関連研究｜nested Chinese Restaurant Process •3 レベルの nCRP の例各ノードは店，各菱形は客客 3 のパスは <1, 5, 6> はノード，はの客数，は前の店の客数，はパラメータ 1 2 3 1 1 1 4 2 2 2 5 6 3 3 3 / ( 2 + ) / ( 0 + ) 店客 nCRP, [Blei+ 2003, 2010]

/27 ⚫ 非負実数列 { } ( = 1, … ,
∞)に対して ~Beta( , (1 − )) と = ς =1 −1 (1 − ) からを構成するとき， ~GEM(,π ) と表現する． 36 GEM 分布

/27 ⚫ () の事前分布を GEM 分布に変更[Blei+ 2010] • 無限個のレベルに対する() を決められる
• パスの長さが自由になり，以下のようなパスも OK 37 関連研究｜GEM hLDA machine learning 文書 ~GEM is:0.01, the:0.02 learning:0.015, machine:0.015 statistical:0.02, analysis:0.01 topic:0.015, model:0.02 svm:0.02, margin:0.02 ・・・レベル単語パス …… (|)~Dir

hLDA｜生成過程 38 ⚫ hLDA の生成過程 1. 無限個のノードを持つ木の各ノード ∈ に対して
1. 単語上の多項分布パラメータ ∼ Dir() を選択 2. 各文書 ∈ {1, …, } に対して A) ,1 を根として各レベル ∈ 2,… , に対して i. CRP の式にしたがって潜在ノード , を選択 B) トピック上の多項分布パラメータ ∼ Dir() を選択 C) 各単語 ∈ {1,… , } に対して i . トピック , ∼ Mult( ) を選択 i i . 単語 , ∼ Mult(, ) を選択

hLDA｜生成過程 39 ⚫ GEM hLDA の生成過程 1. 無限個のノードを持つ木の各ノード ∈ に対し
て 1. 単語上の多項分布パラメータ ∼ Dir() を選択 2. 各文書 ∈ {1, …, } に対して A) パス ~nCRP() を選択 B) トピック上の多項分布パラメータ ∼ GEM() を選択 C) 各単語 ∈ {1,… , } に対して i . トピック , ∼ Mult( ) を選択 i i . 単語 , ∼ Mult(, ) を選択

/27 40 提案手法｜生成過程 1 . 無限個のノ
ードを持つ木の各ノード ∈ に対して 1 . 単語上の多項分布パラメータ ∼ Dir() を選択 2 . 観測木に対する幅優先探索時の各ノードに対して 1. に属する各文書 ∈ {1, … , } に対して 1. , を根ノードからまでのパスとして設定 2. ,,1 をとして，各レベル ∈ 2, … , に対して 1. CRP の式にしたがって潜在ノード , , を選択 3 . レベル上の多項分布パラメータ ∼ Dir() を選択 4 . 各単語 ∈ {1, … , } に対して 1 . レベル , ∈ {1, … , } ∼ Mult を選択 2 . ノード ,, に付随するトピックから単語 , ∼ Mult ,, を選択 2. が内部ノードであれば，の各観測子ノード ′ に対して 1 . 接ぎ木ノード ′ ∼ U 1, , … , , を選択 2. ′ を ′ の親に設定 ⚫G-SSHLDA の生成過程

/27 41 提案手法｜生成過程 1 . 無限個のノ
ードを持つ木の各ノード ∈ に対して 1 . 単語上の多項分布パラメータ ∼ Dir() を選択 2 . 観測木に対する幅優先探索時の各ノードに対して 1. に属する各文書 ∈ {1, … , } に対して 1. , を根ノードからまでのパスとして設定 2 . 潜在パス , ~nCRP() を選択 3 . レベル上の多項分布パラメータ ∼ GEM(, ) を選択 4 . 各単語 ∈ {1, … , } に対して 1 . レベル , ∈ {1, … , } ∼ Mult を選択 2 . ノード ,, に付随するトピックから単語 , ∼ Mult ,, を選択 2. が内部ノードであれば，の各観測子ノード ′ に対して 1 . 接ぎ木ノード ′ ∼ U 1,max(1) ,… , ,max( ) を選択 2. ′ を ′ の親に設定 ⚫ GEM G-SSHLDA の生成過程

hLDA｜グラフィカルモデル 42 hLDA GEM hLDA

G-SSHLDA｜グラフィカルモデル 43 Dir G-SSHLDA

G-SSHLDA｜グラフィカルモデル 44 GEM G-SSHLDA

/27 モデル推定｜G-SSHLDA 45 をパスのサンプリングに利用する．ここで，右辺第一項目は •パスの条件付き分布
パスが与えられたときに文書中の全単語が生成される確率パスがパラメタの nCRP から生成される確率である．

/27 46 モデル推定｜G-SSHLDA •レベルの完全条件付き分布またはをレベルのサンプリングに利用する．文書中の番目の単語にレベル
が割り当てられる確率文書のパス上の番目のノード , から単語が生成される確率

/27 47 モデル推定｜G-SSHLDA •接ぎ木ノードの条件付き分布またはを接ぎ木ノードのサンプリングに利用する．観測ノードを根とする部分木が上位潜在木の葉ノード ℓ
に接ぎ木される確率観測ノードを根とする部分木が上位潜在木のノードに接ぎ木される確率

/27 ⚫幅優先探索時の各観測ノードについて • に属する各文書について ‒ 観測パスを木の根からまでのパスとして
設定 ‒ 潜在パスをパスの条件付き分布から選択 ‒ パスをとの連結として設定 ‒ 各単語について，レベル , をレベルの完全条件付き分布から選択 • 各観測子ノード ′ について，接ぎ木ノード ′ を分布から選択し，レベル割り当て補正 48 モデル推定｜アルゴリズム

/27 49 モデル推定｜G-SSHLDA •接ぎ木ノードの条件付き分布またはを接ぎ木ノードのサンプリングに利用する．観測ノードを根とする部分木が上位潜在木の葉ノード ℓ
に接ぎ木される確率観測ノードを根とする部分木が上位潜在木のノードに接ぎ木される確率

/27 ⚫GEM G-SSHLDA を利用 ⚫潜在木高さ：2 ⚫周辺化ギブスサンプリング 500 回 ⚫ =
1.0, = 1.0, = 0.5, = 100 50 実験詳細｜拡張階層例示

/27 ⚫ G-SSHLDA, hLDA, hLLDA, SSHLDA を利用 ⚫ 周辺化ギブスサンプリング 500
回 ⚫ G-SSHLDA の潜在木高さ：1, 2, 3 ⚫ hLDA の木の高さは各文書の観測パス平均長から決定 ⚫ MEDLINE • hLDA の木の高さ：2, 3, 4 • SSHLDA の木の高さ：4, 5, 6 ⚫ Wikipedia • hLDA の木の高さ：3, 4, 5 • SSHLDA の木の高さ：7, 8, 9 ⚫ = 0.1, = 0.5, 1.0 , = 1.0, = {0.25, 0.5}, = 100 51 実験詳細｜汎化能力評価

/27 ⚫ データは単語単位で 5 分割 ⚫ 4 個のデータでモデルを推定，1 個のデータでパープレキシティを計算
• テストデータを替えつつ，5 回繰り返す ⚫ 周辺化ギブスサンプリング繰り返し 400 – 500 回の間，10 回に 1 回パープレキシティを計算し，その結果得た 10 個の値の平均を結果として利用 ⚫ 各テストデータに対する平均と標準偏差を計算 52 実験詳細｜汎化能力評価

/27 53 実験｜MEDLINE に対するパープレキシティ D irichle t分布に基づくモデル GEM 分布に基づくモデル

/27 54 実験｜Wikipedia に対するパープレキシティノード数良 Dirichlet 分布に基づくモデル GEM 分布に基づくモデル
提案モデル提案モデル Dir G-SSHLDA は最大 4.4 % 改善 GEM G-SSHLDA は GEM hLDA より同程度か劣化

/27 55 実験｜Wikipedia に対するパープレキシティ Dirichlet 分布に基づくモデル GEM 分布に基づくモデル

/27 ⚫ G-SSHLDA, hLDA, 単連結法 [CLUTO]を利用 ⚫ 周辺化ギブスサンプリング 500 回
⚫ G-SSHLDA の潜在木高さは削除レベル数 ⚫ hLDA の木の高さ • 各文書の観測パス平均長から決定 • <1, 2> 削除：2 • <1, 2, 3> 削除：3 • <2, 3> 削除：3 • <3> 削除：3 ⚫ = 0.1, = 0.5, 1.0 , = 1.0, = 0.5, = 100 56 実験詳細｜クラスタリング能力評価

/27 ⚫削除されたノード数 • <1, 2> 削除：50 • <1, 2, 3>
削除：78 • <2, 3> 削除：66 • <3> 削除：28 ⚫ = 0.1, = 0.5, 1.0 , = 1.0, = 0.5, = 100 57 実験詳細｜クラスタリング能力評価

/27 ⚫ Dir hLDA • () の最頻値であるレベルで示されるノードにその文書を配置する •
ノード全てをクラスタと見なす • 削除したノードに属している文書以外を全クラスタから削除する 58 実験詳細｜クラスタリング方法 1 2 3 1 2 3 () ()

/27 ⚫ Dir G-SSHLDA • 文書が属する観測ノードから潜在木高さの間のレベルのみ考慮する ‒ 観測
ノードに属する文書のみを対象としたクラスタを作るため • その範囲内で () を最大にするレベルで示されるノードにその文書を配置する • 削除したノードに属している文書以外を全クラスタから削除する 59 実験詳細｜クラスタリング方法 1 2 3 4 1 2 3 4 ここのみをクラスタと見なす () ()

/27 ⚫ GEM 分布を利用するモデル • モデル推定の時点で，ある文書がとる最大レベルが決まる • その最大レベルで示されるノードにその文書を割り当てる
• 削除したノードに属している文書以外を全クラスタから削除する 60 実験詳細｜クラスタリング方法ここのみをクラスタと見なす max = 3 max =4

/27 ⚫ 単連結法 • 単語を素性としてクラスタリングする • 縮約されたノードに属する文書のみをクラスタリング対象とする • 削除されたノードの数だけクラスタを生成する
61 実験詳細｜クラスタリング方法ここのノードに属する文書のみを，ここのノード数をクラスタ数としてクラスタリング

/27 ⚫ hLDA • () の最頻値であるレベルで示されるノードにその文書を配置する ⚫ G-SSHLDA
• 文書が属する観測ノードから潜在木高さの間のレベルのみ考慮する • その範囲内で () を最大にするレベルで示されるノードにその文書を配置する ⚫ 単連結法 • 縮約されたノードに属する文書のみをクラスタリング対象とする • 削除されたノードの数だけクラスタを生成する 62 実験詳細｜クラスタリング能力評価

/27 ⚫ 正解クラス , クラスタとする ⚫ 再現率 [recall] •
r , = | ∩ |/| | ⚫ 適合率 [precision] • p , = | ∩ |/| | ⚫ F 値 • 各クラスとクラスタの組み合わせに対して F , = 2r , p , r , +p , を計算し， F( , ) = ෍ =1 (| |/ ) max ∈ F , で求める 63 実験詳細｜F 値

/27 ⚫正解クラス , クラスタとする ⚫相互情報量 [mutual information] • MI
, = σ =1 σ =1 ( , )log , /( ( )) ⚫正規化相互情報量 [normalized mutual information] • NMI , = MI (, )/( + 2 ) ⚫ここで， , () は周辺エントロピー 64 実験詳細｜正規化相互情報量

/27 65 実験｜クラスタリング結果 <1, 2> 削除 <1, 2, 3>
削除 <2, 3> 削除 <3> 削除一例を除いて G-SSHLDA の評価値が最高

カテゴリ階層の拡張を目的とした階層的トピックモデル / A hierarchical topi...

カテゴリ階層の拡張を目的とした階層的トピックモデル / A hierarchical topic model for expanding category hierarchies

More Decks by Kōhei Yamamoto (山本浩平)

Other Decks in Research

Featured

Transcript