カテゴリ階層の拡張を目的とした階層的トピックモデル / A hierarchical topic model for expanding category hierarchies

カテゴリ階層の拡張を目的とした階層的トピックモデル / A hierarchical topic model for expanding category hierarchies

Presented at the 6th Forum on Data Engineering and Information Management (DEIM2014; 第6回 データ工学と情報マネジメントに関するフォーラム). Won the student presentation award.

http://db-event.jpn.org/deim2014/?%E8%A1%A8%E5%BD%B0,22

1604058c93731a1f795ce62d37d19fd5?s=128

Kōhei Yamamoto

March 04, 2014
Tweet

Transcript

  1. カテゴリ階層の拡張を目的とした 階層的トピックモデル 2014-03-04 [火]DEIM2014 C4-6 山本浩平 ,江口浩二 [神戸大] ,高須 淳宏[NII]

  2. /27 ⚫カテゴリ階層の各ノードへ文書が配置 されたデータが存在 ⚫Ex. Wikipedia, MEDLINE[生 命 科 学 系

    文 献 の デ ー タ ベ ー ス] ⚫情報への効率的なアクセスを補助 背景|カテゴリ階層付きデータ 1
  3. /27 ⚫ 既存のカテゴリ階層[観測カテゴリ階層]へ 新しい概念を含む文書を配置 • 既存カテゴリ分割,新規カテゴリ挿入が必要 ⚫ 人による新規カテゴリ作成の判断 • 困難,煩雑[カテゴリ分割問題]

    2 背景|新カテゴリの挿入 Computers Mobile Computers Computer hardware Smartphones Netbooks Wearable computers ? Google Glass SmartWatch 新規文書 管理者 新規ノード
  4. /27 ⚫カテゴリ階層の拡張が可能な技術 ⚫本研究では,データ中の潜在トピック 階層を発見できる階層的トピックモデル に着目 3 背景|求められる技術 Computers Mobile Computers

    Computer hardware Smartphones Netbooks Wearable computers ! Google Glass SmartWatch 新規文書 管理者 新規ノード 自動で適切に カテゴリ分割
  5. /27 ⚫ 離散データ中の潜在トピックを解析 • 離散データの例:文書 集合 • 代表的なモデル:Latent Dirichlet Allocation

    [LDA] ⚫ 文書のモデル化 • 文書 は潜在トピック ~ の混合 • 潜在トピック は単語 が確率的に所属[~(|)] • 文書 は () と (|) から生成 4 トピックモデル|概要 tablet:0.02 computers:0.015 mobile:0.01 apple:0.03 jobs:0.015 steve:0.015 display:0.02 retina:0.02 resolution:0.01 ios:0.02 app:0.02 iwork:0.015 (|) iPad 文書 単語 tablet, display, computer, apple, ios 潜在トピック 生成
  6. /27 ⚫ 現実には文書 のみ観測可能 ⚫ 生成結果としての文書から, 逆に潜在トピック を推定 [ベイズ推定] •

    事後分布 (|) の推定 • ギブスサンプリング,変分ベイズ 5 トピックモデル|推定 (|) ? ? ? ? iPad 文書 単語 tablet, display, computer, apple, ios 潜在トピック ? ? 推定
  7. /27 ⚫ データ中の階層化された潜在トピックを モデル化 • nested Chinese Restaurant Process [nCRP,

    Blei+ 03, 10] で潜在トピックの階層を生成する 6 関連研究|階層的トピックモデル hLDA SSHLDA Dir G-SSHLDA GEM G-SSHLDA 観 測 階 層 を 利 用 既存モデル 各モデルの関係図 GEM 分 布 を 利 用
  8. /27 ⚫文書 は潜在トピック[ノード]からなる パス ~nCRP に割り当て ⚫文書はレベル ~()の混合 7 関連研究|hierarchical

    LDA [1/2] topic model is:0.01, the:0.02 learning:0.015, machine:0.015 statistical:0.02, analysis:0.01 topic:0.015, model:0.02 svm:0.02, margin:0.02 ・・・ レベル 文書 単語 パス hLDA, [Blei+ 2003] ~Dir (|)~Dir
  9. /27 ⚫ (),(|) の事前分布は Dirichlet 分布 • 有限個のレベルと単語 に対 する(),

    (|) を決める ⚫ パス 上のレベル で指定されるノードから 文書 を生成 8 関連研究|hierarchical LDA [2/2] hLDA, [Blei+ 2003] topic model 文書 ~Dir is:0.01, the:0.02 learning:0.015, machine:0.015 statistical:0.02, analysis:0.01 topic:0.015, model:0.02 svm:0.02, margin:0.02 ・・・ レベル 単語 パス (|)~Dir
  10. /27 ⚫ 観測カテゴリ階層が付与されたデータのためのモデル ⚫ 観測葉ノードに配置された文書にパス ~nCRP 割り当て • 潜在ノード階層 [潜在木]

    が構成され,カテゴリ階層が 拡張される ⚫ 観測・潜在ノード両方をトピックとして文書生成 9 関連研究|Semi-Supervised hLDA computer:0.02, processing:0.01 algorithm:0.02, data:0.02 intelligent:0.01, machines:0.01 topic:0.02, model:0.02 learning:0.015, training:0.01 Computer Science Artificial Intelligence Algorithm Machine Learning Computer Vision images:0.015, vision:0.01 svm:0.02, margin:0.02 neural:0.02, learning:0.015 レベル 単語 パス SSHLDA, [Mao+ 2012] topic model 文書 ~Dir (|)~Dir
  11. /27 ⚫ 階層は部分的に拡張されるが…… • 潜在木が葉ノードからのみ生成 • カテゴリ分割問題の解決のためには, 任意ノードからの階層の拡張が必要 10 関連研究|SSHLDA

    の問題点 computer:0.02, processing:0.01 algorithm:0.02, data:0.02 intelligent:0.01, machines:0.01 topic:0.02, model:0.02 learning:0.015, training:0.01 Computer Science Artificial Intelligence Algorithm Machine Learning Computer Vision images:0.015, vision:0.01 svm:0.02, margin:0.02 neural:0.02, learning:0.015 レベル 単語 topic model ~Dir (|)~Dir パス
  12. /27 11 提案手法 観測階層中の任意ノードを根とする 潜在木を生成する階層的トピックモデル hLDA SSHLDA Dir G-SSHLDA GEM

    G-SSHLDA 観 測 階 層 を 利 用 提案モデル 各モデルの関係図 GEM 分 布 を 利 用
  13. /27 ⚫ Generalized SSHLDA [G-SSHLDA] • SSHLDA の一般化 • 任意ノードから潜在木生成,カテゴリ拡張

    • カテゴリ拡張時に木構造を保持 12 提案手法|概要 •G-SSHLDA による 拡張カテゴリ階層の例 黒色ノード - 観測ノード 白色ノード - 潜在ノード
  14. /27 ⚫ 観測内部ノードから,hLDA と同様に nCRP を利用して潜在木を生成 ⚫ 観測カテゴリ階層の拡張に利用可能 13 提案手法|潜在木の生成

    拡張 潜在木 ・・・
  15. /27 ⚫ 下位観測ノードの潜在木への接続方法 • 自明でない ⚫ 多くの文書が属するノードは階層全体において 重要なノードと仮定 14 提案手法|下位部分木の接続

    ? ?
  16. /27 ⚫ 文書数を重みとした分布から 上位の潜在葉ノードを確率的に選択し, 接続 15 提案手法|接ぎ木ノード選択 数字は割り当たって いる文書数 接ぎ木

    18 20 42 17 18 20 42 17 •例
  17. /27 ⚫ の事前分布を GEM 分布に変更 • GEM 分布:() の事前分布とすることで,文書のパス長が 自由になる

    • パス長が自由なので,内部ノードに文書が割り当たり, 内部ノードへの接ぎ木が考慮できる • これを GEM G-SSHLDA, 前述のモデルを Dir G-SSHLDA と呼ぶ 16 提案手法|接ぎ木ノード選択の一般化 数字は割り当たって いる文書数 18 20 42 17 11 28 7 7 18 20 42 17 11 28 接ぎ木 •例
  18. /27 ⚫拡張カテゴリ階層の例示 • 潜在ノードの内容を確認する ⚫汎化能力の評価 • 既存モデルと比較して汎化能力が 変化しているか評価する ⚫クラスタリング能力の評価 •

    カテゴリ内に多様なテーマの文書が 混在したときに,階層の拡張による カテゴリの分割を評価する 17 実験|概要
  19. /27 ⚫MEDLINE, Wikipedia データを利用 • MEDLINE:Face, Wikipedia:Programming を根ノードに持つ部分木 ⚫モデル推定 •

    周辺化ギブスサンプリング 500 回 18 実験|実験設定 データセット MEDLINE Wikipedia 文書数 56,227 2,086 ラベル数 12 88 観測木の 最大高さ 3 6 ラベル当り 文書数 4,686 24
  20. /27 19 実験|拡張カテゴリ階層の例示 ⚫拡張された Wikipedia の観測階層の一部

  21. /27 20 実験|拡張カテゴリ階層の例示 ⚫ カテゴリを要約した単語、 親子カテゴリの間の粒度の潜在ノードを発見

  22. /27 ⚫ 汎化能力 • 未知データに対するトピック推定能力 ⚫ パープレキシティ • 汎化能力の評価尺度 •

    パープレキシティが低いほど汎化能力高い ⚫ 評価法 • データを単語単位で 4:1 に分割 • 4 個を訓練,1 個をテストに利用 ⚫ 比較対象 • hLDA, SSHLDA, hLLDA [Petinot+ 2011] 21 実験|汎化能力の評価
  23. /27 22 実験|MEDLINE に対するパープレキシティ Dirichlet 分布に基づくモデル GEM 分布に基づくモデル ノード数 良

    Dir G-SSHLDA は最大 4.5 % 改善 GEM G-SSHLDA は GEM hLDA より同程度か劣化 提案モデル 提案モデル
  24. /27 ⚫ カテゴリ分割問題への対応力を検証 1. 観測階層の内部レベルを一部縮約 ⚫ 縮約したノード中の文書は最も近い先祖ノードへ再配置 2. G-SSHLDA で階層拡張,各ノードへ文書を

    クラスタリング 3. 縮約前を正解として, 潜在 木中 のノ ード を F 値と正規化相互情報量 [NMI] で評価 23 実験|クラスタリング能力の評価 [1/2] 1. 縮約 2. G-SSHLDA で拡張 …… 3. 正解とクラスタを比較し評価
  25. /27 ⚫ Wikipedia データ • レベル 1,2 ・ 1,2,3 ・

    2,3 ・ 3 を削除 ⚫ 比較対象 • hLDA, 単連結法[両方教師なしの手法] ⚫ このタスクでは SSHLDA は直接比較不可能 • SSHLDA は内部ノードから潜在木生成できないため 24 実験|クラスタリング能力の評価 [2/2] …… 1. 縮約 2. G-SSHLDA で拡張 …… 3. 正解とクラスタを比較し評価
  26. /27 25 実験|クラスタリング結果 [1/2] 一例:レベル 1, 2 削除 ※ 値が大きい方が良い

    提案モデルの評価値が最高
  27. /27 ⚫考察 • 内部レベルを復元できている ‒ 既存モデルでは不可能 であ る • 観測階層を利用して潜在木を生成し,

    各ノードに文書を配置できている ‒ 自動で観測カテゴリを 分割 し, 新規カテゴリを作成で きる 26 実験|クラスタリング結果 [2/2] G-SSHLDA はカテゴリ分割問題を解決可能
  28. /27 ⚫ 新たな階層的トピックモデルである G-SSHLDA を提案 • 任意観測ノードからカテゴリ拡張 ⚫ 現実データによる実験 •

    拡張カテゴリ階層の例示 • 汎化能力・クラスタリング能力の評価 • カテゴリ分割問題解決のための基礎技術 として利用可能 ⚫ 今後の展望 • 接ぎ木ノード選択分布への事前分布の考慮 • 文書集合以外のデータを考慮したモデルへの 拡張 27 結論と今後の展望
  29. /27 28

  30. /27 ⚫ Latent Dirichlet Allocation [LDA] [Blei+ 2003] • 代表的なトピックモデル

    • 文書は単語の集合であ ると 考え ,以 下の 流れ で 生成されると仮定 29 トピックモデル|LDA 文書 1 文書 2 文書 3 トピック 1 トピック 2 語彙 1 語彙 2 語彙 3 語彙 4 0.9 0.1 0.5 0.5 0.3 0.7 0.6 0.4 0.4 0.2 0.4 Ex. 文 書 1 は そ れ 自 身 が 持 つ 単 語 数 の 分 だ け , ト ピ ッ ク , 語 彙 を 確 率 的 に 選 択 し て 生 成
  31. /27 ⚫ 現実には文書のみ観測可能 ⚫ 生成結果としての文書から,逆にトピックを 推定可能 [ベイズ推定] • 周辺化ギブスサンプリ ング

    ,変 分ベ イズ ,etc. 30 トピックモデル|推定 こ の 部 分 を ベ イ ズ 推 定 文書 1 文書 2 文書 3 トピック 1 トピック 2 語彙 1 語彙 2 語彙 3 語彙 4 0.9 0.1 0.5 0.5 0.3 0.7 0.6 0.4 0.4 0.2 0.4
  32. LDA|生成過程 31 ⚫ LDA の生成過程 • LDA が文書に対して置いている仮定を 形式的に書いたもの 1.

    各トピック ∈ {1,… , } に対して A) トピック-単語分布パラメータ ∼ Dir() を 選択 2. 各文書 ∈ {1, …, } に対して A) 文書-トピック分布パラメータ ∼ Dir() を 選択 B) 各単語 ∈ {1,… , } に対して i . トピック , ∼ Mult( ) を選択 i i . 単語 , ∼ Mult(, ) を選択
  33. /27 ⚫ 木構造を生成する確率過程 ⚫ 比喩:文書が客,ノードが店 ⚫ 客は,以下の式にしたがって、下位の階層の店 を選んでパスを生成し,木構造を構成 • 新規客は客の多い店に入りやすい

    32 関連研究|nested Chinese Restaurant Process はノード, は の客数, は前の店の客数, はパラメータ 1 2 3 1 1 1 4 2 2 2 5 6 3 3 3 店 客 nCRP, [Blei+ 2003, 2010] 既存ノードを選択する確率 新規ノードを選択する確率
  34. /27 ⚫ 木構造を生成する確率過程 ⚫ 比喩:文書が客,ノードが店 ⚫ 客は,以下の式にしたがって次の店を選び, パスを生成 • 新規客は客の多い店に入りやすい

    33 関連研究|nested Chinese Restaurant Process •3 レベルの nCRP の例 各ノードは店,各菱形は客 客 1 のパスは <1, 2, 3> はノード, は の客数, は前の店の客数, はパラメータ 1 2 3 1 1 1 / ( 0 + ) / ( 0 + ) nCRP, [Blei+ 2003, 2010] 店 客
  35. /27 ⚫ 木構造を生成する確率過程 ⚫ 比喩:文書が客,ノードが店 ⚫ 客は,以下の式にしたがって次の店を選び, パスを生成 • 新規客は客の多い店に入りやすい

    34 関連研究|nested Chinese Restaurant Process •3 レベルの nCRP の例 各ノードは店,各菱形は客 客 2 のパスは <1, 2, 4> はノード, は の客数, は前の店の客数, はパラメータ 1 2 3 1 1 1 4 2 2 2 1 / ( 1 + ) / ( 1 + ) 店 客 nCRP, [Blei+ 2003, 2010]
  36. /27 ⚫ 木構造を生成する確率過程 ⚫ 比喩:文書が客,ノードが店 ⚫ 客は,以下の式にしたがって次の店を選び, パスを生成 • 新規客は客の多い店に入りやすい

    35 関連研究|nested Chinese Restaurant Process •3 レベルの nCRP の例 各ノードは店,各菱形は客 客 3 のパスは <1, 5, 6> はノード, は の客数, は前の店の客数, はパラメータ 1 2 3 1 1 1 4 2 2 2 5 6 3 3 3 / ( 2 + ) / ( 0 + ) 店 客 nCRP, [Blei+ 2003, 2010]
  37. /27 ⚫ 非負実数列 { } ( = 1, … ,

    ∞)に対して ~Beta( , (1 − )) と = ς =1 −1 (1 − ) から を構成するとき, ~GEM(,π ) と表現する. 36 GEM 分布
  38. /27 ⚫ () の事前分布を GEM 分布に変更[Blei+ 2010] • 無限個のレベルに対する() を決められる

    • パスの長さが自由になり,以下のような パスも OK 37 関連研究|GEM hLDA machine learning 文書 ~GEM is:0.01, the:0.02 learning:0.015, machine:0.015 statistical:0.02, analysis:0.01 topic:0.015, model:0.02 svm:0.02, margin:0.02 ・・・ レベル 単語 パス …… (|)~Dir
  39. hLDA|生成過程 38 ⚫ hLDA の生成過程 1. 無限個のノードを持つ木の各ノード ∈ に対し て

    1. 単語上の多項分布パラメータ ∼ Dir() を選 択 2. 各文書 ∈ {1, …, } に対して A) ,1 を根として各レベル ∈ 2,… , に対して i. CRP の 式 に し た が っ て 潜 在 ノ ー ド , を 選 択 B) トピック上の多項分布パラメータ ∼ Dir() を選択 C) 各単語 ∈ {1,… , } に対して i . トピック , ∼ Mult( ) を選択 i i . 単語 , ∼ Mult(, ) を選択
  40. hLDA|生成過程 39 ⚫ GEM hLDA の生成過程 1. 無限個のノードを持つ木の各ノード ∈ に対し

    て 1. 単語上の多項分布パラメータ ∼ Dir() を選 択 2. 各文書 ∈ {1, …, } に対して A) パス ~nCRP() を 選 択 B) トピック上の多項分布パラメータ ∼ GEM() を選択 C) 各単語 ∈ {1,… , } に対して i . トピック , ∼ Mult( ) を選択 i i . 単語 , ∼ Mult(, ) を選択
  41. /27 40 提案手法|生成過程 1 . 無 限 個 の ノ

    ー ド を 持 つ 木 の 各 ノ ー ド ∈ に 対 し て 1 . 単 語 上 の 多 項 分 布 パ ラ メ ー タ ∼ Dir() を 選 択 2 . 観 測 木 に 対 す る 幅 優 先 探 索 時 の 各 ノ ー ド に 対 し て 1. に属 す る 各 文 書 ∈ {1, … , } に 対 し て 1. , を 根 ノ ー ド か ら ま で の パ ス と し て 設 定 2. ,,1 を と し て ,各 レ ベ ル ∈ 2, … , に 対 し て 1. CRP の 式 に し た が っ て 潜 在 ノ ー ド , , を 選 択 3 . レ ベ ル 上 の 多 項 分 布 パ ラ メ ー タ ∼ Dir() を 選 択 4 . 各 単 語 ∈ {1, … , } に 対 し て 1 . レ ベ ル , ∈ {1, … , } ∼ Mult を 選 択 2 . ノ ー ド ,, に 付 随 す る ト ピ ッ ク か ら 単 語 , ∼ Mult ,, を 選 択 2. が 内 部 ノ ー ド で あ れ ば , の 各 観 測 子 ノ ー ド ′ に 対 し て 1 . 接 ぎ 木 ノ ー ド ′ ∼ U 1, , … , , を 選 択 2. ′ を ′ の 親 に 設 定 ⚫G-SSHLDA の生成過程
  42. /27 41 提案手法|生成過程 1 . 無 限 個 の ノ

    ー ド を 持 つ 木 の 各 ノ ー ド ∈ に 対 し て 1 . 単 語 上 の 多 項 分 布 パ ラ メ ー タ ∼ Dir() を 選 択 2 . 観 測 木 に 対 す る 幅 優 先 探 索 時 の 各 ノ ー ド に 対 し て 1. に属 す る 各 文 書 ∈ {1, … , } に 対 し て 1. , を 根 ノ ー ド か ら ま で の パ ス と し て 設 定 2 . 潜 在 パ ス , ~nCRP() を選択 3 . レ ベ ル 上 の 多 項 分 布 パ ラ メ ー タ ∼ GEM(, ) を 選 択 4 . 各 単 語 ∈ {1, … , } に 対 し て 1 . レ ベ ル , ∈ {1, … , } ∼ Mult を 選 択 2 . ノ ー ド ,, に 付 随 す る ト ピ ッ ク か ら 単 語 , ∼ Mult ,, を 選 択 2. が 内 部 ノ ー ド で あ れ ば , の 各 観 測 子 ノ ー ド ′ に 対 し て 1 . 接 ぎ 木 ノ ー ド ′ ∼ U 1,max(1) ,… , ,max( ) を 選 択 2. ′ を ′ の 親 に 設 定 ⚫ GEM G-SSHLDA の生成過程
  43. hLDA|グラフィカルモデル 42 hLDA GEM hLDA

  44. G-SSHLDA|グラフィカルモデル 43 Dir G-SSHLDA

  45. G-SSHLDA|グラフィカルモデル 44 GEM G-SSHLDA

  46. /27 モデル推定|G-SSHLDA 45 をパスのサンプリング に利 用す る. ここで,右辺第一項目 は •パスの条件付き分布

    パス が与えられたときに 文書 中の全単語 が 生成される確率 パス がパラメタ の nCRP から生成される確率 である.
  47. /27 46 モデル推定|G-SSHLDA •レベルの完全条件付き分布 または をレベルのサンプリングに利用する. 文書 中の 番目の単語に レベル

    が割り当てられる確率 文書 のパス上の 番目の ノード , から 単語 が生成される確率
  48. /27 47 モデル推定|G-SSHLDA •接ぎ木ノードの条件付き分布 または を接ぎ木ノードのサンプリングに利用する. 観測ノード を根とする部分木が 上位潜在木の葉ノード ℓ

    に接ぎ木される確率 観測ノード を根とする部分木が 上位潜在木のノード に接ぎ木される確率
  49. /27 ⚫幅優先探索時の各観測ノード について • に属する各文書 について ‒ 観測パス を木の根から までのパスとして

    設定 ‒ 潜在パス をパスの条件付き分布から選択 ‒ パス を と の連結として設定 ‒ 各単語 について,レベル , をレベルの 完全条件付き分布から 選択 • 各観測子ノード ′ について, 接ぎ木ノード ′ を分布から選択し, レベル割り当て補正 48 モデル推定|アルゴリズム
  50. /27 49 モデル推定|G-SSHLDA •接ぎ木ノードの条件付き分布 または を接ぎ木ノードのサンプリングに利用する. 観測ノード を根とする部分木が 上位潜在木の葉ノード ℓ

    に接ぎ木される確率 観測ノード を根とする部分木が 上位潜在木のノード に接ぎ木される確率
  51. /27 ⚫GEM G-SSHLDA を利用 ⚫潜在木高さ:2 ⚫周辺化ギブスサンプリング 500 回 ⚫ =

    1.0, = 1.0, = 0.5, = 100 50 実験詳細|拡張階層例示
  52. /27 ⚫ G-SSHLDA, hLDA, hLLDA, SSHLDA を利用 ⚫ 周辺化ギブスサンプリング 500

    回 ⚫ G-SSHLDA の潜在木高さ:1, 2, 3 ⚫ hLDA の木の高さは各文書の観測パス平均 長か ら決 定 ⚫ MEDLINE • hLDA の木の高さ:2, 3, 4 • SSHLDA の木の高さ:4, 5, 6 ⚫ Wikipedia • hLDA の木の高さ:3, 4, 5 • SSHLDA の木の高さ:7, 8, 9 ⚫ = 0.1, = 0.5, 1.0 , = 1.0, = {0.25, 0.5}, = 100 51 実験詳細|汎化能力評価
  53. /27 ⚫ データは単語単位で 5 分割 ⚫ 4 個のデータでモデルを推定,1 個のデータで パープレキシティを計算

    • テストデータを替えつつ,5 回繰り返す ⚫ 周辺化ギブスサンプリング繰り返し 400 – 500 回 の間,10 回に 1 回パープレキシティを計算し,そ の結果得た 10 個の値の平均を 結果として利用 ⚫ 各テストデータに対する平均と標準偏差を計算 52 実験詳細|汎化能力評価
  54. /27 53 実験|MEDLINE に対するパープレキシティ D irichle t分布に基づくモデル GEM 分布に基づくモデル

  55. /27 54 実験|Wikipedia に対するパープレキシティ ノード数 良 Dirichlet 分布に基づくモデル GEM 分布に基づくモデル

    提案モデル 提案モデル Dir G-SSHLDA は最大 4.4 % 改善 GEM G-SSHLDA は GEM hLDA より同程度か劣化
  56. /27 55 実験|Wikipedia に対するパープレキシティ Dirichlet 分布に基づくモデル GEM 分布に基づくモデル

  57. /27 ⚫ G-SSHLDA, hLDA, 単連結法 [CLUTO]を利用 ⚫ 周辺化ギブスサンプリング 500 回

    ⚫ G-SSHLDA の潜在木高さは削除レベル数 ⚫ hLDA の木の高さ • 各文書の観測パス平均長から決定 • <1, 2> 削除:2 • <1, 2, 3> 削除:3 • <2, 3> 削除:3 • <3> 削除:3 ⚫ = 0.1, = 0.5, 1.0 , = 1.0, = 0.5, = 100 56 実験詳細|クラスタリング能力評価
  58. /27 ⚫削除されたノード数 • <1, 2> 削除:50 • <1, 2, 3>

    削除:78 • <2, 3> 削除:66 • <3> 削除:28 ⚫ = 0.1, = 0.5, 1.0 , = 1.0, = 0.5, = 100 57 実験詳細|クラスタリング能力評価
  59. /27 ⚫ Dir hLDA • () の最頻値であるレベル で示されるノードに その文書を配置する •

    ノード全てをクラスタと見なす • 削除したノードに属している文書以外を全クラスタから 削除する 58 実験詳細|クラスタリング方法 1 2 3 1 2 3 () ()
  60. /27 ⚫ Dir G-SSHLDA • 文書が属する観測ノードから潜在木高さの間のレベルのみ 考慮する ‒ 観 測

    ノ ー ド に 属 す る 文 書 の み を 対 象と し た ク ラス タ を 作る た め • その範囲内で () を最大にするレベル で示されるノード にその文書を配置する • 削除したノードに属している文書以外を全クラスタから 削除する 59 実験詳細|クラスタリング方法 1 2 3 4 1 2 3 4 こ こ の み を ク ラ ス タ と 見 な す () ()
  61. /27 ⚫ GEM 分布を利用するモデル • モデル推定の時点で,ある文書がとる最大レベルが 決まる • その最大レベルで示されるノードにその文書を 割り当てる

    • 削除したノードに属している文書以外を全クラスタから 削除する 60 実験詳細|クラスタリング方法 こ こ の み を ク ラ ス タ と 見 な す max = 3 max =4
  62. /27 ⚫ 単連結法 • 単語を素性としてクラスタリングする • 縮約されたノードに属する文書のみを クラスタリング対象とする • 削除されたノードの数だけクラスタを生成する

    61 実験詳細|クラスタリング方法 こ こ の ノ ー ド に 属 す る 文 書 の み を , こ こ の ノ ー ド 数 を ク ラ ス タ 数 と し て ク ラ ス タ リ ン グ
  63. /27 ⚫ hLDA • () の最頻値であるレベル で示されるノードに その文書を配置する ⚫ G-SSHLDA

    • 文書が属する観測ノードから潜在木高さの間のレベル のみ考慮する • その範囲内で () を最大にするレベル で示される ノードにその文書を配置する ⚫ 単連結法 • 縮約されたノードに属する文書のみを クラスタリング対象とする • 削除されたノードの数だけクラスタを生成する 62 実験詳細|クラスタリング能力評価
  64. /27 ⚫ 正解クラス , クラスタ とする ⚫ 再現率 [recall] •

    r , = | ∩ |/| | ⚫ 適合率 [precision] • p , = | ∩ |/| | ⚫ F 値 • 各クラスとクラスタの 組み 合わ せに 対し て F , = 2r , p , r , +p , を計算し, F( , ) = ෍ =1 (| |/ ) max ∈ F , で求める 63 実験詳細|F 値
  65. /27 ⚫正解クラス , クラスタ とする ⚫相互情報量 [mutual information] • MI

    , = σ =1 σ =1 ( , )log , /( ( )) ⚫正規化相互情報量 [normalized mutual information] • NMI , = MI (, )/( + 2 ) ⚫ここで, , () は周辺エントロピー 64 実験詳細|正規化相互情報量
  66. /27 65 実験|クラスタリング結果 <1, 2> 削 除 <1, 2, 3>

    削 除 <2, 3> 削 除 <3> 削 除 一例を除いて G-SSHLDA の評価値が最高