Upgrade to Pro — share decks privately, control downloads, hide ads and more …

カテゴリ階層の拡張を目的とした階層的トピックモデル / A hierarchical topic model for expanding category hierarchies

カテゴリ階層の拡張を目的とした階層的トピックモデル / A hierarchical topic model for expanding category hierarchies

Presented at the 6th Forum on Data Engineering and Information Management (DEIM2014; 第6回 データ工学と情報マネジメントに関するフォーラム). Won the student presentation award.

http://db-event.jpn.org/deim2014/?%E8%A1%A8%E5%BD%B0,22

Kōhei Yamamoto

March 04, 2014
Tweet

More Decks by Kōhei Yamamoto

Other Decks in Research

Transcript

  1. カテゴリ階層の拡張を目的とした
    階層的トピックモデル
    2014-03-04
    [火]DEIM2014 C4-6
    山本浩平 ,江口浩二
    [神戸大]
    ,高須 淳宏[NII]

    View Slide

  2. /27
    ⚫カテゴリ階層の各ノードへ文書が配置
    されたデータが存在
    ⚫Ex. Wikipedia, MEDLINE[生 命 科 学 系 文 献 の デ ー タ ベ ー ス]
    ⚫情報への効率的なアクセスを補助
    背景|カテゴリ階層付きデータ
    1

    View Slide

  3. /27
    ⚫ 既存のカテゴリ階層[観測カテゴリ階層]へ
    新しい概念を含む文書を配置
    • 既存カテゴリ分割,新規カテゴリ挿入が必要
    ⚫ 人による新規カテゴリ作成の判断
    • 困難,煩雑[カテゴリ分割問題]
    2
    背景|新カテゴリの挿入
    Computers
    Mobile
    Computers
    Computer
    hardware
    Smartphones Netbooks Wearable
    computers
    ?
    Google Glass
    SmartWatch
    新規文書
    管理者
    新規ノード

    View Slide

  4. /27
    ⚫カテゴリ階層の拡張が可能な技術
    ⚫本研究では,データ中の潜在トピック
    階層を発見できる階層的トピックモデル
    に着目
    3
    背景|求められる技術
    Computers
    Mobile
    Computers
    Computer
    hardware
    Smartphones Netbooks Wearable
    computers
    !
    Google Glass
    SmartWatch
    新規文書
    管理者
    新規ノード
    自動で適切に
    カテゴリ分割

    View Slide

  5. /27
    ⚫ 離散データ中の潜在トピックを解析
    • 離散データの例:文書 集合
    • 代表的なモデル:Latent Dirichlet Allocation [LDA]
    ⚫ 文書のモデル化
    • 文書 は潜在トピック ~ の混合
    • 潜在トピック は単語 が確率的に所属[~(|)]
    • 文書 は () と (|) から生成
    4
    トピックモデル|概要
    tablet:0.02
    computers:0.015
    mobile:0.01
    apple:0.03
    jobs:0.015
    steve:0.015
    display:0.02
    retina:0.02
    resolution:0.01
    ios:0.02
    app:0.02
    iwork:0.015
    (|)
    iPad
    文書
    単語
    tablet,
    display,
    computer,
    apple,
    ios
    潜在トピック

    生成

    View Slide

  6. /27
    ⚫ 現実には文書 のみ観測可能
    ⚫ 生成結果としての文書から,
    逆に潜在トピック を推定
    [ベイズ推定]
    • 事後分布 (|) の推定
    • ギブスサンプリング,変分ベイズ
    5
    トピックモデル|推定
    (|)
    ?
    ? ?
    ? iPad
    文書
    単語
    tablet,
    display,
    computer,
    apple,
    ios
    潜在トピック

    ?
    ?
    推定

    View Slide

  7. /27
    ⚫ データ中の階層化された潜在トピックを
    モデル化
    • nested Chinese Restaurant Process [nCRP, Blei+ 03, 10]
    で潜在トピックの階層を生成する
    6
    関連研究|階層的トピックモデル
    hLDA SSHLDA Dir G-SSHLDA
    GEM G-SSHLDA
    観 測 階 層 を 利 用
    既存モデル
    各モデルの関係図
    GEM 分 布 を 利 用

    View Slide

  8. /27
    ⚫文書 は潜在トピック[ノード]からなる
    パス ~nCRP に割り当て
    ⚫文書はレベル ~()の混合
    7
    関連研究|hierarchical LDA [1/2]
    topic model is:0.01,
    the:0.02
    learning:0.015,
    machine:0.015
    statistical:0.02,
    analysis:0.01
    topic:0.015,
    model:0.02
    svm:0.02,
    margin:0.02
    ・・・
    レベル
    文書
    単語



    パス
    hLDA, [Blei+ 2003]
    ~Dir
    (|)~Dir

    View Slide

  9. /27
    ⚫ (),(|) の事前分布は Dirichlet 分布
    • 有限個のレベルと単語 に対 する(), (|) を決める
    ⚫ パス 上のレベル で指定されるノードから
    文書 を生成
    8
    関連研究|hierarchical LDA [2/2]
    hLDA, [Blei+ 2003]
    topic model
    文書
    ~Dir
    is:0.01,
    the:0.02
    learning:0.015,
    machine:0.015
    statistical:0.02,
    analysis:0.01
    topic:0.015,
    model:0.02
    svm:0.02,
    margin:0.02
    ・・・
    レベル
    単語



    パス
    (|)~Dir

    View Slide

  10. /27
    ⚫ 観測カテゴリ階層が付与されたデータのためのモデル
    ⚫ 観測葉ノードに配置された文書にパス ~nCRP 割り当て
    • 潜在ノード階層
    [潜在木]
    が構成され,カテゴリ階層が
    拡張される
    ⚫ 観測・潜在ノード両方をトピックとして文書生成
    9
    関連研究|Semi-Supervised hLDA
    computer:0.02,
    processing:0.01
    algorithm:0.02,
    data:0.02
    intelligent:0.01,
    machines:0.01
    topic:0.02,
    model:0.02
    learning:0.015,
    training:0.01
    Computer Science
    Artificial Intelligence
    Algorithm
    Machine Learning Computer Vision
    images:0.015,
    vision:0.01
    svm:0.02,
    margin:0.02
    neural:0.02,
    learning:0.015
    レベル 単語



    パス

    SSHLDA, [Mao+ 2012]
    topic model
    文書
    ~Dir
    (|)~Dir

    View Slide

  11. /27
    ⚫ 階層は部分的に拡張されるが……
    • 潜在木が葉ノードからのみ生成
    • カテゴリ分割問題の解決のためには,
    任意ノードからの階層の拡張が必要
    10
    関連研究|SSHLDA の問題点
    computer:0.02,
    processing:0.01
    algorithm:0.02,
    data:0.02
    intelligent:0.01,
    machines:0.01
    topic:0.02,
    model:0.02
    learning:0.015,
    training:0.01
    Computer Science
    Artificial Intelligence
    Algorithm
    Machine Learning Computer Vision
    images:0.015,
    vision:0.01
    svm:0.02,
    margin:0.02
    neural:0.02,
    learning:0.015
    レベル 単語




    topic model
    ~Dir
    (|)~Dir
    パス

    View Slide

  12. /27
    11
    提案手法
    観測階層中の任意ノードを根とする
    潜在木を生成する階層的トピックモデル
    hLDA SSHLDA Dir G-SSHLDA
    GEM G-SSHLDA
    観 測 階 層 を 利 用
    提案モデル
    各モデルの関係図
    GEM 分 布 を 利 用

    View Slide

  13. /27
    ⚫ Generalized SSHLDA [G-SSHLDA]
    • SSHLDA の一般化
    • 任意ノードから潜在木生成,カテゴリ拡張
    • カテゴリ拡張時に木構造を保持
    12
    提案手法|概要
    ●G-SSHLDA による
    拡張カテゴリ階層の例
    黒色ノード - 観測ノード
    白色ノード - 潜在ノード

    View Slide

  14. /27
    ⚫ 観測内部ノードから,hLDA と同様に
    nCRP を利用して潜在木を生成
    ⚫ 観測カテゴリ階層の拡張に利用可能
    13
    提案手法|潜在木の生成
    拡張
    潜在木
    ・・・

    View Slide

  15. /27
    ⚫ 下位観測ノードの潜在木への接続方法
    • 自明でない
    ⚫ 多くの文書が属するノードは階層全体において
    重要なノードと仮定
    14
    提案手法|下位部分木の接続
    ? ?

    View Slide

  16. /27
    ⚫ 文書数を重みとした分布から
    上位の潜在葉ノードを確率的に選択し,
    接続
    15
    提案手法|接ぎ木ノード選択
    数字は割り当たって
    いる文書数
    接ぎ木
    18 20 42 17 18 20 42 17
    ●例

    View Slide

  17. /27
    ⚫ の事前分布を GEM 分布に変更
    • GEM 分布:() の事前分布とすることで,文書のパス長が
    自由になる
    • パス長が自由なので,内部ノードに文書が割り当たり,
    内部ノードへの接ぎ木が考慮できる
    • これを GEM G-SSHLDA, 前述のモデルを Dir G-SSHLDA と呼ぶ
    16
    提案手法|接ぎ木ノード選択の一般化
    数字は割り当たって
    いる文書数
    18 20 42 17
    11
    28
    7
    7
    18 20 42 17
    11
    28
    接ぎ木
    ●例

    View Slide

  18. /27
    ⚫拡張カテゴリ階層の例示
    • 潜在ノードの内容を確認する
    ⚫汎化能力の評価
    • 既存モデルと比較して汎化能力が
    変化しているか評価する
    ⚫クラスタリング能力の評価
    • カテゴリ内に多様なテーマの文書が
    混在したときに,階層の拡張による
    カテゴリの分割を評価する
    17
    実験|概要

    View Slide

  19. /27
    ⚫MEDLINE, Wikipedia データを利用
    • MEDLINE:Face, Wikipedia:Programming
    を根ノードに持つ部分木
    ⚫モデル推定
    • 周辺化ギブスサンプリング 500 回
    18
    実験|実験設定
    データセット MEDLINE Wikipedia
    文書数 56,227 2,086
    ラベル数 12 88
    観測木の
    最大高さ 3 6
    ラベル当り
    文書数 4,686 24

    View Slide

  20. /27
    19
    実験|拡張カテゴリ階層の例示
    ⚫拡張された Wikipedia の観測階層の一部

    View Slide

  21. /27
    20
    実験|拡張カテゴリ階層の例示
    ⚫ カテゴリを要約した単語、
    親子カテゴリの間の粒度の潜在ノードを発見

    View Slide

  22. /27
    ⚫ 汎化能力
    • 未知データに対するトピック推定能力
    ⚫ パープレキシティ
    • 汎化能力の評価尺度
    • パープレキシティが低いほど汎化能力高い
    ⚫ 評価法
    • データを単語単位で 4:1 に分割
    • 4 個を訓練,1 個をテストに利用
    ⚫ 比較対象
    • hLDA, SSHLDA, hLLDA [Petinot+ 2011]
    21
    実験|汎化能力の評価

    View Slide

  23. /27
    22
    実験|MEDLINE に対するパープレキシティ
    Dirichlet 分布に基づくモデル GEM 分布に基づくモデル
    ノード数

    Dir G-SSHLDA は最大 4.5 % 改善
    GEM G-SSHLDA は GEM hLDA より同程度か劣化
    提案モデル
    提案モデル

    View Slide

  24. /27
    ⚫ カテゴリ分割問題への対応力を検証
    1. 観測階層の内部レベルを一部縮約
    ⚫ 縮約したノード中の文書は最も近い先祖ノードへ再配置
    2. G-SSHLDA で階層拡張,各ノードへ文書を
    クラスタリング
    3. 縮約前を正解として, 潜在 木中 のノ ード を
    F 値と正規化相互情報量 [NMI] で評価
    23
    実験|クラスタリング能力の評価 [1/2]
    1. 縮約 2. G-SSHLDA
    で拡張
    ……
    3. 正解とクラスタを比較し評価

    View Slide

  25. /27
    ⚫ Wikipedia データ
    • レベル 1,2 ・ 1,2,3 ・ 2,3 ・ 3 を削除
    ⚫ 比較対象
    • hLDA, 単連結法[両方教師なしの手法]
    ⚫ このタスクでは SSHLDA は直接比較不可能
    • SSHLDA は内部ノードから潜在木生成できないため
    24
    実験|クラスタリング能力の評価 [2/2]
    ……
    1. 縮約 2. G-SSHLDA
    で拡張
    ……
    3. 正解とクラスタを比較し評価

    View Slide

  26. /27
    25
    実験|クラスタリング結果 [1/2]
    一例:レベル 1, 2 削除
    ※ 値が大きい方が良い
    提案モデルの評価値が最高

    View Slide

  27. /27
    ⚫考察
    • 内部レベルを復元できている
    ‒ 既存モデルでは不可能 であ る
    • 観測階層を利用して潜在木を生成し,
    各ノードに文書を配置できている
    ‒ 自動で観測カテゴリを 分割 し,
    新規カテゴリを作成で きる
    26
    実験|クラスタリング結果 [2/2]
    G-SSHLDA はカテゴリ分割問題を解決可能

    View Slide

  28. /27
    ⚫ 新たな階層的トピックモデルである
    G-SSHLDA を提案
    • 任意観測ノードからカテゴリ拡張
    ⚫ 現実データによる実験
    • 拡張カテゴリ階層の例示
    • 汎化能力・クラスタリング能力の評価
    • カテゴリ分割問題解決のための基礎技術
    として利用可能
    ⚫ 今後の展望
    • 接ぎ木ノード選択分布への事前分布の考慮
    • 文書集合以外のデータを考慮したモデルへの
    拡張
    27
    結論と今後の展望

    View Slide

  29. /27
    28

    View Slide

  30. /27
    ⚫ Latent Dirichlet Allocation [LDA] [Blei+ 2003]
    • 代表的なトピックモデル
    • 文書は単語の集合であ ると 考え ,以 下の 流れ で
    生成されると仮定
    29
    トピックモデル|LDA
    文書 1
    文書 2
    文書 3
    トピック 1
    トピック 2
    語彙 1
    語彙 2
    語彙 3
    語彙 4
    0.9
    0.1
    0.5
    0.5
    0.3
    0.7
    0.6
    0.4
    0.4
    0.2
    0.4
    Ex. 文 書 1 は そ れ 自 身 が 持 つ 単 語 数 の 分 だ け ,
    ト ピ ッ ク , 語 彙 を 確 率 的 に 選 択 し て 生 成

    View Slide

  31. /27
    ⚫ 現実には文書のみ観測可能
    ⚫ 生成結果としての文書から,逆にトピックを
    推定可能 [ベイズ推定]
    • 周辺化ギブスサンプリ ング ,変 分ベ イズ ,etc.
    30
    トピックモデル|推定
    こ の 部 分 を ベ イ ズ 推 定
    文書 1
    文書 2
    文書 3
    トピック 1
    トピック 2
    語彙 1
    語彙 2
    語彙 3
    語彙 4
    0.9
    0.1
    0.5
    0.5
    0.3
    0.7
    0.6
    0.4
    0.4
    0.2
    0.4

    View Slide

  32. LDA|生成過程
    31
    ⚫ LDA の生成過程
    • LDA が文書に対して置いている仮定を
    形式的に書いたもの
    1. 各トピック ∈ {1,… , } に対して
    A) トピック-単語分布パラメータ
    ∼ Dir() を
    選択
    2. 各文書 ∈ {1, …, } に対して
    A) 文書-トピック分布パラメータ
    ∼ Dir() を
    選択
    B) 各単語 ∈ {1,… ,
    } に対して
    i . トピック ,
    ∼ Mult(
    ) を選択
    i i . 単語 ,
    ∼ Mult(,
    ) を選択

    View Slide

  33. /27
    ⚫ 木構造を生成する確率過程
    ⚫ 比喩:文書が客,ノードが店
    ⚫ 客は,以下の式にしたがって、下位の階層の店
    を選んでパスを生成し,木構造を構成
    • 新規客は客の多い店に入りやすい
    32
    関連研究|nested Chinese Restaurant Process
    はノード,
    は の客数,
    は前の店の客数, はパラメータ
    1
    2
    3
    1
    1
    1
    4
    2
    2
    2
    5
    6
    3
    3
    3


    nCRP, [Blei+ 2003, 2010]
    既存ノードを選択する確率
    新規ノードを選択する確率

    View Slide

  34. /27
    ⚫ 木構造を生成する確率過程
    ⚫ 比喩:文書が客,ノードが店
    ⚫ 客は,以下の式にしたがって次の店を選び,
    パスを生成
    • 新規客は客の多い店に入りやすい
    33
    関連研究|nested Chinese Restaurant Process
    ●3 レベルの nCRP の例
    各ノードは店,各菱形は客
    客 1 のパスは <1, 2, 3>
    はノード,
    は の客数,
    は前の店の客数, はパラメータ
    1
    2
    3
    1
    1
    1
    / ( 0 + )
    / ( 0 + )
    nCRP, [Blei+ 2003, 2010]
    店 客

    View Slide

  35. /27
    ⚫ 木構造を生成する確率過程
    ⚫ 比喩:文書が客,ノードが店
    ⚫ 客は,以下の式にしたがって次の店を選び,
    パスを生成
    • 新規客は客の多い店に入りやすい
    34
    関連研究|nested Chinese Restaurant Process
    ●3 レベルの nCRP の例
    各ノードは店,各菱形は客
    客 2 のパスは <1, 2, 4>
    はノード,
    は の客数,
    は前の店の客数, はパラメータ
    1
    2
    3
    1
    1
    1
    4
    2
    2
    2
    1 / ( 1 + )
    / ( 1 + )
    店 客
    nCRP, [Blei+ 2003, 2010]

    View Slide

  36. /27
    ⚫ 木構造を生成する確率過程
    ⚫ 比喩:文書が客,ノードが店
    ⚫ 客は,以下の式にしたがって次の店を選び,
    パスを生成
    • 新規客は客の多い店に入りやすい
    35
    関連研究|nested Chinese Restaurant Process
    ●3 レベルの nCRP の例
    各ノードは店,各菱形は客
    客 3 のパスは <1, 5, 6>
    はノード,
    は の客数,
    は前の店の客数, はパラメータ
    1
    2
    3
    1
    1
    1
    4
    2
    2
    2
    5
    6
    3
    3
    3
    / ( 2 + )
    / ( 0 + )
    店 客
    nCRP, [Blei+ 2003, 2010]

    View Slide

  37. /27
    ⚫ 非負実数列 {
    } ( = 1, … , ∞)に対して

    ~Beta( , (1 − )) と

    =
    ς
    =1
    −1 (1 −
    )
    から
    を構成するとき,
    ~GEM(,π )
    と表現する.
    36
    GEM 分布

    View Slide

  38. /27
    ⚫ () の事前分布を GEM 分布に変更[Blei+ 2010]
    • 無限個のレベルに対する() を決められる
    • パスの長さが自由になり,以下のような
    パスも OK
    37
    関連研究|GEM hLDA
    machine learning
    文書
    ~GEM
    is:0.01,
    the:0.02
    learning:0.015,
    machine:0.015
    statistical:0.02,
    analysis:0.01
    topic:0.015,
    model:0.02
    svm:0.02,
    margin:0.02
    ・・・
    レベル
    単語



    パス
    ……
    (|)~Dir

    View Slide

  39. hLDA|生成過程
    38
    ⚫ hLDA の生成過程
    1. 無限個のノードを持つ木の各ノード ∈ に対し

    1. 単語上の多項分布パラメータ
    ∼ Dir() を選

    2. 各文書 ∈ {1, …, } に対して
    A) ,1
    を根として各レベル ∈ 2,… , に対して
    i. CRP の 式 に し た が っ て 潜 在 ノ ー ド ,
    を 選 択
    B) トピック上の多項分布パラメータ
    ∼ Dir()
    を選択
    C) 各単語 ∈ {1,… ,
    } に対して
    i . トピック ,
    ∼ Mult(
    ) を選択
    i i . 単語 ,
    ∼ Mult(,
    ) を選択

    View Slide

  40. hLDA|生成過程
    39
    ⚫ GEM hLDA の生成過程
    1. 無限個のノードを持つ木の各ノード ∈ に対し

    1. 単語上の多項分布パラメータ
    ∼ Dir() を選

    2. 各文書 ∈ {1, …, } に対して
    A) パス
    ~nCRP() を 選 択
    B) トピック上の多項分布パラメータ

    ∼ GEM() を選択
    C) 各単語 ∈ {1,… ,
    } に対して
    i . トピック ,
    ∼ Mult(
    ) を選択
    i i . 単語 ,
    ∼ Mult(,
    ) を選択

    View Slide

  41. /27
    40
    提案手法|生成過程
    1 . 無 限 個 の ノ ー ド を 持 つ 木 の 各 ノ ー ド ∈ に 対 し て
    1 . 単 語 上 の 多 項 分 布 パ ラ メ ー タ
    ∼ Dir() を 選 択
    2 . 観 測 木 に 対 す る 幅 優 先 探 索 時 の 各 ノ ー ド に 対 し て
    1. に属 す る 各 文 書 ∈ {1, … ,
    } に 対 し て
    1. ,
    を 根 ノ ー ド か ら ま で の パ ス と し て 設 定
    2. ,,1
    を と し て ,各 レ ベ ル ∈ 2, … , に 対 し て
    1. CRP の 式 に し た が っ て 潜 在 ノ ー ド , ,
    を 選 択
    3 . レ ベ ル 上 の 多 項 分 布 パ ラ メ ー タ
    ∼ Dir() を 選 択
    4 . 各 単 語 ∈ {1, … ,
    } に 対 し て
    1 . レ ベ ル ,
    ∈ {1, … , } ∼ Mult
    を 選 択
    2 . ノ ー ド ,,
    に 付 随 す る ト ピ ッ ク か ら
    単 語 ,
    ∼ Mult ,,
    を 選 択
    2. が 内 部 ノ ー ド で あ れ ば , の 各 観 測 子 ノ ー ド ′ に 対 し て
    1 . 接 ぎ 木 ノ ー ド ′
    ∼ U 1,
    , … , ,
    を 選 択
    2. ′
    を ′ の 親 に 設 定
    ⚫G-SSHLDA の生成過程

    View Slide

  42. /27
    41
    提案手法|生成過程
    1 . 無 限 個 の ノ ー ド を 持 つ 木 の 各 ノ ー ド ∈ に 対 し て
    1 . 単 語 上 の 多 項 分 布 パ ラ メ ー タ
    ∼ Dir() を 選 択
    2 . 観 測 木 に 対 す る 幅 優 先 探 索 時 の 各 ノ ー ド に 対 し て
    1. に属 す る 各 文 書 ∈ {1, … ,
    } に 対 し て
    1. ,
    を 根 ノ ー ド か ら ま で の パ ス と し て 設 定
    2 . 潜 在 パ ス ,
    ~nCRP() を選択
    3 . レ ベ ル 上 の 多 項 分 布 パ ラ メ ー タ
    ∼ GEM(, ) を 選 択
    4 . 各 単 語 ∈ {1, … ,
    } に 対 し て
    1 . レ ベ ル ,
    ∈ {1, … , } ∼ Mult
    を 選 択
    2 . ノ ー ド ,,
    に 付 随 す る ト ピ ッ ク か ら
    単 語 ,
    ∼ Mult ,,
    を 選 択
    2. が 内 部 ノ ー ド で あ れ ば , の 各 観 測 子 ノ ー ド ′ に 対 し て
    1 . 接 ぎ 木 ノ ー ド ′
    ∼ U 1,max(1)
    ,… ,
    ,max(
    )
    を 選 択
    2. ′
    を ′ の 親 に 設 定
    ⚫ GEM G-SSHLDA の生成過程

    View Slide

  43. hLDA|グラフィカルモデル
    42
    hLDA GEM hLDA

    View Slide

  44. G-SSHLDA|グラフィカルモデル
    43
    Dir G-SSHLDA

    View Slide

  45. G-SSHLDA|グラフィカルモデル
    44
    GEM G-SSHLDA

    View Slide

  46. /27
    モデル推定|G-SSHLDA
    45
    をパスのサンプリング に利 用す る.
    ここで,右辺第一項目 は
    ●パスの条件付き分布
    パス
    が与えられたときに
    文書 中の全単語

    生成される確率
    パス
    がパラメタ の
    nCRP から生成される確率
    である.

    View Slide

  47. /27
    46
    モデル推定|G-SSHLDA
    ●レベルの完全条件付き分布
    または
    をレベルのサンプリングに利用する.
    文書 中の 番目の単語に
    レベル が割り当てられる確率
    文書 のパス上の 番目の
    ノード ,
    から
    単語 が生成される確率

    View Slide

  48. /27
    47
    モデル推定|G-SSHLDA
    ●接ぎ木ノードの条件付き分布
    または
    を接ぎ木ノードのサンプリングに利用する.
    観測ノード を根とする部分木が
    上位潜在木の葉ノード ℓ に接ぎ木される確率
    観測ノード を根とする部分木が
    上位潜在木のノード に接ぎ木される確率

    View Slide

  49. /27
    ⚫幅優先探索時の各観測ノード について
    • に属する各文書 について
    ‒ 観測パス
    を木の根から までのパスとして
    設定
    ‒ 潜在パス
    をパスの条件付き分布から選択
    ‒ パス


    の連結として設定
    ‒ 各単語 について,レベル ,
    をレベルの
    完全条件付き分布から 選択
    • 各観測子ノード ′ について,
    接ぎ木ノード ′
    を分布から選択し,
    レベル割り当て補正
    48
    モデル推定|アルゴリズム

    View Slide

  50. /27
    49
    モデル推定|G-SSHLDA
    ●接ぎ木ノードの条件付き分布
    または
    を接ぎ木ノードのサンプリングに利用する.
    観測ノード を根とする部分木が
    上位潜在木の葉ノード ℓ に接ぎ木される確率
    観測ノード を根とする部分木が
    上位潜在木のノード に接ぎ木される確率

    View Slide

  51. /27
    ⚫GEM G-SSHLDA を利用
    ⚫潜在木高さ:2
    ⚫周辺化ギブスサンプリング 500 回
    ⚫ = 1.0, = 1.0, = 0.5, = 100
    50
    実験詳細|拡張階層例示

    View Slide

  52. /27
    ⚫ G-SSHLDA, hLDA, hLLDA, SSHLDA を利用
    ⚫ 周辺化ギブスサンプリング 500 回
    ⚫ G-SSHLDA の潜在木高さ:1, 2, 3
    ⚫ hLDA の木の高さは各文書の観測パス平均 長か ら決 定
    ⚫ MEDLINE
    • hLDA の木の高さ:2, 3, 4
    • SSHLDA の木の高さ:4, 5, 6
    ⚫ Wikipedia
    • hLDA の木の高さ:3, 4, 5
    • SSHLDA の木の高さ:7, 8, 9
    ⚫ = 0.1, = 0.5, 1.0 , = 1.0, = {0.25, 0.5}, = 100
    51
    実験詳細|汎化能力評価

    View Slide

  53. /27
    ⚫ データは単語単位で 5 分割
    ⚫ 4 個のデータでモデルを推定,1 個のデータで
    パープレキシティを計算
    • テストデータを替えつつ,5 回繰り返す
    ⚫ 周辺化ギブスサンプリング繰り返し 400 – 500 回
    の間,10 回に 1 回パープレキシティを計算し,そ
    の結果得た 10 個の値の平均を
    結果として利用
    ⚫ 各テストデータに対する平均と標準偏差を計算
    52
    実験詳細|汎化能力評価

    View Slide

  54. /27
    53
    実験|MEDLINE に対するパープレキシティ
    D irichle t分布に基づくモデル GEM 分布に基づくモデル

    View Slide

  55. /27
    54
    実験|Wikipedia に対するパープレキシティ
    ノード数

    Dirichlet 分布に基づくモデル GEM 分布に基づくモデル
    提案モデル
    提案モデル
    Dir G-SSHLDA は最大 4.4 % 改善
    GEM G-SSHLDA は GEM hLDA より同程度か劣化

    View Slide

  56. /27
    55
    実験|Wikipedia に対するパープレキシティ
    Dirichlet 分布に基づくモデル GEM 分布に基づくモデル

    View Slide

  57. /27
    ⚫ G-SSHLDA, hLDA, 単連結法 [CLUTO]を利用
    ⚫ 周辺化ギブスサンプリング 500 回
    ⚫ G-SSHLDA の潜在木高さは削除レベル数
    ⚫ hLDA の木の高さ
    • 各文書の観測パス平均長から決定
    • <1, 2> 削除:2
    • <1, 2, 3> 削除:3
    • <2, 3> 削除:3
    • <3> 削除:3
    ⚫ = 0.1, = 0.5, 1.0 , = 1.0, = 0.5, = 100
    56
    実験詳細|クラスタリング能力評価

    View Slide

  58. /27
    ⚫削除されたノード数
    • <1, 2> 削除:50
    • <1, 2, 3> 削除:78
    • <2, 3> 削除:66
    • <3> 削除:28
    ⚫ = 0.1, = 0.5, 1.0 , = 1.0, = 0.5, = 100
    57
    実験詳細|クラスタリング能力評価

    View Slide

  59. /27
    ⚫ Dir hLDA
    • () の最頻値であるレベル で示されるノードに
    その文書を配置する
    • ノード全てをクラスタと見なす
    • 削除したノードに属している文書以外を全クラスタから
    削除する
    58
    実験詳細|クラスタリング方法
    1 2 3 1 2 3
    () ()

    View Slide

  60. /27
    ⚫ Dir G-SSHLDA
    • 文書が属する観測ノードから潜在木高さの間のレベルのみ
    考慮する
    ‒ 観 測 ノ ー ド に 属 す る 文 書 の み を 対 象と し た ク ラス タ を 作る た め
    • その範囲内で () を最大にするレベル で示されるノード
    にその文書を配置する
    • 削除したノードに属している文書以外を全クラスタから
    削除する
    59
    実験詳細|クラスタリング方法
    1 2 3 4 1 2 3 4
    こ こ の み を ク ラ ス タ と 見 な す
    () ()

    View Slide

  61. /27
    ⚫ GEM 分布を利用するモデル
    • モデル推定の時点で,ある文書がとる最大レベルが
    決まる
    • その最大レベルで示されるノードにその文書を
    割り当てる
    • 削除したノードに属している文書以外を全クラスタから
    削除する
    60
    実験詳細|クラスタリング方法
    こ こ の み を ク ラ ス タ と 見 な す
    max
    = 3 max
    =4

    View Slide

  62. /27
    ⚫ 単連結法
    • 単語を素性としてクラスタリングする
    • 縮約されたノードに属する文書のみを
    クラスタリング対象とする
    • 削除されたノードの数だけクラスタを生成する
    61
    実験詳細|クラスタリング方法
    こ こ の ノ ー ド に 属 す る 文 書 の み を , こ こ の
    ノ ー ド 数 を ク ラ ス タ 数 と し て ク ラ ス タ リ ン グ

    View Slide

  63. /27
    ⚫ hLDA
    • () の最頻値であるレベル で示されるノードに
    その文書を配置する
    ⚫ G-SSHLDA
    • 文書が属する観測ノードから潜在木高さの間のレベル
    のみ考慮する
    • その範囲内で () を最大にするレベル で示される
    ノードにその文書を配置する
    ⚫ 単連結法
    • 縮約されたノードに属する文書のみを
    クラスタリング対象とする
    • 削除されたノードの数だけクラスタを生成する
    62
    実験詳細|クラスタリング能力評価

    View Slide

  64. /27
    ⚫ 正解クラス , クラスタ
    とする
    ⚫ 再現率 [recall]
    • r ,
    = |

    |/|
    |
    ⚫ 適合率 [precision]
    • p ,
    = |

    |/|
    |
    ⚫ F 値
    • 各クラスとクラスタの 組み 合わ せに 対し て F ,
    =
    2r ,
    p ,
    r , +p ,
    を計算し,
    F( , ) = ෍
    =1

    (|
    |/ ) max

    F ,
    で求める
    63
    実験詳細|F 値

    View Slide

  65. /27
    ⚫正解クラス
    , クラスタ
    とする
    ⚫相互情報量 [mutual information]
    • MI , =
    σ
    =1
    σ
    =1
    (
    ,
    )log
    ,
    /(
    (
    ))
    ⚫正規化相互情報量 [normalized mutual information]
    • NMI , = MI (, )/( +
    2
    )
    ⚫ここで, , () は周辺エントロピー
    64
    実験詳細|正規化相互情報量

    View Slide

  66. /27
    65
    実験|クラスタリング結果
    <1, 2> 削 除 <1, 2, 3> 削 除
    <2, 3> 削 除 <3> 削 除
    一例を除いて G-SSHLDA の評価値が最高

    View Slide