Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ニュースにおける各種時系列 トピックモデルの比較検討 / Comparison of Vari...

Sansan DSOC
November 26, 2020

ニュースにおける各種時系列 トピックモデルの比較検討 / Comparison of Various Dynamic Topic Models for News

■イベント 
:IBIS2020
https://ibisml.org/ibis2020/

■登壇概要
タイトル:ニュースにおける各種時系列トピックモデルの比較検討
発表者: 
DSOC R&D研究員 橋本 航

▼Twitter
https://twitter.com/SansanRandD

Sansan DSOC

November 26, 2020
Tweet

More Decks by Sansan DSOC

Other Decks in Technology

Transcript

  1. Data Strategy and Operation Center 発表概要 ⽬的:ニュースに対し優れた推定精度を⽰す時系列トピックモデルを明らかにする > 既存⼿法ではトピックの複雑な時間発展 (急激な単語分布の変化など)

    を 考慮できない、トピック⽐率の時間発展を考慮できないという課題がある ⽅法:複雑な時間発展を考慮した⼿法およびトピック⽐率の 時間発展を考慮したモデルをニュースに適⽤ 結果:トピック⽐率の時間発展を考慮したモデルが最も優れた推定精度を⽰した > ⼀⽅で複雑な時間発展を考慮したモデルは良い指標を⽰さず
  2. Data Strategy and Operation Center ニュースの話題の変化を知るため、時系列性を考慮したトピックモデルが必要 背景: ニュースにおける時間とトピック • ニュースには⼀般的に

    時間情報が付与されている(配信⽇など) • ⽂書には話題(トピック)があり、 > トピックの流⾏り廃り > トピック内の単語の使われ⽅ のいずれも変化する
  3. Data Strategy and Operation Center 既存⼿法: Dynamic Topic Model (DTM)

    [Blei, 2006] 例) Scienceコーパスにおける “AtomicPhysics” トピックの時間発展 各トピックにおける単語分布の時間発展を考慮
  4. Data Strategy and Operation Center DTMのアルゴリズムと課題 LDAのグラフィカルモデル DTMのグラフィカルモデル • Gaussian

    Random Walk以外の時系列変化を考慮 できていない > 実際にはニュースによる急な単語分布の変化もある • トピック⽐率の時間発展は考慮されていない > 実際にはトピック⽐率も変化する 1. Draw Topics 2. For each document: a. Draw b. For each word: i. Draw ii. Draw <latexit sha1_base64="MqkFLky9fjFuHW4p0+S5dCdEMzE=">AAACpHichVHLShxBFD22eZgxiaPZBNw0DooBHW5LJCGbSLJRkKBORgVHh+q2HAv7RXfNgOnMD+QHsshKQUTyGdkIbnXhJ4hLhWxceLunQzSS5DZdderce26dqrJDV8Wa6LTL6L53/8HDnkeF3sdPnvYV+wcW46AZObLqBG4QLdsilq7yZVUr7crlMJLCs125ZG+9T/NLLRnFKvA/6u1Qrnqi4asN5QjNVL34tmZLLeqJbn/+hcattlmLlWfWPKE3HeEmH9qjN5JjabbhibUJc+ZFvViiMmVh3gVWDkrIYy4o7qOGdQRw0IQHCR+asQuBmL8VWCCEzK0iYS5ipLK8RBsF1ja5SnKFYHaLxwavVnLW53XaM87UDu/i8h+x0sQwndABXdAhfaczuvprryTrkXrZ5tnuaGVY7/vyvPLzvyqPZ43N36p/etbYwOvMq2LvYcakp3A6+tanrxeVNwvDyQjt0jn736FT+sEn8FuXzt68XPiGAj+A9ed13wWLE2VrskzzL0tT7/Kn6MEghjDK9/0KU5jGHKq87x6OcIwTY8SYNSpGtVNqdOWaZ7gVxto1QnmiBw==</latexit> t | t 1 ⇠ N( t 1, 2I) <latexit sha1_base64="HEJnihpySL0CY4UlQjgjSDQ6AXw=">AAACinichVG7ThtBFD0sCRDzMtBESrOK5Qga6xqBeKRBCQUlLwMSi6zZZcAj70u7Y0tm5R8IH5CCikhRhFKlTco0+YEUfAKiBImGguv1SggQyR3NzJkz99w5M2OHroo10XmP0fviZV//wKvc4NDwyGh+bHwrDhqRIytO4AbRji1i6SpfVrTSrtwJIyk825Xbdv1jZ3+7KaNYBf6mboVyzxOHvjpQjtBMVfNFS9ekFtVkv21asfJMyxO6FnnJsora5qQl3LAmpqr5ApUoDfMpKGeggCxWg/w3WNhHAAcNeJDwoRm7EIi57aIMQsjcHhLmIkYq3ZdoI8faBmdJzhDM1nk85NVuxvq87tSMU7XDp7jcI1aaKNJfOqMr+kPf6YJun62VpDU6Xlo8212tDKujn15v3PxX5fGsUbtX/dOzxgHmU6+KvYcp07mF09U3jz5fbSyuF5N39IUu2f8pndNvvoHfvHa+rsn1E+T4A8qPn/sp2JoulWdLtDZTWPqQfcUA3uAtJvm957CEFayiwuce4wd+4pcxZEwbC8b7bqrRk2km8CCM5Tt2Jpf/</latexit> ✓d ⇠ Dir(↵) <latexit sha1_base64="gK9AalcZoXuQUVURcXUPDw+j2Y0=">AAAChXicSyrIySwuMTC4ycjEzMLKxs7BycXNw8vHLyAoFFacX1qUnBqanJ+TXxSRlFicmpOZlxpaklmSkxpRUJSamJuUkxqelO0Mkg8vSy0qzszPCympLEiNzU1Mz8tMy0xOLAEKxQsoRCnEFGfmKsTkJpZkFOVW+5bmlNRqxJRkpJYkxlen1GrGCygb6BmAgQImwxDKUGaAgoB8geUMMQwpDPkMyQylDLkMqQx5DCVAdg5DIkMxEEYzGDIYMBQAxWIZqoFiRUBWJlg+laGWgQuotxSoKhWoIhEomg0k04G8aKhoHpAPMrMYrDsZaEsOEBcBdSowqBpcNVhp8NnghMFqg5cGf3CaVQ02A+SWSiCdBNGbWhDP3yUR/J2grlwgXcKQgdCF180lDGkMFmC3ZgLdXgAWAfkiGaK/rGr652CrINVqNYNFBq+B7l9ocNPgMNAHeWVfkpcGpgbNZuACRoAhenBjMsKM9AxN9QwCTZQdnKBRwcEgzaDEoAEMb3MGBwYPhgCGUKC9bQxrGLYybGNiZ9JlMmEygyhlYoTqEWZAAUz2ACa2lig=</latexit> Z ⇠ Mult(✓d) <latexit sha1_base64="raX3wLoIAgN1O4/oVsGajqMFyyg=">AAAConichVHLShxBFD12XjpqnCQbwU3jqCjIcEcSlEBAdCNCwHEcR3BkqG5rtLBfdNcM0WZ+ID+QhSsTQpB8RjbJVnHhJ4hLA9m48HZPB0nE5DZdde6pe26dqrICR0Wa6LzHePDw0eMnvX25/oHBp0P5Z8/XI78V2rJq+44fblgiko7yZFUr7ciNIJTCtRxZs/YWk/VaW4aR8r01vR/ILVfseKqpbKGZauTf1Bqxnja3p02vY9Yj5Zp1V+jd0I3fthzdmfydRX5Tu+IdE5bUItEcdKamGvkCFSkN8y4oZaCALFb8/BfUsQ0fNlpwIeFBM3YgEPG3iRIIAXNbiJkLGal0XaKDHGtbXCW5QjC7x+MOZ5sZ63Ge9IxStc27OPyHrDQxTmd0TFf0nb7SBV3f2ytOeyRe9nm2uloZNIbeD1d+/Vfl8qyxe6v6p2eNJuZSr4q9BymTnMLu6tsHH64qr1fH4wn6SJfs/4jO6RufwGv/tD+X5eohcvwApb+v+y5YnymWXhWp/LIwv5A9RS9GMIpJvu9ZzGMJK6jyvp/wAyc4NcaMZaNsVLqlRk+meYE/wqjfAJKPoeg=</latexit> Wt,d,n ⇠ Mult(softmax( t,z)) 課題
  5. Data Strategy and Operation Center 本研究の⽬的 • Gaussian Random Walk以外の時間発展を考慮できる

    Generalized Dynamic Topic Model • トピック⽐率の時間発展も考慮できる Dynamic Embedded Topic Model 以上の2つのモデルをDTMと⽐較し、 ニュースに適した時系列トピックモデルを明らかにする
  6. Data Strategy and Operation Center Generalized Dynamic Topic Model (GDTM)

    [Jähnichen, 2018] • カーネル関数により単語分布の時間発展の モデリング⾃由度が⾼い > 今回はMatern 1/2カーネルを使⽤し、急激な 単語分布の変化を考慮 トピックー単語分布βにガウス過程を導⼊ Ornstein-Uhlenbeck Kernel Cauchy Kernel
  7. Data Strategy and Operation Center Dynamic Embedded Topic Model (DETM)

    [Dieng, 2019] トピック埋め込みの時間発展 & トピック⽐率の時間発展を考慮 • 時間発展するトピック埋め込み α [Dieng, 2019]を 定義し、w2vとの内積& softmax で単語分布を得る • 明⽰的にトピック⽐率の時間発展を LSTMでモデリング - ⼀⽅で、トピック埋め込みαの近似事後分布について は、時間⽅向に対し平均場近似 <latexit sha1_base64="COv62bfRYwwOdjs1ATxpuAFBH6A=">AAACq3ichVFBa9RAGH2Nta1rbVe9CF6CS8v24PKtWBRBWFoQj23X3RabGibpbDdskgnJ7GIN+QP9Az30VEFE7L/w4lnwUPQPiMcKXjz4JRsQLeo3zMybN9/75s2ME/leoolOJ4wLkxenpmcuVS7PXpmbr1691k3UMHZlx1W+ircckUjfC2VHe9qXW1EsReD4ctMZrOb7myMZJ54Kn+j9SO4EYi/0ep4rNFN29ZHlSC3sdDDKnqV1vZSZD00rELofB2miejoQzzOzbsV9Zad5iqVVlJmW8KN+ripFS3a1Rg0qwjwPmiWooYw1VX0NC7tQcDFEAIkQmrEPgYTbNpogRMztIGUuZuQV+xIZKqwdcpbkDMHsgMc9Xm2XbMjrvGZSqF0+xeces9LEAn2kN3RG7+ktfaEff62VFjVyL/s8O2OtjOz5gxvt7/9VBTxr9H+p/ulZo4f7hVePvUcFk9/CHetHLw7P2g82FtJFeklf2f8xndI7vkE4+ua+WpcbR6jwBzT/fO7zoHun0Vxu0PrdWmul/IoZ3MQt1Pm976GFx1hDh889wQd8wmfjttE2nhrWONWYKDXX8VsY8icWM6ZW</latexit> (t) kv = softmax(⇢> v ↵(t) k ) トピック⽐率:LSTM(時間⽅向の依存を捉える) トピック埋め込み: 平均場近似 (時間⽅向の依存を仮定しない)
  8. Data Strategy and Operation Center データ概要 • 2020年1⽉1⽇〜7⽉19⽇にクラウド名刺管理サービス「Sansan」、 名刺アプリ「Eight」で配信された記事のタイトル +

    本⽂冒頭を使⽤ • 前処理 - mecab-ipadic-NEologdを⽤いて形態素解析 - 名詞のみを使⽤ - 出現頻度が20以下の単語を除外 • 総語彙数:7723
  9. Data Strategy and Operation Center 時系列トピックモデルの設定概要 • ⽂書は週毎に集約 - 1⽉1⽇から7⽉19⽇まで29週

    → 29時点 • トピック数の決定 - DTMにおける時点ごとのCoherenceの総和を⽤い、トピック数は3と決定 • 定量指標 > Coherence > Diversity (各トピック上位25語の重複の無さ) > Topic Quality (= Coherence × Diversity) > Perplexity (test size: 0.2)
  10. Data Strategy and Operation Center 結果: 定量指標 Model Coherence Diversity

    Topic Quality Perplexity LDA -8.817 0.947 -8.347 291.7 DTM 18.529 0.952 17.728 231.8 GDTM (Matern 1/2) -3.988 0.996 -3.887 495.3 DETM (without LSTM) 16.032 0.971 15.755 223.1 DETM (with LSTM) 25.423 0.976 24.8 219 • 時系列の急激な変化をMatern 1/2カーネルでモデリングしても推定精度は向上せず • トピック⽐率の時間発展を考慮したモデルが最も推定精度が優れる
  11. Data Strategy and Operation Center 考察:トピック⽐率の時間発展 11 DTM DETM (with

    LSTM) DTMはトピック⽐率がほぼ⼀定な⼀⽅、DETMはトピック⽐率が変化 → LSTMによる効果
  12. Data Strategy and Operation Center まとめ • DTMの発展⼿法である > Generalized

    Dynamic Topic Model (単語分布の時間発展にガウス過程を仮定) > Dynamic Embedded Topic Model (トピック⽐率の時間発展も考慮) をDTMと⽐較し、ニュースに対し良い推定精度を⽰す時系列トピックモデルを検討 • 結果 > Gaussian Random Walk以外の時間発展を導⼊しても推定精度の向上には寄与せず > トピック⽐率の時間発展も考慮したモデルであるDETMが、最も優れた推定精度を⽰す • 今後 > 時間⽅向に対しトピック数が変化するモデルの検討
  13. Data Strategy and Operation Center 参考⽂献 • David M. Blei,

    John D. Lafferty (2006). Dynamic topic models. In International Conference on Machine Learning. • Patrick Jähnichen, Florian Wenzel, Marius Kloft, Stephan Mandt (2018). Scalable Generalized Topic Models. In International Conference on Artificial Intelligence and Statistics. • Adji B. Dieng, Francisco J. R. Ruiz, David M. Blei (2019). The Dynamic Embedded Topic Models. • Lau, J. H., Newman, D., and Baldwin, T. (2014). Machine reading tea leaves: Automatically evaluating topic coherence and topic model quality. In Conference of the European Chapter of the Association for Computational Linguistics. • Adji B. Dieng, Francisco J. R. Ruiz and David M. Blei. (2020) Topic Modeling in Embedding Spaces. In Transactions of the Association for Computational Linguistics. • Hanna M. Wallach, David M. Mimno, Andrew McCallum. (2009) Rethinking LDA: Why Priors Matter. In Neural Information Processing Systems.