時系列文書解析とコロナ禍におけるニュースへの応用 / Analysis of Time Series Documents and its Application to News in the Corona Disaster

時系列⽂書解析とコロナ禍におけるニュースへの応⽤ 2020.10.09 ⾃然⾔語処理勉強会 Sansan株式会社 DSOC R&D研究員橋本航

Data Strategy and Operation Center • Dynamic Topic Modelについて •
コロナ禍におけるニュースに対するDynamic Topic Modelの応⽤ • 近年の発展⼿法 - Generalized Dynamic Topic Model - Dynamic Correlated Topic Model - Dynamic Embedded Topic Model • まとめ⽬次

Data Strategy and Operation Center ニュースにおける時間とトピック • ⽂書には⼀般的に時間情報が付与されている (出版⽇など)
• ⽂書には話題（トピック）があり、その中でよく出てくる⾔葉も時間によって変化するコロナ禍期間においてニュースのトピックはどのように変化したか？

Data Strategy and Operation Center そもそも⽂書のトピックを捉えるには LDA (Latent Dirichlet Allocation)
[Blei, 2003]がよく使われます Blei, 2012 ICML Tutorial http://www.cs.columbia.edu/~blei/talks/Blei_ICML_2012.pdf ⽂書の単語の種類と頻度から • ⽂書のトピック⽐率 • トピックの単語出現確率を推定。

Data Strategy and Operation Center トピックの変化追跡におけるLDAの課題 • LDAはそもそも⽂書の時間情報を考慮していない • 各時間ごとにLDAを使うのは？
• 各学習ごとに結果が異なるため、本当に出現確率の変化が時間変化由来か学習由来のノイズかを区別できないモデル⾃体にトピックの単語出現確率が時間変化すると仮定することで、トピックの時間発展をより正しく捉えられる

Data Strategy and Operation Center Dynamic Topic Model [Blei, 2006]
→ 各トピックにおける単語分布の時間依存性を考える “Atomic Physics” Blei, D. M. and Lafferty, J. D. (2006). Dynamic topic models. In International Conference on Machine Learning.

Data Strategy and Operation Center Dynamic Topic Model (DTM) のアルゴリズム
LDAのグラフィカルモデル Dynamic Topic Modelのグラフィカルモデル • Random Walkするトピックー単語分布βを確率値にするため、softmaxを使う • 元論⽂ではα (⽂書のトピック⽐率に関するパラメータ) も時変という記述があるが、実際の推論アルゴリズムでは導出されていない • GensimのLdaSeqModel、DtmModelでも同様にαは変化しない 1. Draw Topics 2. For each document: a. Draw b. For each word: i. Draw ii. Draw LDAと違うのは基本的にここだけ <latexit sha1_base64="MqkFLky9fjFuHW4p0+S5dCdEMzE=">AAACpHichVHLShxBFD22eZgxiaPZBNw0DooBHW5LJCGbSLJRkKBORgVHh+q2HAv7RXfNgOnMD+QHsshKQUTyGdkIbnXhJ4hLhWxceLunQzSS5DZdderce26dqrJDV8Wa6LTL6L53/8HDnkeF3sdPnvYV+wcW46AZObLqBG4QLdsilq7yZVUr7crlMJLCs125ZG+9T/NLLRnFKvA/6u1Qrnqi4asN5QjNVL34tmZLLeqJbn/+hcattlmLlWfWPKE3HeEmH9qjN5JjabbhibUJc+ZFvViiMmVh3gVWDkrIYy4o7qOGdQRw0IQHCR+asQuBmL8VWCCEzK0iYS5ipLK8RBsF1ja5SnKFYHaLxwavVnLW53XaM87UDu/i8h+x0sQwndABXdAhfaczuvprryTrkXrZ5tnuaGVY7/vyvPLzvyqPZ43N36p/etbYwOvMq2LvYcakp3A6+tanrxeVNwvDyQjt0jn736FT+sEn8FuXzt68XPiGAj+A9ed13wWLE2VrskzzL0tT7/Kn6MEghjDK9/0KU5jGHKq87x6OcIwTY8SYNSpGtVNqdOWaZ7gVxto1QnmiBw==</latexit> t | t 1 ⇠ N( t 1, 2I) <latexit sha1_base64="HEJnihpySL0CY4UlQjgjSDQ6AXw=">AAACinichVG7ThtBFD0sCRDzMtBESrOK5Qga6xqBeKRBCQUlLwMSi6zZZcAj70u7Y0tm5R8IH5CCikhRhFKlTco0+YEUfAKiBImGguv1SggQyR3NzJkz99w5M2OHroo10XmP0fviZV//wKvc4NDwyGh+bHwrDhqRIytO4AbRji1i6SpfVrTSrtwJIyk825Xbdv1jZ3+7KaNYBf6mboVyzxOHvjpQjtBMVfNFS9ekFtVkv21asfJMyxO6FnnJsora5qQl3LAmpqr5ApUoDfMpKGeggCxWg/w3WNhHAAcNeJDwoRm7EIi57aIMQsjcHhLmIkYq3ZdoI8faBmdJzhDM1nk85NVuxvq87tSMU7XDp7jcI1aaKNJfOqMr+kPf6YJun62VpDU6Xlo8212tDKujn15v3PxX5fGsUbtX/dOzxgHmU6+KvYcp07mF09U3jz5fbSyuF5N39IUu2f8pndNvvoHfvHa+rsn1E+T4A8qPn/sp2JoulWdLtDZTWPqQfcUA3uAtJvm957CEFayiwuce4wd+4pcxZEwbC8b7bqrRk2km8CCM5Tt2Jpf/</latexit> ✓d ⇠ Dir(↵) <latexit sha1_base64="gK9AalcZoXuQUVURcXUPDw+j2Y0=">AAAChXicSyrIySwuMTC4ycjEzMLKxs7BycXNw8vHLyAoFFacX1qUnBqanJ+TXxSRlFicmpOZlxpaklmSkxpRUJSamJuUkxqelO0Mkg8vSy0qzszPCympLEiNzU1Mz8tMy0xOLAEKxQsoRCnEFGfmKsTkJpZkFOVW+5bmlNRqxJRkpJYkxlen1GrGCygb6BmAgQImwxDKUGaAgoB8geUMMQwpDPkMyQylDLkMqQx5DCVAdg5DIkMxEEYzGDIYMBQAxWIZqoFiRUBWJlg+laGWgQuotxSoKhWoIhEomg0k04G8aKhoHpAPMrMYrDsZaEsOEBcBdSowqBpcNVhp8NnghMFqg5cGf3CaVQ02A+SWSiCdBNGbWhDP3yUR/J2grlwgXcKQgdCF180lDGkMFmC3ZgLdXgAWAfkiGaK/rGr652CrINVqNYNFBq+B7l9ocNPgMNAHeWVfkpcGpgbNZuACRoAhenBjMsKM9AxN9QwCTZQdnKBRwcEgzaDEoAEMb3MGBwYPhgCGUKC9bQxrGLYybGNiZ9JlMmEygyhlYoTqEWZAAUz2ACa2lig=</latexit> Z ⇠ Mult(✓d) <latexit sha1_base64="raX3wLoIAgN1O4/oVsGajqMFyyg=">AAAConichVHLShxBFD12XjpqnCQbwU3jqCjIcEcSlEBAdCNCwHEcR3BkqG5rtLBfdNcM0WZ+ID+QhSsTQpB8RjbJVnHhJ4hLA9m48HZPB0nE5DZdde6pe26dqrICR0Wa6LzHePDw0eMnvX25/oHBp0P5Z8/XI78V2rJq+44fblgiko7yZFUr7ciNIJTCtRxZs/YWk/VaW4aR8r01vR/ILVfseKqpbKGZauTf1Bqxnja3p02vY9Yj5Zp1V+jd0I3fthzdmfydRX5Tu+IdE5bUItEcdKamGvkCFSkN8y4oZaCALFb8/BfUsQ0fNlpwIeFBM3YgEPG3iRIIAXNbiJkLGal0XaKDHGtbXCW5QjC7x+MOZ5sZ63Ge9IxStc27OPyHrDQxTmd0TFf0nb7SBV3f2ytOeyRe9nm2uloZNIbeD1d+/Vfl8qyxe6v6p2eNJuZSr4q9BymTnMLu6tsHH64qr1fH4wn6SJfs/4jO6RufwGv/tD+X5eohcvwApb+v+y5YnymWXhWp/LIwv5A9RS9GMIpJvu9ZzGMJK6jyvp/wAyc4NcaMZaNsVLqlRk+meYE/wqjfAJKPoeg=</latexit> Wt,d,n ⇠ Mult(softmax( t,z))

Dynamic Topic Modelのニュースへの応⽤

Data Strategy and Operation Center データ概要 • 2020年1⽉1⽇〜7⽉19⽇にクラウド名刺管理サービス「Sansan」、名刺アプリ「Eight」で配信された記事のタイトル＋
本⽂を使⽤ • 新型コロナウイルスの感染拡⼤時期に、トピックがどのように変化したかを捉えたい • 前処理 - Mecab-ipadic-NEologdを⽤いて形態素解析 - 名詞のみを使⽤ - 出現頻度が20以下の単語を除外 - 表記ゆれの統⼀ ▶ 新型コロナ系の単語を “新型コロナウイルス” に統⼀

Data Strategy and Operation Center Dynamic Topic Modelの設定概要 • ⽂書は週毎に集約
- 1⽉1⽇から7⽉19⽇まで29週 → 29時点 • トピック数の決定 - 時点ごとのcoherenceの総和でチューニング。トピック数は3 • 得られた以下の3つのトピックについて、単語出現確率の時間推移を調査 - 感染系トピック - 経済系トピック - ビジネス系トピック

Data Strategy and Operation Center 感染系トピック初期は中国の出現確率が最も⾼い - “新型コロナウイルス”・”新型肺炎”
など呼称が統⼀されていなかったため？ 2⽉前半からは - “新型コロナウイルス” - “感染拡⼤” - “緊急事態宣⾔”

Data Strategy and Operation Center 経済系トピック “減”・”増”・”決算” に2つのピーク - 2⽉：昨年12⽉期決算発表
- 5⽉： 3⽉期決算発表 2⽉ピークよりも5⽉ピークの⽅が “増” に対する “減” の割合⼤きい → コロナウイルスの財政への影響

Data Strategy and Operation Center ビジネス系トピック 1⽉末〜 5⽉にかけて “オンライン”
“テレワーク” “クラウド” 等が社会に浸透記事の例： - コロナ禍に対応、販売員応援特設サイトの無料オンライン研修拡充〜 - Zoomを使⽤した「オンライン〇〇」がコロナの外出⾃粛を⽀援〜 - テレワーク・サテライトオフィスでのテレビ会議に最適な〇〇を発売。

Data Strategy and Operation Center Dynamic Topic Modelと既存のLDAとの⽐較全ての定量指標でDynamic系のアルゴリズムが既存のLDAよりも優れている Method
Coherence Diversity Topic Quality Held-out Perplexity 通常のLDA -8.817 0.947 -8.347 291.7 時間ごとに学習させたLDA 4.043 0.794 3.207 1408 Dynamic Topic Model 18.529 0.952 17.728 231.8 まとめ • Dynamic Topic Modelにより、コロナ禍におけるニュースのトピックの時間発展を捉えられた • 定量⾯でも、トピックの単語出現確率の変化を考慮するDynamic Topic Modelは有効

近年の拡張モデルについて

Data Strategy and Operation Center Generalized Dynamic Topic Models •
カーネル関数により時系列性のモデリングの⾃由度が⾼い（RBF、Cauchy、Periodic、etc…） • ガウス過程の問題点: 点が増えると計算量が膨⼤になる（共分散⾏列の逆⾏列が必要になるため。この場合 (T!)） - ガウス過程にスパース近似を導⼊ - スパース近似とは？ → データ点数よりも少ない仮想的な⼊⼒点（補助変数）を配置し近似する⼿法 - 適切に補助変数を配置できれば、少ない個数で優れた近似が可能になる ▶配置アルゴリズムには変分推論を使⽤トピックー単語分布βにガウス過程を導⼊「ガウス過程と機械学習」サポートページより引⽤ http://chasen.org/~daiti-m/gpbook/

Data Strategy and Operation Center カーネル関数による時系列性のモデリング 16 カーネル関数を変えることで、様々な時系列変化をモデリングできる Wiener Kernel
Ornstein-Uhlenbeck Kernel Cauchy Kernel <latexit sha1_base64="DVm2g5kbBgQqI6Eo3LLeuy+JF8I=">AAACwXichVHLahRBFL3p+IjjI6PZCNkUDtEJmOFOUAwBISQbd+Y1SSAdh+pOzUwx1d1Fdc2QpDI/4A9k4cqAiPgXuvEHXOQPFFcxghsX3u5pEA3qbbrq3lPn3DpVFWglU4t4MuKNXrh46fLYldLVa9dvjJdv3tpIk54JRSNMVGK2Ap4KJWPRsNIqsaWN4FGgxGbQXcrWN/vCpDKJ1+2+FjsRb8eyJUNuCWqWfb/LteZN97QxYFXf8t59lo33ph8zP5XtiD9zswPmR9x2TOTEnqZCiZatshm/ZXjoDjM6mxmq2OHAKWIY2e7Y6Wa5gjXMg51P6kVSgSKWk/Jr8GEXEgihBxEIiMFSroBDSt821AFBE7YDjjBDmczXBQygRNoesQQxOKFdGttUbRdoTHXWM83VIe2i6DekZDCFH/ENnuEHfIuf8cdfe7m8R+Zln+ZgqBW6Of789tr3/6oimi10fqn+6dlCC+Zyr5K86xzJThEO9f2Do7O1+dUpdxeP8Qv5f4kn+J5OEPe/ha9WxOoLKNED1P+87vPJxmyt/rCGKw8qC4vFU4zBJNyBKt33I1iAJ7AMDdr3HXyCU/jqLXnS054ZUr2RQjMBv4XnfgJld60f</latexit>  OU (⌧, ⌧0) = 2exp ✓ |⌧ ⌧0| l ◆ <latexit sha1_base64="PyEuS/VMI/aTEmkS6wuvwI1ZvQs=">AAACsXichVHLThRBFD20LxhURtmQuOk4QYfETO6gBEJCQnDjwgUPh8HQOFY3NTOV6Ve6ayaBzvwAP8DClSbGGHf+ght/gASWsCMuIWHjwts9nfgg6u101bmn7rl1qsoOXRVroqMh48rVa9dvDI8URm/euj1WvHN3PQ66kSNrTuAG0YYtYukqX9a00q7cCCMpPNuVdbvzNF2v92QUq8B/oXdCueWJlq+ayhGaqUbxudURYSgaSb1vli0tuo/MdHw4tWBasWp54lUy3TctT+h25CWe8jlxZVOXzV+KTStSrbaeahRLVKEszMugmoMS8lgOih9gYRsBHHThQcKHZuxCIOZvE1UQQua2kDAXMVLZukQfBdZ2uUpyhWC2w2OLs82c9TlPe8aZ2uFdXP4jVpqYpAP6SGf0lT7RKX3/a68k65F62eHZHmhl2Bjbm1i7+K/K41mj/VP1T88aTcxlXhV7DzMmPYUz0Pd298/W5lcnkwf0jr6x/7d0RF/4BH7v3Hm/IlffoMAPUP3zui+D9elKdaZCK09Ki0v5UwzjHu6jzPc9i0U8wzJqvO9nHOIYJ8Zj46Xx2rAHpcZQrhnHb2F0fgAFuKZv</latexit> W (⌧, ⌧0) = 2min (⌧, ⌧0) <latexit sha1_base64="U2wPCWfUL07xWuAnvcBQplOQrHY=">AAACvHichVFNaxQxGH46VlvXj271UugluFS3qEtmURShUuzFYz/cbqHTLplpdhs288FMZqEO+wf8Ax48tVBE/A09efEPeOjZk6inCl566DuzA6JFfUOSN0+e582TxI20Sgznx2PWhfGLlyYmL1euXL12fao6fWM9CdPYky0v1GG84YpEahXIllFGy40olsJ3tWy7/aV8vz2QcaLC4IXZi+SWL3qB6ipPGII61bbTF1EkOtmSSIes7hiR3mP5eGd+gTmJ6vliO2sOmaNl19Rtdpc53Vh4WcFk90vqdnOY6ZxHxFj1ds18p1rjDV4EO5/YZVJDGcth9S0c7CCEhxQ+JAIYyjUEEmqbsMEREbaFjLCYMlXsSwxRIW1KLEkMQWifxh6tNks0oHVeMynUHp2iqcekZJjjn/g7fsI/8vf8Cz/9a62sqJF72aPZHWll1Jl6NbP2878qn2aD3V+qf3o26OJx4VWR96hA8lt4I/3g5euTtSerc9ltfsC/kv99fsw/0A2CwQ/vcEWuvkGFPsD+87nPJ+vNhv2wwVce1BaflV8xiVncQp3e+xEW8RzLaNG5R/iMb/huPbV2rL7lj6jWWKm5id/CGpwBas+puA==</latexit> Cau(⌧, ⌧0) = 2 ✓ 1 + (⌧ ⌧0)2 l2 ◆

Data Strategy and Operation Center Dynamic Correlated Topic Models Generalized
Dynamic Topic Modelと Correlated Topic Model の組み合わせ • Correlated Topic Model - トピック間の相関を考慮するモデル - どのようにトピック間の相関を考慮するか？ → 多変量正規分布の共分散⾏列を⽤いる • 共分散⾏列の時系列変化には、共分散⾏列の逆⾏列の確率分布として使われるWishart分布を確率過程とした generalized Wishart processを⽤いるトピック間の相関推移

Data Strategy and Operation Center Dynamic Embedded Topic Models [Blei,
2019] Embedded Topic Model [Blei, 2019] をDynamicに拡張 • Embedded Topic Model - トピック埋め込み α を定義し、w2vとの内積＆ softmax で単語分布を得る - トピック埋め込みによって既存のw2vを活⽤しつつ、推定するパラメータを減らせるのがメリット（K * V個 → K * (embedding size) 個） • Dynamic Embedded Topic Modelではαの時間依存性を導⼊する。 <latexit sha1_base64="IuTM4zA2/RoqQ3CdMHXjhAgAASs=">AAACn3ichVFNa9RAGH4arbZrtau9CL1El0q9LO+KohSEoof2JNvW7QdNDZM42w2bZEIyG2xD/oB/oIdeWkFE/BlC6U0vHvoTxGMFLx76JhsQLeo7zMwzz7zPO8/MOJHvJZroZMS4cHH00uWx8dqViavXJuvXb6wmahC7suMqX8Xrjkik74Wyoz3ty/UoliJwfLnm9J8W+2upjBNPhc/1TiS3ArEdel3PFZopuz5nOVILO+unufnYtAKhe3GQJaqrA/EqN2etuKfsLM1fZJZWUW5awo96RX5+1643qEllmOdBqwINVNFW9Xew8BIKLgYIIBFCM/YhkHDbRAuEiLktZMzFjLxyXyJHjbUDzpKcIZjt87jNq82KDXld1ExKtcun+NxjVpqYoS/0nk7pmD7QV/r511pZWaPwssOzM9TKyJ58fXPlx39VAc8avV+qf3rW6OJR6dVj71HJFLdwh/p0d+90ZW55JrtDb+gb+z+kE/rINwjT7+7bJbm8jxp/QOvP5z4PVu81Ww+atHS/Mf+k+ooxTOM2Zvm9H2Iei2ijw+ce4Aif8Nm4ZSwYz4z2MNUYqTRT+C2MjTPC0qGo</latexit> kv = softmax(⇢> v ↵k) <latexit sha1_base64="COv62bfRYwwOdjs1ATxpuAFBH6A=">AAACq3ichVFBa9RAGH2Nta1rbVe9CF6CS8v24PKtWBRBWFoQj23X3RabGibpbDdskgnJ7GIN+QP9Az30VEFE7L/w4lnwUPQPiMcKXjz4JRsQLeo3zMybN9/75s2ME/leoolOJ4wLkxenpmcuVS7PXpmbr1691k3UMHZlx1W+ircckUjfC2VHe9qXW1EsReD4ctMZrOb7myMZJ54Kn+j9SO4EYi/0ep4rNFN29ZHlSC3sdDDKnqV1vZSZD00rELofB2miejoQzzOzbsV9Zad5iqVVlJmW8KN+ripFS3a1Rg0qwjwPmiWooYw1VX0NC7tQcDFEAIkQmrEPgYTbNpogRMztIGUuZuQV+xIZKqwdcpbkDMHsgMc9Xm2XbMjrvGZSqF0+xeces9LEAn2kN3RG7+ktfaEff62VFjVyL/s8O2OtjOz5gxvt7/9VBTxr9H+p/ulZo4f7hVePvUcFk9/CHetHLw7P2g82FtJFeklf2f8xndI7vkE4+ua+WpcbR6jwBzT/fO7zoHun0Vxu0PrdWmul/IoZ3MQt1Pm976GFx1hDh889wQd8wmfjttE2nhrWONWYKDXX8VsY8icWM6ZW</latexit> (t) kv = softmax(⇢> v ↵(t) k )

Data Strategy and Operation Center Dynamic Embedded Topic Models [Blei,
2019] Embedded Topic Model [Blei, 2019] をDynamicに拡張トピック⽐率: LSTM (時間⽅向の依存を捉える) トピック埋め込み: 平均場近似 (時間⽅向の依存を仮定しない) • 明⽰的にトピック⽐率の時間変化をLSTMでモデリングしているのが、もう⼀つの⼤きな特徴 - Dynamic Topic Modelではアルゴリズムはトピック⽐率の時間発展は明⽰的にモデル化されていない - LDAの各種指標はトピック⽐率の推定に⼤きく依存 [Wallach, 2009] • αは推定の安定化のため、平均場近似 - つまり、単に時間ごとに異なるパラメータとして推定される

Data Strategy and Operation Center まとめ • 時間依存性を考慮したLDAであるDynamic Topic Modelを適⽤することで、
コロナ禍がニュースに与えた影響を捉えられる。 - 感染系トピック - 経済系トピック - ビジネス系トピック • 近年の⼿法 - Generalized Dynamic Topic Model （トピックー単語分布にガウス過程を使⽤） - Dynamic Correlated Topic Model （トピック間の相関の時間変化を考慮） - Dynamic Embedded Topic Model（トピック埋め込み&トピック⽐率の時間変化を考慮）

Data Strategy and Operation Center まとめ LDA以外の時系列⽂書解析（例えばw2v）については...? Sansan Builders
Blogで私が書いたブログをぜひ読んでください！（⼿前味噌ですが）「時間依存性を考慮したWord Embeddingsのまとめ」

Data Strategy and Operation Center 参考⽂献 • 佐藤⼀誠「トピックモデルによる統計的潜在意味解析」, コロナ社
• 持橋⼤地, ⼤⽻成征「ガウス過程と機械学習」, 講談社 • David M. Blei, John D. Lafferty (2006). Dynamic topic models. In International Conference on Machine Learning. • Patrick Jähnichen, Florian Wenzel, Marius Kloft, Stephan Mandt (2018). Scalable Generalized Topic Models. In International Conference on Artificial Intelligence and Statistics. • Federico Tomasi, Praveen Chandar, Gal Levy-Fix, Mounia Lalmas-Roelleke, Zhenwen Dai (2020). Stochastic Variational Inference for Dynamic Correlated Topic Models. In Uncertainty in Artificial Intelligence. • Adji B. Dieng, Francisco J. R. Ruiz, David M. Blei (2019). The Dynamic Embedded Topic Models. • Lau, J. H., Newman, D., and Baldwin, T. (2014). Machine reading tea leaves: Automatically evaluating topic coherence and topic model quality. In Conference of the European Chapter of the Association for Computational Linguistics. • Adji B. Dieng, Francisco J. R. Ruiz and David M. Blei. (2020) Topic Modeling in Embedding Spaces. In Transactions of the Association for Computational Linguistics. • Hanna M. Wallach, David M. Mimno, Andrew McCallum. (2009) Rethinking LDA: Why Priors Matter. In Neural Information Processing Systems.

Appendix

Data Strategy and Operation Center Dynamic Topic Modelのトピック⽐率推移 • トピック⽐率はほぼ⼀定という結果に
• Dynamic Topic Modelではトピック⽐率の時間変化は明⽰的には仮定していない • そのため、現実的にはトピック⽐率は変化している可能性がある

時系列文書解析とコロナ禍におけるニュースへの応用 / Analysis of Time Se...

時系列文書解析とコロナ禍におけるニュースへの応用 / Analysis of Time Series Documents and its Application to News in the Corona Disaster

Sansan DSOC

More Decks by Sansan DSOC

Other Decks in Technology

Featured

Transcript

時系列⽂書解析とコロナ禍におけるニュースへの応⽤ 2020.10.09 ⾃然⾔語処理勉強会 Sansan株式会社 DSOC R&D研究員橋本航

Data Strategy and Operation Center • Dynamic Topic Modelについて •

Data Strategy and Operation Center ニュースにおける時間とトピック • ⽂書には⼀般的に時間情報が付与されている (出版⽇など)

Data Strategy and Operation Center そもそも⽂書のトピックを捉えるには LDA (Latent Dirichlet Allocation)

Data Strategy and Operation Center トピックの変化追跡におけるLDAの課題 • LDAはそもそも⽂書の時間情報を考慮していない • 各時間ごとにLDAを使うのは？

Data Strategy and Operation Center Dynamic Topic Model [Blei, 2006]

Data Strategy and Operation Center Dynamic Topic Model (DTM) のアルゴリズム

Dynamic Topic Modelのニュースへの応⽤

Data Strategy and Operation Center データ概要 • 2020年1⽉1⽇〜7⽉19⽇にクラウド名刺管理サービス「Sansan」、名刺アプリ「Eight」で配信された記事のタイトル＋

Data Strategy and Operation Center Dynamic Topic Modelの設定概要 • ⽂書は週毎に集約

Data Strategy and Operation Center 感染系トピック初期は中国の出現確率が最も⾼い - “新型コロナウイルス”・”新型肺炎”

Data Strategy and Operation Center 経済系トピック “減”・”増”・”決算” に2つのピーク - 2⽉：昨年12⽉期決算発表

Data Strategy and Operation Center ビジネス系トピック 1⽉末〜 5⽉にかけて “オンライン”

Data Strategy and Operation Center Dynamic Topic Modelと既存のLDAとの⽐較全ての定量指標でDynamic系のアルゴリズムが既存のLDAよりも優れている Method

近年の拡張モデルについて

Data Strategy and Operation Center Generalized Dynamic Topic Models •

Data Strategy and Operation Center カーネル関数による時系列性のモデリング 16 カーネル関数を変えることで、様々な時系列変化をモデリングできる Wiener Kernel

Data Strategy and Operation Center Dynamic Correlated Topic Models Generalized

Data Strategy and Operation Center Dynamic Embedded Topic Models [Blei,

Data Strategy and Operation Center Dynamic Embedded Topic Models [Blei,

Data Strategy and Operation Center まとめ • 時間依存性を考慮したLDAであるDynamic Topic Modelを適⽤することで、

Data Strategy and Operation Center まとめ LDA以外の時系列⽂書解析（例えばw2v）については...? Sansan Builders

Data Strategy and Operation Center 参考⽂献 • 佐藤⼀誠「トピックモデルによる統計的潜在意味解析」, コロナ社

Appendix

Data Strategy and Operation Center Dynamic Topic Modelのトピック⽐率推移 • トピック⽐率はほぼ⼀定という結果に

時系列文書解析とコロナ禍における ニュースへの応用 / Analysis of Time Se...

時系列文書解析とコロナ禍における ニュースへの応用 / Analysis of Time Series Documents and its Application to News in the Corona Disaster

More Decks by Sansan DSOC

Other Decks in Technology

Featured

Transcript

時系列文書解析とコロナ禍におけるニュースへの応用 / Analysis of Time Se...

時系列文書解析とコロナ禍におけるニュースへの応用 / Analysis of Time Series Documents and its Application to News in the Corona Disaster