$30 off During Our Annual Pro Sale. View Details »

位相的データ解析とその応用例

BrainPad
May 08, 2024

 位相的データ解析とその応用例

ブレインパッドの社内勉強会「b2b」で利用した資料です。
※ 本資料の公開はブレインパッドをもっとオープンにする取り組みOpenBPの活動のひとつです。
[OpenBrainPad Project]
https://brainpad.github.io/OpenBrainPad/

BrainPad

May 08, 2024
Tweet

More Decks by BrainPad

Other Decks in Science

Transcript

  1. 目次 • はじめに • 位相的データ解析(Topological Data Analysis, TDA)とは? • トポロジー=「柔らかい幾何学」について

    • 位相的データ解析の応用 • 企業の技術戦略 • Mapperのアルゴリズム • Mapperによる技術空間の可視化 • まとめ
  2. トポロジーの例 ケーニヒスベルクの橋の問題(オイラー、17世紀) 左図にある橋をちょうど一回ずつ経由し街を一周することはできるか? 島を頂点、橋を辺とした グラフに翻訳 定義 グラフ𝐺 = (𝑉, 𝐸)とは、頂点集合

    𝑉 と隣接関係を定める辺集合E のペアである ※頂点の位置そのものや辺の長さといった「かたい」情報は含まない https://ja.wikipedia.org/wiki/%E4%B8%80%E7%AD%86%E6%9B%B8%E3 %81%8D#/media/%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB: Konigsberg_bridges.png
  3. TDAの応用例:企業の技術戦略について • エスカラ、平岡(数学)と伊神(経済学)による共著論文[1]: • 企業の技術戦略を「特許ポートフォリオ」の時系列推移により捉えたい 設定 • 企業: 𝑖 =

    1, 2, … , 333 • 年: 𝑡 = 1976, 1977, … , 2005 • 技術カテゴリー: 𝑐 = 1, 2, … , 430 • 𝑝𝑖,𝑡 = (𝑝𝑖,𝑡,1 , 𝑝𝑖,𝑡,2 , … , 𝑝𝑖,𝑡,430 ):企業 𝑖 の 𝑡 年における特許ポートフォリオ • 各成分 𝑝𝑖,𝑡,𝑐 は、技術カテゴリー 𝑐 における特許取得数 → 𝑝𝑖,𝑡 𝑡 = 1976, … , 2005, 𝑖 = 1,2, … , 333 を430次元の「技術空間」 𝑅430にマッピング 1. Escolar, Emerson and Hiraoka, Yasuaki and Igami, Mitsuru and Ozcan, Yasin, Mapping Firms‘ Locations in Technological Space: A Topological Analysis of Patent Statistics (August 2, 2022). Available at https://doi.org/10.1016/j.respol.2023.104821
  4. Mapper 高次元データのため単純な可視化が困難 → MapperとよばれるTDAの一手法を用いることで、データ 𝑝𝑖,𝑡 の「つながり」に着目した可視化を行う 発想 アウトプット 手法 最大情報をもつ平面へ射影

    PCA データの「つながり」に着目し グラフに変換 Mapper 各企業の時系列推移などの得たい情報が つぶれてしまう 以下の可視化に成功: • 個々の企業の時系列推移 • 企業間の競合状態 引用:https://arxiv.org/abs/1909.00257
  5. アルゴリズム Step 1 元のデータ 𝑋 ⊆ 𝑅𝑑 から平面 𝑅2への関数 𝑓:

    𝑅𝑑 → 𝑅2 を与える Step 2 • 関数による像 𝑓(𝑋)の被覆𝑓 𝑋 ⊂ ⋃𝐶𝑖 を与えて おく • 元データ 𝑋 を逆像 𝑓−1 𝐶𝑖 = 𝑥 ∈ 𝑋: 𝑓 𝑥 ∈ 𝐶𝑖 により分割する(重複あり) 数学的な定式化 イメージ • ある平面へ射影する • 射影先を領域に分割(のりしろ有り) • 元データを「どの領域に射影されるか」で色分け 引用:https://arxiv.org/abs/1909.00257
  6. アルゴリズム Step 3 各逆像 𝑓−1 𝐶𝑖 = 𝑥 ∈ 𝑋:

    𝑓 𝑥 ∈ 𝐶𝑖 ごとにクラスタリングし、非交差和 𝑓−1 𝐶𝑖 = ⊔ 𝑉𝑖,𝑗 を得る Step 4 • 各クラスター 𝑉𝑖,𝑗 を頂点としたグラフを考える。 • ただし、2頂点𝑈, 𝑉間の辺は 𝑈, 𝑉が元データの空間 𝑅𝑑 で共通部分を持つ ときのみ与えられる • 色分けされたデータごとにクラスタリング • 各クラスターをひとつの「頂点」とみなす • 異なる色のクラスターの交わりを「隣接」とみなし辺を張る 数学的な定式化 イメージ 引用:https://arxiv.org/abs/1909.00257
  7. Mapperによる技術空間の可視化 技術空間 𝑅430 内にマッピングされたデータ 𝑋 = {𝑝𝑖,𝑡 ∶ 𝑖 =

    1,2,3 … 330, 𝑡 = 1976, … 2005} にMapperを適用した結果、企業の独自戦略が可視化された 𝑖 = インテル、 t = 1990′𝑠 ~ に対し 元データ 𝑝𝑖,𝑡 はグラフの突起部分に位置 例:インテル この結果は、インテルがメモリーからCPUへと事 業の主力を移した歴史と合致 他の企業との連続性をもたない インテルの独自戦略 引用:https://arxiv.org/abs/1909.00257
  8. まとめ:トポロジーを用いるとデータの「形」が分かる • 位相的データ解析(Topological Data Analysis, TDA): トポロジーを用いてデータの「形」を調べる手法の総称 • Mapper •

    TDAの一手法。「つながり」に着目し高次元データをグラフとして可視化する • Mapperの応用 • 特許取得数をマッピングした技術空間の可視化 → 企業の独自戦略の可視化に成功
  9. 参考文献 • 今回紹介した論文(再掲) 1. Escolar, Emerson and Hiraoka, Yasuaki and

    Igami, Mitsuru and Ozcan, Yasin, Mapping Firms‘ Locations in Technological Space: A Topological Analysis of Patent Statistics (August 2, 2022). • 伊神先生による論文解説動画 • Mapperドキュメント • 『タンパク質構造とトポロジー ―パーシステントホモロジー群入門― 』 平岡裕章著、共立出版 • TDAの一手法である「パーシステントホモロジー」の概要を、大学教養レベルの数学知識のみを仮定して解説