Slide 1

Slide 1 text

位相的データ解析とその応用例 2023年2月1日 見上達哉

Slide 2

Slide 2 text

目次 • はじめに • 位相的データ解析(Topological Data Analysis, TDA)とは? • トポロジー=「柔らかい幾何学」について • 位相的データ解析の応用 • 企業の技術戦略 • Mapperのアルゴリズム • Mapperによる技術空間の可視化 • まとめ

Slide 3

Slide 3 text

はじめに

Slide 4

Slide 4 text

位相的データ解析(Topological Data Analysis, TDA) トポロジー(位相幾何学)という数学の一分野を用いてデータの「形」を分析する手法の総称 「輪っか」のような 特徴を抽出 おおまかな形状を グラフに翻訳 分析 手法 パーシステント ホモロジー Mapper

Slide 5

Slide 5 text

トポロジー:やわらかい幾何学 連続変形でうつりあう図形の性質を調べる幾何学の一分野 回転・平行移動 でうつりあう ≡ 辺の長さ 回転・平行移動 ・拡大縮小 でうつりあう ∽ 辺の比・角度 連続変形 でうつりあう ≌ 穴・空洞 つながり方 図形の分類基準 イメージ 得たい情報(例)

Slide 6

Slide 6 text

トポロジーの例 ケーニヒスベルクの橋の問題(オイラー、17世紀) 左図にある橋をちょうど一回ずつ経由し街を一周することはできるか? 島を頂点、橋を辺とした グラフに翻訳 定義 グラフ𝐺 = (𝑉, 𝐸)とは、頂点集合 𝑉 と隣接関係を定める辺集合E のペアである ※頂点の位置そのものや辺の長さといった「かたい」情報は含まない https://ja.wikipedia.org/wiki/%E4%B8%80%E7%AD%86%E6%9B%B8%E3 %81%8D#/media/%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB: Konigsberg_bridges.png

Slide 7

Slide 7 text

位相的データ解析の応用

Slide 8

Slide 8 text

TDAの応用例:企業の技術戦略について • エスカラ、平岡(数学)と伊神(経済学)による共著論文[1]: • 企業の技術戦略を「特許ポートフォリオ」の時系列推移により捉えたい 設定 • 企業: 𝑖 = 1, 2, … , 333 • 年: 𝑡 = 1976, 1977, … , 2005 • 技術カテゴリー: 𝑐 = 1, 2, … , 430 • 𝑝𝑖,𝑡 = (𝑝𝑖,𝑡,1 , 𝑝𝑖,𝑡,2 , … , 𝑝𝑖,𝑡,430 ):企業 𝑖 の 𝑡 年における特許ポートフォリオ • 各成分 𝑝𝑖,𝑡,𝑐 は、技術カテゴリー 𝑐 における特許取得数 → 𝑝𝑖,𝑡 𝑡 = 1976, … , 2005, 𝑖 = 1,2, … , 333 を430次元の「技術空間」 𝑅430にマッピング 1. Escolar, Emerson and Hiraoka, Yasuaki and Igami, Mitsuru and Ozcan, Yasin, Mapping Firms‘ Locations in Technological Space: A Topological Analysis of Patent Statistics (August 2, 2022). Available at https://doi.org/10.1016/j.respol.2023.104821

Slide 9

Slide 9 text

Mapper 高次元データのため単純な可視化が困難 → MapperとよばれるTDAの一手法を用いることで、データ 𝑝𝑖,𝑡 の「つながり」に着目した可視化を行う 発想 アウトプット 手法 最大情報をもつ平面へ射影 PCA データの「つながり」に着目し グラフに変換 Mapper 各企業の時系列推移などの得たい情報が つぶれてしまう 以下の可視化に成功: • 個々の企業の時系列推移 • 企業間の競合状態 引用:https://arxiv.org/abs/1909.00257

Slide 10

Slide 10 text

Mapper 点群データ𝑋 ⊆ 𝑅𝑑の「つながり」の情報を保持しつつ、グラフへの変換を行う 特徴 • 元データの「輪っか」や「しっぽ」の情報をつぶさない • 元データの次元の影響を受けにくい • グラフはあくまで「頂点とそのつながり」の情報しか持たないため平面上に可視化できる 元データ グラフ

Slide 11

Slide 11 text

アルゴリズム Step 1 元のデータ 𝑋 ⊆ 𝑅𝑑 から平面 𝑅2への関数 𝑓: 𝑅𝑑 → 𝑅2 を与える Step 2 • 関数による像 𝑓(𝑋)の被覆𝑓 𝑋 ⊂ ⋃𝐶𝑖 を与えて おく • 元データ 𝑋 を逆像 𝑓−1 𝐶𝑖 = 𝑥 ∈ 𝑋: 𝑓 𝑥 ∈ 𝐶𝑖 により分割する(重複あり) 数学的な定式化 イメージ • ある平面へ射影する • 射影先を領域に分割(のりしろ有り) • 元データを「どの領域に射影されるか」で色分け 引用:https://arxiv.org/abs/1909.00257

Slide 12

Slide 12 text

アルゴリズム Step 3 各逆像 𝑓−1 𝐶𝑖 = 𝑥 ∈ 𝑋: 𝑓 𝑥 ∈ 𝐶𝑖 ごとにクラスタリングし、非交差和 𝑓−1 𝐶𝑖 = ⊔ 𝑉𝑖,𝑗 を得る Step 4 • 各クラスター 𝑉𝑖,𝑗 を頂点としたグラフを考える。 • ただし、2頂点𝑈, 𝑉間の辺は 𝑈, 𝑉が元データの空間 𝑅𝑑 で共通部分を持つ ときのみ与えられる • 色分けされたデータごとにクラスタリング • 各クラスターをひとつの「頂点」とみなす • 異なる色のクラスターの交わりを「隣接」とみなし辺を張る 数学的な定式化 イメージ 引用:https://arxiv.org/abs/1909.00257

Slide 13

Slide 13 text

Mapperによる技術空間の可視化 技術空間 𝑅430 内にマッピングされたデータ 𝑋 = {𝑝𝑖,𝑡 ∶ 𝑖 = 1,2,3 … 330, 𝑡 = 1976, … 2005} にMapperを適用した結果、企業の独自戦略が可視化された 𝑖 = インテル、 t = 1990′𝑠 ~ に対し 元データ 𝑝𝑖,𝑡 はグラフの突起部分に位置 例:インテル この結果は、インテルがメモリーからCPUへと事 業の主力を移した歴史と合致 他の企業との連続性をもたない インテルの独自戦略 引用:https://arxiv.org/abs/1909.00257

Slide 14

Slide 14 text

まとめ:トポロジーを用いるとデータの「形」が分かる • 位相的データ解析(Topological Data Analysis, TDA): トポロジーを用いてデータの「形」を調べる手法の総称 • Mapper • TDAの一手法。「つながり」に着目し高次元データをグラフとして可視化する • Mapperの応用 • 特許取得数をマッピングした技術空間の可視化 → 企業の独自戦略の可視化に成功

Slide 15

Slide 15 text

参考文献 • 今回紹介した論文(再掲) 1. Escolar, Emerson and Hiraoka, Yasuaki and Igami, Mitsuru and Ozcan, Yasin, Mapping Firms‘ Locations in Technological Space: A Topological Analysis of Patent Statistics (August 2, 2022). • 伊神先生による論文解説動画 • Mapperドキュメント • 『タンパク質構造とトポロジー ―パーシステントホモロジー群入門― 』 平岡裕章著、共立出版 • TDAの一手法である「パーシステントホモロジー」の概要を、大学教養レベルの数学知識のみを仮定して解説

Slide 16

Slide 16 text

株式会社ブレインパッド 106-0032 東京都港区六本木三丁目1番1号 六本木ティーキューブ TEL:03-6721-7002 FAX:03-6721-7010 www.brainpad.co.jp [email protected] 本資料は、未刊行文書として日本及び各国の著作権法に基づき保護されております。本資料には、株式会社ブレインパッド所有の特定情報が含まれており、これら情報に基づく本資料の内容は、貴社以外の第三者に開示されること、また、本資料を評価する以外の目的で、その 一部または全文を複製、使用、公開することは、禁止されています。また、株式会社ブレインパッドによる書面での許可なく、それら情報の一部または全文を使用または公開することは、いかなる場合も禁じられております。 ©BrainPad Inc. Strictly Confidential