2023/2/10担当:九州⼤学 医学専攻博⼠課程2年菱沼 秀和
View Slide
COMMOTでできることFig.5
塩浦昭義 先⽣ スライドhttp://www.iee.e.titech.ac.jp/~shioura/teaching/mp14/index.html今回 参考にした資料『最適輸送の理論とアルゴリズム』佐藤⻯⾺かなりの部分こちらの内容を引⽤しました<⾔い訳>厳密な理解にはルベーグ積分と測度論が必要らしいですが、表⾯的にしかなぞっていないので、質問に答えられない可能性があります。
最適輸送ってなに『2つの確率分布を⽐較するツール』などと表現されるがピンとこない馴染みがなかったが最適化理論で学ぶ線形計画法で登場<⽬次>第1章 数学的準備第2章 関数の極値第3章 関数の最適化… 勾配法,ニュートン法など第4章 最⼩⼆乗法第5章 統計的最適化… 最尤推定, EMアルゴリズム第6章 線形計画法6.1 線形計画の標準形6.2 可能領域6.3 線形計画の基本定理6.4 スラック変数6.5 シンプレックス法6.6 退化6.7 ⼈⼯変数6.8 双対原理第7章 ⾮線形計画法→SVMへ発展ୈ8ষ ಈతܭը๏
最適輸送 例題1⼯場 X, ⼯場 Y がありそれぞれ製品を 100 個、 200 個⽣産する.それらを町 1 に 75 個, 町 2 に 225 個輸送したい.各⼯場から各町への 1 個あたりの輸送費⽤は 次の表のようにかかる.輸送費⽤を最⼩にするには、どのように輸送すればよいか?町1(75個) 町2(225個)⼯場X(100個) 2円 6円⼯場Y(200個) 1円 4円町1へ 町2へ⼯場Xから 𝑥!個 𝑥"個 100個⼯場Yから 𝑦!個 𝑦"個 200個75個 225個𝐶 =2 61 4𝑋 =𝑥!𝑥"𝑦!𝑦"
最適輸送 例題2𝑪 =2 61 4𝑿 =𝑥!𝑥"𝑦!𝑦"問題を読みかえると𝒂 =100200𝒃 =75225𝑠𝑢𝑏𝑗𝑒𝑐𝑡 𝑡𝑜この問題はシンプルなので⾼校までの数学で解けてしまう。𝑋 =75 250 200のとき輸送コストを最⼩化でき 1100円min# ∈ ℝ!×!4&'!"4('!"𝑪&(𝑿&(𝑿&(≥ 0 ∀𝑖 ∈ 2 , ∀𝑗 ∈ 24('!"𝑿&(= 𝒂&, 4&'!"𝑿&(= 𝒃(∀𝑖 ∈ 2 , ∀𝑗 ∈ 2
最適輸送 例題2ヒストグラムA を改変してヒストグラムB を作るコストの最⼩値はいくらかA Bコスト関数𝐶 =0 2 2 22 0 1 22 1 0 22 2 2 0猫と⻁は近そうなので低コスト𝐴 =0.20.50.20.1, B =0.30.30.40.0
最適輸送 例題2ヒストグラムA を改変してヒストグラムB を作るコストの最⼩値はいくらかA B答え𝑃 =0.2 0 0 00 0.3 0.2 00 0 0.2 00.1 0 0 0 の時, コストは0.4で最⼩
最適輸送 例題2𝐶 =0 2 2 22 0 1 22 1 0 22 2 2 0𝐴 =0.20.50.20.1, B =0.30.30.40.0ヒストグラムA, Bは合計が1なので 分類モデルが出⼒した確率ベクトルと⾒ることもできる。この時、確率分布A,Bの最適輸送コスト0.4を確率分布間がどの程度異なるかの指標とみなしてはどうか→実際コスト⾏列に特別な制約を課すことで距離の公理を満たすようになり、厳密に最適輸送コストを分布間の距離とみなせる ex) Wasserstein 距離適切なコスト関数Cを設定し⼀般化すれば, ⾏列A,Bの成分にあたるデータはカテゴリだけでなく, ベクトル, 画像データなどでもよい。⾏列AやBにあたる分布全体が連続関数でもよい。
KLダイバージェンス𝐾𝐿 𝛼 ∥ 𝛽 = .>𝑝 𝑥 𝑙𝑜𝑔𝑝(𝑥)𝑞(𝑥)𝑑𝑥 = 𝔼?~A(?) 𝑙𝑜𝑔𝑝(𝑥)𝑞(𝑥)KLダイバージェンスは𝐾𝐿 𝛼 ∥ 𝛽 ≠ 𝐾𝐿 𝛽 ∥ 𝛼 のため厳密には距離ではない。最尤推定はパラメータ(𝜃)を持つ分布𝑝)(𝑥)について、サンプリングしたデータからなる経験分布 𝑝(𝑥)と𝑝)(𝑥)のKLダイバージェンスを最⼩にするパラメータ𝜃 を推定していることが式変形で⽰せる。2つの確率分布の差異を計る尺度Qiita:⽣成モデルで語られる Kullback-Leibler を理解するhttps://qiita.com/TomokIshii/items/b9a11c19bd5c36ad0287
佐藤⻯⾺ IBIS2021スライドよりhttps://ibisml.org/ibis2021/KLダイバージェンスと最適輸送コストの⽐較例) 気温のヒストグラムKLダイバージェンスでは ⻘↔⾚の距離と⻘↔緑の距離は同じ最適輸送では ⻘↔緑の⽅が⼤きく、分布の⽐較において距離構造を反映可能
最適輸送 ⽤語定義min# ∈ ℝ!×!4&'!"4('!"𝑪&(𝑿&(𝑿&(≥ 0 ∀𝑖 ∈ 2 , ∀𝑗 ∈ 24('!"𝑿&(= 𝒂&, 4&'!"𝑿&(= 𝒃(∀𝑖 ∈ 2 , ∀𝑗 ∈ 2制約条件実⾏可能解 … 制約条件を全て満たしている決定変数X輸送多⾯体… 実⾏可能解の集合線形計画の問題を標準形で定式化した時, 解空間が凸多⾯体となる… ⽬的関数
要旨・空間トランスクリプトームデータをもとにリガンドと受容体を介した細胞間相互作⽤の推定を⾏うツール, COMMOTを提案・複数のリガンド・受容体の競合と空間的制約を適切に組み込み最適化するために、改良した最適輸送アルゴリズムを導⼊・重要な細胞間相互作⽤に対して厳密な解析を⾏うためのスクリーニングとしてCOMMOTは有効である。また、解析結果をCOMMOTのパラメータに反映することでより精度を⾼められる・PDEモデルによるシミュレーションデータと⽐較して予測の妥当性を検証・既存の空間データを⽤いてCOMMOTの有効性を確認
COMMOTでできること下流の解析についてきちんと説明できない
最適化する⽬的関数𝑷イメージ・リガンドと受容体のなるべく近い組み合わせを探す・スポットごとの発現量と⼀致する
効率的なアルゴリズムを適⽤するための定式化・正則化エントロピー Hについて・εは実際には計算効率化のために全て同じ値をとる⽬的:・強凸性による効率的な最適化アルゴリズムの実装・⾮負制約の表現佐藤⻯⾺ IBIS2021スライドよりhttps://ibisml.org/ibis2021/
双対問題として損失関数の下界を求める最後の⼆項は結合したリガンド・受容体と無駄になったものを合計するとシグナル発現量に⼀致することを制約𝑓, 𝑔 … ラグランジュ乗数𝑔!𝑔"𝑔*𝑓!𝑓!+ 𝑔!𝑓!+ 𝑔"𝑓!+ 𝑔*𝑓"𝑓"+ 𝑔!𝑓"+ 𝑔"𝑓"+ 𝑔*𝑓⨁𝑔対数領域シンクホーン アルゴリズムの導出制約条件を⽬的関数に組み⼊れる
双対問題補⾜双対問題 … 最適化理論において主問題の最適解を得ることと対応する補問題→要するに、「同じ問題を別の観点から」強双対定理… 主問題が線形計画の時、主問題の最適値と双対問題の最適値が⼀致する最適値(⽬的関数の最⼩値)が少なくともこれ以上だというような値を簡単に⾒積もる⽅法はないか?↓双対問題の最適値(⽬的関数の最⼤値)を求めればいい↓線形計画なら、そのまま主問題の最適解が分かるおまけに、双対問題の⽅がコンピュータで最適化しやすい場合がある。今回双対問題を求める理由はコレ→Sinkhorn アルゴリズム
双対問題・ラグランジュ緩和補⾜min+∈ℝ#𝑓(𝑥)𝑠𝑢𝑏𝑗𝑒𝑐𝑡 𝑡𝑜 ℎ&𝑥 ≤ 0 ∀𝑖 ∈ 1, … , 𝑛ℎ&𝑥 = 0 ∀𝑖 ∈ 𝑛 + 1, … , 𝑛 + 𝑚以下を考える。制約条件を⽬的関数に統合したい。≤ 0, = 0 のような条件をどう扱うか以下の関数を導⼊ℒ,-𝑥 ≝ X0 𝑥 ≤ 0∞ 𝑥 > 0ℒ-𝑥 ≝ X0 (𝑥 = 0)∞ (𝑥 ≠ 0)min+∈ℝ#𝑓(𝑥) + 4&'!.ℒ,-ℎ&𝑥 + 4&'./!0ℒ-ℎ&𝑥事実上,制約条件に反すると⽬的関数が∞になるしくみ
双対問題・ラグランジュ緩和補⾜ℒ!"𝑥 ≝ $0 𝑥 ≤ 0∞ 𝑥 > 0ℒ"𝑥 ≝ $0 (𝑥 = 0)∞ (𝑥 ≠ 0)min+∈ℝ#𝑓(𝑥) + 4&'!.ℒ,-ℎ&𝑥 + 4&'./!0ℒ-ℎ&𝑥主問題𝑓∗ 𝑥 = 𝑓(𝑥) + 4&'!.ℒ,-ℎ&𝑥 + 4&'./!0ℒ-ℎ&𝑥としてmin 𝑓∗ 𝑥 ≥ min 𝐿 ・となる min 𝐿 ・ , ラグランジュ緩和問題を探す。任意の𝜆 ≥ 0 についてℒ,-ℎ(𝑥) ≥ 𝜆ℎ 𝑥ℒ-ℎ(𝑥) ≥ 𝜆ℎ(𝑥) より𝐿 𝑥, 𝜆!, … , 𝜆./0≝ 𝑓 𝑥 + 4&'!.𝜆&ℎ&𝑥 + 4&'./!0𝜆&ℎ&𝑥コンピュータフリーク双対問題: 線形計画⼊⾨ 8より
双対問題・ラグランジュ緩和補⾜𝐿 𝑥, 𝜆!, … , 𝜆./0≝ 𝑓 𝑥 + 4&'!.𝜆&ℎ&𝑥 + 4&'./!0𝜆&ℎ&𝑥𝑔 𝜆!, … , 𝜆./0= min+∈ℝ#𝐿 𝑥, 𝜆!, … , 𝜆./0として,線形計画なのでmin+∈ℝ#𝑓∗ 𝑥 = max2𝑔 𝜆!, … , 𝜆./0双対問題
Collective Optimal Transport の提案古典的な最適輸送・各分⼦の発現量が等しくなるように正規化される不均衡最適輸送・最適化⼿法の制約により,発現量の収⽀に致命的な⽭盾が⽣じうる部分最適輸送・推定困難な追加パラメータが必要になるCollective Optimal Transportリガンドと受容体の競合を考慮しつつ,上記問題を回避した定式化
Collective Optimal Transportに対応した対数領域シンクホーン アルゴリズムの導出𝑔!𝑔"𝑔*𝑓!𝑓!+ 𝑔!𝑓!+ 𝑔"𝑓!+ 𝑔*𝑓"𝑓"+ 𝑔!𝑓"+ 𝑔"𝑓"+ 𝑔*𝑓⨁𝑔制約条件を⽬的関数に組み⼊れる双対問題として損失関数の下界を求める最後の⼆項は結合したリガンド・受容体と無駄になったものを合計するとシグナル発現量に⼀致することを制約𝑓, 𝑔 … ラグランジュ乗数
𝜕𝜖𝜕𝜇&= 𝜖 log 𝜇&+ 𝜌 − 𝑓&= 0 ⇒ 𝝁 = exp𝒇 − 𝜌𝜀(7)∗ 𝑃&(より𝐶&(∗ 𝑃&(+ 𝜖𝑃&(log 𝑃&(= 𝑓&∗ 𝑃&(+ 𝑔(∗ 𝑃&(𝑃, 𝐶 3+ 𝜖𝐻 𝑃 = 𝑓, 𝑃1. + 𝑔, 𝑃410 − 𝜖 𝑃, 10×.3𝜖𝐻 𝜇 + 𝜌 𝜇 != 𝑓, 𝜇 − 𝜖 𝜇, 10×.𝜐も同様
(9)について𝒇は𝒈が決定されている時, 成分ごとに独⽴で勾配計算ができる。𝒈についても同様𝐿を最⼤化するために𝑓, 𝑔の⼀⽅を固定し他⽅を決定する時、(9)が0として対数をとると簡単のため として、𝑓ないし𝑔は
最適化計算の安定化のため以下のように書き換える任意の値 𝑓(-), 𝑔(-)からパラメータの更新を⾏う
Ext Data Fig.1COMMOTによるCCC推定とPDEモデルの⽐較CCC : cell-cell communicationsPDEの特定のパラメータ(拡散係数など)にしかfitしていない気がするが…
Fig. 2 Role of CCC in human skin development
主要なシグナル経路の⽅向と影響を受ける下流遺伝⼦の予測Fig. 2 Role of CCC in human skin development
Fig. 3 Inference of signaling direction in single-cell resolution spatial transcriptomics data.
Comparison between mouse and human placentahttp://katecholamine.org/portfolio/02_mouse_placenta/Fig. 3 Inference of signaling direction in single-cell resolution spatial transcriptomics data.
ANNEXIN, Angiopoietinは⽅向性の似た領域で活性化しているFig. 3 Inference of signaling direction in single-cell resolution spatial transcriptomics data.
Fig.4 Downstream analysis of inferred CCC in single-cell resolution spatial transcriptomics data
Fig.5 CCC inference using Visium spatial transcriptomics data.
まとめ・空間トランスクリプトームデータをもとにリガンドと受容体を介した細胞間相互作⽤の推定を⾏うツール, COMMOTを提案・複数のリガンド・受容体の競合と空間的制約を適切に組み込み最適化するために、改良した最適輸送アルゴリズムを導⼊・重要な細胞間相互作⽤に対して厳密な解析を⾏うためのスクリーニングとしてCOMMOTは有効である。また、解析結果をCOMMOTのパラメータに反映することでより精度を⾼められる・PDEモデルによるシミュレーションデータと⽐較して予測の妥当性を検証・既存の空間データを⽤いてCOMMOTの有効性を確認