How to leverage optimal transport

最適輸送の使い⽅直感的理解のための最適輸送⼊⾨兼単語埋込⼊⾨横井祥 (東北⼤学) 2021-06-19, 0xセミナー,
最適輸送の情報科学における進展

今⽇の⽬標︓ 最適輸送の直感的理解とキーワードの把握 2 • ⾃然⾔語処理を中⼼に多くの利⽤例を挙げながら、最適輸送の直感的な理解を⽬指します。 • 「こんな⾵に使うことができるんだ… ⾯⽩い道具じゃん」「こういう使い⽅をしたかったらこういうキーワードで調
べれば良いのね」と知識にアンカーを張るのも⼤きな⽬的です。より深く知りたい⼈のための参考⽂献もできるだけ潤沢に加えました。 • また、例として頻繁に活⽤する⾃然⾔語処理に馴染みがないかたのために、最初に単語埋込のチュートリアルをつけてあります。

⾃⼰紹介

⾃⼰紹介 4 • 横井祥 − ⾃然⾔語処理 (NLP) のリサーチャーです． −
道具としての最適輸送がすごく⾯⽩いと思っています． − http://www.cl.ecei.tohoku.ac.jp/~yokoi/ • 所属 − 東北⼤学乾研究室 (⾃然⾔語処理) − 理研AIP 下平グループ (数理統計) − JST ACT-X 数理・情報 • ⾃然⾔語処理の和を広げるぞ活動 − YANS (NLP若⼿の会) @yans_official – NLPに参⼊したい⼈やはじめたばかりの⼈が仲間を作るための会，今年は 8/30–31 開催 − NLPコロキウム @nlp_colloquium – 最新のNLP研究を20分で．⽔曜正午より，2〜3週に1度開催 − 最先端NLP勉強会 – NLP研究者のための論⽂読み会

⾃⼰紹介 5 − ⾔語処理学会第27回年次⼤会優秀賞 (8/361). 横井祥, 下平英寿.
単語埋め込みの確率的等⽅化. 2021年3⽉. − ⾔語処理学会第27回年次⼤会委員特別賞. 内藤雅博, 横井祥, 下平英寿. 単語埋め込みによる論理演算. 2021年3⽉. − 情報処理学会 2019年度研究会推薦博⼠論⽂. 横井祥. Computing Co- occurrence with Kernels (カーネル法に基づく共起の計算). 2020年7⽉13⽇. − ⾔語処理学会第26回年次⼤会最優秀賞 (2/396). 横井祥, ⾼橋諒, ⾚間怜奈, 鈴⽊潤, 乾健太郎. 超球⾯上での最適輸送コストに基づく⽂類似性尺度. 2020年3⽉ 16⽇. − ⾔語処理学会第26回年次⼤会最優秀賞 (2/396). ⼩林悟郎, 栗林樹⽣, 横井祥, 鈴⽊潤, 乾健太郎. ベクトル⻑に基づく⾃⼰注意機構の解析. 2020年3⽉16⽇. − 2018年度⼈⼯知能学会全国⼤会全国⼤会優秀賞 (⼀般セッション⼝頭部⾨) (21/753). 横井祥, 乾健太郎. カーネル法に基づく疎な⾔語表現のための⾼速計算可能な共起尺度. 2018年7⽉26⽇. − 2018年度⼈⼯知能学会全国⼤会全国⼤会優秀賞 (⼀般セッション⼝頭部⾨) (21/753). ⾚間怜奈, 横井祥, 乾健太郎. スタイルの類似性を捉えた単語ベクトルの教師なし学習. 2018年7⽉26⽇. − 2017年度⼈⼯知能学会全国⼤会全国⼤会優秀賞 (インタラクティブ発表部⾨, オーガナイズドセッション⼝頭発表部⾨ 2部⾨) (22/約750). 横井祥. 独⽴性尺度に基づく知識の粒度の教師なし推定. 2017年7⽉18⽇. − など

研究トピック抜粋 6 • ⾃然⾔語の表現学習 − Reina Akama, Kento Watanabe, Sho
Yokoi, Sosuke Kobayashi, Kentaro Inui. Unsupervised Learning of Style-sensitive Word Vectors. ACL 2018. − Goro Kobayashi, Tatsuki Kuribayashi, Sho Yokoi, Kentaro Inui. Attention Module is Not Only a Weight: Analyzing Transformers with Vector Norms. EMNLP 2020. − Masahiro Naito, Sho Yokoi, Geewook Kim, Hidetoshi Shimodaira. Revisiting Additive Compositionality: AND, OR and NOT Operations with Word Embeddings. ACL-SRW 2021. • 最適輸送 for ⾃然⾔語処理 − Sho Yokoi, Ryo Takahashi, Reina Akama, Jun Suzuki, Kentaro Inui. Word Rotatorʼs Distance. EMNLP 2020. − Ayato Toyokuni, Sho Yokoi, Hisashi Kashima, Makoto Yamada. Computationally Efficient Wasserstein Loss for Structured Labels. EACL-SRW 2021.

会全体の概要

企画の概要 8 • 0xセミナー第3回, 最適輸送の情報科学における進展 − https://sites.google.com/view/uda-0x-seminar/home/0x03 • 基礎編
(2⽇⽬) by 佐藤さん − 「最適輸送の情報科学」の話 − https://www.slideshare.net/joisino/ss-249394573 • 応⽤編 (1⽇⽬) − 「最適輸送を情報科学で使う」話 − https://speakerdeck.com/eumesy/how-to-leverage-optimal-transport • ※トーク順の気持ち − 1⽇⽬に「こんな⾯⽩い道具なのね」「最適輸送怖くないぞ?」となってもらう − 2⽇⽬に本格的な数理・CSの話 (数理最適化, アルゴリズムの話) を知ってもらう

この2⽇間の (ひとつの) 達成⽬標 9 • 最適輸送 for 情報科学のデファクトになりそうな教科書 − Peyré
& Cuturi, “Computational Optimal Transport: With Applications to Data Science,” 2019. – 書籍: https://www.nowpublishers.com/article/Details/MAL-073 – arXiv: https://arxiv.org/abs/1803.00567 – サポートページ: https://optimaltransport.github.io/book/ • …を − 1⽇⽬「お… 読める︕読めるぞ︕」になる． − 2⽇⽬「すでに理解できている話が結構あるぞ，ふふん」になる． − このスライドでの記法もなるべくこの書籍と⼀貫させます．

今⽇する話

⽬次 11 • 1. 準備︓単語埋め込みの基礎 − 分布仮説に基づく単語ベクトルの学習の気持ちを知る． − word2vec や
BERT について「はいはい知ってる知ってる」になる． − ※ ⾃然⾔語処理の話 • 2. 最適輸送の基礎 − NLP等の応⽤事例を通じてMonge–Kantorovichの問題を直感的に理解する． − 最適輸送とかWasserstein距離とか書いてある機械学習系の⽂書を⾒ても「お…怖くないぞ…」となる． • 3. 最適輸送の変種・拡張 − NLP等の応⽤事例を通じて Gromov–Wasserstein, unbalanced OT, barycenter, など最適輸送の変種・拡張や関連するキーワードを概観し，どういう道具なのか直感的に理解する．

注 12 • 知っていると理解がスムーズになる前提知識 − 初等的な線形代数 (というより⾏列計算) と確率統計の記法 − 機械学習とくに教師あり学習，勾配降下法によるニューラルネットの学習
– 知らなくてもメインのストーリーの理解には影響ないように話します． • しない話 − 数学の話はほとんどしません． – self-containedness や厳密性よりも直感的な理解を優先します． – 精確に理解したいかた向けに適宜論⽂や書籍の情報を補います． − 計算⽅法・アルゴリズムの話はほとんどしません． – 双対問題の考え⽅，エントロピー正則化と Sinkhorn distance，Wasserstein GAN，etc. – → 明⽇の佐藤さんのトークにて • https://www.slideshare.net/joisino/ss-249394573 • 質疑応答・コメント − 各コマ毎に最後に15分のQAタイムを設けます． − トーク中の質問・コメント遠慮なく︕zoom 等に投げてください． − 反応が⾒えないのは寂しいので雑談コメントもご遠慮なく．

1. ⾃然⾔語の表現学習⼊⾨ 13 ※ 「最適輸送最⾼…︕」となるための準備 ※ このセクションは独⽴して読めます

このセクションのまとめ 14 ⾃然⾔語の表現学習⼊⾨ • 意味の表現と計算 • 単語︓「分布仮説に基づく単語埋込の学習」というパラダイム − word2vec，BERT
• ⽂︓単語の表現を使っていかに⽂の意味を計算するか

「意味」の表現と計算

分野の⽬標︓⾔葉の意味を計算したい 16 • ⾃然⾔語処理・⾃然⾔語理解 − ⾃然⾔語⽂を計算機を⽤いて処理したい – 機械翻訳，かな漢字変換，chat bot −
⾃然⾔語を計算モデルを介して理解したい − cf. ⾳声データ, 形式⾔語, …

分野の⽬標︓⾔葉の意味を計算したい 17 • ⾃然⾔語処理・⾃然⾔語理解 − ⾃然⾔語⽂を計算機を⽤いて処理したい – 機械翻訳，かな漢字変換，chat bot −
⾃然⾔語を計算モデルを介して理解したい − cf. ⾳声データ, 形式⾔語, … • 課題︓⾔葉の意味の計算 − 計算機でいかにテキストの意味を表現するか − テキストの計算機可読表現を⽤いていかに意味を計算するか – “⽝” はどういう意味︖ – “⽝” と “ペット” の意味的な関係は︖ – “親戚がペットを飼っていて羨ましい” と “従兄弟が⽝を飼っていて羨ましい” の意味的な関係は︖

⾔葉の意味の計算 18 • ⾔葉の意味を計算する − “John loves Mary.” の意味は?

⾔葉の意味の計算 19 • ⾔葉の意味を計算する − “John loves Mary.” の意味は? −
o0( [39011, 2250, 10483, 18] のイミは…? ) • ふたつの⼤きな問題 − 単語の意味を，計算機でどう表現するか − ⽂の意味を，⽂を構成する語の意味からどのように合成するか – 我々は有限な語彙を組み合わせることによってこれまで誰も表現してこなかった考えを表現できる [Frege,19c]

「意味」とは 20 • “Biden” の意味は︖

「意味」とは 21 • “Biden” の意味は︖ − Biden という定数記号︖（モデル理論的意味論） − 現実世界の
Joe Biden︖（現実世界の指⽰先） − Wikipedia の Joe Biden の記事︖（Entity linking）

Joe Biden︖（現実世界の指⽰先） − Wikipedia の Joe Biden の記事︖（Entity linking） • “cat” の意味は︖ − 現実世界の猫（の集合）︖（現実世界の指⽰先） − 猫という観念︖（⼼の中の猫観念） − 辞書的な説明︖ – 「⾷⾁⽬ネコ科の哺乳類．体はしなやかで，(...)」[⼤辞泉]

Joe Biden︖（現実世界の指⽰先） − Wikipedia の Joe Biden の記事︖（Entity linking） • “cat” の意味は︖ − 現実世界の猫（の集合）︖（現実世界の指⽰先） − 猫という観念︖（⼼の中の猫観念） − 辞書的な説明︖ – 「⾷⾁⽬ネコ科の哺乳類．体はしなやかで，(...)」[⼤辞泉] • “beautiful” の意味は︖ “pretty” との違いは︖ • “concept” の意味は︖ “エモい” の意味は︖ • 単語の意味 (⾔葉から何らかの表現への写像) はどう定めるべき︖

分布仮説と単語ベクトル

分布仮説 [Harrisʼ54, Firthʼ57, Schütze&Pedersenʼ65, etc.] と単語ベクトル [Mikolov+ʼ13, Devlin+ʼ18, etc.]
25 • “사과” (sagwa) という単語の意味は︖

26 • “사과” (sagwa) という単語の意味は︖ • コーパス (単語の使われ⽅) を⾒ると… − 「사과 の⽊を植える」 − 「冷え冷えの 사과 ジュースがうまい」 − 「＊＊県は 사과 の⽣産⾼が⽇本⼀」

27 • 分布仮説︓単語の意味は共起する語 (使われ⽅) を⾒ればわかる − “If A and B have almost identical environments (...), we say they are synonyms: oculist and eye-doctor” [Harrisʼ54] − “You shall know a word by the company it keeps” [Firthʼ57] − “words with similar meanings will occur with similar neighbors if enough text material is available” [Schütze&Pedersenʼ65]

28 • 分布仮説︓単語の意味は共起する語 (使われ⽅) を⾒ればわかる − “If A and B have almost identical environments (...), we say they are synonyms: oculist and eye-doctor” [Harrisʼ54] − “You shall know a word by the company it keeps” [Firthʼ57] − “words with similar meanings will occur with similar neighbors if enough text material is available” [Schütze&Pedersenʼ65] ※ 単語の意味に関するひとつの理論 (仮説) ※ この意味の仮説が実際の⾔語⾔語現象を表す最良のモデルなのか, 多くの⾔語現象をよく説明/予測できるかはまた別問題 ※ 分布仮説に基づく (≈ 現代の) ⾃然⾔語処理ではうまく対処できない⾔語現象については後述

分布仮説 [Harrisʼ54, Firthʼ57, Schütze&Pedersenʼ65] と単語ベクトル [Mikolov+ʼ13, Devlin+ʼ18, etc.] 29
• 分布仮説︓単語の意味は共起する語 (使われ⽅) を⾒ればわかる − 「사과 の⽊を植える」 − 「冷え冷えの 사과 ジュースがうまい」 − 「＊＊県は 사과 の⽣産⾼が⽇本⼀」 • 単語ベクトル︓共起単語を予測できるような表現を作れれば, それは単語の良い表現と⾔えるのでは? − 各単語に周辺語を予測しやすいような “ベクトル” 表現を割り当てる – 𝒱 → ℝ!; 𝑤 ↦ 𝒗" − 各ベクトル (たとえば 𝒗사과 ) には「こういう単語と共起しそうです」という情報 𝑝(⋅ |사과) が埋め込まれていてほしい − 実際の共起単語ペア，たとえば (사과, ジュース) は⼭ほど⼿に⼊る word2vec BERT

単語ベクトル (1): word2vec [Mikolov+ʼ13] 30 • 3層ニューラルネットを組んでみる • 学習が重い −
分⺟の計算が⼤変．⼀般に単語数は膨⼤ (数万〜数百万)． − 巨⼤なコーパスから学習したい． – ~ 100B words, https://code.google.com/archive/p/word2vec/ • noise contrastive estimation → skip-gram negative sampling − max 正解クラスを当てたい → 「正例ペア」or「擬似負例ペア」のどちらなのかを⾒分けられれば良い擬似負例 (を作るための c たち) をサンプリング

単語ベクトル (1): word2vec [Mikolov+ʼ13] 31 • 3層ニューラルネットを組んでみる • 学習が重い −
分⺟の計算が⼤変．⼀般に単語数は膨⼤ (数万〜数百万)． − 巨⼤なコーパスから学習したい． – ~ 100B words, https://code.google.com/archive/p/word2vec/ • noise contrastive estimation → skip-gram negative sampling − max 正解クラスを当てたい → 「正例ペア」or「擬似負例ペア」のどちらなのかを⾒分けられれば良い擬似負例 (を作るための c たち) をサンプリング⼤事なこと︓ 周辺で共起する単語を予測できるだけの情報をもった何か（単語ベクトル）を得ることができるようになった 𝑝 ジュース|사과 ∝ exp(⟨𝒗사과, 𝒗ジュース⟩) このベクトルには「どういう⽂脈で登場するのか」という情報がひととおり⼊っているはず

…で，うまくいきました? 32 単語ベクトルというパラダイムは本当にすごかった − 「単語ペアに対して⼈間が感じる意味の類似度」と「単語ベクトルペアのなす⾓」が⾼い相関 − 単語の特徴量として⽤いる⾮常に多くのタスクの跳ね上がる − アナロジー
の計算ができてしまった (?!) – 𝒗#$%&' − 𝒗%&' ≈ 𝒗()**' − 𝒗+,'- − etc. etc. [Chen&Peterson’17]

(おまけ) 数学の⼈向けに 33 • 術語の注 − ※「単語ベクトル」という⾔い⽅でしばしば⾔及されますが, 空間の線形性 (とりわけスカラー倍
(の意味論)) は明には考えていません − ※ 「単語埋め込み」という⾔い⽅でしばしば⾔及されますが, 保存される構造 (e.g., 距離) は明に意識されない場合が多いです − 「とにかく共起⽂脈を予測できるような NN を学習してみよう」 • 「⼀体何をしているんです…?」 − よくある “知能情報学” の研究開発の流れ︓ − 1. ドメイン知識や仮説に基づき, ⼯学的な⽬標 (⼈間のように流暢に話せるAI) の実現が試みられる – 要請︓データ数に対するスケーラビリティ, 実装の容易さ, etc. − 2. すごくうまくいった⽅法に対して数理的解釈や拡張が試みられる − まず作られ → その後理解される (理解されない話も⼭のようにある)

word2vec から BERT へ 34 • データ − 「사과 の⽊を植える」
− 「冷え冷えの 사과 ジュースがうまい」 − 「＊＊県は 사과 の⽣産⾼が⽇本⼀」 • データの使い⽅ − word2vec が考える「사과 の周辺⽂脈」 – 例︓窓幅2 – {の, ⽊, を, 冷え冷え, の, ジュース, が, 県, は, の, ⽣産⾼, …} − 本当の「사과 の周辺⽂脈」 – ⽂脈全体を，語順も考慮しながら使いたい – {[?] の⽊を植える, 冷え冷えの [?] ジュースがうまい, ＊＊県は [?] の⽣産⾼が⽇本⼀}

BERT︓⽳埋め問題を解かせまくる 35 • ニューラルネットに⽳埋め問題を解かせまくる − ⼊⼒︓[冷え冷え, の, [MASK], ジュース, が,
うまい] − 出⼒︓사과 • Wikipedia, Twitter, web news, … あらゆるテキストのあらゆる箇所をマスクして解かせまくる [Jan+’20]

…で，うまくいきました? 36 • ものすごかった − ⾃然⾔語処理の種々のアプリケーション (それぞれ別の意味理解が必要だと考えられている) のかなり多くのケースで⼤きな性能向上 •
わかったこと − (少なくとも経験的には，) 「周辺⽂脈の情報を単語の表現に埋め込む」という⽅法論は単語の表現学習の⾮常に本質的な指針っぽい

わかったこと − (少なくとも経験的には，) 「周辺⽂脈の情報を単語の表現に埋め込む」という⽅法論は単語の表現学習の⾮常に本質的な指針っぽい • NLP 終了完

わかったこと − (少なくとも経験的には，) 「周辺⽂脈の情報を単語の表現に埋め込む」という⽅法論は単語の表現学習の⾮常に本質的な指針っぽい • にもかかわらず NLP 終了 … では全然ない

(おまけ) 分布仮説に基づく単語の表現学習の限界

分布仮説に基づく表現学習では難しいことの例︓対義語の⾒分け 40 • 正反対の意味の語 (対義語) は分布仮説からすると似ている − たとえば “明るい”
と “暗い” − 周辺⽂脈が似ている → ベクトルも似る – だいたいの場合対義語は置き換えられる – 「あれ︖この照明なんか異様に [?] くない︖」 – 「＊＊さんほんと性格 [?] よね」 − 対義語は “オントロジー” (概念の⽊) の最後の最後ではじめて枝分かれするとても似ている単語 [Maynard+’08]

そもそもコーパスからの学習ではできないことがまだまだ⼭のようにある 41 • グラウンディング − ⼈と⾒分けがつかないほど流暢に話せる⾔語モデル (たとえば GPT- 3)
は，部屋に閉じ込められてしまった⼦供が⾃⼒で脱出できるように⽅法 (たとえば部屋にありそうな道具の使い⽅) を指⽰できるか︖ • モダリティ − 写真で表現できること ←→ テキストで表現できること • 語⽤論 − パワハラ上司「この部屋あっちぃな…」 • etc.

⽂の表現と計算へ

Sequence-to-sequence 43 • NLPのかなり多くの問題は「テキストを⼊⼒としてテキストを出⼒する」形式をとる (sequence to sequence) − 機械翻訳︓source
⽂ (たとえば英⽂) → target ⽂ (たとえば和⽂) − 対話システム︓発話 (たとえば⼈の話しかけ) → 応答 (botの応答) − ⾃動要約︓⽂書 → 要約⽂ • 教師データを作る＋ニューラルネットで教師あり学習が標準 − encoder-decoder とも • モデルの出⼒ (テキスト) と正解データ (テキスト) を⽐べてその違いの度合い評価する必要がある https://www.guru99.com/seq2seq-model.html

⽂の意味の類似度の計算は重要 44 • テキスト⽣成システムの損失，評価 − 医療・法律等が関わるシーンでの利⽤を想定すると，翻訳漏れや過剰訳は致命的

⽂は単語と同じようにいかない 45 • ⾃然な問い︓単語ベクトルと同様に⽂ベクトルを学習したらいいのでは…? → No • ⽂の意味は⽂脈（外側）では決まらない −
単語単位の⽳埋め問題は解けるが，⽂単位の⽳埋め問題は解けない – たとえばこの⽂が隠されているとして前後の⽂脈から予測できますか︖ − 分布仮説は⽂には適⽤できない • ⽂の意味は単語（内側）で決まる − はじめて⾒る⽂の意味を理解することができるのは，単語の意味から⽂の意味を構成できるから [Frege, 1914]

⽂の類似度は単語を使って計算できる 46 • Q: どうやって計算する? • ⽂の類似度＝構成要素の重複度 [Sultan+ʼ15] • 単語ベクトルは⼿元にある
• Q: どのように⽂類似度を計算する︖

まとめ

このセクションのまとめ 48 ⾃然⾔語の表現学習⼊⾨ • 意味の表現と計算 • 単語︓「分布仮説に基づく単語埋込の学習」というパラダイム − 分布仮説︓似た⽂脈で出現する単語は意味が似ている −
単語埋込︓共起⽂脈の情報をベクトルに埋め込む – word2vec︓近傍で共起する単語を予測させまくる – BERT︓⽳埋め問題を解かせまくる • ⽂︓単語の表現を使っていかに⽂の意味を計算するか − ⽂の表現 – ⽂の意味は外側 (⽂脈) からは確定できない (分布仮説は使えない) – ⽂の意味は内側 (構成要素である単語) で決まる (構成性) − ⽂の計算 – ⽂の類似度は近似的に構成要素の “重複率” で測れる – Q︓どのように計算すれば良い︖

2. 最適輸送の基礎 49 Kantorovich の問題とその利⽤

このセクションの⽬標 50 • 最適輸送の定式化を直感的に理解する − Monge–Kantorovich の問題の⼊出⼒を理解する – ⼊⼒︓確率分布 ×
2 (荷物の配置 before，荷物の配置 after)，輸送コスト – 出⼒︓最適輸送コスト，輸送計画 (カップリング) – 線形計画問題として定式化される − Wasserstein distance が何かを知る • 最適輸送の使いどころを知る − 2つの対象を⽐較したい − 対象が確率分布 (ヒストグラム，点の集合，etc.) として表現できる − 空間に⾃然な “距離” 構造が⼊っている – サポートが不⼀致でもよい − or 副作⽤としてのアラインメント (マッチング, 対応づけ) 情報がほしい

注 51 • このセクションに含まれる最適輸送⼀般に関する解説スライドは MLSS 2020 の Cuturi 先⽣トークのスライドその
ものです．おすすめ． − http://mlss.tuebingen.mpg.de/2020/ − https://drive.google.com/file/d/1yAvaU19agJYq_FdLlghS14QZ8 d5X48oB/ • 数学的なモチベーションや精確な定式化に興味のあるかたは，⽇本語であればたとえば太⽥先⽣ (⼤阪⼤) や⾼津先⽣ (都⽴⼤) の資料を参照ください． − http://www4.math.sci.osaka- u.ac.jp/~sohta/jarts/bunkakai08.pdf − https://www.kurims.kyoto- u.ac.jp/~kyodo/kokyuroku/contents/pdf/1916-11.pdf

Monge の問題「最適輸送の定式化はひとつではないです」の例として

53 https://drive.google.com/file/d/1yAvaU19agJYq_FdLlghS14QZ8d5X48oB/

Monge の定式化で解が得られない例 58 𝝁 𝝂

Monge–Kantorovich の問題

Monge–Kantorovich の問題 (離散版) 65 • ⼊⼒ − 確率分布 × 2
(before, after) − 点 (位置) 間の輸送コスト • 制約条件 − ⼊出⼒をもれなくカップリング • 出⼒ − 最適輸送コスト (最適値) − 輸送計画 (最適解) 𝐏∗ 今⽇の⽬標のひとつ︓ この notation と意味を理解

(before, after) − 点 (位置) 間の輸送コスト • 制約条件 − ⼊出⼒をもれなくカップリング • 出⼒ − 最適輸送コスト (最適値) − 輸送計画 (最適解) 𝐏∗ 今⽇の⽬標のひとつ︓ この notation と意味を理解重みの総和は1にしておく確率値 (荷物の量) と位置のペア 1 6 𝛿 位置情報を忘れて重みベクトル 𝐚 = 𝐚! , … , 𝐚" , 𝐛 = (𝐛! , … , 𝐛# ) だけで済ますこともしばしば．コスト⾏列が埋まっていれば，位置の情報は最早最適化とは無関係なので．

(before, after) − 点 (位置) 間の輸送コスト • 制約条件 − ⼊出⼒をもれなくカップリング • 出⼒ − 最適輸送コスト (最適値) − 輸送計画 (最適解) 𝐏∗ 今⽇の⽬標のひとつ︓ この notation と意味を理解周辺分布がそれぞれ a, b となるような同時分布位置情報を忘れて重みベクトル 𝐚 = 𝐚! , … , 𝐚" , 𝐛 = (𝐛! , … , 𝐛# ) だけで済ますこともしばしば．コスト⾏列が埋まっていれば，位置の情報は最早最適化とは無関係なので．重みの総和は1にしておく確率値 (荷物の量) と位置のペア 1 6 𝛿

(before, after) − 点 (位置) 間の輸送コスト • 制約条件 − ⼊出⼒をもれなくカップリング • 出⼒ − 最適輸送コスト (最適値) − 輸送計画 (最適解) 𝐏∗ 今⽇の⽬標のひとつ︓ この notation と意味を理解周辺分布がそれぞれ a, b となるような同時分布位置情報を忘れて重みベクトル 𝐚 = 𝐚! , … , 𝐚" , 𝐛 = (𝐛! , … , 𝐛# ) だけで済ますこともしばしば．コスト⾏列が埋まっていれば，位置の情報は最早最適化とは無関係なので．重みの総和は1にしておく確率値 (荷物の量) と位置のペア 1 6 𝛿 線形計画問題

最適輸送の特徴アラインメントの情報が得られる 69 • 最適輸送の特徴︓アラインメントの情報が得られる − 最⼩の輸送コスト (最適値，分布間距離) がほしいシーンのみならず， −
マッチング，アラインメント，対応づけ (最適解，輸送計画⾏列) がほしいシーンでもよく使われる． [Peyré&Cuturi, Computational Optimal Transport]

具体例︓word moverʼs distance [Kusner+ ICMLʼ15] 70 • テキスト同⼠の意味的な類似度を推定したい − NLP
の重要な問題のひとつ • Word moverʼs distance [Kusner+ ICMLʼ15] − ⼊⼒︓テキストを「単語ベクトルからなる分布」とみなす − 出⼒︓最適輸送コスト

具体例︓word moverʼs distance [Kusner+ ICMLʼ15] 71 • テキスト同⼠の意味的な類似度を推定したい − NLP
の重要な問題のひとつ • Word moverʼs distance [Kusner+ ICMLʼ15] − ⼊⼒︓テキストを「単語ベクトルからなる分布」とみなす − 出⼒︓最適輸送コスト⽂＝単語ベクトルの⼀様な混合単語同⼠の “置換” コスト単語の意味的な⾮類似度

Monge–Kantorovich の問題，補⾜

何点か補⾜します 73 • Wasserstein distance もよく聞くけどこれは何? • Earth moverʼs distance
もよく聞くけどこれは何? • Sinkhorn distance もよく聞くけどこれは何? • 連続な分布を扱いたい場合は? • 最適化問題を解く具体的な⽅法は?

p-Wasserstein distance 74 • p-Wasserstein distance (離散版) コスト c が距離のとき，𝑝
∈ [1, ∞)に対して以下は確率分布間の距離を定める． − 𝑝 が重なって読みづらいので輸送計画⾏列の表記を 𝐓 にしてます． • 注 − ⼀般の最適輸送問題において c は距離でなくても良い． − 「Wasserstein distance」という呼称について︓慣例的な呼び⽅になっているものの，Wasserstein さん「の」仕事というわけではない模様 [Villaniʻ09; §6, Bibliographical notes]．

p-Wasserstein distance 75 • p-Wasserstein distance (離散版) コスト c が距離のとき，𝑝
∈ [1, ∞)に対して以下は確率分布間の距離を定める． − 𝑝 が重なって読みづらいので輸送計画⾏列の表記を 𝐓 にしてます． • 注 − ⼀般の最適輸送問題において c は距離でなくても良い． − 「Wasserstein distance」という呼称について︓慣例的な呼び⽅になっているものの，Wasserstein さん「の」仕事というわけではない模様 [Villaniʻ09; §6, Bibliographical notes]．点間の輸送コスト c(x,y) が距離分布間の最適輸送コスト W(α,β) が距離確率測度のなす空間に距離が定まる → ご利益のひとつ (barycenter) は後ほど

Earth moverʼs distance 76 • Earth moverʼs distance − おそらく未定義語．
− 画像処理の⽂脈で1-Wasserstein距離の呼称として使われはじめ，情報科学を中⼼に広まっている． − いまは，⼀般の最適輸送コストないし Wasserstein 距離の意味で使われているように⾒える．

Sinkhorn distance [Cuturiʼ13] 77 • エントロピー正則化を⼊れて⽬的関数を変更 − 元の最適化問題とは別の問題を解く − ぼわっとした解が求まる
• ご利益 − 最適化が iterative な⾏列計算に帰着 (Sinkhorn アルゴリズム) – 並列化可，GPU フレンドリー − 解を⼊⼒で微分可能に – どういう⽅向に⼊⼒を変化させれば輸送コストが下がるかわかる “⼀様なほど嬉しい”

離散，連続 78 • 今⽇は簡単のため離散分布のみ扱います．離散と連続の⽐較 (semi-discrete)，連続分布の⽐較も⼤きなトピック． [Peyré&Cuturi, Computational Optimal Transport]

最適輸送問題の解き⽅ 79 • Monge–Kantorovich の問題は線形計画問題 • ⾼速なソルバに投げる → − 数理最適化の研究者の皆様ありがとうございます
完

最適輸送問題の解き⽅ 80 • Monge–Kantorovich の問題は線形計画問題 • ⾼速なソルバに投げれば完… ではない − O(n^3
log n) は決して軽くない, 何らかの条件の下で/緩和した上で, ⾼速化/並列化できない? − 最適輸送問題が部分問題になっており (主に機械学習の⽂脈で) 損失を流したい場合は? • 具体的な話は明⽇の佐藤さんのトークにて − ⽬的関数の強凸化/微分可能に/並列化可能に → Sinkhorn distance − サポートが⽊の場合 → スライシング − etc. • ※ NLPer としての指針 − ⽂を扱う (n~20 程度) → 何も考えず⽣の線形計画ソルバに投げれば良い – e.g., POT の emd2() − ⽂書を扱う (n>>100) or 微分したい場合 → ⾼速化や緩和の検討をしないとつらい or 必要

最適輸送問題のソルバ 81 • 最適輸送を道具として使いたい情報系エンジニア・リサーチャー向けのおすすめのPythonインタフェースのソルバ − POT: Python Optimal Transport
– docs: https://pythonot.github.io/ – paper: http://jmlr.org/papers/v22/20-451.html (JMLR 2021) – 開発が盛ん – Monge–Kantorovich の最適化問題以外のさまざまな亜種・拡張も⼊っている − geomloss: Geometric Loss functions between sampled measures, images and volumes – docs: https://www.kernel-operations.io/geomloss/ – paper: http://proceedings.mlr.press/v89/feydy19a.html (AISTATS 2019) – Pytorch と連携させたい場合

例を⾒ながら最適輸送に馴染む

→ 最適輸送の使いどころを知る 83 • ここからの⽬標 − いくつかの具体例を通して「あ…こういう場合は最適輸送を使いたくなるな…」という直感を得る • 最適輸送の使いどころ
(仮まとめ) − 2つの対象の類似度/距離の計算が (部分) 問題になっている − 対象が確率分布 (ヒストグラム，点の集合，etc.) として表現できる − 空間に⾃然な “距離” 構造が⼊っている – サポートが不⼀致でもよい − or 副作⽤としてのアラインメント (マッチング, 対応づけ) 情報がほしい

NLP における具体的な利⽤例 (1) ⽂＝単語ベクトルの確率的な混合

⽂の意味の類似度の計算は重要 85 • テキスト⽣成システムの損失，評価 − 医療・法律等が関わるシーンでの利⽤を想定すると，翻訳漏れや過剰訳は致命的

• ⽂の類似度＝構成要素の重複度 [Sultan+ʼ15] • 単語ベクトルは⼿元にある • Q: どのように⽂類似度を計算する︖ ⽂の類似度は単語を使って計算できる 86

• ⽂の類似度＝構成要素の重複度 [Sultan+ʼ15] • 単語ベクトルは⼿元にある • Q: どのように⽂類似度を計算する︖ − ハンガリアンアルゴリズム?
[Song&Rothʼ15] − ファジィ論理? [Zhelezniak+ ICLRʼ19] − いや待て待て… マッチング…? アラインメント…?? ⽂の類似度は単語を使って計算できる 87

Word moverʼs distance [Kusner+ ICMLʼ15] (再) 88 • Word moverʼs
distance [Kusner+ ICMLʼ15] − ⼊⼒︓テキストを「単語ベクトルからなる分布」とみなす − 出⼒︓最適輸送コスト ← ソフトな「マッチング成功度」

最適輸送の使いどころを知る 89 • 最適輸送の使いどころ (仮まとめ) − 2つの対象の類似度/距離の計算が (部分) 問題になっている –
⽂と⽂の類似度を計算したい − 対象が確率分布 (ヒストグラム，点の集合，etc.) として表現できる – ⽂は単語ベクトルの集合…? − 空間に⾃然な “距離” 構造が⼊っている – 単語を表現できる空間 (単語埋め込み空間) で “近い” 単語＝意味の似ている単語だった − or 副作⽤としてのアラインメント (マッチング, 対応づけ) の情報がほしい – ほしい，「⽂類似度＝単語のマッチングの良さ」 – アラインメントミスが⾒つかれば，「単語ベクトルの使い⽅がまずいのかも，学習できていないのかも」もというフィードバックが得られる (XAI)

(おまけ1) 「単語埋め込みの気持ち」を⼊れると性能が跳ね上がる [Yokoi+ʼ20] 90 • 「テキスト類似度を最適輸送で」というアイデアは (あとから考えてみると) 確かにすごく⾃然．良い研究．
• ところで⼊⼒の形式が気になる − 最適輸送を知っている⼈にとってはおそらく最も⾃然な初⼿． − NLP の中の⼈からみるとやや不⾃然．各単語の重みは uniform か…? “a” は⼤きくは⽂の意味を決めない， “violin” はかなり強く⽂の意味を決める輸送コストはユークリッド距離か…? (原点に依存する) 内積を⽬的関数関数にして単語ベクトルを学習していたのに並⾏移動不変なL2で類似度を測る…?

(おまけ1) 「単語埋め込みの気持ち」を⼊れると性能が跳ね上がる [Yokoi+ʼ20] 91 • Word rotatorʼs distance −
各単語ベクトル 𝒘 をノルム 𝜆 と⽅向ベクトル 𝒖 に分ける 𝒘 = 𝜆𝒖 − “情報の強さ” はノルムで測る − 単語間の意味的類似度は cos で測る − スコアが跳ね上がる (52.31 → 76.97; STS-B) • Take home message: ドメイン知識は⼤事お気持ちレベルの説明︓ たとえば “a” はあらゆるテキストに含まれる (情報が少ない)． → 単語ベクトルの学習の過程で空間内のあらゆる場所から引っ張られる． → 原点付近に → ノルム⼩さい !" !# 1 cos(!" , !# ) ," -" .

(おまけ2) そもそも最適輸送にする必要はあるのか? [Sato+ʼ21] 92 • ⽂表現は bag-of-words (シンボルの集合) で⼗分
− めちゃくちゃ良い話 • (NLPer 的) take home message: タスクと道具を合わせる − 埋め込みが必要かどうかはケースバイケース – 極性分析 (⼀部の特徴語を捉えれば良い場合) や⽂書分類 (単語数が⼗分⼤きい場合) では多くの場合 BoW で⼗分 − アラインメントが必要かどうかはケースバイケース – コストだけがほしいなら，分布をベクトルに埋め込む⽅向性も [Wu+EMNLPʼ18, Courty+ICMLʼ18, etc.] – 「分布間類似度」より「ベクトル間類似度」の⽅が⼀般に軽い

NLP における具体的な利⽤例 (2) 単語＝意味ベクトルの確率的な混合表現学習に使う例

単語は「空間の⼀点」で良いのだろうか? 要素還元的な語彙意味論 94 • 単語は意味素 (より根源的な意味の単位) そのものではない • ⾔語学 …
成分分析 (componential analysis) [Saeedʼ03] − “boy”: [+HUMAN] [-ADULT] [+MALE] • ⼼理学 … Semantic Differential [Osgoodʼ52] クリスタル,『⾔語学百科事典』

単語は「空間の⼀点」で良いのだろうか? 多義性の問題 95 • “bank” は使われ⽅に応じて「銀⾏」だったり「⼟⼿」だったりする． • “book” 「予約する」「本」
• “right” 「右」「権利」 • “capital” 「⾸都」「資本」 • “⾸” 「neck」「fire」 • etc. etc.

[Frogner+ICLRʼ19, etc.] “単語分布” の学習 96 • 単語＝意味ベクトルの混合 • 共起する単語の表現間の Sinkhorn
distance を⼩さくする • 語義の揺れが学習できる s 共起情報 r が Wasserstein 距離で保存されるように分布表現を学習 word2vec 単語＝ベクトル word2vec 共起する単語の表現間の内積を⼤きくする

最適輸送の使いどころを知る 97 • 最適輸送の使いどころ − 2つの対象の類似度/距離の計算が (部分) 問題になっている – (2)
共起の強い単語の表現同⼠の距離を近づけたい − 対象が確率分布 (ヒストグラム，点の集合，etc.) として表現できる – (1) 単語は意味素の混合では…? − 空間に⾃然な “距離” 構造が⼊っている – (2) “意味ベクトル空間” を学習したい − or 副作⽤としてのアラインメント (マッチング, 対応づけ) の情報がほしい

(おまけ) BERT は語義曖昧性をそれなりに解消してくれる 98 [Coenen+’18] 注︓この図全体でひとつの空間内の様⼦

まとめ

このセクションの⽬標 100 • 最適輸送の定式化を直感的に理解する − Monge–Kantorovich の問題の⼊出⼒を理解する – ⼊⼒︓確率分布 ×
2 (荷物の配置 before，荷物の配置 after)，輸送コスト – 出⼒︓最適輸送コスト，輸送計画 (カップリング) – 線形計画問題として定式化される − Wasserstein distance が何かを知る • 最適輸送の使いどころを知る − 2つの対象を⽐較したい − 対象が確率分布 (ヒストグラム，点の集合，etc.) として表現できる − 空間に⾃然な “距離” 構造が⼊っている – サポートが不⼀致でもよい − or 副作⽤としてのアラインメント (マッチング, 対応づけ) 情報がほしい例 (1) ⽂類似度を測る (2) 分布表現を学習する

3. 最適輸送問題の亜種・拡張 101

このセクションの⽬標 102 • ⽬標 − 最適輸送問題の亜種・拡張を知る． – Monge–Kantorovich の問題以外の設定や使い⽅を知る． –
キーワードと機能を把握して，いざ使いたくなったときにスムーズに⽂献に当たれるようになる． • 触れる話題 − Wasserstein barycenter – 「Wasserstein 距離が確率測度のなす空間の距離になっている」の気持ちをつかむ． − Gromov–Wasserstein distance – ふたつの分布が違う空間にあってもアラインメントはできる． − Unbalanced optimal transport – カップリングの制約を外す． − Structured optimal transport – 扱う対象が持っている構造を持っている構造を考慮する． – (cf. サポートの持っている構造を考慮する．)

前セクションの復習 Monge–Kantorovich の定式化を思い出す

Monge–Kantorovich の問題 (離散版) (再掲) 106 • ⼊⼒ − 確率分布 ×
2 (before, after) − 点 (位置) 間の輸送コスト • 制約条件 − ⼊出⼒をもれなくカップリング • 出⼒ − 最適輸送コスト (最適値) − 輸送計画 (最適解) 𝐏∗

Monge–Kantorovich の問題 (離散版) (再掲) 107 • ⼊⼒ − 確率分布 ×
2 (before, after) − 点 (位置) 間の輸送コスト • 制約条件 − ⼊出⼒をもれなくカップリング • 出⼒ − 最適輸送コスト (最適値) − 輸送計画 (最適解) 𝐏∗ 周辺分布がそれぞれ a, b となるような同時分布位置情報を忘れて重みベクトル 𝐚 = 𝐚! , … , 𝐚" , 𝐛 = (𝐛! , … , 𝐛# ) だけで済ますこともしばしば．重みの総和は1にしておく確率値 (荷物の量) と位置のペア 1 6 𝛿 線形計画問題

Wasserstein barycenter ふたつの分布の「中間地点」を求める

p-Wasserstein distance (再掲) 109 • p-Wasserstein distance (離散版) コスト c
が距離のとき，𝑝 ∈ [1, ∞)に対して以下は確率分布間の距離を定める．

Wasserstein 距離 (再) 112 https://drive.google.com/file/d/1yAvaU19agJYq_FdLlghS14QZ8d5X48oB/

113 https://drive.google.com/file/d/1yAvaU19agJYq_FdLlghS14QZ8d5X48oB/ 内分点が定義・計算できる

Wasserstein barycenter (離散版) (Fréchet mean) 114 • Wasserstein barycenter −
確率分布の重⼼ − ⼊⼒の分布が2つの場合︓輸送の中間状態 − ⼊⼒ – ヒストグラムたち {b} – 混合⽐率 {λ} − 出⼒ – 重⼼のヒストグラム (※サポートの点数は fixed) a 馴染みある「重⼼」と同じ重さ (この場合混合率λ) × 距離 (この場合Wasserstein距離) が最⼩になる点

最適輸送は「横に」変化する • 静⽌画 https://speakerdeck.com/gpeyre/from- monge-kantorovich-to-gromov- wasserstein-optimal-transport-and- barycenters-between-several-metric- spaces • 動画
https://twitter.com/gabrielpeyre/statu s/941355525509468160 115

応⽤例︓Color histogram の重⼼ 116 [Peyré&Cuturi, Computational Optimal Transport]

(おまけ) 「テキストはどうした?」 117 • テキストは「連続的な変化」を起こしづらい − 画像︓元画像を連続的に少しだけ変化させてもやはり画像 − ⾔語︓元⽂を1単語変えると⽂の意味がドラスティックに変化する •
データの空間が離散であることが壁になりCVほど激しく進展していないNLPの研究領域 (私⾒) − 変分オートエンコーダー − スタイル変換 – ※ ターゲットコーパスでの fine tune は⼗分効果的 − 敵対的学習 – ※ 単語の置き換えでも⼤きな効果 − データ拡張 – ※ 折り返し翻訳など NLP の⽅法も

Gromov–Wasserstein 別の空間にある分布同⼠をマッチングする

Gromov–Wasserstein の気持ち︓ 違う空間に存在する分布同⼠をマッチングしたい 119 • ⼊⼒ − 確率分布 × 2
(before, after) − 点 (位置) 間の輸送コスト • 制約条件 − ⼊出⼒をもれなくカップリング • 出⼒ − 最適輸送コスト (最適値) − 輸送計画 (最適解) 𝐏∗ 2つの分布が別の空間に居るときを考えるもはや「x同⼠の距離」「y同⼠の距離」しかわからないそういう状況でもマッチングしたい

Gromov–Wasserstein distance 120 • Gromov–Wasserstein distance − 「近い点ペアは移動後も近い」「遠い点ペアは移動しても遠い」 [Peyré&Cuturi, Computational
Optimal Transport]

例1︓ 違う空間のオブジェクトのアラインメント 121 • [Solomon+ʼ16]

例2︓ 教師なし bilingual lexicon induction 122 • モチベーション − 単語対応は機械翻訳の重要なサブタスク
– ※ 統計的機械翻訳という深層学習ベースになる前の機械翻訳でとくにクリティカル − 対訳コーパス (たとえば英⽂と対応する和⽂のペアの集合) を作るのはハイコスト − 単⾔語コーパスなら容易に⼿に⼊る − 単⾔語コーパスだけを使って単語の対応づけはできる? [Haghighi+ ACL’08]

例2︓教師なし bilingual lexicon induction 123 • モチベーション − 単語対応は機械翻訳の重要なサブタスク –
※ 統計的機械翻訳という深層学習ベースになる前の機械翻訳でとくにクリティカル − 対訳コーパス (たとえば英⽂と対応する和⽂のペアの集合) を作るのはハイコスト − 単⾔語コーパスなら容易に⼿に⼊る − 単⾔語コーパスだけを使って単語の対応づけはできる? [Haghighi+ ACL’08] 「対応づけ」? 最適輸送を使いたくなってきたな……

例2︓教師なし bilingual lexicon induction [Alvarez-Melis&Jaakkola EMNLPʼ18] 124 • 1⾔語＝1単語埋め込み空間 (単語ベクトル集合)
• Gromov–Wasserstein で教師なしマッチング …が結構できてしまう − (単語の関係性の情報だけで単語の単語らしさが⾒える)

例3︓同じ空間で Gromov–Wasserstein barycenter [Peyré+ ICMLʼ16] 125 • G–W はオブジェクト内の位置関係のみに基づいてアラインメントできた
• barycenter: − ε: ここでもエントロピー正則化＋Sinkhorn アルゴリズム

Unbalanced OT 分布の⼤きさが異なる場合に対応する

Unbalanced OT の気持ち︓ 荷物の量揃えなくてもいいよね…? 127 • ⼊⼒ − 確率分布 ×
2 (before, after) − 点 (位置) 間の輸送コスト • 制約条件 − ⼊出⼒をもれなくカップリング • 出⼒ − 最適輸送コスト (最適値) − 輸送計画 (最適解) 𝐏∗ 重みの合計が1である必要? ⼊出⼒で差があっても良い? 「もれなく」の条件を外せる?

「テキスト類似度」のモチベーション: ⼀部だけマッチングさせたいケース 128 • ⻑さの全く違う⽂を⽐較したい [Wang+ ACMLʼ20] − B の
“awful” と C の “sad” だけマッチングできれば⼗分 − ほかの単語は無視したい (運びませんでした︕おしまい︕ にしたい)

Unbalanced optimal transport 129 • 特殊ケース − {Wasserstein–Fisher–Rao, Hellinger–Kantorovich} distance
– – , − {optimal partial, partial optimal, partial} transport – D: ℓ1 (total variation) カップリングでなくても良い荷物が⾜りなかったり溢れたりした場合はペナルティ cf. .

Unbalanced OT & barycenter 130

最適輸送は「横に」変化する (再掲) Wasserstein–Fisher–Rao は Wasserstein と Fisher–Rao の間 • 静⽌画
https://speakerdeck.com/gpeyre/from- monge-kantorovich-to-gromov- wasserstein-optimal-transport-and- barycenters-between-several-metric- spaces • 動画 https://twitter.com/gabrielpeyre/statu s/941355525509468160 131 Fisher–Rao Wasserstein

Structured OT 分布が持つ固有の構造を考慮する ※ 各論っぽい話です

Structured OT の気持ち︓ 分布の内部構造を考慮したい 133 • ⼊⼒ − 確率分布 ×
2 (before, after) − 点 (位置) 間の輸送コスト • 制約条件 − ⼊出⼒をもれなくカップリング • 出⼒ − 最適輸送コスト (最適値) − 輸送計画 (最適解) 𝐏∗ 各分布が固有の内部構造を持っている場合? Objective をどう修正すれば良い︖

構造を考慮したいその1: 分布の「配列」性 134 • 「テキストの類似度」のモチベーション − WMD︓テキスト＝単語ベクトルの確率的混合 – bag
of word vectors − ……語順は? – “Mary kills John.” と “John kills Mary.” はだいぶ意味が違う． [Liu+ WWW’18] よしよしコストゼロで完璧にマッチングできました …ではない “laugh” をおこなう⼈ (動作主) と受ける⼈ (対象) を峻別したい

Order-preserving OT [Su&Hua CVPRʼ17] 135 • . − 順序が⼀貫していてくれその1
− 順序が⼀貫していてくれその2

Order-preserving OT [Su&Hua CVPRʼ17] • 書き順を考慮して漢字の類似性を計算したい 136

構造を考慮したいその2: 部分集合 137 • 「テキストの類似度」のモチベーション − 部分列をカタマリとして考慮できるとご利益がありそう − N-gram
(部分列) はテキストの強⼒な特徴量 – bigram: (テキスト, の), (の, 強⼒), … – trigram: (テキスト, の, 強⼒), … • (蛇⾜) 楽しい n-gram − Google Books Ngram Viewer − https://books.google.com/ngrams

Submodular OT [Alvarez-Melis+ AISTATSʼ18] • モチベーション︓同じグループからは同じグループへ移ってほしい • 使う道具︓劣モジュラ性 (効⽤逓減性)
− 同じグループへの輸送が続くとコストがどんどん下がる 138

構造を考慮したいその3: ⽊構造 139 • 「テキストの類似度」のモチベーション − 句構造 (構⽂構造のひとつ) を考慮できるとご利益がありそう
– . – 意味の構成の鍵 https://ja.wikipedia.org/wiki/%E5%8F%A5%E6%A7%8B%E 9%80%A0%E8%A6%8F%E5%89%87

Gromov–Wasserstein distance (再掲) 140 • Gromov–Wasserstein distance − 「近い点ペアは移動後も近い」「遠い点ペアは移動しても遠い」

Fused Gromov–Wasserstein [Vayer+ ICMLʼ19] 141 • Wassestein + Gromov–Wasserstein 空間の持つ距離構造
各分布が固有に持つ形 cf. サポートが⽊︓tree-Wasserstein

(おまけ) NLPは簡単? 難しい? 142 • bag-of-words でどうにかなるタスク • → 分散表現を⼊れたいタスク
• → 語順情報を⼊れたいタスク • → 構⽂情報を⼊れたいタスク • → …

まとめ

このセクションのまとめ 144 • ⽬標 − 最適輸送問題の亜種・拡張を知る． – Monge–Kantorovich の問題以外の設定や使い⽅を知る． –
キーワードと機能を把握して，いざ使いたくなったときにスムーズに⽂献に当たれるようになる． • 触れる話題 − Wasserstein barycenter – 「Wasserstein 距離が確率測度のなす空間の距離になっている」の気持ちをつかむ． − Gromov–Wasserstein distance – ふたつの分布が違う空間にあってもアラインメントはできる． − Unbalanced optimal transport – カップリングの制約を外す． − Structured optimal transport – 扱う対象が持っている内部構造を考慮する． – (cf. 各分布の内部構造を考慮する．)

まとめ 145

今⽇の⽬標︓ 最適輸送の直感的理解とキーワードの把握 146 • ⾃然⾔語処理を中⼼に多くの利⽤例を挙げながら、最適輸送の直感的な理解を⽬指します。 • 「こんな⾵に使うことができるんだ… ⾯⽩い道具じゃん」「こういう使い⽅をしたかったらこういうキーワードで調
べれば良いのね」と知識にアンカーを張るのも⼤きな⽬的です。より深く知りたい⼈のための参考⽂献もできるだけ潤沢に加えました。 • また、例として頻繁に活⽤する⾃然⾔語処理に馴染みがないかたのために、最初に単語埋込のチュートリアルをつけてあります。

⽬次 147 • 1. 準備︓単語埋め込みの基礎 − 分布仮説に基づく単語ベクトルの学習の気持ちを知る． − word2vec や
BERT について「はいはい知ってる知ってる」になる． − ※ ⾃然⾔語処理の話 • 2. 最適輸送の基礎 − NLP等の応⽤事例を通じてMonge–Kantorovichの問題を直感的に理解する． − 最適輸送とかWasserstein距離とか書いてある機械学習系の⽂書を⾒ても「お…怖くないぞ…」となる． • 3. 最適輸送の変種・拡張 − NLP等の応⽤事例を通じて Gromov–Wasserstein, unbalanced OT, barycenter, など最適輸送の変種・拡張や関連するキーワードを概観し，どういう道具なのか直感的に理解する．

1. ⾃然⾔語の表現学習⼊⾨ 148 • 意味の表現と計算 • 単語︓「分布仮説に基づく単語埋込の学習」というパラダイム − 分布仮説︓似た⽂脈で出現する単語は意味が似ている −
単語埋込︓共起⽂脈の情報をベクトルに埋め込む – word2vec︓近傍で共起する単語を予測させまくる – BERT︓⽳埋め問題を解かせまくる • ⽂︓単語の表現を使っていかに⽂の意味を計算するか − ⽂の表現 – ⽂の意味は外側 (⽂脈) からは確定できない (分布仮説は使えない) – ⽂の意味は内側 (構成要素である単語) で決まる (構成性) − ⽂の計算 – ⽂の類似度は近似的に構成要素の “重複率” で測れる – Q︓どのように計算すれば良い︖

2. 最適輸送の基礎 149 • 最適輸送の定式化を直感的に理解する − Monge–Kantorovich の問題の⼊出⼒を理解する – ⼊⼒︓確率分布
× 2 (荷物の配置 before，荷物の配置 after)，輸送コスト – 出⼒︓最適輸送コスト，輸送計画 (カップリング) – 線形計画問題として定式化される − Wasserstein distance が何かを知る • 最適輸送の使いどころを知る − 2つの対象を⽐較したい − 対象が確率分布 (ヒストグラム，点の集合，etc.) として表現できる − 空間に⾃然な “距離” 構造が⼊っている – サポートが不⼀致でもよい − or 副作⽤としてのアラインメント (マッチング, 対応づけ) 情報がほしい

3. 最適輸送の亜種・拡張 150 • ⽬標 − 最適輸送問題の亜種・拡張を知る． – Monge–Kantorovich の問題以外の設定や使い⽅を知る．
– キーワードと機能を把握して，いざ使いたくなったときにスムーズに⽂献に当たれるようになる． • 触れる話題 − Wasserstein barycenter – 「Wasserstein 距離が確率測度のなす空間の距離になっている」の気持ちをつかむ． − Gromov–Wasserstein distance – ふたつの分布が違う空間にあってもアラインメントはできる． − Unbalanced optimal transport – カップリングの制約を外す． − Structured optimal transport – 扱う対象が持っている内部構造を考慮する． – (cf. 各分布の内部構造を考慮する．)

今⽇触れなかった話 151 • Wasserstein GAN • Wasserstein 勾配流 • etc.

最適輸送のユーザとしてのおすすめ情報源 152 • フランス界隈 − Gabriel Peyré (CNRS, ENS/DMA) –
http://www.gpeyre.com/ – @gabrielpeyre 脳に良い − Marco Cuturi (Google Brain Paris, ENSAE/CREST) – https://marcocuturi.net/ • MIT/CSAIL 界隈 − Justin Solomon (MIT/CSAIL) – https://people.csail.mit.edu/jsolomon/ − David Alvarez-Melis (MIT/CSAIL → MS Research) – https://dmelis.github.io/

謝辞 153 • 包さん (東⼤), 佐藤さん (京⼤) • さいえん Slack
最適輸送勉強会の皆さん • 幹事の皆さん

How to leverage optimal transport

How to leverage optimal transport

More Decks by Sho Yokoi

Other Decks in Research

Featured

Transcript