Upgrade to Pro — share decks privately, control downloads, hide ads and more …

How to leverage optimal transport

How to leverage optimal transport

最適輸送の使い方
〜最適輸送の直感的理解のための単語埋込入門 兼 最適輸送入門〜

【これは何?】
自然言語処理を中心に多くの利用例を挙げながら、最適輸送の直感的な理解を目指すスライドです。
「こんな風に使うことができるんだ… 面白い道具じゃん」「こういう使い方をしたかったらこういうキーワードで調べれば良いのね」と知識にアンカーを張ることが目的です。より深く知りたい人のための参考文献もできるだけ潤沢に加えました。
また、例として頻繁に活用する自然言語処理に馴染みがないかたのために、最初に単語埋め込みのチュートリアルをつけてあります。

【コンテンツ】
1. 単語埋込入門 … 「分布仮説に基づく単語埋込の学習」というパラダイムとその限界について述べます。(このセクションは独立に読めます)
2. 最適輸送入門 … もっとも標準的な定式化である Monge–Kantorovich の問題を概観します。Wasserstein 距離の意味も理解します。Sinkhorn についても簡単に触れます。
3. 最適輸送の亜種・拡張 … Monge–Kantrovich の問題のさらに外側にも魅力的な世界が広がっています。ここでは頻繁に言及されるキーワード、すなわち Wasserstein barycenter、Gromov–Wasserstein distance、unbalanced optimal transport がどのような道具なのかを概観します。

※ このスライドは 第3回 0x-seminar https://sites.google.com/view/uda-0x-seminar/home/0x03 ではじめて利用しました。

Sho Yokoi
PRO

June 19, 2021
Tweet

More Decks by Sho Yokoi

Other Decks in Research

Transcript

  1. 最適輸送の使い⽅
    直感的理解のための 最適輸送⼊⾨ 兼 単語埋込⼊⾨
    横井 祥 (東北⼤学)
    2021-06-19, 0xセミナー, 最適輸送の情報科学における進展

    View Slide

  2. 今⽇の⽬標︓
    最適輸送の直感的理解とキーワードの把握
    2
    • ⾃然⾔語処理を中⼼に多くの利⽤例を挙げながら、最適輸
    送の直感的な理解を⽬指します。
    • 「こんな⾵に使うことができるんだ… ⾯⽩い道具じゃん」
    「こういう使い⽅をしたかったらこういうキーワードで調
    べれば良いのね」と知識にアンカーを張るのも⼤きな⽬的
    です。より深く知りたい⼈のための参考⽂献もできるだけ
    潤沢に加えました。
    • また、例として頻繁に活⽤する⾃然⾔語処理に馴染みがな
    いかたのために、最初に単語埋込のチュートリアルをつけ
    てあります。

    View Slide

  3. ⾃⼰紹介

    View Slide

  4. ⾃⼰紹介
    4
    • 横井 祥
    − ⾃然⾔語処理 (NLP) のリサーチャーです.
    − 道具としての最適輸送がすごく⾯⽩いと思っています.
    − http://www.cl.ecei.tohoku.ac.jp/~yokoi/
    • 所属
    − 東北⼤学 乾研究室 (⾃然⾔語処理)
    − 理研AIP 下平グループ (数理統計)
    − JST ACT-X 数理・情報
    • ⾃然⾔語処理の和を広げるぞ活動
    − YANS (NLP若⼿の会) @yans_official
    – NLPに参⼊したい⼈やはじめたばかりの⼈が仲間を作るための会,今年は 8/30–31 開催
    − NLPコロキウム @nlp_colloquium
    – 最新のNLP研究を20分で.⽔曜正午より,2〜3週に1度開催
    − 最先端NLP勉強会
    – NLP研究者のための論⽂読み会

    View Slide

  5. ⾃⼰紹介
    5
    − ⾔語処理学会第27回年次⼤会 優秀賞 (8/361). 横井 祥, 下平 英寿. 単語埋め込み
    の確率的等⽅化. 2021年3⽉.
    − ⾔語処理学会第27回年次⼤会 委員特別賞. 内藤 雅博, 横井 祥, 下平 英寿. 単語埋
    め込みによる論理演算. 2021年3⽉.
    − 情報処理学会 2019年度 研究会推薦博⼠論⽂. 横井 祥. Computing Co-
    occurrence with Kernels (カーネル法に基づく共起の計算). 2020年7⽉13⽇.
    − ⾔語処理学会第26回年次⼤会 最優秀賞 (2/396). 横井 祥, ⾼橋 諒, ⾚間 怜奈, 鈴
    ⽊ 潤, 乾 健太郎. 超球⾯上での最適輸送コストに基づく⽂類似性尺度. 2020年3⽉
    16⽇.
    − ⾔語処理学会第26回年次⼤会 最優秀賞 (2/396). ⼩林 悟郎, 栗林 樹⽣, 横井 祥,
    鈴⽊ 潤, 乾 健太郎. ベクトル⻑に基づく⾃⼰注意機構の解析. 2020年3⽉16⽇.
    − 2018年度⼈⼯知能学会全国⼤会 全国⼤会優秀賞 (⼀般セッション⼝頭部⾨)
    (21/753). 横井 祥, 乾 健太郎. カーネル法に基づく疎な⾔語表現のための⾼速計
    算可能な共起尺度. 2018年7⽉26⽇.
    − 2018年度⼈⼯知能学会全国⼤会 全国⼤会優秀賞 (⼀般セッション⼝頭部⾨)
    (21/753). ⾚間 怜奈, 横井 祥, 乾 健太郎. スタイルの類似性を捉えた単語ベクト
    ルの教師なし学習. 2018年7⽉26⽇.
    − 2017年度⼈⼯知能学会全国⼤会 全国⼤会優秀賞 (インタラクティブ発表部⾨,
    オーガナイズドセッション⼝頭発表部⾨ 2部⾨) (22/約750). 横井 祥. 独⽴性尺
    度に基づく知識の粒度の教師なし推定. 2017年7⽉18⽇.
    − など

    View Slide

  6. 研究トピック抜粋
    6
    • ⾃然⾔語の表現学習
    − Reina Akama, Kento Watanabe, Sho Yokoi, Sosuke Kobayashi,
    Kentaro Inui. Unsupervised Learning of Style-sensitive Word
    Vectors. ACL 2018.
    − Goro Kobayashi, Tatsuki Kuribayashi, Sho Yokoi, Kentaro Inui.
    Attention Module is Not Only a Weight: Analyzing Transformers
    with Vector Norms. EMNLP 2020.
    − Masahiro Naito, Sho Yokoi, Geewook Kim, Hidetoshi Shimodaira.
    Revisiting Additive Compositionality: AND, OR and NOT Operations
    with Word Embeddings. ACL-SRW 2021.
    • 最適輸送 for ⾃然⾔語処理
    − Sho Yokoi, Ryo Takahashi, Reina Akama, Jun Suzuki, Kentaro Inui.
    Word Rotatorʼs Distance. EMNLP 2020.
    − Ayato Toyokuni, Sho Yokoi, Hisashi Kashima, Makoto Yamada.
    Computationally Efficient Wasserstein Loss for Structured Labels.
    EACL-SRW 2021.

    View Slide

  7. 会全体の概要

    View Slide

  8. 企画の概要
    8
    • 0xセミナー 第3回, 最適輸送の情報科学における進展
    − https://sites.google.com/view/uda-0x-seminar/home/0x03
    • 基礎編 (2⽇⽬) by 佐藤さん
    − 「最適輸送の情報科学」の話
    − https://www.slideshare.net/joisino/ss-249394573
    • 応⽤編 (1⽇⽬)
    − 「最適輸送を情報科学で使う」話
    − https://speakerdeck.com/eumesy/how-to-leverage-optimal-transport
    • ※トーク順の気持ち
    − 1⽇⽬に「こんな⾯⽩い道具なのね」「最適輸送怖くないぞ?」となってもらう
    − 2⽇⽬に本格的な数理・CSの話 (数理最適化, アルゴリズムの話) を知ってもらう

    View Slide

  9. この2⽇間の (ひとつの) 達成⽬標
    9
    • 最適輸送 for 情報科学のデファクトになりそうな教科書
    − Peyré & Cuturi, “Computational Optimal Transport: With
    Applications to Data Science,” 2019.
    – 書籍: https://www.nowpublishers.com/article/Details/MAL-073
    – arXiv: https://arxiv.org/abs/1803.00567
    – サポートページ: https://optimaltransport.github.io/book/
    • …を
    − 1⽇⽬「お… 読める︕読めるぞ︕」になる.
    − 2⽇⽬「すでに理解できている話が結構あるぞ,ふふん」
    になる.
    − このスライドでの記法も
    なるべくこの書籍と⼀貫させます.

    View Slide

  10. 今⽇する話

    View Slide

  11. ⽬次
    11
    • 1. 準備︓単語埋め込みの基礎
    − 分布仮説に基づく単語ベクトルの学習の気持ちを知る.
    − word2vec や BERT について「はいはい知ってる知ってる」になる.
    − ※ ⾃然⾔語処理の話
    • 2. 最適輸送の基礎
    − NLP等の応⽤事例を通じてMonge–Kantorovichの問題を直感的に
    理解する.
    − 最適輸送とかWasserstein距離とか書いてある機械学習系の⽂書を
    ⾒ても「お…怖くないぞ…」となる.
    • 3. 最適輸送の変種・拡張
    − NLP等の応⽤事例を通じて Gromov–Wasserstein, unbalanced
    OT, barycenter, など最適輸送の変種・拡張や関連するキーワード
    を概観し,どういう道具なのか直感的に理解する.

    View Slide


  12. 12
    • 知っていると理解がスムーズになる前提知識
    − 初等的な線形代数 (というより⾏列計算) と確率統計の記法
    − 機械学習とくに教師あり学習,勾配降下法によるニューラルネットの学習
    – 知らなくてもメインのストーリーの理解には影響ないように話します.
    • しない話
    − 数学の話はほとんどしません.
    – self-containedness や厳密性よりも直感的な理解を優先します.
    – 精確に理解したいかた向けに適宜論⽂や書籍の情報を補います.
    − 計算⽅法・アルゴリズムの話はほとんどしません.
    – 双対問題の考え⽅,エントロピー正則化と Sinkhorn distance,Wasserstein GAN,etc.
    – → 明⽇の佐藤さんのトークにて
    • https://www.slideshare.net/joisino/ss-249394573
    • 質疑応答・コメント
    − 各コマ毎に最後に15分のQAタイムを設けます.
    − トーク中の質問・コメント遠慮なく︕zoom 等に投げてください.
    − 反応が⾒えないのは寂しいので雑談コメントもご遠慮なく.

    View Slide

  13. 1. ⾃然⾔語の表現学習⼊⾨
    13
    ※ 「最適輸送最⾼…︕」となるための準備
    ※ このセクションは独⽴して読めます

    View Slide

  14. このセクションのまとめ
    14
    ⾃然⾔語の表現学習⼊⾨
    • 意味の表現と計算
    • 単語︓「分布仮説に基づく単語埋込の学習」というパラダ
    イム
    − word2vec,BERT
    • ⽂︓単語の表現を使っていかに⽂の意味を計算するか

    View Slide

  15. 「意味」の表現と計算

    View Slide

  16. 分野の⽬標︓⾔葉の意味を計算したい
    16
    • ⾃然⾔語処理・⾃然⾔語理解
    − ⾃然⾔語⽂を計算機を⽤いて処理したい
    – 機械翻訳,かな漢字変換,chat bot
    − ⾃然⾔語を計算モデルを介して理解したい
    − cf. ⾳声データ, 形式⾔語, …

    View Slide

  17. 分野の⽬標︓⾔葉の意味を計算したい
    17
    • ⾃然⾔語処理・⾃然⾔語理解
    − ⾃然⾔語⽂を計算機を⽤いて処理したい
    – 機械翻訳,かな漢字変換,chat bot
    − ⾃然⾔語を計算モデルを介して理解したい
    − cf. ⾳声データ, 形式⾔語, …
    • 課題︓⾔葉の意味の計算
    − 計算機でいかにテキストの意味を表現するか
    − テキストの計算機可読表現を⽤いていかに意味を計算するか
    – “⽝” はどういう意味︖
    – “⽝” と “ペット” の意味的な関係は︖
    – “親戚がペットを飼っていて羨ましい” と “従兄弟が⽝を飼っていて羨まし
    い” の意味的な関係は︖

    View Slide

  18. ⾔葉の意味の計算
    18
    • ⾔葉の意味を計算する
    − “John loves Mary.” の意味は?

    View Slide

  19. ⾔葉の意味の計算
    19
    • ⾔葉の意味を計算する
    − “John loves Mary.” の意味は?
    − o0( [39011, 2250, 10483, 18] のイミは…? )
    • ふたつの⼤きな問題
    − 単語の意味を,計算機でどう表現するか
    − ⽂の意味を,⽂を構成する語の意味からどのように合成するか
    – 我々は有限な語彙を組み合わせることによってこれまで誰も表現してこな
    かった考えを表現できる [Frege,19c]

    View Slide

  20. 「意味」とは
    20
    • “Biden” の意味は︖

    View Slide

  21. 「意味」とは
    21
    • “Biden” の意味は︖
    − Biden という定数記号︖(モデル理論的意味論)
    − 現実世界の Joe Biden︖(現実世界の指⽰先)
    − Wikipedia の Joe Biden の記事︖(Entity linking)

    View Slide

  22. 「意味」とは
    22
    • “Biden” の意味は︖
    − Biden という定数記号︖(モデル理論的意味論)
    − 現実世界の Joe Biden︖(現実世界の指⽰先)
    − Wikipedia の Joe Biden の記事︖(Entity linking)
    • “cat” の意味は︖
    − 現実世界の猫(の集合)︖(現実世界の指⽰先)
    − 猫という観念︖(⼼の中の猫観念)
    − 辞書的な説明︖
    – 「⾷⾁⽬ネコ科の哺乳類.体はしなやかで,(...)」[⼤辞泉]

    View Slide

  23. 「意味」とは
    23
    • “Biden” の意味は︖
    − Biden という定数記号︖(モデル理論的意味論)
    − 現実世界の Joe Biden︖(現実世界の指⽰先)
    − Wikipedia の Joe Biden の記事︖(Entity linking)
    • “cat” の意味は︖
    − 現実世界の猫(の集合)︖(現実世界の指⽰先)
    − 猫という観念︖(⼼の中の猫観念)
    − 辞書的な説明︖
    – 「⾷⾁⽬ネコ科の哺乳類.体はしなやかで,(...)」[⼤辞泉]
    • “beautiful” の意味は︖ “pretty” との違いは︖
    • “concept” の意味は︖ “エモい” の意味は︖
    • 単語の意味 (⾔葉から何らかの表現への写像) はどう定めるべき︖

    View Slide

  24. 分布仮説と単語ベクトル

    View Slide

  25. 分布仮説 [Harrisʼ54, Firthʼ57, Schütze&Pedersenʼ65, etc.] と
    単語ベクトル [Mikolov+ʼ13, Devlin+ʼ18, etc.]
    25
    • “사과” (sagwa) という単語の意味は︖

    View Slide

  26. 分布仮説 [Harrisʼ54, Firthʼ57, Schütze&Pedersenʼ65, etc.] と
    単語ベクトル [Mikolov+ʼ13, Devlin+ʼ18, etc.]
    26
    • “사과” (sagwa) という単語の意味は︖
    • コーパス (単語の使われ⽅) を⾒ると…
    − 「사과 の⽊を植える」
    − 「冷え冷えの 사과 ジュースがうまい」
    − 「**県は 사과 の⽣産⾼が⽇本⼀」

    View Slide

  27. 分布仮説 [Harrisʼ54, Firthʼ57, Schütze&Pedersenʼ65, etc.] と
    単語ベクトル [Mikolov+ʼ13, Devlin+ʼ18, etc.]
    27
    • 分布仮説︓単語の意味は共起する語 (使われ⽅) を⾒ればわ
    かる
    − “If A and B have almost identical environments (...), we say
    they are synonyms: oculist and eye-doctor” [Harrisʼ54]
    − “You shall know a word by the company it keeps” [Firthʼ57]
    − “words with similar meanings will occur with similar neighbors
    if enough text material is available” [Schütze&Pedersenʼ65]

    View Slide

  28. 分布仮説 [Harrisʼ54, Firthʼ57, Schütze&Pedersenʼ65, etc.] と
    単語ベクトル [Mikolov+ʼ13, Devlin+ʼ18, etc.]
    28
    • 分布仮説︓単語の意味は共起する語 (使われ⽅) を⾒ればわ
    かる
    − “If A and B have almost identical environments (...), we say
    they are synonyms: oculist and eye-doctor” [Harrisʼ54]
    − “You shall know a word by the company it keeps” [Firthʼ57]
    − “words with similar meanings will occur with similar neighbors
    if enough text material is available” [Schütze&Pedersenʼ65]
    ※ 単語の意味に関するひとつの理論 (仮説)
    ※ この意味の仮説が実際の⾔語⾔語現象を表す最良のモデルなのか,
    多くの⾔語現象をよく説明/予測できるかはまた別問題
    ※ 分布仮説に基づく (≈ 現代の) ⾃然⾔語処理ではうまく対処できな
    い⾔語現象については後述

    View Slide

  29. 分布仮説 [Harrisʼ54, Firthʼ57, Schütze&Pedersenʼ65] と
    単語ベクトル [Mikolov+ʼ13, Devlin+ʼ18, etc.]
    29
    • 分布仮説︓単語の意味は共起する語 (使われ⽅) を⾒ればわ
    かる
    − 「사과 の⽊を植える」
    − 「冷え冷えの 사과 ジュースがうまい」
    − 「**県は 사과 の⽣産⾼が⽇本⼀」
    • 単語ベクトル︓共起単語を予測できるような表現を作れれ
    ば, それは単語の良い表現と⾔えるのでは?
    − 各単語に周辺語を予測しやすいような “ベクトル” 表現を割り当てる
    – 𝒱 → ℝ!; 𝑤 ↦ 𝒗"
    − 各ベクトル (たとえば 𝒗사과
    ) には「こういう単語と共起しそうで
    す」という情報 𝑝(⋅ |사과) が埋め込まれていてほしい
    − 実際の共起単語ペア,たとえば (사과, ジュース) は⼭ほど⼿に⼊る
    word2vec BERT

    View Slide

  30. 単語ベクトル (1): word2vec [Mikolov+ʼ13]
    30
    • 3層ニューラルネットを組んでみる
    • 学習が重い
    − 分⺟の計算が⼤変.⼀般に単語数は膨⼤ (数万〜数百万).
    − 巨⼤なコーパスから学習したい.
    – ~ 100B words, https://code.google.com/archive/p/word2vec/
    • noise contrastive estimation → skip-gram negative sampling
    − max
    正解クラスを当てたい →
    「正例ペア」or「擬似負例ペア」の
    どちらなのかを⾒分けられれば良い
    擬似負例 (を作るための c たち)
    をサンプリング

    View Slide

  31. 単語ベクトル (1): word2vec [Mikolov+ʼ13]
    31
    • 3層ニューラルネットを組んでみる
    • 学習が重い
    − 分⺟の計算が⼤変.⼀般に単語数は膨⼤ (数万〜数百万).
    − 巨⼤なコーパスから学習したい.
    – ~ 100B words, https://code.google.com/archive/p/word2vec/
    • noise contrastive estimation → skip-gram negative sampling
    − max
    正解クラスを当てたい →
    「正例ペア」or「擬似負例ペア」の
    どちらなのかを⾒分けられれば良い
    擬似負例 (を作るための c たち)
    をサンプリング
    ⼤事なこと︓
    周辺で共起する単語を予測できるだけの情報をもった何か(単語ベクトル)
    を得ることができるようになった
    𝑝 ジュース|사과 ∝ exp(⟨𝒗사과, 𝒗ジュース⟩)
    このベクトルには「どういう⽂脈で登場するのか」という情報が
    ひととおり⼊っているはず

    View Slide

  32. …で,うまくいきました?
    32
    単語ベクトルというパラダイムは本当にすごかった
    − 「単語ペアに対して⼈間が感じる意味の類似度」と「単語ベクトルペ
    アのなす⾓」が⾼い相関
    − 単語の特徴量として⽤いる⾮常に多くのタスクの跳ね上がる
    − アナロジー の計算ができてしまった (?!)
    – 𝒗#$%&'
    − 𝒗%&'
    ≈ 𝒗()**'
    − 𝒗+,'-
    − etc. etc.
    [Chen&Peterson’17]

    View Slide

  33. (おまけ) 数学の⼈向けに
    33
    • 術語の注
    − ※「単語ベクトル」という⾔い⽅でしばしば⾔及されますが, 空間の
    線形性 (とりわけスカラー倍 (の意味論)) は明には考えていません
    − ※ 「単語埋め込み」という⾔い⽅でしばしば⾔及されますが, 保存さ
    れる構造 (e.g., 距離) は明に意識されない場合が多いです
    − 「とにかく共起⽂脈を予測できるような NN を学習してみよう」
    • 「⼀体何をしているんです…?」
    − よくある “知能情報学” の研究開発の流れ︓
    − 1. ドメイン知識や仮説に基づき, ⼯学的な⽬標 (⼈間のように流暢に
    話せるAI) の実現が試みられる
    – 要請︓データ数に対するスケーラビリティ, 実装の容易さ, etc.
    − 2. すごくうまくいった⽅法に対して数理的解釈や拡張が試みられる
    − まず作られ → その後理解される (理解されない話も⼭のようにある)

    View Slide

  34. word2vec から BERT へ
    34
    • データ
    − 「사과 の⽊を植える」
    − 「冷え冷えの 사과 ジュースがうまい」
    − 「**県は 사과 の⽣産⾼が⽇本⼀」
    • データの使い⽅
    − word2vec が考える「사과 の周辺⽂脈」
    – 例︓窓幅2
    – {の, ⽊, を, 冷え冷え, の, ジュース, が, 県, は, の, ⽣産⾼, …}
    − 本当の「사과 の周辺⽂脈」
    – ⽂脈全体を,語順も考慮しながら使いたい
    – {[?] の⽊を植える,
    冷え冷えの [?] ジュースがうまい,
    **県は [?] の⽣産⾼が⽇本⼀}

    View Slide

  35. BERT︓⽳埋め問題を解かせまくる
    35
    • ニューラルネットに⽳埋め問題を解かせまくる
    − ⼊⼒︓[冷え冷え, の, [MASK], ジュース, が, うまい]
    − 出⼒︓사과
    • Wikipedia, Twitter, web news, … あらゆるテキストのあ
    らゆる箇所をマスクして解かせまくる
    [Jan+’20]

    View Slide

  36. …で,うまくいきました?
    36
    • ものすごかった
    − ⾃然⾔語処理の種々のアプリケーション (それぞれ別の意味理解が必
    要だと考えられている) のかなり多くのケースで⼤きな性能向上
    • わかったこと
    − (少なくとも経験的には,) 「周辺⽂脈の情報を単語の表現に埋め込
    む」という⽅法論は単語の表現学習の⾮常に本質的な指針っぽい

    View Slide

  37. …で,うまくいきました?
    37
    • ものすごかった
    − ⾃然⾔語処理の種々のアプリケーション (それぞれ別の意味理解が必
    要だと考えられている) のかなり多くのケースで⼤きな性能向上
    • わかったこと
    − (少なくとも経験的には,) 「周辺⽂脈の情報を単語の表現に埋め込
    む」という⽅法論は単語の表現学習の⾮常に本質的な指針っぽい
    • NLP 終了

    View Slide

  38. …で,うまくいきました?
    38
    • ものすごかった
    − ⾃然⾔語処理の種々のアプリケーション (それぞれ別の意味理解が必
    要だと考えられている) のかなり多くのケースで⼤きな性能向上
    • わかったこと
    − (少なくとも経験的には,) 「周辺⽂脈の情報を単語の表現に埋め込
    む」という⽅法論は単語の表現学習の⾮常に本質的な指針っぽい
    • にもかかわらず NLP 終了 … では全然ない

    View Slide

  39. (おまけ) 分布仮説に基づく
    単語の表現学習の限界

    View Slide

  40. 分布仮説に基づく表現学習では難しいことの
    例︓対義語の⾒分け
    40
    • 正反対の意味の語 (対義語) は分布仮説からすると似ている
    − たとえば “明るい” と “暗い”
    − 周辺⽂脈が似ている → ベクトルも似る
    – だいたいの場合対義語は置き換えられる
    – 「あれ︖この照明なんか異様に [?] くない︖」
    – 「**さんほんと性格 [?] よね」
    − 対義語は “オントロジー” (概念の⽊)
    の最後の最後ではじめて枝分かれする
    とても似ている単語
    [Maynard+’08]

    View Slide

  41. そもそもコーパスからの学習では
    できないことがまだまだ⼭のようにある
    41
    • グラウンディング
    − ⼈と⾒分けがつかないほど流暢に話せる⾔語モデル (たとえば GPT-
    3) は,部屋に閉じ込められてしまった⼦供が⾃⼒で脱出できるよう
    に⽅法 (たとえば部屋にありそうな道具の使い⽅) を指⽰できるか︖
    • モダリティ
    − 写真で表現できること ←→ テキストで表現できること
    • 語⽤論
    − パワハラ上司「この部屋あっちぃな…」
    • etc.

    View Slide

  42. ⽂の表現と計算へ

    View Slide

  43. Sequence-to-sequence
    43
    • NLPのかなり多くの問題は「テキストを⼊⼒としてテキストを出
    ⼒する」形式をとる (sequence to sequence)
    − 機械翻訳︓source ⽂ (たとえば英⽂) → target ⽂ (たとえば和⽂)
    − 対話システム︓発話 (たとえば⼈の話しかけ) → 応答 (botの応答)
    − ⾃動要約︓⽂書 → 要約⽂
    • 教師データを作る+ニューラルネットで教師あり学習が標準
    − encoder-decoder とも
    • モデルの出⼒ (テキスト) と正解データ (テキスト) を⽐べてその
    違いの度合い評価する必要がある
    https://www.guru99.com/seq2seq-model.html

    View Slide

  44. ⽂の意味の類似度の計算は重要
    44
    • テキスト⽣成システムの損失,評価
    − 医療・法律等が関わるシーンでの利⽤を想定すると,
    翻訳漏れや過剰訳は致命的

    View Slide

  45. ⽂は単語と同じようにいかない
    45
    • ⾃然な問い︓単語ベクトルと同様に⽂ベクトルを学習した
    らいいのでは…? → No
    • ⽂の意味は⽂脈(外側)では決まらない
    − 単語単位の⽳埋め問題は解けるが,⽂単位の⽳埋め問題は解けない
    – たとえばこの⽂が隠されているとして前後の⽂脈から予測できますか︖
    − 分布仮説は⽂には適⽤できない
    • ⽂の意味は単語(内側)で決まる
    − はじめて⾒る⽂の意味を理解することができるのは,単語の意味から
    ⽂の意味を構成できるから [Frege, 1914]

    View Slide

  46. ⽂の類似度は単語を使って計算できる
    46
    • Q: どうやって計算する?
    • ⽂の類似度=構成要素の重複度 [Sultan+ʼ15]
    • 単語ベクトルは⼿元にある
    • Q: どのように⽂類似度を計算する︖

    View Slide

  47. まとめ

    View Slide

  48. このセクションのまとめ
    48
    ⾃然⾔語の表現学習⼊⾨
    • 意味の表現と計算
    • 単語︓「分布仮説に基づく単語埋込の学習」というパラダイム
    − 分布仮説︓似た⽂脈で出現する単語は意味が似ている
    − 単語埋込︓共起⽂脈の情報をベクトルに埋め込む
    – word2vec︓近傍で共起する単語を予測させまくる
    – BERT︓⽳埋め問題を解かせまくる
    • ⽂︓単語の表現を使っていかに⽂の意味を計算するか
    − ⽂の表現
    – ⽂の意味は外側 (⽂脈) からは確定できない (分布仮説は使えない)
    – ⽂の意味は内側 (構成要素である単語) で決まる (構成性)
    − ⽂の計算
    – ⽂の類似度は近似的に構成要素の “重複率” で測れる
    – Q︓どのように計算すれば良い︖

    View Slide

  49. 2. 最適輸送の基礎
    49
    Kantorovich の問題とその利⽤

    View Slide

  50. このセクションの⽬標
    50
    • 最適輸送の定式化を直感的に理解する
    − Monge–Kantorovich の問題の⼊出⼒を理解する
    – ⼊⼒︓確率分布 × 2 (荷物の配置 before,荷物の配置 after),輸送コスト
    – 出⼒︓最適輸送コスト,輸送計画 (カップリング)
    – 線形計画問題として定式化される
    − Wasserstein distance が何かを知る
    • 最適輸送の使いどころを知る
    − 2つの対象を⽐較したい
    − 対象が確率分布 (ヒストグラム,点の集合,etc.) として表現できる
    − 空間に⾃然な “距離” 構造が⼊っている
    – サポートが不⼀致でもよい
    − or 副作⽤としてのアラインメント (マッチング, 対応づけ) 情報がほ
    しい

    View Slide


  51. 51
    • このセクションに含まれる最適輸送⼀般に関する解説スラ
    イドは MLSS 2020 の Cuturi 先⽣トークのスライドその
    もの です.おすすめ.
    − http://mlss.tuebingen.mpg.de/2020/
    − https://drive.google.com/file/d/1yAvaU19agJYq_FdLlghS14QZ8
    d5X48oB/
    • 数学的なモチベーションや精確な定式化に興味のあるかた
    は,⽇本語であればたとえば太⽥先⽣ (⼤阪⼤) や⾼津先⽣
    (都⽴⼤) の資料を参照ください.
    − http://www4.math.sci.osaka-
    u.ac.jp/~sohta/jarts/bunkakai08.pdf
    − https://www.kurims.kyoto-
    u.ac.jp/~kyodo/kokyuroku/contents/pdf/1916-11.pdf

    View Slide

  52. Monge の問題
    「最適輸送の定式化はひとつではないです」の例として

    View Slide

  53. 53
    https://drive.google.com/file/d/1yAvaU19agJYq_FdLlghS14QZ8d5X48oB/

    View Slide

  54. 54
    https://drive.google.com/file/d/1yAvaU19agJYq_FdLlghS14QZ8d5X48oB/

    View Slide

  55. 55
    https://drive.google.com/file/d/1yAvaU19agJYq_FdLlghS14QZ8d5X48oB/

    View Slide

  56. 56
    https://drive.google.com/file/d/1yAvaU19agJYq_FdLlghS14QZ8d5X48oB/

    View Slide

  57. 57
    https://drive.google.com/file/d/1yAvaU19agJYq_FdLlghS14QZ8d5X48oB/

    View Slide

  58. Monge の定式化で解が得られない例
    58
    𝝁
    𝝂

    View Slide

  59. Monge–Kantorovich の問題

    View Slide

  60. 60
    https://drive.google.com/file/d/1yAvaU19agJYq_FdLlghS14QZ8d5X48oB/

    View Slide

  61. 61

    View Slide

  62. 62
    https://drive.google.com/file/d/1yAvaU19agJYq_FdLlghS14QZ8d5X48oB/

    View Slide

  63. 63
    https://drive.google.com/file/d/1yAvaU19agJYq_FdLlghS14QZ8d5X48oB/

    View Slide

  64. 64

    View Slide

  65. Monge–Kantorovich の問題 (離散版)
    65
    • ⼊⼒
    − 確率分布 × 2 (before, after)
    − 点 (位置) 間の輸送コスト
    • 制約条件
    − ⼊出⼒を
    もれなくカップリング
    • 出⼒
    − 最適輸送コスト (最適値)
    − 輸送計画 (最適解) 𝐏∗ 今⽇の⽬標のひとつ︓
    この notation と意味を理解

    View Slide

  66. Monge–Kantorovich の問題 (離散版)
    66
    • ⼊⼒
    − 確率分布 × 2 (before, after)
    − 点 (位置) 間の輸送コスト
    • 制約条件
    − ⼊出⼒を
    もれなくカップリング
    • 出⼒
    − 最適輸送コスト (最適値)
    − 輸送計画 (最適解) 𝐏∗ 今⽇の⽬標のひとつ︓
    この notation と意味を理解
    重みの総和は1に
    しておく
    確率値 (荷物の量) と位置のペア
    1
    6
    𝛿
    位置情報を忘れて重みベクトル
    𝐚 = 𝐚!
    , … , 𝐚"
    , 𝐛 = (𝐛!
    , … , 𝐛#
    )
    だけで済ますこともしばしば.
    コスト⾏列が埋まっていれば,
    位置の情報は最早最適化とは無
    関係なので.

    View Slide

  67. Monge–Kantorovich の問題 (離散版)
    67
    • ⼊⼒
    − 確率分布 × 2 (before, after)
    − 点 (位置) 間の輸送コスト
    • 制約条件
    − ⼊出⼒を
    もれなくカップリング
    • 出⼒
    − 最適輸送コスト (最適値)
    − 輸送計画 (最適解) 𝐏∗ 今⽇の⽬標のひとつ︓
    この notation と意味を理解
    周辺分布がそれぞれ a, b
    となるような同時分布
    位置情報を忘れて重みベクトル
    𝐚 = 𝐚!
    , … , 𝐚"
    , 𝐛 = (𝐛!
    , … , 𝐛#
    )
    だけで済ますこともしばしば.
    コスト⾏列が埋まっていれば,
    位置の情報は最早最適化とは無
    関係なので.
    重みの総和は1に
    しておく
    確率値 (荷物の量) と位置のペア
    1
    6
    𝛿

    View Slide

  68. Monge–Kantorovich の問題 (離散版)
    68
    • ⼊⼒
    − 確率分布 × 2 (before, after)
    − 点 (位置) 間の輸送コスト
    • 制約条件
    − ⼊出⼒を
    もれなくカップリング
    • 出⼒
    − 最適輸送コスト (最適値)
    − 輸送計画 (最適解) 𝐏∗ 今⽇の⽬標のひとつ︓
    この notation と意味を理解
    周辺分布がそれぞれ a, b
    となるような同時分布
    位置情報を忘れて重みベクトル
    𝐚 = 𝐚!
    , … , 𝐚"
    , 𝐛 = (𝐛!
    , … , 𝐛#
    )
    だけで済ますこともしばしば.
    コスト⾏列が埋まっていれば,
    位置の情報は最早最適化とは無
    関係なので.
    重みの総和は1に
    しておく
    確率値 (荷物の量) と位置のペア
    1
    6
    𝛿
    線形計画問題

    View Slide

  69. 最適輸送の特徴
    アラインメントの情報が得られる
    69
    • 最適輸送の特徴︓アラインメントの情報が得られる
    − 最⼩の輸送コスト (最適値,分布間距離) がほしいシーンのみならず,
    − マッチング,アラインメント,対応づけ (最適解,輸送計画⾏列) がほ
    しいシーンでもよく使われる.
    [Peyré&Cuturi, Computational Optimal Transport]

    View Slide

  70. 具体例︓word moverʼs distance
    [Kusner+ ICMLʼ15]
    70
    • テキスト同⼠の意味的な類似度を推定したい
    − NLP の重要な問題のひとつ
    • Word moverʼs distance [Kusner+ ICMLʼ15]
    − ⼊⼒︓テキストを「単語ベクトルからなる分布」とみなす
    − 出⼒︓最適輸送コスト

    View Slide

  71. 具体例︓word moverʼs distance
    [Kusner+ ICMLʼ15]
    71
    • テキスト同⼠の意味的な類似度を推定したい
    − NLP の重要な問題のひとつ
    • Word moverʼs distance [Kusner+ ICMLʼ15]
    − ⼊⼒︓テキストを「単語ベクトルからなる分布」とみなす
    − 出⼒︓最適輸送コスト
    ⽂=単語ベクト
    ルの⼀様な混合
    単語同⼠の “置換” コスト
    単語の意味的な⾮類似度

    View Slide

  72. Monge–Kantorovich の問題,補⾜

    View Slide

  73. 何点か補⾜します
    73
    • Wasserstein distance もよく聞くけどこれは何?
    • Earth moverʼs distance もよく聞くけどこれは何?
    • Sinkhorn distance もよく聞くけどこれは何?
    • 連続な分布を扱いたい場合は?
    • 最適化問題を解く具体的な⽅法は?

    View Slide

  74. p-Wasserstein distance
    74
    • p-Wasserstein distance (離散版)
    コスト c が距離のとき,𝑝 ∈ [1, ∞)に対して以下は確率分布
    間の距離を定める.
    − 𝑝 が重なって読みづらいので輸送計画⾏列の表記を 𝐓 にしてます.
    • 注
    − ⼀般の最適輸送問題において c は距離でなくても良い.
    − 「Wasserstein distance」という呼称について︓慣例的な呼び⽅にな
    っているものの,Wasserstein さん「の」仕事というわけではない模
    様 [Villaniʻ09; §6, Bibliographical notes].

    View Slide

  75. p-Wasserstein distance
    75
    • p-Wasserstein distance (離散版)
    コスト c が距離のとき,𝑝 ∈ [1, ∞)に対して以下は確率分布
    間の距離を定める.
    − 𝑝 が重なって読みづらいので輸送計画⾏列の表記を 𝐓 にしてます.
    • 注
    − ⼀般の最適輸送問題において c は距離でなくても良い.
    − 「Wasserstein distance」という呼称について︓慣例的な呼び⽅にな
    っているものの,Wasserstein さん「の」仕事というわけではない模
    様 [Villaniʻ09; §6, Bibliographical notes].
    点間の輸送コスト
    c(x,y) が距離
    分布間の最適輸送コス
    ト W(α,β) が距離
    確率測度のなす空間に距離が定まる
    → ご利益のひとつ (barycenter) は後ほど

    View Slide

  76. Earth moverʼs distance
    76
    • Earth moverʼs distance
    − おそらく未定義語.
    − 画像処理の⽂脈で1-Wasserstein距離の呼称として使われはじめ,情
    報科学を中⼼に広まっている.
    − いまは,⼀般の最適輸送コストないし Wasserstein 距離の意味で使
    われているように⾒える.

    View Slide

  77. Sinkhorn distance [Cuturiʼ13]
    77
    • エントロピー正則化を⼊れて⽬的関数を変更
    − 元の最適化問題とは別の問題を解く
    − ぼわっとした解が求まる
    • ご利益
    − 最適化が iterative な⾏列計算に帰着 (Sinkhorn アルゴリズム)
    – 並列化可,GPU フレンドリー
    − 解を⼊⼒で微分可能に
    – どういう⽅向に⼊⼒を変化させれば輸送コストが下がるかわかる
    “⼀様なほど嬉しい”

    View Slide

  78. 離散,連続
    78
    • 今⽇は簡単のため離散分布のみ扱います.離散と連続の⽐
    較 (semi-discrete),連続分布の⽐較も⼤きなトピック.
    [Peyré&Cuturi, Computational Optimal Transport]

    View Slide

  79. 最適輸送問題の解き⽅
    79
    • Monge–Kantorovich の問題は線形計画問題
    • ⾼速なソルバに投げる →
    − 数理最適化の研究者の皆様ありがとうございます

    View Slide

  80. 最適輸送問題の解き⽅
    80
    • Monge–Kantorovich の問題は線形計画問題
    • ⾼速なソルバに投げれば完… ではない
    − O(n^3 log n) は決して軽くない, 何らかの条件の下で/緩和した上で, ⾼
    速化/並列化できない?
    − 最適輸送問題が部分問題になっており (主に機械学習の⽂脈で) 損失を流
    したい場合は?
    • 具体的な話は明⽇の佐藤さんのトークにて
    − ⽬的関数の強凸化/微分可能に/並列化可能に → Sinkhorn distance
    − サポートが⽊の場合 → スライシング
    − etc.
    • ※ NLPer としての指針
    − ⽂を扱う (n~20 程度) → 何も考えず⽣の線形計画ソルバに投げれば良い
    – e.g., POT の emd2()
    − ⽂書を扱う (n>>100) or 微分したい場合 → ⾼速化や緩和の検討をしないと
    つらい or 必要

    View Slide

  81. 最適輸送問題のソルバ
    81
    • 最適輸送を道具として使いたい情報系エンジニア・リサー
    チャー向けのおすすめのPythonインタフェースのソルバ
    − POT: Python Optimal Transport
    – docs: https://pythonot.github.io/
    – paper: http://jmlr.org/papers/v22/20-451.html (JMLR 2021)
    – 開発が盛ん
    – Monge–Kantorovich の最適化問題以外のさまざまな亜種・拡張も⼊っている
    − geomloss: Geometric Loss functions between sampled measures,
    images and volumes
    – docs: https://www.kernel-operations.io/geomloss/
    – paper: http://proceedings.mlr.press/v89/feydy19a.html (AISTATS 2019)
    – Pytorch と連携させたい場合

    View Slide

  82. 例を⾒ながら最適輸送に馴染む

    View Slide

  83. → 最適輸送の使いどころを知る
    83
    • ここからの⽬標
    − いくつかの具体例を通して「あ…こういう場合は最適輸送を使いたく
    なるな…」という直感を得る
    • 最適輸送の使いどころ (仮まとめ)
    − 2つの対象の類似度/距離の計算が (部分) 問題になっている
    − 対象が確率分布 (ヒストグラム,点の集合,etc.) として表現できる
    − 空間に⾃然な “距離” 構造が⼊っている
    – サポートが不⼀致でもよい
    − or 副作⽤としてのアラインメント (マッチング, 対応づけ) 情報がほ
    しい

    View Slide

  84. NLP における具体的な利⽤例 (1)
    ⽂=単語ベクトルの確率的な混合

    View Slide

  85. ⽂の意味の類似度の計算は重要
    85
    • テキスト⽣成システムの損失,評価
    − 医療・法律等が関わるシーンでの利⽤を想定すると,
    翻訳漏れや過剰訳は致命的

    View Slide

  86. • ⽂の類似度=構成要素の重複度 [Sultan+ʼ15]
    • 単語ベクトルは⼿元にある
    • Q: どのように⽂類似度を計算する︖
    ⽂の類似度は単語を使って計算できる
    86

    View Slide

  87. • ⽂の類似度=構成要素の重複度 [Sultan+ʼ15]
    • 単語ベクトルは⼿元にある
    • Q: どのように⽂類似度を計算する︖
    − ハンガリアンアルゴリズム? [Song&Rothʼ15]
    − ファジィ論理? [Zhelezniak+ ICLRʼ19]
    − いや待て待て… マッチング…? アラインメント…??
    ⽂の類似度は単語を使って計算できる
    87

    View Slide

  88. Word moverʼs distance [Kusner+ ICMLʼ15]
    (再)
    88
    • Word moverʼs distance [Kusner+ ICMLʼ15]
    − ⼊⼒︓テキストを「単語ベクトルからなる分布」とみなす
    − 出⼒︓最適輸送コスト ← ソフトな「マッチング成功度」

    View Slide

  89. 最適輸送の使いどころを知る
    89
    • 最適輸送の使いどころ (仮まとめ)
    − 2つの対象の類似度/距離の計算が (部分) 問題になっている
    – ⽂と⽂の類似度を計算したい
    − 対象が確率分布 (ヒストグラム,点の集合,etc.) として表現できる
    – ⽂は単語ベクトルの集合…?
    − 空間に⾃然な “距離” 構造が⼊っている
    – 単語を表現できる空間 (単語埋め込み空間) で “近い” 単語=意味の似てい
    る単語だった
    − or 副作⽤としてのアラインメント (マッチング, 対応づけ) の情報が
    ほしい
    – ほしい,「⽂類似度=単語のマッチングの良さ」
    – アラインメントミスが⾒つかれば,「単語ベクトルの使い⽅がまずいのか
    も,学習できていないのかも」もというフィードバックが得られる (XAI)

    View Slide

  90. (おまけ1) 「単語埋め込みの気持ち」を⼊れ
    ると性能が跳ね上がる [Yokoi+ʼ20]
    90
    • 「テキスト類似度を最適輸送で」というアイデアは (あとか
    ら考えてみると) 確かにすごく⾃然.良い研究.
    • ところで⼊⼒の形式が気になる
    − 最適輸送を知っている⼈にとってはおそらく最も⾃然な初⼿.
    − NLP の中の⼈からみるとやや不⾃然.
    各単語の重みは uniform か…?
    “a” は⼤きくは⽂の意味を決めない,
    “violin” はかなり強く⽂の意味を決める
    輸送コストはユークリッド距離か…?
    (原点に依存する) 内積を⽬的関数関数に
    して単語ベクトルを学習していたのに
    並⾏移動不変なL2で類似度を測る…?

    View Slide

  91. (おまけ1) 「単語埋め込みの気持ち」を⼊れ
    ると性能が跳ね上がる [Yokoi+ʼ20]
    91
    • Word rotatorʼs distance
    − 各単語ベクトル 𝒘 をノルム 𝜆 と⽅向ベクトル 𝒖 に分ける 𝒘 = 𝜆𝒖
    − “情報の強さ” はノルムで測る
    − 単語間の意味的類似度は cos で測る
    − スコアが跳ね上がる (52.31 → 76.97; STS-B)
    • Take home message: ドメイン知識は⼤事
    お気持ちレベルの説明︓
    たとえば “a” はあらゆるテキストに含
    まれる (情報が少ない).
    → 単語ベクトルの学習の過程で空間内
    のあらゆる場所から引っ張られる.
    → 原点付近に → ノルム⼩さい
    !"
    !#
    1 cos(!"
    , !#
    )

    ,"
    -"
    .

    View Slide

  92. (おまけ2) そもそも最適輸送にする必要はあ
    るのか? [Sato+ʼ21]
    92
    • ⽂表現は bag-of-words (シンボルの集合) で⼗分
    − めちゃくちゃ良い話
    • (NLPer 的) take home message: タスクと道具を合わせる
    − 埋め込みが必要かどうかはケースバイケース
    – 極性分析 (⼀部の特徴語を捉えれば良い場合) や⽂書分類 (単語数が⼗分⼤き
    い場合) では多くの場合 BoW で⼗分
    − アラインメントが必要かどうかはケースバイケース
    – コストだけがほしいなら,分布をベクトルに埋め込む⽅向性も
    [Wu+EMNLPʼ18, Courty+ICMLʼ18, etc.]
    – 「分布間類似度」より「ベクトル間類似度」の⽅が⼀般に軽い

    View Slide

  93. NLP における具体的な利⽤例 (2)
    単語=意味ベクトルの確率的な混合
    表現学習に使う例

    View Slide

  94. 単語は「空間の⼀点」で良いのだろうか?
    要素還元的な語彙意味論
    94
    • 単語は意味素 (より根源的な意味の単位) そのものではない
    • ⾔語学 … 成分分析 (componential analysis) [Saeedʼ03]
    − “boy”: [+HUMAN] [-ADULT] [+MALE]
    • ⼼理学 … Semantic Differential [Osgoodʼ52]
    クリスタル,『⾔語学百科事典』

    View Slide

  95. 単語は「空間の⼀点」で良いのだろうか?
    多義性の問題
    95
    • “bank” は使われ⽅に応じて「銀⾏」だったり「⼟⼿」だっ
    たりする.
    • “book” 「予約する」「本」
    • “right” 「右」「権利」
    • “capital” 「⾸都」「資本」
    • “⾸” 「neck」「fire」
    • etc. etc.

    View Slide

  96. [Frogner+ICLRʼ19, etc.]
    “単語分布” の学習
    96
    • 単語=意味ベクトルの混合
    • 共起する単語の表現間の Sinkhorn distance を⼩さくする
    • 語義の揺れが学習できる
    s
    共起情報 r が Wasserstein
    距離で保存されるように
    分布表現を学習
    word2vec
    単語=ベクトル
    word2vec
    共起する単語の表現間の
    内積を⼤きくする

    View Slide

  97. 最適輸送の使いどころを知る
    97
    • 最適輸送の使いどころ
    − 2つの対象の類似度/距離の計算が (部分) 問題になっている
    – (2) 共起の強い単語の表現同⼠の距離を近づけたい
    − 対象が確率分布 (ヒストグラム,点の集合,etc.) として表現できる
    – (1) 単語は意味素の混合では…?
    − 空間に⾃然な “距離” 構造が⼊っている
    – (2) “意味ベクトル空間” を学習したい
    − or 副作⽤としてのアラインメント (マッチング, 対応づけ) の情報が
    ほしい

    View Slide

  98. (おまけ) BERT は語義曖昧性を
    それなりに解消してくれる
    98
    [Coenen+’18] 注︓この図全体でひとつの空間内の様⼦

    View Slide

  99. まとめ

    View Slide

  100. このセクションの⽬標
    100
    • 最適輸送の定式化を直感的に理解する
    − Monge–Kantorovich の問題の⼊出⼒を理解する
    – ⼊⼒︓確率分布 × 2 (荷物の配置 before,荷物の配置 after),輸送コスト
    – 出⼒︓最適輸送コスト,輸送計画 (カップリング)
    – 線形計画問題として定式化される
    − Wasserstein distance が何かを知る
    • 最適輸送の使いどころを知る
    − 2つの対象を⽐較したい
    − 対象が確率分布 (ヒストグラム,点の集合,etc.) として表現できる
    − 空間に⾃然な “距離” 構造が⼊っている
    – サポートが不⼀致でもよい
    − or 副作⽤としてのアラインメント (マッチング, 対応づけ) 情報がほ
    しい

    (1) ⽂類似度を測る
    (2) 分布表現を学習する

    View Slide

  101. 3. 最適輸送問題の亜種・拡張
    101

    View Slide

  102. このセクションの⽬標
    102
    • ⽬標
    − 最適輸送問題の亜種・拡張を知る.
    – Monge–Kantorovich の問題以外の設定や使い⽅を知る.
    – キーワードと機能を把握して,いざ使いたくなったときにスムーズに⽂献に当
    たれるようになる.
    • 触れる話題
    − Wasserstein barycenter
    – 「Wasserstein 距離が確率測度のなす空間の距離になっている」の気持ちをつ
    かむ.
    − Gromov–Wasserstein distance
    – ふたつの分布が違う空間にあってもアラインメントはできる.
    − Unbalanced optimal transport
    – カップリングの制約を外す.
    − Structured optimal transport
    – 扱う対象が持っている構造を持っている構造を考慮する.
    – (cf. サポートの持っている構造を考慮する.)

    View Slide

  103. 前セクションの復習
    Monge–Kantorovich の定式化を思い出す

    View Slide

  104. 104
    https://drive.google.com/file/d/1yAvaU19agJYq_FdLlghS14QZ8d5X48oB/

    View Slide

  105. 105
    https://drive.google.com/file/d/1yAvaU19agJYq_FdLlghS14QZ8d5X48oB/

    View Slide

  106. Monge–Kantorovich の問題 (離散版) (再掲)
    106
    • ⼊⼒
    − 確率分布 × 2 (before, after)
    − 点 (位置) 間の輸送コスト
    • 制約条件
    − ⼊出⼒を
    もれなくカップリング
    • 出⼒
    − 最適輸送コスト (最適値)
    − 輸送計画 (最適解) 𝐏∗

    View Slide

  107. Monge–Kantorovich の問題 (離散版) (再掲)
    107
    • ⼊⼒
    − 確率分布 × 2 (before, after)
    − 点 (位置) 間の輸送コスト
    • 制約条件
    − ⼊出⼒を
    もれなくカップリング
    • 出⼒
    − 最適輸送コスト (最適値)
    − 輸送計画 (最適解) 𝐏∗
    周辺分布がそれぞれ a, b
    となるような同時分布
    位置情報を忘れて重みベクトル
    𝐚 = 𝐚!
    , … , 𝐚"
    , 𝐛 = (𝐛!
    , … , 𝐛#
    )
    だけで済ますこともしばしば.
    重みの総和は1に
    しておく
    確率値 (荷物の量) と位置のペア
    1
    6
    𝛿
    線形計画問題

    View Slide

  108. Wasserstein barycenter
    ふたつの分布の「中間地点」を求める

    View Slide

  109. p-Wasserstein distance (再掲)
    109
    • p-Wasserstein distance (離散版)
    コスト c が距離のとき,𝑝 ∈ [1, ∞)に対して以下は確率分布
    間の距離を定める.

    View Slide

  110. 110
    https://drive.google.com/file/d/1yAvaU19agJYq_FdLlghS14QZ8d5X48oB/

    View Slide

  111. 111
    https://drive.google.com/file/d/1yAvaU19agJYq_FdLlghS14QZ8d5X48oB/

    View Slide

  112. Wasserstein 距離 (再)
    112
    https://drive.google.com/file/d/1yAvaU19agJYq_FdLlghS14QZ8d5X48oB/

    View Slide

  113. 113
    https://drive.google.com/file/d/1yAvaU19agJYq_FdLlghS14QZ8d5X48oB/
    内分点が定義・計算できる

    View Slide

  114. Wasserstein barycenter (離散版)
    (Fréchet mean)
    114
    • Wasserstein barycenter
    − 確率分布の重⼼
    − ⼊⼒の分布が2つの場合︓輸送の中間状態
    − ⼊⼒
    – ヒストグラムたち {b}
    – 混合⽐率 {λ}
    − 出⼒
    – 重⼼のヒストグラム (※サポートの点数は fixed) a
    馴染みある「重⼼」と同じ
    重さ (この場合混合率λ) × 距離 (この場合Wasserstein距離)
    が最⼩になる点

    View Slide

  115. 最適輸送は「横に」変化する
    • 静⽌画
    https://speakerdeck.com/gpeyre/from-
    monge-kantorovich-to-gromov-
    wasserstein-optimal-transport-and-
    barycenters-between-several-metric-
    spaces
    • 動画
    https://twitter.com/gabrielpeyre/statu
    s/941355525509468160
    115

    View Slide

  116. 応⽤例︓Color histogram の重⼼
    116
    [Peyré&Cuturi, Computational Optimal Transport]

    View Slide

  117. (おまけ) 「テキストはどうした?」
    117
    • テキストは「連続的な変化」を起こしづらい
    − 画像︓元画像を連続的に少しだけ変化させてもやはり画像
    − ⾔語︓元⽂を1単語変えると⽂の意味がドラスティックに変化する
    • データの空間が離散であることが壁になりCVほど激しく進
    展していないNLPの研究領域 (私⾒)
    − 変分オートエンコーダー
    − スタイル変換
    – ※ ターゲットコーパスでの fine tune は⼗分効果的
    − 敵対的学習
    – ※ 単語の置き換えでも⼤きな効果
    − データ拡張
    – ※ 折り返し翻訳など NLP の⽅法も

    View Slide

  118. Gromov–Wasserstein
    別の空間にある分布同⼠をマッチングする

    View Slide

  119. Gromov–Wasserstein の気持ち︓
    違う空間に存在する分布同⼠をマッチングしたい
    119
    • ⼊⼒
    − 確率分布 × 2 (before, after)
    − 点 (位置) 間の輸送コスト
    • 制約条件
    − ⼊出⼒を
    もれなくカップリング
    • 出⼒
    − 最適輸送コスト (最適値)
    − 輸送計画 (最適解) 𝐏∗
    2つの分布が別の空間に
    居るときを考える
    もはや「x同⼠の距離」
    「y同⼠の距離」しかわからない
    そういう状況でも
    マッチングしたい

    View Slide

  120. Gromov–Wasserstein distance
    120
    • Gromov–Wasserstein distance
    − 「近い点ペアは移動後も近い」「遠い点ペアは移動しても遠い」
    [Peyré&Cuturi, Computational Optimal Transport]

    View Slide

  121. 例1︓
    違う空間のオブジェクトのアラインメント
    121
    • [Solomon+ʼ16]

    View Slide

  122. 例2︓
    教師なし bilingual lexicon induction
    122
    • モチベーション
    − 単語対応は機械翻訳の重要なサブタスク
    – ※ 統計的機械翻訳という深層学習ベースに
    なる前の機械翻訳でとくにクリティカル
    − 対訳コーパス (たとえば英⽂と対応する和
    ⽂のペアの集合) を作るのはハイコスト
    − 単⾔語コーパスなら容易に⼿に⼊る
    − 単⾔語コーパスだけを使って単語の対応づ
    けはできる?
    [Haghighi+ ACL’08]

    View Slide

  123. 例2︓教師なし bilingual lexicon induction
    123
    • モチベーション
    − 単語対応は機械翻訳の重要なサブタスク
    – ※ 統計的機械翻訳という深層学習ベースに
    なる前の機械翻訳でとくにクリティカル
    − 対訳コーパス (たとえば英⽂と対応する和
    ⽂のペアの集合) を作るのはハイコスト
    − 単⾔語コーパスなら容易に⼿に⼊る
    − 単⾔語コーパスだけを使って単語の対応づ
    けはできる?
    [Haghighi+ ACL’08]
    「対応づけ」?
    最適輸送を使いたくなって
    きたな……

    View Slide

  124. 例2︓教師なし bilingual lexicon induction
    [Alvarez-Melis&Jaakkola EMNLPʼ18]
    124
    • 1⾔語=1単語埋め込み空間 (単語ベクトル集合)
    • Gromov–Wasserstein で教師なしマッチング …が結構で
    きてしまう
    − (単語の関係性の情報だけで
    単語の単語らしさが⾒える)

    View Slide

  125. 例3︓同じ空間で Gromov–Wasserstein
    barycenter [Peyré+ ICMLʼ16]
    125
    • G–W はオブジェクト内の位置関係のみに基づいてアライン
    メントできた
    • barycenter:
    − ε: ここでもエントロピー正則化+Sinkhorn アルゴリズム

    View Slide

  126. Unbalanced OT
    分布の⼤きさが異なる場合に対応する

    View Slide

  127. Unbalanced OT の気持ち︓
    荷物の量揃えなくてもいいよね…?
    127
    • ⼊⼒
    − 確率分布 × 2 (before, after)
    − 点 (位置) 間の輸送コスト
    • 制約条件
    − ⼊出⼒を
    もれなくカップリング
    • 出⼒
    − 最適輸送コスト (最適値)
    − 輸送計画 (最適解) 𝐏∗
    重みの合計が1である必要?
    ⼊出⼒で差があっても良い?
    「もれなく」の条件を外せる?

    View Slide

  128. 「テキスト類似度」のモチベーション:
    ⼀部だけマッチングさせたいケース
    128
    • ⻑さの全く違う⽂を⽐較したい [Wang+ ACMLʼ20]
    − B の “awful” と C の “sad” だけマッチングできれば⼗分
    − ほかの単語は無視したい (運びませんでした︕おしまい︕ にしたい)

    View Slide

  129. Unbalanced optimal transport
    129
    • 特殊ケース
    − {Wasserstein–Fisher–Rao, Hellinger–Kantorovich} distance

    – ,
    − {optimal partial, partial optimal, partial} transport
    – D: ℓ1 (total variation)
    カップリングで
    なくても良い
    荷物が⾜りなかったり溢れたりした場合はペナルティ
    cf. .

    View Slide

  130. Unbalanced OT & barycenter
    130

    View Slide

  131. 最適輸送は「横に」変化する (再掲)
    Wasserstein–Fisher–Rao は Wasserstein と Fisher–Rao の間
    • 静⽌画
    https://speakerdeck.com/gpeyre/from-
    monge-kantorovich-to-gromov-
    wasserstein-optimal-transport-and-
    barycenters-between-several-metric-
    spaces
    • 動画
    https://twitter.com/gabrielpeyre/statu
    s/941355525509468160
    131
    Fisher–Rao
    Wasserstein

    View Slide

  132. Structured OT
    分布が持つ固有の構造を考慮する
    ※ 各論っぽい話です

    View Slide

  133. Structured OT の気持ち︓
    分布の内部構造を考慮したい
    133
    • ⼊⼒
    − 確率分布 × 2 (before, after)
    − 点 (位置) 間の輸送コスト
    • 制約条件
    − ⼊出⼒を
    もれなくカップリング
    • 出⼒
    − 最適輸送コスト (最適値)
    − 輸送計画 (最適解) 𝐏∗
    各分布が固有の内部構造を
    持っている場合?
    Objective をどう修正すれば
    良い︖

    View Slide

  134. 構造を考慮したい
    その1: 分布の「配列」性
    134
    • 「テキストの類似度」のモチベーション
    − WMD︓テキスト=単語ベクトルの確率的混合
    – bag of word vectors
    − ……語順は?
    – “Mary kills John.” と “John kills Mary.” はだいぶ意味が違う.
    [Liu+ WWW’18]
    よしよしコストゼロで完璧
    にマッチングできました
    …ではない
    “laugh” をおこなう⼈ (動作
    主) と受ける⼈ (対象) を峻
    別したい

    View Slide

  135. Order-preserving OT [Su&Hua CVPRʼ17]
    135
    • .
    − 順序が⼀貫していてくれ その1
    − 順序が⼀貫していてくれ その2

    View Slide

  136. Order-preserving OT [Su&Hua CVPRʼ17]
    • 書き順を考慮して漢字の類似性を計算したい
    136

    View Slide

  137. 構造を考慮したい
    その2: 部分集合
    137
    • 「テキストの類似度」のモチベーション
    − 部分列をカタマリとして考慮できるとご利益がありそう
    − N-gram (部分列) はテキストの強⼒な特徴量
    – bigram: (テキスト, の), (の, 強⼒), …
    – trigram: (テキスト, の, 強⼒), …
    • (蛇⾜) 楽しい n-gram
    − Google Books Ngram Viewer
    − https://books.google.com/ngrams

    View Slide

  138. Submodular OT [Alvarez-Melis+ AISTATSʼ18]
    • モチベーション︓同じグループからは同じグループへ移っ
    てほしい
    • 使う道具︓劣モジュラ性 (効⽤逓減性)
    − 同じグループへの輸送が続くとコストがどんどん下がる
    138

    View Slide

  139. 構造を考慮したい
    その3: ⽊構造
    139
    • 「テキストの類似度」のモチベーション
    − 句構造 (構⽂構造のひとつ) を考慮できるとご利益がありそう
    – .
    – 意味の構成の鍵
    https://ja.wikipedia.org/wiki/%E5%8F%A5%E6%A7%8B%E
    9%80%A0%E8%A6%8F%E5%89%87

    View Slide

  140. Gromov–Wasserstein distance (再掲)
    140
    • Gromov–Wasserstein distance
    − 「近い点ペアは移動後も近い」「遠い点ペアは移動しても遠い」

    View Slide

  141. Fused Gromov–Wasserstein
    [Vayer+ ICMLʼ19]
    141
    • Wassestein + Gromov–Wasserstein
    空間の持つ距離構造
    各分布が固有に持つ形
    cf. サポートが⽊︓tree-Wasserstein

    View Slide

  142. (おまけ) NLPは簡単? 難しい?
    142
    • bag-of-words でどうにかなるタスク
    • → 分散表現を⼊れたいタスク
    • → 語順情報を⼊れたいタスク
    • → 構⽂情報を⼊れたいタスク
    • → …

    View Slide

  143. まとめ

    View Slide

  144. このセクションのまとめ
    144
    • ⽬標
    − 最適輸送問題の亜種・拡張を知る.
    – Monge–Kantorovich の問題以外の設定や使い⽅を知る.
    – キーワードと機能を把握して,いざ使いたくなったときにスムーズに⽂献に当
    たれるようになる.
    • 触れる話題
    − Wasserstein barycenter
    – 「Wasserstein 距離が確率測度のなす空間の距離になっている」の気持ちをつ
    かむ.
    − Gromov–Wasserstein distance
    – ふたつの分布が違う空間にあってもアラインメントはできる.
    − Unbalanced optimal transport
    – カップリングの制約を外す.
    − Structured optimal transport
    – 扱う対象が持っている内部構造を考慮する.
    – (cf. 各分布の内部構造を考慮する.)

    View Slide

  145. まとめ
    145

    View Slide

  146. 今⽇の⽬標︓
    最適輸送の直感的理解とキーワードの把握
    146
    • ⾃然⾔語処理を中⼼に多くの利⽤例を挙げながら、最適輸
    送の直感的な理解を⽬指します。
    • 「こんな⾵に使うことができるんだ… ⾯⽩い道具じゃん」
    「こういう使い⽅をしたかったらこういうキーワードで調
    べれば良いのね」と知識にアンカーを張るのも⼤きな⽬的
    です。より深く知りたい⼈のための参考⽂献もできるだけ
    潤沢に加えました。
    • また、例として頻繁に活⽤する⾃然⾔語処理に馴染みがな
    いかたのために、最初に単語埋込のチュートリアルをつけ
    てあります。

    View Slide

  147. ⽬次
    147
    • 1. 準備︓単語埋め込みの基礎
    − 分布仮説に基づく単語ベクトルの学習の気持ちを知る.
    − word2vec や BERT について「はいはい知ってる知ってる」になる.
    − ※ ⾃然⾔語処理の話
    • 2. 最適輸送の基礎
    − NLP等の応⽤事例を通じてMonge–Kantorovichの問題を直感的に
    理解する.
    − 最適輸送とかWasserstein距離とか書いてある機械学習系の⽂書を
    ⾒ても「お…怖くないぞ…」となる.
    • 3. 最適輸送の変種・拡張
    − NLP等の応⽤事例を通じて Gromov–Wasserstein, unbalanced
    OT, barycenter, など最適輸送の変種・拡張や関連するキーワード
    を概観し,どういう道具なのか直感的に理解する.

    View Slide

  148. 1. ⾃然⾔語の表現学習⼊⾨
    148
    • 意味の表現と計算
    • 単語︓「分布仮説に基づく単語埋込の学習」というパラダイム
    − 分布仮説︓似た⽂脈で出現する単語は意味が似ている
    − 単語埋込︓共起⽂脈の情報をベクトルに埋め込む
    – word2vec︓近傍で共起する単語を予測させまくる
    – BERT︓⽳埋め問題を解かせまくる
    • ⽂︓単語の表現を使っていかに⽂の意味を計算するか
    − ⽂の表現
    – ⽂の意味は外側 (⽂脈) からは確定できない (分布仮説は使えない)
    – ⽂の意味は内側 (構成要素である単語) で決まる (構成性)
    − ⽂の計算
    – ⽂の類似度は近似的に構成要素の “重複率” で測れる
    – Q︓どのように計算すれば良い︖

    View Slide

  149. 2. 最適輸送の基礎
    149
    • 最適輸送の定式化を直感的に理解する
    − Monge–Kantorovich の問題の⼊出⼒を理解する
    – ⼊⼒︓確率分布 × 2 (荷物の配置 before,荷物の配置 after),輸送コスト
    – 出⼒︓最適輸送コスト,輸送計画 (カップリング)
    – 線形計画問題として定式化される
    − Wasserstein distance が何かを知る
    • 最適輸送の使いどころを知る
    − 2つの対象を⽐較したい
    − 対象が確率分布 (ヒストグラム,点の集合,etc.) として表現できる
    − 空間に⾃然な “距離” 構造が⼊っている
    – サポートが不⼀致でもよい
    − or 副作⽤としてのアラインメント (マッチング, 対応づけ) 情報がほ
    しい

    View Slide

  150. 3. 最適輸送の亜種・拡張
    150
    • ⽬標
    − 最適輸送問題の亜種・拡張を知る.
    – Monge–Kantorovich の問題以外の設定や使い⽅を知る.
    – キーワードと機能を把握して,いざ使いたくなったときにスムーズに⽂献に当
    たれるようになる.
    • 触れる話題
    − Wasserstein barycenter
    – 「Wasserstein 距離が確率測度のなす空間の距離になっている」の気持ちをつ
    かむ.
    − Gromov–Wasserstein distance
    – ふたつの分布が違う空間にあってもアラインメントはできる.
    − Unbalanced optimal transport
    – カップリングの制約を外す.
    − Structured optimal transport
    – 扱う対象が持っている内部構造を考慮する.
    – (cf. 各分布の内部構造を考慮する.)

    View Slide

  151. 今⽇触れなかった話
    151
    • Wasserstein GAN
    • Wasserstein 勾配流
    • etc.

    View Slide

  152. 最適輸送のユーザとしてのおすすめ情報源
    152
    • フランス界隈
    − Gabriel Peyré (CNRS, ENS/DMA)
    – http://www.gpeyre.com/
    – @gabrielpeyre 脳に良い
    − Marco Cuturi (Google Brain Paris, ENSAE/CREST)
    – https://marcocuturi.net/
    • MIT/CSAIL 界隈
    − Justin Solomon (MIT/CSAIL)
    – https://people.csail.mit.edu/jsolomon/
    − David Alvarez-Melis (MIT/CSAIL → MS Research)
    – https://dmelis.github.io/

    View Slide

  153. 謝辞
    153
    • 包さん (東⼤), 佐藤さん (京⼤)
    • さいえん Slack 最適輸送勉強会の皆さん
    • 幹事の皆さん

    View Slide