Slide 1

Slide 1 text

最適輸送の使い⽅ 直感的理解のための 最適輸送⼊⾨ 兼 単語埋込⼊⾨ 横井 祥 (東北⼤学) 2021-06-19, 0xセミナー, 最適輸送の情報科学における進展

Slide 2

Slide 2 text

今⽇の⽬標︓ 最適輸送の直感的理解とキーワードの把握 2 • ⾃然⾔語処理を中⼼に多くの利⽤例を挙げながら、最適輸 送の直感的な理解を⽬指します。 • 「こんな⾵に使うことができるんだ… ⾯⽩い道具じゃん」 「こういう使い⽅をしたかったらこういうキーワードで調 べれば良いのね」と知識にアンカーを張るのも⼤きな⽬的 です。より深く知りたい⼈のための参考⽂献もできるだけ 潤沢に加えました。 • また、例として頻繁に活⽤する⾃然⾔語処理に馴染みがな いかたのために、最初に単語埋込のチュートリアルをつけ てあります。

Slide 3

Slide 3 text

⾃⼰紹介

Slide 4

Slide 4 text

⾃⼰紹介 4 • 横井 祥 − ⾃然⾔語処理 (NLP) のリサーチャーです. − 道具としての最適輸送がすごく⾯⽩いと思っています. − http://www.cl.ecei.tohoku.ac.jp/~yokoi/ • 所属 − 東北⼤学 乾研究室 (⾃然⾔語処理) − 理研AIP 下平グループ (数理統計) − JST ACT-X 数理・情報 • ⾃然⾔語処理の和を広げるぞ活動 − YANS (NLP若⼿の会) @yans_official – NLPに参⼊したい⼈やはじめたばかりの⼈が仲間を作るための会,今年は 8/30–31 開催 − NLPコロキウム @nlp_colloquium – 最新のNLP研究を20分で.⽔曜正午より,2〜3週に1度開催 − 最先端NLP勉強会 – NLP研究者のための論⽂読み会

Slide 5

Slide 5 text

⾃⼰紹介 5 − ⾔語処理学会第27回年次⼤会 優秀賞 (8/361). 横井 祥, 下平 英寿. 単語埋め込み の確率的等⽅化. 2021年3⽉. − ⾔語処理学会第27回年次⼤会 委員特別賞. 内藤 雅博, 横井 祥, 下平 英寿. 単語埋 め込みによる論理演算. 2021年3⽉. − 情報処理学会 2019年度 研究会推薦博⼠論⽂. 横井 祥. Computing Co- occurrence with Kernels (カーネル法に基づく共起の計算). 2020年7⽉13⽇. − ⾔語処理学会第26回年次⼤会 最優秀賞 (2/396). 横井 祥, ⾼橋 諒, ⾚間 怜奈, 鈴 ⽊ 潤, 乾 健太郎. 超球⾯上での最適輸送コストに基づく⽂類似性尺度. 2020年3⽉ 16⽇. − ⾔語処理学会第26回年次⼤会 最優秀賞 (2/396). ⼩林 悟郎, 栗林 樹⽣, 横井 祥, 鈴⽊ 潤, 乾 健太郎. ベクトル⻑に基づく⾃⼰注意機構の解析. 2020年3⽉16⽇. − 2018年度⼈⼯知能学会全国⼤会 全国⼤会優秀賞 (⼀般セッション⼝頭部⾨) (21/753). 横井 祥, 乾 健太郎. カーネル法に基づく疎な⾔語表現のための⾼速計 算可能な共起尺度. 2018年7⽉26⽇. − 2018年度⼈⼯知能学会全国⼤会 全国⼤会優秀賞 (⼀般セッション⼝頭部⾨) (21/753). ⾚間 怜奈, 横井 祥, 乾 健太郎. スタイルの類似性を捉えた単語ベクト ルの教師なし学習. 2018年7⽉26⽇. − 2017年度⼈⼯知能学会全国⼤会 全国⼤会優秀賞 (インタラクティブ発表部⾨, オーガナイズドセッション⼝頭発表部⾨ 2部⾨) (22/約750). 横井 祥. 独⽴性尺 度に基づく知識の粒度の教師なし推定. 2017年7⽉18⽇. − など

Slide 6

Slide 6 text

研究トピック抜粋 6 • ⾃然⾔語の表現学習 − Reina Akama, Kento Watanabe, Sho Yokoi, Sosuke Kobayashi, Kentaro Inui. Unsupervised Learning of Style-sensitive Word Vectors. ACL 2018. − Goro Kobayashi, Tatsuki Kuribayashi, Sho Yokoi, Kentaro Inui. Attention Module is Not Only a Weight: Analyzing Transformers with Vector Norms. EMNLP 2020. − Masahiro Naito, Sho Yokoi, Geewook Kim, Hidetoshi Shimodaira. Revisiting Additive Compositionality: AND, OR and NOT Operations with Word Embeddings. ACL-SRW 2021. • 最適輸送 for ⾃然⾔語処理 − Sho Yokoi, Ryo Takahashi, Reina Akama, Jun Suzuki, Kentaro Inui. Word Rotatorʼs Distance. EMNLP 2020. − Ayato Toyokuni, Sho Yokoi, Hisashi Kashima, Makoto Yamada. Computationally Efficient Wasserstein Loss for Structured Labels. EACL-SRW 2021.

Slide 7

Slide 7 text

会全体の概要

Slide 8

Slide 8 text

企画の概要 8 • 0xセミナー 第3回, 最適輸送の情報科学における進展 − https://sites.google.com/view/uda-0x-seminar/home/0x03 • 基礎編 (2⽇⽬) by 佐藤さん − 「最適輸送の情報科学」の話 − https://www.slideshare.net/joisino/ss-249394573 • 応⽤編 (1⽇⽬) − 「最適輸送を情報科学で使う」話 − https://speakerdeck.com/eumesy/how-to-leverage-optimal-transport • ※トーク順の気持ち − 1⽇⽬に「こんな⾯⽩い道具なのね」「最適輸送怖くないぞ?」となってもらう − 2⽇⽬に本格的な数理・CSの話 (数理最適化, アルゴリズムの話) を知ってもらう

Slide 9

Slide 9 text

この2⽇間の (ひとつの) 達成⽬標 9 • 最適輸送 for 情報科学のデファクトになりそうな教科書 − Peyré & Cuturi, “Computational Optimal Transport: With Applications to Data Science,” 2019. – 書籍: https://www.nowpublishers.com/article/Details/MAL-073 – arXiv: https://arxiv.org/abs/1803.00567 – サポートページ: https://optimaltransport.github.io/book/ • …を − 1⽇⽬「お… 読める︕読めるぞ︕」になる. − 2⽇⽬「すでに理解できている話が結構あるぞ,ふふん」 になる. − このスライドでの記法も なるべくこの書籍と⼀貫させます.

Slide 10

Slide 10 text

今⽇する話

Slide 11

Slide 11 text

⽬次 11 • 1. 準備︓単語埋め込みの基礎 − 分布仮説に基づく単語ベクトルの学習の気持ちを知る. − word2vec や BERT について「はいはい知ってる知ってる」になる. − ※ ⾃然⾔語処理の話 • 2. 最適輸送の基礎 − NLP等の応⽤事例を通じてMonge–Kantorovichの問題を直感的に 理解する. − 最適輸送とかWasserstein距離とか書いてある機械学習系の⽂書を ⾒ても「お…怖くないぞ…」となる. • 3. 最適輸送の変種・拡張 − NLP等の応⽤事例を通じて Gromov–Wasserstein, unbalanced OT, barycenter, など最適輸送の変種・拡張や関連するキーワード を概観し,どういう道具なのか直感的に理解する.

Slide 12

Slide 12 text

注 12 • 知っていると理解がスムーズになる前提知識 − 初等的な線形代数 (というより⾏列計算) と確率統計の記法 − 機械学習とくに教師あり学習,勾配降下法によるニューラルネットの学習 – 知らなくてもメインのストーリーの理解には影響ないように話します. • しない話 − 数学の話はほとんどしません. – self-containedness や厳密性よりも直感的な理解を優先します. – 精確に理解したいかた向けに適宜論⽂や書籍の情報を補います. − 計算⽅法・アルゴリズムの話はほとんどしません. – 双対問題の考え⽅,エントロピー正則化と Sinkhorn distance,Wasserstein GAN,etc. – → 明⽇の佐藤さんのトークにて • https://www.slideshare.net/joisino/ss-249394573 • 質疑応答・コメント − 各コマ毎に最後に15分のQAタイムを設けます. − トーク中の質問・コメント遠慮なく︕zoom 等に投げてください. − 反応が⾒えないのは寂しいので雑談コメントもご遠慮なく.

Slide 13

Slide 13 text

1. ⾃然⾔語の表現学習⼊⾨ 13 ※ 「最適輸送最⾼…︕」となるための準備 ※ このセクションは独⽴して読めます

Slide 14

Slide 14 text

このセクションのまとめ 14 ⾃然⾔語の表現学習⼊⾨ • 意味の表現と計算 • 単語︓「分布仮説に基づく単語埋込の学習」というパラダ イム − word2vec,BERT • ⽂︓単語の表現を使っていかに⽂の意味を計算するか

Slide 15

Slide 15 text

「意味」の表現と計算

Slide 16

Slide 16 text

分野の⽬標︓⾔葉の意味を計算したい 16 • ⾃然⾔語処理・⾃然⾔語理解 − ⾃然⾔語⽂を計算機を⽤いて処理したい – 機械翻訳,かな漢字変換,chat bot − ⾃然⾔語を計算モデルを介して理解したい − cf. ⾳声データ, 形式⾔語, …

Slide 17

Slide 17 text

分野の⽬標︓⾔葉の意味を計算したい 17 • ⾃然⾔語処理・⾃然⾔語理解 − ⾃然⾔語⽂を計算機を⽤いて処理したい – 機械翻訳,かな漢字変換,chat bot − ⾃然⾔語を計算モデルを介して理解したい − cf. ⾳声データ, 形式⾔語, … • 課題︓⾔葉の意味の計算 − 計算機でいかにテキストの意味を表現するか − テキストの計算機可読表現を⽤いていかに意味を計算するか – “⽝” はどういう意味︖ – “⽝” と “ペット” の意味的な関係は︖ – “親戚がペットを飼っていて羨ましい” と “従兄弟が⽝を飼っていて羨まし い” の意味的な関係は︖

Slide 18

Slide 18 text

⾔葉の意味の計算 18 • ⾔葉の意味を計算する − “John loves Mary.” の意味は?

Slide 19

Slide 19 text

⾔葉の意味の計算 19 • ⾔葉の意味を計算する − “John loves Mary.” の意味は? − o0( [39011, 2250, 10483, 18] のイミは…? ) • ふたつの⼤きな問題 − 単語の意味を,計算機でどう表現するか − ⽂の意味を,⽂を構成する語の意味からどのように合成するか – 我々は有限な語彙を組み合わせることによってこれまで誰も表現してこな かった考えを表現できる [Frege,19c]

Slide 20

Slide 20 text

「意味」とは 20 • “Biden” の意味は︖

Slide 21

Slide 21 text

「意味」とは 21 • “Biden” の意味は︖ − Biden という定数記号︖(モデル理論的意味論) − 現実世界の Joe Biden︖(現実世界の指⽰先) − Wikipedia の Joe Biden の記事︖(Entity linking)

Slide 22

Slide 22 text

「意味」とは 22 • “Biden” の意味は︖ − Biden という定数記号︖(モデル理論的意味論) − 現実世界の Joe Biden︖(現実世界の指⽰先) − Wikipedia の Joe Biden の記事︖(Entity linking) • “cat” の意味は︖ − 現実世界の猫(の集合)︖(現実世界の指⽰先) − 猫という観念︖(⼼の中の猫観念) − 辞書的な説明︖ – 「⾷⾁⽬ネコ科の哺乳類.体はしなやかで,(...)」[⼤辞泉]

Slide 23

Slide 23 text

「意味」とは 23 • “Biden” の意味は︖ − Biden という定数記号︖(モデル理論的意味論) − 現実世界の Joe Biden︖(現実世界の指⽰先) − Wikipedia の Joe Biden の記事︖(Entity linking) • “cat” の意味は︖ − 現実世界の猫(の集合)︖(現実世界の指⽰先) − 猫という観念︖(⼼の中の猫観念) − 辞書的な説明︖ – 「⾷⾁⽬ネコ科の哺乳類.体はしなやかで,(...)」[⼤辞泉] • “beautiful” の意味は︖ “pretty” との違いは︖ • “concept” の意味は︖ “エモい” の意味は︖ • 単語の意味 (⾔葉から何らかの表現への写像) はどう定めるべき︖

Slide 24

Slide 24 text

分布仮説と単語ベクトル

Slide 25

Slide 25 text

分布仮説 [Harrisʼ54, Firthʼ57, Schütze&Pedersenʼ65, etc.] と 単語ベクトル [Mikolov+ʼ13, Devlin+ʼ18, etc.] 25 • “사과” (sagwa) という単語の意味は︖

Slide 26

Slide 26 text

分布仮説 [Harrisʼ54, Firthʼ57, Schütze&Pedersenʼ65, etc.] と 単語ベクトル [Mikolov+ʼ13, Devlin+ʼ18, etc.] 26 • “사과” (sagwa) という単語の意味は︖ • コーパス (単語の使われ⽅) を⾒ると… − 「사과 の⽊を植える」 − 「冷え冷えの 사과 ジュースがうまい」 − 「**県は 사과 の⽣産⾼が⽇本⼀」

Slide 27

Slide 27 text

分布仮説 [Harrisʼ54, Firthʼ57, Schütze&Pedersenʼ65, etc.] と 単語ベクトル [Mikolov+ʼ13, Devlin+ʼ18, etc.] 27 • 分布仮説︓単語の意味は共起する語 (使われ⽅) を⾒ればわ かる − “If A and B have almost identical environments (...), we say they are synonyms: oculist and eye-doctor” [Harrisʼ54] − “You shall know a word by the company it keeps” [Firthʼ57] − “words with similar meanings will occur with similar neighbors if enough text material is available” [Schütze&Pedersenʼ65]

Slide 28

Slide 28 text

分布仮説 [Harrisʼ54, Firthʼ57, Schütze&Pedersenʼ65, etc.] と 単語ベクトル [Mikolov+ʼ13, Devlin+ʼ18, etc.] 28 • 分布仮説︓単語の意味は共起する語 (使われ⽅) を⾒ればわ かる − “If A and B have almost identical environments (...), we say they are synonyms: oculist and eye-doctor” [Harrisʼ54] − “You shall know a word by the company it keeps” [Firthʼ57] − “words with similar meanings will occur with similar neighbors if enough text material is available” [Schütze&Pedersenʼ65] ※ 単語の意味に関するひとつの理論 (仮説) ※ この意味の仮説が実際の⾔語⾔語現象を表す最良のモデルなのか, 多くの⾔語現象をよく説明/予測できるかはまた別問題 ※ 分布仮説に基づく (≈ 現代の) ⾃然⾔語処理ではうまく対処できな い⾔語現象については後述

Slide 29

Slide 29 text

分布仮説 [Harrisʼ54, Firthʼ57, Schütze&Pedersenʼ65] と 単語ベクトル [Mikolov+ʼ13, Devlin+ʼ18, etc.] 29 • 分布仮説︓単語の意味は共起する語 (使われ⽅) を⾒ればわ かる − 「사과 の⽊を植える」 − 「冷え冷えの 사과 ジュースがうまい」 − 「**県は 사과 の⽣産⾼が⽇本⼀」 • 単語ベクトル︓共起単語を予測できるような表現を作れれ ば, それは単語の良い表現と⾔えるのでは? − 各単語に周辺語を予測しやすいような “ベクトル” 表現を割り当てる – 𝒱 → ℝ!; 𝑤 ↦ 𝒗" − 各ベクトル (たとえば 𝒗사과 ) には「こういう単語と共起しそうで す」という情報 𝑝(⋅ |사과) が埋め込まれていてほしい − 実際の共起単語ペア,たとえば (사과, ジュース) は⼭ほど⼿に⼊る word2vec BERT

Slide 30

Slide 30 text

単語ベクトル (1): word2vec [Mikolov+ʼ13] 30 • 3層ニューラルネットを組んでみる • 学習が重い − 分⺟の計算が⼤変.⼀般に単語数は膨⼤ (数万〜数百万). − 巨⼤なコーパスから学習したい. – ~ 100B words, https://code.google.com/archive/p/word2vec/ • noise contrastive estimation → skip-gram negative sampling − max 正解クラスを当てたい → 「正例ペア」or「擬似負例ペア」の どちらなのかを⾒分けられれば良い 擬似負例 (を作るための c たち) をサンプリング

Slide 31

Slide 31 text

単語ベクトル (1): word2vec [Mikolov+ʼ13] 31 • 3層ニューラルネットを組んでみる • 学習が重い − 分⺟の計算が⼤変.⼀般に単語数は膨⼤ (数万〜数百万). − 巨⼤なコーパスから学習したい. – ~ 100B words, https://code.google.com/archive/p/word2vec/ • noise contrastive estimation → skip-gram negative sampling − max 正解クラスを当てたい → 「正例ペア」or「擬似負例ペア」の どちらなのかを⾒分けられれば良い 擬似負例 (を作るための c たち) をサンプリング ⼤事なこと︓ 周辺で共起する単語を予測できるだけの情報をもった何か(単語ベクトル) を得ることができるようになった 𝑝 ジュース|사과 ∝ exp(⟨𝒗사과, 𝒗ジュース⟩) このベクトルには「どういう⽂脈で登場するのか」という情報が ひととおり⼊っているはず

Slide 32

Slide 32 text

…で,うまくいきました? 32 単語ベクトルというパラダイムは本当にすごかった − 「単語ペアに対して⼈間が感じる意味の類似度」と「単語ベクトルペ アのなす⾓」が⾼い相関 − 単語の特徴量として⽤いる⾮常に多くのタスクの跳ね上がる − アナロジー の計算ができてしまった (?!) – 𝒗#$%&' − 𝒗%&' ≈ 𝒗()**' − 𝒗+,'- − etc. etc. [Chen&Peterson’17]

Slide 33

Slide 33 text

(おまけ) 数学の⼈向けに 33 • 術語の注 − ※「単語ベクトル」という⾔い⽅でしばしば⾔及されますが, 空間の 線形性 (とりわけスカラー倍 (の意味論)) は明には考えていません − ※ 「単語埋め込み」という⾔い⽅でしばしば⾔及されますが, 保存さ れる構造 (e.g., 距離) は明に意識されない場合が多いです − 「とにかく共起⽂脈を予測できるような NN を学習してみよう」 • 「⼀体何をしているんです…?」 − よくある “知能情報学” の研究開発の流れ︓ − 1. ドメイン知識や仮説に基づき, ⼯学的な⽬標 (⼈間のように流暢に 話せるAI) の実現が試みられる – 要請︓データ数に対するスケーラビリティ, 実装の容易さ, etc. − 2. すごくうまくいった⽅法に対して数理的解釈や拡張が試みられる − まず作られ → その後理解される (理解されない話も⼭のようにある)

Slide 34

Slide 34 text

word2vec から BERT へ 34 • データ − 「사과 の⽊を植える」 − 「冷え冷えの 사과 ジュースがうまい」 − 「**県は 사과 の⽣産⾼が⽇本⼀」 • データの使い⽅ − word2vec が考える「사과 の周辺⽂脈」 – 例︓窓幅2 – {の, ⽊, を, 冷え冷え, の, ジュース, が, 県, は, の, ⽣産⾼, …} − 本当の「사과 の周辺⽂脈」 – ⽂脈全体を,語順も考慮しながら使いたい – {[?] の⽊を植える, 冷え冷えの [?] ジュースがうまい, **県は [?] の⽣産⾼が⽇本⼀}

Slide 35

Slide 35 text

BERT︓⽳埋め問題を解かせまくる 35 • ニューラルネットに⽳埋め問題を解かせまくる − ⼊⼒︓[冷え冷え, の, [MASK], ジュース, が, うまい] − 出⼒︓사과 • Wikipedia, Twitter, web news, … あらゆるテキストのあ らゆる箇所をマスクして解かせまくる [Jan+’20]

Slide 36

Slide 36 text

…で,うまくいきました? 36 • ものすごかった − ⾃然⾔語処理の種々のアプリケーション (それぞれ別の意味理解が必 要だと考えられている) のかなり多くのケースで⼤きな性能向上 • わかったこと − (少なくとも経験的には,) 「周辺⽂脈の情報を単語の表現に埋め込 む」という⽅法論は単語の表現学習の⾮常に本質的な指針っぽい

Slide 37

Slide 37 text

…で,うまくいきました? 37 • ものすごかった − ⾃然⾔語処理の種々のアプリケーション (それぞれ別の意味理解が必 要だと考えられている) のかなり多くのケースで⼤きな性能向上 • わかったこと − (少なくとも経験的には,) 「周辺⽂脈の情報を単語の表現に埋め込 む」という⽅法論は単語の表現学習の⾮常に本質的な指針っぽい • NLP 終了 完

Slide 38

Slide 38 text

…で,うまくいきました? 38 • ものすごかった − ⾃然⾔語処理の種々のアプリケーション (それぞれ別の意味理解が必 要だと考えられている) のかなり多くのケースで⼤きな性能向上 • わかったこと − (少なくとも経験的には,) 「周辺⽂脈の情報を単語の表現に埋め込 む」という⽅法論は単語の表現学習の⾮常に本質的な指針っぽい • にもかかわらず NLP 終了 … では全然ない

Slide 39

Slide 39 text

(おまけ) 分布仮説に基づく 単語の表現学習の限界

Slide 40

Slide 40 text

分布仮説に基づく表現学習では難しいことの 例︓対義語の⾒分け 40 • 正反対の意味の語 (対義語) は分布仮説からすると似ている − たとえば “明るい” と “暗い” − 周辺⽂脈が似ている → ベクトルも似る – だいたいの場合対義語は置き換えられる – 「あれ︖この照明なんか異様に [?] くない︖」 – 「**さんほんと性格 [?] よね」 − 対義語は “オントロジー” (概念の⽊) の最後の最後ではじめて枝分かれする とても似ている単語 [Maynard+’08]

Slide 41

Slide 41 text

そもそもコーパスからの学習では できないことがまだまだ⼭のようにある 41 • グラウンディング − ⼈と⾒分けがつかないほど流暢に話せる⾔語モデル (たとえば GPT- 3) は,部屋に閉じ込められてしまった⼦供が⾃⼒で脱出できるよう に⽅法 (たとえば部屋にありそうな道具の使い⽅) を指⽰できるか︖ • モダリティ − 写真で表現できること ←→ テキストで表現できること • 語⽤論 − パワハラ上司「この部屋あっちぃな…」 • etc.

Slide 42

Slide 42 text

⽂の表現と計算へ

Slide 43

Slide 43 text

Sequence-to-sequence 43 • NLPのかなり多くの問題は「テキストを⼊⼒としてテキストを出 ⼒する」形式をとる (sequence to sequence) − 機械翻訳︓source ⽂ (たとえば英⽂) → target ⽂ (たとえば和⽂) − 対話システム︓発話 (たとえば⼈の話しかけ) → 応答 (botの応答) − ⾃動要約︓⽂書 → 要約⽂ • 教師データを作る+ニューラルネットで教師あり学習が標準 − encoder-decoder とも • モデルの出⼒ (テキスト) と正解データ (テキスト) を⽐べてその 違いの度合い評価する必要がある https://www.guru99.com/seq2seq-model.html

Slide 44

Slide 44 text

⽂の意味の類似度の計算は重要 44 • テキスト⽣成システムの損失,評価 − 医療・法律等が関わるシーンでの利⽤を想定すると, 翻訳漏れや過剰訳は致命的

Slide 45

Slide 45 text

⽂は単語と同じようにいかない 45 • ⾃然な問い︓単語ベクトルと同様に⽂ベクトルを学習した らいいのでは…? → No • ⽂の意味は⽂脈(外側)では決まらない − 単語単位の⽳埋め問題は解けるが,⽂単位の⽳埋め問題は解けない – たとえばこの⽂が隠されているとして前後の⽂脈から予測できますか︖ − 分布仮説は⽂には適⽤できない • ⽂の意味は単語(内側)で決まる − はじめて⾒る⽂の意味を理解することができるのは,単語の意味から ⽂の意味を構成できるから [Frege, 1914]

Slide 46

Slide 46 text

⽂の類似度は単語を使って計算できる 46 • Q: どうやって計算する? • ⽂の類似度=構成要素の重複度 [Sultan+ʼ15] • 単語ベクトルは⼿元にある • Q: どのように⽂類似度を計算する︖

Slide 47

Slide 47 text

まとめ

Slide 48

Slide 48 text

このセクションのまとめ 48 ⾃然⾔語の表現学習⼊⾨ • 意味の表現と計算 • 単語︓「分布仮説に基づく単語埋込の学習」というパラダイム − 分布仮説︓似た⽂脈で出現する単語は意味が似ている − 単語埋込︓共起⽂脈の情報をベクトルに埋め込む – word2vec︓近傍で共起する単語を予測させまくる – BERT︓⽳埋め問題を解かせまくる • ⽂︓単語の表現を使っていかに⽂の意味を計算するか − ⽂の表現 – ⽂の意味は外側 (⽂脈) からは確定できない (分布仮説は使えない) – ⽂の意味は内側 (構成要素である単語) で決まる (構成性) − ⽂の計算 – ⽂の類似度は近似的に構成要素の “重複率” で測れる – Q︓どのように計算すれば良い︖

Slide 49

Slide 49 text

2. 最適輸送の基礎 49 Kantorovich の問題とその利⽤

Slide 50

Slide 50 text

このセクションの⽬標 50 • 最適輸送の定式化を直感的に理解する − Monge–Kantorovich の問題の⼊出⼒を理解する – ⼊⼒︓確率分布 × 2 (荷物の配置 before,荷物の配置 after),輸送コスト – 出⼒︓最適輸送コスト,輸送計画 (カップリング) – 線形計画問題として定式化される − Wasserstein distance が何かを知る • 最適輸送の使いどころを知る − 2つの対象を⽐較したい − 対象が確率分布 (ヒストグラム,点の集合,etc.) として表現できる − 空間に⾃然な “距離” 構造が⼊っている – サポートが不⼀致でもよい − or 副作⽤としてのアラインメント (マッチング, 対応づけ) 情報がほ しい

Slide 51

Slide 51 text

注 51 • このセクションに含まれる最適輸送⼀般に関する解説スラ イドは MLSS 2020 の Cuturi 先⽣トークのスライドその もの です.おすすめ. − http://mlss.tuebingen.mpg.de/2020/ − https://drive.google.com/file/d/1yAvaU19agJYq_FdLlghS14QZ8 d5X48oB/ • 数学的なモチベーションや精確な定式化に興味のあるかた は,⽇本語であればたとえば太⽥先⽣ (⼤阪⼤) や⾼津先⽣ (都⽴⼤) の資料を参照ください. − http://www4.math.sci.osaka- u.ac.jp/~sohta/jarts/bunkakai08.pdf − https://www.kurims.kyoto- u.ac.jp/~kyodo/kokyuroku/contents/pdf/1916-11.pdf

Slide 52

Slide 52 text

Monge の問題 「最適輸送の定式化はひとつではないです」の例として

Slide 53

Slide 53 text

53 https://drive.google.com/file/d/1yAvaU19agJYq_FdLlghS14QZ8d5X48oB/

Slide 54

Slide 54 text

54 https://drive.google.com/file/d/1yAvaU19agJYq_FdLlghS14QZ8d5X48oB/

Slide 55

Slide 55 text

55 https://drive.google.com/file/d/1yAvaU19agJYq_FdLlghS14QZ8d5X48oB/

Slide 56

Slide 56 text

56 https://drive.google.com/file/d/1yAvaU19agJYq_FdLlghS14QZ8d5X48oB/

Slide 57

Slide 57 text

57 https://drive.google.com/file/d/1yAvaU19agJYq_FdLlghS14QZ8d5X48oB/

Slide 58

Slide 58 text

Monge の定式化で解が得られない例 58 𝝁 𝝂

Slide 59

Slide 59 text

Monge–Kantorovich の問題

Slide 60

Slide 60 text

60 https://drive.google.com/file/d/1yAvaU19agJYq_FdLlghS14QZ8d5X48oB/

Slide 61

Slide 61 text

61

Slide 62

Slide 62 text

62 https://drive.google.com/file/d/1yAvaU19agJYq_FdLlghS14QZ8d5X48oB/

Slide 63

Slide 63 text

63 https://drive.google.com/file/d/1yAvaU19agJYq_FdLlghS14QZ8d5X48oB/

Slide 64

Slide 64 text

64

Slide 65

Slide 65 text

Monge–Kantorovich の問題 (離散版) 65 • ⼊⼒ − 確率分布 × 2 (before, after) − 点 (位置) 間の輸送コスト • 制約条件 − ⼊出⼒を もれなくカップリング • 出⼒ − 最適輸送コスト (最適値) − 輸送計画 (最適解) 𝐏∗ 今⽇の⽬標のひとつ︓ この notation と意味を理解

Slide 66

Slide 66 text

Monge–Kantorovich の問題 (離散版) 66 • ⼊⼒ − 確率分布 × 2 (before, after) − 点 (位置) 間の輸送コスト • 制約条件 − ⼊出⼒を もれなくカップリング • 出⼒ − 最適輸送コスト (最適値) − 輸送計画 (最適解) 𝐏∗ 今⽇の⽬標のひとつ︓ この notation と意味を理解 重みの総和は1に しておく 確率値 (荷物の量) と位置のペア 1 6 𝛿 位置情報を忘れて重みベクトル 𝐚 = 𝐚! , … , 𝐚" , 𝐛 = (𝐛! , … , 𝐛# ) だけで済ますこともしばしば. コスト⾏列が埋まっていれば, 位置の情報は最早最適化とは無 関係なので.

Slide 67

Slide 67 text

Monge–Kantorovich の問題 (離散版) 67 • ⼊⼒ − 確率分布 × 2 (before, after) − 点 (位置) 間の輸送コスト • 制約条件 − ⼊出⼒を もれなくカップリング • 出⼒ − 最適輸送コスト (最適値) − 輸送計画 (最適解) 𝐏∗ 今⽇の⽬標のひとつ︓ この notation と意味を理解 周辺分布がそれぞれ a, b となるような同時分布 位置情報を忘れて重みベクトル 𝐚 = 𝐚! , … , 𝐚" , 𝐛 = (𝐛! , … , 𝐛# ) だけで済ますこともしばしば. コスト⾏列が埋まっていれば, 位置の情報は最早最適化とは無 関係なので. 重みの総和は1に しておく 確率値 (荷物の量) と位置のペア 1 6 𝛿

Slide 68

Slide 68 text

Monge–Kantorovich の問題 (離散版) 68 • ⼊⼒ − 確率分布 × 2 (before, after) − 点 (位置) 間の輸送コスト • 制約条件 − ⼊出⼒を もれなくカップリング • 出⼒ − 最適輸送コスト (最適値) − 輸送計画 (最適解) 𝐏∗ 今⽇の⽬標のひとつ︓ この notation と意味を理解 周辺分布がそれぞれ a, b となるような同時分布 位置情報を忘れて重みベクトル 𝐚 = 𝐚! , … , 𝐚" , 𝐛 = (𝐛! , … , 𝐛# ) だけで済ますこともしばしば. コスト⾏列が埋まっていれば, 位置の情報は最早最適化とは無 関係なので. 重みの総和は1に しておく 確率値 (荷物の量) と位置のペア 1 6 𝛿 線形計画問題

Slide 69

Slide 69 text

最適輸送の特徴 アラインメントの情報が得られる 69 • 最適輸送の特徴︓アラインメントの情報が得られる − 最⼩の輸送コスト (最適値,分布間距離) がほしいシーンのみならず, − マッチング,アラインメント,対応づけ (最適解,輸送計画⾏列) がほ しいシーンでもよく使われる. [Peyré&Cuturi, Computational Optimal Transport]

Slide 70

Slide 70 text

具体例︓word moverʼs distance [Kusner+ ICMLʼ15] 70 • テキスト同⼠の意味的な類似度を推定したい − NLP の重要な問題のひとつ • Word moverʼs distance [Kusner+ ICMLʼ15] − ⼊⼒︓テキストを「単語ベクトルからなる分布」とみなす − 出⼒︓最適輸送コスト

Slide 71

Slide 71 text

具体例︓word moverʼs distance [Kusner+ ICMLʼ15] 71 • テキスト同⼠の意味的な類似度を推定したい − NLP の重要な問題のひとつ • Word moverʼs distance [Kusner+ ICMLʼ15] − ⼊⼒︓テキストを「単語ベクトルからなる分布」とみなす − 出⼒︓最適輸送コスト ⽂=単語ベクト ルの⼀様な混合 単語同⼠の “置換” コスト 単語の意味的な⾮類似度

Slide 72

Slide 72 text

Monge–Kantorovich の問題,補⾜

Slide 73

Slide 73 text

何点か補⾜します 73 • Wasserstein distance もよく聞くけどこれは何? • Earth moverʼs distance もよく聞くけどこれは何? • Sinkhorn distance もよく聞くけどこれは何? • 連続な分布を扱いたい場合は? • 最適化問題を解く具体的な⽅法は?

Slide 74

Slide 74 text

p-Wasserstein distance 74 • p-Wasserstein distance (離散版) コスト c が距離のとき,𝑝 ∈ [1, ∞)に対して以下は確率分布 間の距離を定める. − 𝑝 が重なって読みづらいので輸送計画⾏列の表記を 𝐓 にしてます. • 注 − ⼀般の最適輸送問題において c は距離でなくても良い. − 「Wasserstein distance」という呼称について︓慣例的な呼び⽅にな っているものの,Wasserstein さん「の」仕事というわけではない模 様 [Villaniʻ09; §6, Bibliographical notes].

Slide 75

Slide 75 text

p-Wasserstein distance 75 • p-Wasserstein distance (離散版) コスト c が距離のとき,𝑝 ∈ [1, ∞)に対して以下は確率分布 間の距離を定める. − 𝑝 が重なって読みづらいので輸送計画⾏列の表記を 𝐓 にしてます. • 注 − ⼀般の最適輸送問題において c は距離でなくても良い. − 「Wasserstein distance」という呼称について︓慣例的な呼び⽅にな っているものの,Wasserstein さん「の」仕事というわけではない模 様 [Villaniʻ09; §6, Bibliographical notes]. 点間の輸送コスト c(x,y) が距離 分布間の最適輸送コス ト W(α,β) が距離 確率測度のなす空間に距離が定まる → ご利益のひとつ (barycenter) は後ほど

Slide 76

Slide 76 text

Earth moverʼs distance 76 • Earth moverʼs distance − おそらく未定義語. − 画像処理の⽂脈で1-Wasserstein距離の呼称として使われはじめ,情 報科学を中⼼に広まっている. − いまは,⼀般の最適輸送コストないし Wasserstein 距離の意味で使 われているように⾒える.

Slide 77

Slide 77 text

Sinkhorn distance [Cuturiʼ13] 77 • エントロピー正則化を⼊れて⽬的関数を変更 − 元の最適化問題とは別の問題を解く − ぼわっとした解が求まる • ご利益 − 最適化が iterative な⾏列計算に帰着 (Sinkhorn アルゴリズム) – 並列化可,GPU フレンドリー − 解を⼊⼒で微分可能に – どういう⽅向に⼊⼒を変化させれば輸送コストが下がるかわかる “⼀様なほど嬉しい”

Slide 78

Slide 78 text

離散,連続 78 • 今⽇は簡単のため離散分布のみ扱います.離散と連続の⽐ 較 (semi-discrete),連続分布の⽐較も⼤きなトピック. [Peyré&Cuturi, Computational Optimal Transport]

Slide 79

Slide 79 text

最適輸送問題の解き⽅ 79 • Monge–Kantorovich の問題は線形計画問題 • ⾼速なソルバに投げる → − 数理最適化の研究者の皆様ありがとうございます 完

Slide 80

Slide 80 text

最適輸送問題の解き⽅ 80 • Monge–Kantorovich の問題は線形計画問題 • ⾼速なソルバに投げれば完… ではない − O(n^3 log n) は決して軽くない, 何らかの条件の下で/緩和した上で, ⾼ 速化/並列化できない? − 最適輸送問題が部分問題になっており (主に機械学習の⽂脈で) 損失を流 したい場合は? • 具体的な話は明⽇の佐藤さんのトークにて − ⽬的関数の強凸化/微分可能に/並列化可能に → Sinkhorn distance − サポートが⽊の場合 → スライシング − etc. • ※ NLPer としての指針 − ⽂を扱う (n~20 程度) → 何も考えず⽣の線形計画ソルバに投げれば良い – e.g., POT の emd2() − ⽂書を扱う (n>>100) or 微分したい場合 → ⾼速化や緩和の検討をしないと つらい or 必要

Slide 81

Slide 81 text

最適輸送問題のソルバ 81 • 最適輸送を道具として使いたい情報系エンジニア・リサー チャー向けのおすすめのPythonインタフェースのソルバ − POT: Python Optimal Transport – docs: https://pythonot.github.io/ – paper: http://jmlr.org/papers/v22/20-451.html (JMLR 2021) – 開発が盛ん – Monge–Kantorovich の最適化問題以外のさまざまな亜種・拡張も⼊っている − geomloss: Geometric Loss functions between sampled measures, images and volumes – docs: https://www.kernel-operations.io/geomloss/ – paper: http://proceedings.mlr.press/v89/feydy19a.html (AISTATS 2019) – Pytorch と連携させたい場合

Slide 82

Slide 82 text

例を⾒ながら最適輸送に馴染む

Slide 83

Slide 83 text

→ 最適輸送の使いどころを知る 83 • ここからの⽬標 − いくつかの具体例を通して「あ…こういう場合は最適輸送を使いたく なるな…」という直感を得る • 最適輸送の使いどころ (仮まとめ) − 2つの対象の類似度/距離の計算が (部分) 問題になっている − 対象が確率分布 (ヒストグラム,点の集合,etc.) として表現できる − 空間に⾃然な “距離” 構造が⼊っている – サポートが不⼀致でもよい − or 副作⽤としてのアラインメント (マッチング, 対応づけ) 情報がほ しい

Slide 84

Slide 84 text

NLP における具体的な利⽤例 (1) ⽂=単語ベクトルの確率的な混合

Slide 85

Slide 85 text

⽂の意味の類似度の計算は重要 85 • テキスト⽣成システムの損失,評価 − 医療・法律等が関わるシーンでの利⽤を想定すると, 翻訳漏れや過剰訳は致命的

Slide 86

Slide 86 text

• ⽂の類似度=構成要素の重複度 [Sultan+ʼ15] • 単語ベクトルは⼿元にある • Q: どのように⽂類似度を計算する︖ ⽂の類似度は単語を使って計算できる 86

Slide 87

Slide 87 text

• ⽂の類似度=構成要素の重複度 [Sultan+ʼ15] • 単語ベクトルは⼿元にある • Q: どのように⽂類似度を計算する︖ − ハンガリアンアルゴリズム? [Song&Rothʼ15] − ファジィ論理? [Zhelezniak+ ICLRʼ19] − いや待て待て… マッチング…? アラインメント…?? ⽂の類似度は単語を使って計算できる 87

Slide 88

Slide 88 text

Word moverʼs distance [Kusner+ ICMLʼ15] (再) 88 • Word moverʼs distance [Kusner+ ICMLʼ15] − ⼊⼒︓テキストを「単語ベクトルからなる分布」とみなす − 出⼒︓最適輸送コスト ← ソフトな「マッチング成功度」

Slide 89

Slide 89 text

最適輸送の使いどころを知る 89 • 最適輸送の使いどころ (仮まとめ) − 2つの対象の類似度/距離の計算が (部分) 問題になっている – ⽂と⽂の類似度を計算したい − 対象が確率分布 (ヒストグラム,点の集合,etc.) として表現できる – ⽂は単語ベクトルの集合…? − 空間に⾃然な “距離” 構造が⼊っている – 単語を表現できる空間 (単語埋め込み空間) で “近い” 単語=意味の似てい る単語だった − or 副作⽤としてのアラインメント (マッチング, 対応づけ) の情報が ほしい – ほしい,「⽂類似度=単語のマッチングの良さ」 – アラインメントミスが⾒つかれば,「単語ベクトルの使い⽅がまずいのか も,学習できていないのかも」もというフィードバックが得られる (XAI)

Slide 90

Slide 90 text

(おまけ1) 「単語埋め込みの気持ち」を⼊れ ると性能が跳ね上がる [Yokoi+ʼ20] 90 • 「テキスト類似度を最適輸送で」というアイデアは (あとか ら考えてみると) 確かにすごく⾃然.良い研究. • ところで⼊⼒の形式が気になる − 最適輸送を知っている⼈にとってはおそらく最も⾃然な初⼿. − NLP の中の⼈からみるとやや不⾃然. 各単語の重みは uniform か…? “a” は⼤きくは⽂の意味を決めない, “violin” はかなり強く⽂の意味を決める 輸送コストはユークリッド距離か…? (原点に依存する) 内積を⽬的関数関数に して単語ベクトルを学習していたのに 並⾏移動不変なL2で類似度を測る…?

Slide 91

Slide 91 text

(おまけ1) 「単語埋め込みの気持ち」を⼊れ ると性能が跳ね上がる [Yokoi+ʼ20] 91 • Word rotatorʼs distance − 各単語ベクトル 𝒘 をノルム 𝜆 と⽅向ベクトル 𝒖 に分ける 𝒘 = 𝜆𝒖 − “情報の強さ” はノルムで測る − 単語間の意味的類似度は cos で測る − スコアが跳ね上がる (52.31 → 76.97; STS-B) • Take home message: ドメイン知識は⼤事 お気持ちレベルの説明︓ たとえば “a” はあらゆるテキストに含 まれる (情報が少ない). → 単語ベクトルの学習の過程で空間内 のあらゆる場所から引っ張られる. → 原点付近に → ノルム⼩さい !" !# 1 cos(!" , !# ) ," -" .

Slide 92

Slide 92 text

(おまけ2) そもそも最適輸送にする必要はあ るのか? [Sato+ʼ21] 92 • ⽂表現は bag-of-words (シンボルの集合) で⼗分 − めちゃくちゃ良い話 • (NLPer 的) take home message: タスクと道具を合わせる − 埋め込みが必要かどうかはケースバイケース – 極性分析 (⼀部の特徴語を捉えれば良い場合) や⽂書分類 (単語数が⼗分⼤き い場合) では多くの場合 BoW で⼗分 − アラインメントが必要かどうかはケースバイケース – コストだけがほしいなら,分布をベクトルに埋め込む⽅向性も [Wu+EMNLPʼ18, Courty+ICMLʼ18, etc.] – 「分布間類似度」より「ベクトル間類似度」の⽅が⼀般に軽い

Slide 93

Slide 93 text

NLP における具体的な利⽤例 (2) 単語=意味ベクトルの確率的な混合 表現学習に使う例

Slide 94

Slide 94 text

単語は「空間の⼀点」で良いのだろうか? 要素還元的な語彙意味論 94 • 単語は意味素 (より根源的な意味の単位) そのものではない • ⾔語学 … 成分分析 (componential analysis) [Saeedʼ03] − “boy”: [+HUMAN] [-ADULT] [+MALE] • ⼼理学 … Semantic Differential [Osgoodʼ52] クリスタル,『⾔語学百科事典』

Slide 95

Slide 95 text

単語は「空間の⼀点」で良いのだろうか? 多義性の問題 95 • “bank” は使われ⽅に応じて「銀⾏」だったり「⼟⼿」だっ たりする. • “book” 「予約する」「本」 • “right” 「右」「権利」 • “capital” 「⾸都」「資本」 • “⾸” 「neck」「fire」 • etc. etc.

Slide 96

Slide 96 text

[Frogner+ICLRʼ19, etc.] “単語分布” の学習 96 • 単語=意味ベクトルの混合 • 共起する単語の表現間の Sinkhorn distance を⼩さくする • 語義の揺れが学習できる s 共起情報 r が Wasserstein 距離で保存されるように 分布表現を学習 word2vec 単語=ベクトル word2vec 共起する単語の表現間の 内積を⼤きくする

Slide 97

Slide 97 text

最適輸送の使いどころを知る 97 • 最適輸送の使いどころ − 2つの対象の類似度/距離の計算が (部分) 問題になっている – (2) 共起の強い単語の表現同⼠の距離を近づけたい − 対象が確率分布 (ヒストグラム,点の集合,etc.) として表現できる – (1) 単語は意味素の混合では…? − 空間に⾃然な “距離” 構造が⼊っている – (2) “意味ベクトル空間” を学習したい − or 副作⽤としてのアラインメント (マッチング, 対応づけ) の情報が ほしい

Slide 98

Slide 98 text

(おまけ) BERT は語義曖昧性を それなりに解消してくれる 98 [Coenen+’18] 注︓この図全体でひとつの空間内の様⼦

Slide 99

Slide 99 text

まとめ

Slide 100

Slide 100 text

このセクションの⽬標 100 • 最適輸送の定式化を直感的に理解する − Monge–Kantorovich の問題の⼊出⼒を理解する – ⼊⼒︓確率分布 × 2 (荷物の配置 before,荷物の配置 after),輸送コスト – 出⼒︓最適輸送コスト,輸送計画 (カップリング) – 線形計画問題として定式化される − Wasserstein distance が何かを知る • 最適輸送の使いどころを知る − 2つの対象を⽐較したい − 対象が確率分布 (ヒストグラム,点の集合,etc.) として表現できる − 空間に⾃然な “距離” 構造が⼊っている – サポートが不⼀致でもよい − or 副作⽤としてのアラインメント (マッチング, 対応づけ) 情報がほ しい 例 (1) ⽂類似度を測る (2) 分布表現を学習する

Slide 101

Slide 101 text

3. 最適輸送問題の亜種・拡張 101

Slide 102

Slide 102 text

このセクションの⽬標 102 • ⽬標 − 最適輸送問題の亜種・拡張を知る. – Monge–Kantorovich の問題以外の設定や使い⽅を知る. – キーワードと機能を把握して,いざ使いたくなったときにスムーズに⽂献に当 たれるようになる. • 触れる話題 − Wasserstein barycenter – 「Wasserstein 距離が確率測度のなす空間の距離になっている」の気持ちをつ かむ. − Gromov–Wasserstein distance – ふたつの分布が違う空間にあってもアラインメントはできる. − Unbalanced optimal transport – カップリングの制約を外す. − Structured optimal transport – 扱う対象が持っている構造を持っている構造を考慮する. – (cf. サポートの持っている構造を考慮する.)

Slide 103

Slide 103 text

前セクションの復習 Monge–Kantorovich の定式化を思い出す

Slide 104

Slide 104 text

104 https://drive.google.com/file/d/1yAvaU19agJYq_FdLlghS14QZ8d5X48oB/

Slide 105

Slide 105 text

105 https://drive.google.com/file/d/1yAvaU19agJYq_FdLlghS14QZ8d5X48oB/

Slide 106

Slide 106 text

Monge–Kantorovich の問題 (離散版) (再掲) 106 • ⼊⼒ − 確率分布 × 2 (before, after) − 点 (位置) 間の輸送コスト • 制約条件 − ⼊出⼒を もれなくカップリング • 出⼒ − 最適輸送コスト (最適値) − 輸送計画 (最適解) 𝐏∗

Slide 107

Slide 107 text

Monge–Kantorovich の問題 (離散版) (再掲) 107 • ⼊⼒ − 確率分布 × 2 (before, after) − 点 (位置) 間の輸送コスト • 制約条件 − ⼊出⼒を もれなくカップリング • 出⼒ − 最適輸送コスト (最適値) − 輸送計画 (最適解) 𝐏∗ 周辺分布がそれぞれ a, b となるような同時分布 位置情報を忘れて重みベクトル 𝐚 = 𝐚! , … , 𝐚" , 𝐛 = (𝐛! , … , 𝐛# ) だけで済ますこともしばしば. 重みの総和は1に しておく 確率値 (荷物の量) と位置のペア 1 6 𝛿 線形計画問題

Slide 108

Slide 108 text

Wasserstein barycenter ふたつの分布の「中間地点」を求める

Slide 109

Slide 109 text

p-Wasserstein distance (再掲) 109 • p-Wasserstein distance (離散版) コスト c が距離のとき,𝑝 ∈ [1, ∞)に対して以下は確率分布 間の距離を定める.

Slide 110

Slide 110 text

110 https://drive.google.com/file/d/1yAvaU19agJYq_FdLlghS14QZ8d5X48oB/

Slide 111

Slide 111 text

111 https://drive.google.com/file/d/1yAvaU19agJYq_FdLlghS14QZ8d5X48oB/

Slide 112

Slide 112 text

Wasserstein 距離 (再) 112 https://drive.google.com/file/d/1yAvaU19agJYq_FdLlghS14QZ8d5X48oB/

Slide 113

Slide 113 text

113 https://drive.google.com/file/d/1yAvaU19agJYq_FdLlghS14QZ8d5X48oB/ 内分点が定義・計算できる

Slide 114

Slide 114 text

Wasserstein barycenter (離散版) (Fréchet mean) 114 • Wasserstein barycenter − 確率分布の重⼼ − ⼊⼒の分布が2つの場合︓輸送の中間状態 − ⼊⼒ – ヒストグラムたち {b} – 混合⽐率 {λ} − 出⼒ – 重⼼のヒストグラム (※サポートの点数は fixed) a 馴染みある「重⼼」と同じ 重さ (この場合混合率λ) × 距離 (この場合Wasserstein距離) が最⼩になる点

Slide 115

Slide 115 text

最適輸送は「横に」変化する • 静⽌画 https://speakerdeck.com/gpeyre/from- monge-kantorovich-to-gromov- wasserstein-optimal-transport-and- barycenters-between-several-metric- spaces • 動画 https://twitter.com/gabrielpeyre/statu s/941355525509468160 115

Slide 116

Slide 116 text

応⽤例︓Color histogram の重⼼ 116 [Peyré&Cuturi, Computational Optimal Transport]

Slide 117

Slide 117 text

(おまけ) 「テキストはどうした?」 117 • テキストは「連続的な変化」を起こしづらい − 画像︓元画像を連続的に少しだけ変化させてもやはり画像 − ⾔語︓元⽂を1単語変えると⽂の意味がドラスティックに変化する • データの空間が離散であることが壁になりCVほど激しく進 展していないNLPの研究領域 (私⾒) − 変分オートエンコーダー − スタイル変換 – ※ ターゲットコーパスでの fine tune は⼗分効果的 − 敵対的学習 – ※ 単語の置き換えでも⼤きな効果 − データ拡張 – ※ 折り返し翻訳など NLP の⽅法も

Slide 118

Slide 118 text

Gromov–Wasserstein 別の空間にある分布同⼠をマッチングする

Slide 119

Slide 119 text

Gromov–Wasserstein の気持ち︓ 違う空間に存在する分布同⼠をマッチングしたい 119 • ⼊⼒ − 確率分布 × 2 (before, after) − 点 (位置) 間の輸送コスト • 制約条件 − ⼊出⼒を もれなくカップリング • 出⼒ − 最適輸送コスト (最適値) − 輸送計画 (最適解) 𝐏∗ 2つの分布が別の空間に 居るときを考える もはや「x同⼠の距離」 「y同⼠の距離」しかわからない そういう状況でも マッチングしたい

Slide 120

Slide 120 text

Gromov–Wasserstein distance 120 • Gromov–Wasserstein distance − 「近い点ペアは移動後も近い」「遠い点ペアは移動しても遠い」 [Peyré&Cuturi, Computational Optimal Transport]

Slide 121

Slide 121 text

例1︓ 違う空間のオブジェクトのアラインメント 121 • [Solomon+ʼ16]

Slide 122

Slide 122 text

例2︓ 教師なし bilingual lexicon induction 122 • モチベーション − 単語対応は機械翻訳の重要なサブタスク – ※ 統計的機械翻訳という深層学習ベースに なる前の機械翻訳でとくにクリティカル − 対訳コーパス (たとえば英⽂と対応する和 ⽂のペアの集合) を作るのはハイコスト − 単⾔語コーパスなら容易に⼿に⼊る − 単⾔語コーパスだけを使って単語の対応づ けはできる? [Haghighi+ ACL’08]

Slide 123

Slide 123 text

例2︓教師なし bilingual lexicon induction 123 • モチベーション − 単語対応は機械翻訳の重要なサブタスク – ※ 統計的機械翻訳という深層学習ベースに なる前の機械翻訳でとくにクリティカル − 対訳コーパス (たとえば英⽂と対応する和 ⽂のペアの集合) を作るのはハイコスト − 単⾔語コーパスなら容易に⼿に⼊る − 単⾔語コーパスだけを使って単語の対応づ けはできる? [Haghighi+ ACL’08] 「対応づけ」? 最適輸送を使いたくなって きたな……

Slide 124

Slide 124 text

例2︓教師なし bilingual lexicon induction [Alvarez-Melis&Jaakkola EMNLPʼ18] 124 • 1⾔語=1単語埋め込み空間 (単語ベクトル集合) • Gromov–Wasserstein で教師なしマッチング …が結構で きてしまう − (単語の関係性の情報だけで 単語の単語らしさが⾒える)

Slide 125

Slide 125 text

例3︓同じ空間で Gromov–Wasserstein barycenter [Peyré+ ICMLʼ16] 125 • G–W はオブジェクト内の位置関係のみに基づいてアライン メントできた • barycenter: − ε: ここでもエントロピー正則化+Sinkhorn アルゴリズム

Slide 126

Slide 126 text

Unbalanced OT 分布の⼤きさが異なる場合に対応する

Slide 127

Slide 127 text

Unbalanced OT の気持ち︓ 荷物の量揃えなくてもいいよね…? 127 • ⼊⼒ − 確率分布 × 2 (before, after) − 点 (位置) 間の輸送コスト • 制約条件 − ⼊出⼒を もれなくカップリング • 出⼒ − 最適輸送コスト (最適値) − 輸送計画 (最適解) 𝐏∗ 重みの合計が1である必要? ⼊出⼒で差があっても良い? 「もれなく」の条件を外せる?

Slide 128

Slide 128 text

「テキスト類似度」のモチベーション: ⼀部だけマッチングさせたいケース 128 • ⻑さの全く違う⽂を⽐較したい [Wang+ ACMLʼ20] − B の “awful” と C の “sad” だけマッチングできれば⼗分 − ほかの単語は無視したい (運びませんでした︕おしまい︕ にしたい)

Slide 129

Slide 129 text

Unbalanced optimal transport 129 • 特殊ケース − {Wasserstein–Fisher–Rao, Hellinger–Kantorovich} distance – – , − {optimal partial, partial optimal, partial} transport – D: ℓ1 (total variation) カップリングで なくても良い 荷物が⾜りなかったり溢れたりした場合はペナルティ cf. .

Slide 130

Slide 130 text

Unbalanced OT & barycenter 130

Slide 131

Slide 131 text

最適輸送は「横に」変化する (再掲) Wasserstein–Fisher–Rao は Wasserstein と Fisher–Rao の間 • 静⽌画 https://speakerdeck.com/gpeyre/from- monge-kantorovich-to-gromov- wasserstein-optimal-transport-and- barycenters-between-several-metric- spaces • 動画 https://twitter.com/gabrielpeyre/statu s/941355525509468160 131 Fisher–Rao Wasserstein

Slide 132

Slide 132 text

Structured OT 分布が持つ固有の構造を考慮する ※ 各論っぽい話です

Slide 133

Slide 133 text

Structured OT の気持ち︓ 分布の内部構造を考慮したい 133 • ⼊⼒ − 確率分布 × 2 (before, after) − 点 (位置) 間の輸送コスト • 制約条件 − ⼊出⼒を もれなくカップリング • 出⼒ − 最適輸送コスト (最適値) − 輸送計画 (最適解) 𝐏∗ 各分布が固有の内部構造を 持っている場合? Objective をどう修正すれば 良い︖

Slide 134

Slide 134 text

構造を考慮したい その1: 分布の「配列」性 134 • 「テキストの類似度」のモチベーション − WMD︓テキスト=単語ベクトルの確率的混合 – bag of word vectors − ……語順は? – “Mary kills John.” と “John kills Mary.” はだいぶ意味が違う. [Liu+ WWW’18] よしよしコストゼロで完璧 にマッチングできました …ではない “laugh” をおこなう⼈ (動作 主) と受ける⼈ (対象) を峻 別したい

Slide 135

Slide 135 text

Order-preserving OT [Su&Hua CVPRʼ17] 135 • . − 順序が⼀貫していてくれ その1 − 順序が⼀貫していてくれ その2

Slide 136

Slide 136 text

Order-preserving OT [Su&Hua CVPRʼ17] • 書き順を考慮して漢字の類似性を計算したい 136

Slide 137

Slide 137 text

構造を考慮したい その2: 部分集合 137 • 「テキストの類似度」のモチベーション − 部分列をカタマリとして考慮できるとご利益がありそう − N-gram (部分列) はテキストの強⼒な特徴量 – bigram: (テキスト, の), (の, 強⼒), … – trigram: (テキスト, の, 強⼒), … • (蛇⾜) 楽しい n-gram − Google Books Ngram Viewer − https://books.google.com/ngrams

Slide 138

Slide 138 text

Submodular OT [Alvarez-Melis+ AISTATSʼ18] • モチベーション︓同じグループからは同じグループへ移っ てほしい • 使う道具︓劣モジュラ性 (効⽤逓減性) − 同じグループへの輸送が続くとコストがどんどん下がる 138

Slide 139

Slide 139 text

構造を考慮したい その3: ⽊構造 139 • 「テキストの類似度」のモチベーション − 句構造 (構⽂構造のひとつ) を考慮できるとご利益がありそう – . – 意味の構成の鍵 https://ja.wikipedia.org/wiki/%E5%8F%A5%E6%A7%8B%E 9%80%A0%E8%A6%8F%E5%89%87

Slide 140

Slide 140 text

Gromov–Wasserstein distance (再掲) 140 • Gromov–Wasserstein distance − 「近い点ペアは移動後も近い」「遠い点ペアは移動しても遠い」

Slide 141

Slide 141 text

Fused Gromov–Wasserstein [Vayer+ ICMLʼ19] 141 • Wassestein + Gromov–Wasserstein 空間の持つ距離構造 各分布が固有に持つ形 cf. サポートが⽊︓tree-Wasserstein

Slide 142

Slide 142 text

(おまけ) NLPは簡単? 難しい? 142 • bag-of-words でどうにかなるタスク • → 分散表現を⼊れたいタスク • → 語順情報を⼊れたいタスク • → 構⽂情報を⼊れたいタスク • → …

Slide 143

Slide 143 text

まとめ

Slide 144

Slide 144 text

このセクションのまとめ 144 • ⽬標 − 最適輸送問題の亜種・拡張を知る. – Monge–Kantorovich の問題以外の設定や使い⽅を知る. – キーワードと機能を把握して,いざ使いたくなったときにスムーズに⽂献に当 たれるようになる. • 触れる話題 − Wasserstein barycenter – 「Wasserstein 距離が確率測度のなす空間の距離になっている」の気持ちをつ かむ. − Gromov–Wasserstein distance – ふたつの分布が違う空間にあってもアラインメントはできる. − Unbalanced optimal transport – カップリングの制約を外す. − Structured optimal transport – 扱う対象が持っている内部構造を考慮する. – (cf. 各分布の内部構造を考慮する.)

Slide 145

Slide 145 text

まとめ 145

Slide 146

Slide 146 text

今⽇の⽬標︓ 最適輸送の直感的理解とキーワードの把握 146 • ⾃然⾔語処理を中⼼に多くの利⽤例を挙げながら、最適輸 送の直感的な理解を⽬指します。 • 「こんな⾵に使うことができるんだ… ⾯⽩い道具じゃん」 「こういう使い⽅をしたかったらこういうキーワードで調 べれば良いのね」と知識にアンカーを張るのも⼤きな⽬的 です。より深く知りたい⼈のための参考⽂献もできるだけ 潤沢に加えました。 • また、例として頻繁に活⽤する⾃然⾔語処理に馴染みがな いかたのために、最初に単語埋込のチュートリアルをつけ てあります。

Slide 147

Slide 147 text

⽬次 147 • 1. 準備︓単語埋め込みの基礎 − 分布仮説に基づく単語ベクトルの学習の気持ちを知る. − word2vec や BERT について「はいはい知ってる知ってる」になる. − ※ ⾃然⾔語処理の話 • 2. 最適輸送の基礎 − NLP等の応⽤事例を通じてMonge–Kantorovichの問題を直感的に 理解する. − 最適輸送とかWasserstein距離とか書いてある機械学習系の⽂書を ⾒ても「お…怖くないぞ…」となる. • 3. 最適輸送の変種・拡張 − NLP等の応⽤事例を通じて Gromov–Wasserstein, unbalanced OT, barycenter, など最適輸送の変種・拡張や関連するキーワード を概観し,どういう道具なのか直感的に理解する.

Slide 148

Slide 148 text

1. ⾃然⾔語の表現学習⼊⾨ 148 • 意味の表現と計算 • 単語︓「分布仮説に基づく単語埋込の学習」というパラダイム − 分布仮説︓似た⽂脈で出現する単語は意味が似ている − 単語埋込︓共起⽂脈の情報をベクトルに埋め込む – word2vec︓近傍で共起する単語を予測させまくる – BERT︓⽳埋め問題を解かせまくる • ⽂︓単語の表現を使っていかに⽂の意味を計算するか − ⽂の表現 – ⽂の意味は外側 (⽂脈) からは確定できない (分布仮説は使えない) – ⽂の意味は内側 (構成要素である単語) で決まる (構成性) − ⽂の計算 – ⽂の類似度は近似的に構成要素の “重複率” で測れる – Q︓どのように計算すれば良い︖

Slide 149

Slide 149 text

2. 最適輸送の基礎 149 • 最適輸送の定式化を直感的に理解する − Monge–Kantorovich の問題の⼊出⼒を理解する – ⼊⼒︓確率分布 × 2 (荷物の配置 before,荷物の配置 after),輸送コスト – 出⼒︓最適輸送コスト,輸送計画 (カップリング) – 線形計画問題として定式化される − Wasserstein distance が何かを知る • 最適輸送の使いどころを知る − 2つの対象を⽐較したい − 対象が確率分布 (ヒストグラム,点の集合,etc.) として表現できる − 空間に⾃然な “距離” 構造が⼊っている – サポートが不⼀致でもよい − or 副作⽤としてのアラインメント (マッチング, 対応づけ) 情報がほ しい

Slide 150

Slide 150 text

3. 最適輸送の亜種・拡張 150 • ⽬標 − 最適輸送問題の亜種・拡張を知る. – Monge–Kantorovich の問題以外の設定や使い⽅を知る. – キーワードと機能を把握して,いざ使いたくなったときにスムーズに⽂献に当 たれるようになる. • 触れる話題 − Wasserstein barycenter – 「Wasserstein 距離が確率測度のなす空間の距離になっている」の気持ちをつ かむ. − Gromov–Wasserstein distance – ふたつの分布が違う空間にあってもアラインメントはできる. − Unbalanced optimal transport – カップリングの制約を外す. − Structured optimal transport – 扱う対象が持っている内部構造を考慮する. – (cf. 各分布の内部構造を考慮する.)

Slide 151

Slide 151 text

今⽇触れなかった話 151 • Wasserstein GAN • Wasserstein 勾配流 • etc.

Slide 152

Slide 152 text

最適輸送のユーザとしてのおすすめ情報源 152 • フランス界隈 − Gabriel Peyré (CNRS, ENS/DMA) – http://www.gpeyre.com/ – @gabrielpeyre 脳に良い − Marco Cuturi (Google Brain Paris, ENSAE/CREST) – https://marcocuturi.net/ • MIT/CSAIL 界隈 − Justin Solomon (MIT/CSAIL) – https://people.csail.mit.edu/jsolomon/ − David Alvarez-Melis (MIT/CSAIL → MS Research) – https://dmelis.github.io/

Slide 153

Slide 153 text

謝辞 153 • 包さん (東⼤), 佐藤さん (京⼤) • さいえん Slack 最適輸送勉強会の皆さん • 幹事の皆さん