Upgrade to Pro — share decks privately, control downloads, hide ads and more …

構造を持った言語データと最適輸送

Sho Yokoi
September 06, 2022

 構造を持った言語データと最適輸送

構造を持った言語データと最適輸送
—— 二種類の「アラインメントに基づく類似度」

NAIST DSC NLP Seminar 2022 Summer で用いたスライドです

Sho Yokoi

September 06, 2022
Tweet

More Decks by Sho Yokoi

Other Decks in Research

Transcript

  1. ⾃⼰紹介 2 • 横井 祥 − http://www.cl.ecei.tohoku.ac.jp/~yokoi/ 🕒 略歴 −

    B: 京都⼤学 ⼯学部 情報学科 (⿅島 久嗣 先⽣) 機械学習 − M, D, 現: 東北⼤学 情報科学研究科 (乾 健太郎 先⽣) ⾃然⾔語処理 👪 ⾃然⾔語処理の和を広げるぞ活動 − NLPコロキウム @nlp_colloquium – 最新の研究を著者本⼈から紹介.⽔曜お昼休み.2〜3週に1度開催. – ⽇本⼈・⽇本語話者による NLP 研究のプレゼンスを向上させたい. 📝 最近の研究の興味 − ⾔語の “意味” が 埋込空間の “形状” にどのように反映されるのか – ⻑さ [EMNLPʼ20, ICLRʼ21],混ざり具合 [EMNLPʼ20, EMNLPʼ21], 集積 [TACLʼ21],🚚 輸送 🚚 [EMNLPʼ20],… ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄
  2. 今⽇の進め⽅ 3 • 直感的な理解を優先します − 形式的な説明(数式)はできるだけ避けます. − 形式的な説明が気になる⼈向けに参考資料を付記しておきます. • 「最適輸送+構造︖

    まず最適輸送から知らないけど……」 − ご安⼼ください. − ゼロからイメージをつかめるよう⼯夫しました. • 「⾔語処理学会年次⼤会のチュートリアルなら聞いたけど ……」 − ありがとうございます︕そしてご安⼼ください. − 新しい話題をたくさん含むだけでなく,全体を新しい視点でまとめ直 しました.「アラインメントに基づく類似度計算」という⾃然⾔語処 理でしばしば登場する考え⽅の解像度が上がる筈です. − スライドも半分以上書き起こしました. ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄
  3. またまた突然ですが テキストの類似度測定 ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 10 • ふたつのテキストの類似度の測定 −

    NLP で極めて頻繁に必要とされるサブルーチン − 類似性の評価︓⽣成⽂ ↔ リファレンス⽂ – テキスト⽣成モデルの損失関数,⾃動評価尺度 − 関連テキスト検索︓⽂ ↔ ⽂,⽂書 ↔ ⽂書,クエリ ↔ ⽂書 – 近傍の事例を活⽤した⾔語⽣成,類似事例に基づくモデル解釈,etc. • 基本指針︓要素単語の重なりの度合いを柔らかく測る 📄 Sultan+, DLS$@$CU: Sentence Similarity from Word Alignment and Semantic Vector Composition (SemEval 2015) 昨⽇の岡崎さんのお話
  4. Word Moverʼs Distance [Kusner+ʼ15] ⽂類似度 ↔ 最適輸送コスト 11 • アイデア︓単語ベクトル空間を地図だと思ってみる

    − ⽂1︓単語埋込空間の⼯場の位置 − ⽂2︓単語埋込空間のデパートの位置 • 意味の近さの問題が輸送コストの⼤きさの問題に置き換わる − ⽂1, ⽂2: テキストの意味が似ている ↔ 低コストで輸送しきれる − ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 📄 Kusner+, From Word Embeddings To Document Distances (ICML 2015) 意味が近い単語同⼠ (⼯場とデパート) は 輸送コストが低い
  5. Word Moverʼs Distance [Kusner+ʼ15] ⽂類似度 ↔ 最適輸送コスト 12 • アイデア︓単語ベクトル空間を地図だと思ってみる

    − ⽂1︓単語埋込空間の⼯場の位置 − ⽂2︓単語埋込空間のデパートの位置 • 意味の近さの問題が輸送コストの⼤きさの問題に置き換わる − ⽂1, ⽂2: テキストの意味が似ている ↔ 低コストで輸送しきれる − ⽂1, ⽂3: テキストの意味が似ていない ↔ ⾼い輸送コストがかかる ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 📄 Kusner+, From Word Embeddings To Document Distances (ICML 2015) Natural language processing is awesome document 3 ‘natural’ ‘awesome’ ‘processing’ ‘language’ 意味が近い単語同⼠ (⼯場とデパート) は 輸送コストが低い
  6. 「アラインメントに基づく類似性」という 最適輸送の考え⽅は⾃然⾔語処理と相性がよい 14 • 最適輸送は⾃然⾔語処理とすごく相性が良い − “近さ” “遠さ” を考えられる空間 で

    − 荷物全体 (点群) を移し換えるコスト を − アラインメントを介して 計算する道具 ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄
  7. 「アラインメントに基づく類似性」という 最適輸送の考え⽅は⾃然⾔語処理と相性がよい 15 • 最適輸送は⾃然⾔語処理とすごく相性が良い − “近さ” “遠さ” を考えられる空間 で

    − 荷物全体 (点群) を移し換えるコスト を − アラインメントを介して 計算する道具 ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 埋込ベース,ニューラルネットベースの各種⼿法 (=対象が⾃然に距離空間に⼊っている状態) との相性が良い ⾼い解釈性︔ 輸送コスト (最適値) だけではなく輸送プラン (最適解) がわかる ⾃然⾔語処理でしばしば要請される 例︓⽂と⽂の関係を単語と単語の関係に帰着させたい 対象間の類似度や距離の計算は ⾃然⾔語処理で頻出 ⾔語的対象は (たいてい) 何かの集まり ⽂=単語列,⽂書=⽂の列,コーパス=⽂集合,…
  8. 「アラインメントに基づく類似性」という 最適輸送の考え⽅は⾃然⾔語処理と相性がよい 16 • 最適輸送は⾃然⾔語処理とすごく相性が良い − “近さ” “遠さ” を考えられる空間 で

    − 荷物全体 (点群) を移し換えるコスト を − アラインメントを介して 計算する道具 ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 埋込ベース,ニューラルネットベースの各種⼿法 (=対象が⾃然に距離空間に⼊っている状態) との相性が良い ⾼い解釈性︔ 輸送コスト (最適値) だけではなく輸送プラン (最適解) がわかる ⾃然⾔語処理でしばしば要請される 例︓⽂と⽂の関係を単語と単語の関係に帰着させたい 対象間の類似度や距離の計算は ⾃然⾔語処理で頻出 ⾔語的対象は (たいてい) 何かの集まり ⽂=単語列,⽂書=⽂の列,コーパス=⽂集合,…
  9. 全体の類似性 = 部分のアラインメントの良さ ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 17 📄 Sultan+,

    DLS$@$CU: Sentence Similarity from Word Alignment and Semantic Vector Composition (SemEval 2015) 📄 渡辺+, 機械翻訳 (コロナ社 2014) 📄 Schraagen&Hoogeboom, Predicting record linkage potential in a family reconstruction graph (BNAIC 2015) ⽂類似度 統計的機械翻訳 編集距離
  10. 全体の類似性 = 部分のアラインメントの良さ by 最適輸送 ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 19

    • 単語・句が似ている = ⽂字をよくアラインメントできる [Sultun+ʼ15] • ⽂・⽂書が似ている = 単語をよくアラインメントできる [Kusner+ʼ15][Huang+ʼ16][Zhao+ʼ19][Yokoi+ʼ20][Chen+ʼ20][Wang+ʼ20]… • コーパス・⽣成モデルが似ている = ⽂をよくアラインメント できる [Chen+ʼ18][Semeniuta+ʼ18][Alvarez-Melis&Fusiʼ20]… 📄 Sultan+, DLS$@$CU: Sentence Similarity from Word Alignment and Semantic Vector Composition (SemEval 2015) 📄 Kusner+, From Word Embeddings To Document Distances (ICML 2015) 📄 Huang+, Supervised Word Mover’s Distance (NIPS 2016) 📄 Zhao+, MoverScore: Text Generation Evaluating with Contextualized Embeddings and Earth Mover Distance (EMNLP 2019) 📄 Yokoi+, Word Rotator's Distance (EMNLP 2020) 📄 Chen+, Evaluating Natural Language Generation via Unbalanced Optimal Transport (IJCAI 2020) 📄 Wang+, Robust Document Distance with Wasserstein-Fisher-Rao metric (ACML 2020) 📄 Chen+, Adversarial Text Generation via Feature-Mover’s Distance (NIPS 2018) 📄 Semeniuta+, On Accurate Evaluation of GANs for Language Generation (arXiv 2018) 📄 Alvarez-Melis&Fusi, Geometric Dataset Distances via Optimal Transport (NeurIPS 2020)
  11. 全体の類似性 = 部分のアラインメントの良さ by 最適輸送 ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 20

    まだまだ…︕ • 単語が似ている = 意味素をよくアラインメントできる [Frogner+ʼ19] • 単語が似ている = 共起単語をよくアラインメントできる [Singh+ʼ20] • ⽂・⽂書が似ている = トピックをよくアラインメントできる [Wanʼ07] • ⾔語が似ている = 単語をよくアラインメントできる [Zhang+ʼ17][Alvarez-Melis&Jaakkolaʼ18][Grave+ʼ19][Alvarez-Melis+ʼ19]… 📄 Frogner+, Learning Embeddings into Entropic Wasserstein Spaces (ICLR 2019) 📄 Singh+, Context Mover’s Distance & Barycenters: Optimal Transport of Contexts for Building Representations (AISTATS 2020) 📄 Wan, A novel document similarity measure based on earth mover's distance (Information Sciences 2007) 📄 Zhang+, Earth Mover’s Distance Minimization for Unsupervised Bilingual Lexicon Induction (EMNLP 2017) 📄 Alvarez-Melis&Jaakkola, Gromov-Wasserstein Alignment of Word Embedding Spaces (EMNLP 2018) 📄 Grave+, Unsupervised Alignment of Embeddings with Wasserstein Procrustes (AISTATS 2019) 📄 Alvarez-Melis+, Towards Optimal Transport with Global Invariances (AISTATS 2019) おそらく 最適輸送 for ⾃然⾔語処理 の初出
  12. ここまでのまとめ ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 21 • 最適輸送 − 荷物を最良のコストで移し替える計画と総コストを求める⼿法

    − 「全体として類似 = 部分がよくアラインメントできる」という考え⽅ に基づく⼿法と捉えることができる • ⾃然⾔語処理 − 単語=⽂字列,コーパス=⽂集合のような再帰的な構造を持つ − 「全体として類似 = 部分がよくアラインメントできる」という考え⽅ がしばしば⽤いられる • 最適輸送 for ⾃然⾔語処理 − 相性よし︕
  13. ここまでのまとめ ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 22 • 最適輸送 − 荷物を最良のコストで移し替える計画と総コストを求める⼿法

    − 「全体として類似 = 部分がよくアラインメントできる」という考え⽅ に基づく⼿法と捉えることができる • ⾃然⾔語処理 − 単語=⽂字列,コーパス=⽂集合のような再帰的な構造を持つ − 「全体として類似 = 部分がよくアラインメントできる」という考え⽅ がしばしば⽤いられる • 最適輸送 for ⾃然⾔語処理 − 相性よし︕
  14. 構造を考えたい ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 24 • 最適輸送 for ⾃然⾔語処理

    の基本的な考え⽅ − テキスト表現の類似度 = より⼩さな単位の連続表現の集合の類似度 − ⽂の類似度 = 単語ベクトル集合の類似度 バラバラにして ベクトル化
  15. 構造を考えたい ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 25 • 最適輸送 for ⾃然⾔語処理

    の基本的な考え⽅ − テキスト表現の類似度 = より⼩さな単位の連続表現の集合の類似度 − ⽂の類似度 = 単語ベクトル集合の類似度 − Q. Bag-of-vectors 表現で⼗分︖ • テキスト表現には構造が⼊っているように思われる − 語順,句構造,依存構造 − “Mary kills John.” ≠ “John kills Mary.” バラバラにして ベクトル化
  16. 構造を考えるってどういうこと︖ ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 26 • 最適輸送 for ⾃然⾔語処理

    の魅⼒ − 全体としての類似性を「部分のアラインメントの良さ」で判定する • 今⽇考えたいこと − 構造に基づく類似度 – 語順,n-gram,構⽂⽊,…に基づいて全体の類似度を計算したい
  17. 構造を考えるってどういうこと︖ ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 27 • 最適輸送 for ⾃然⾔語処理

    の魅⼒ − 全体としての類似性を「部分のアラインメントの良さ」で判定する • 今⽇考えたいこと − 構造に基づく類似度 – 語順,n-gram,構⽂⽊,…に基づいて全体の類似度を計算したい − よく考えるとこの話も「部分のアラインメントの良さ」に帰着される
  18. ⼆種類の「アラインメントの良さ」 ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 31 • 最適輸送の「アラインメントの良さ」 • 構造の意味での「アラインメントの良さ」

    ✔ ✗ ✔ 最適輸送の気持ちで考えると ダメなアラインメント Q. これら⼆種類の「アラインメントの良さ」は どういう違いから来るのか
  19. • ⼀般の最適輸送︓外部との関係性 (輸送コスト) に注⽬ • 今⽇考えたいこと︓内部の関係性 (構造) に注⽬ アラインメントの良さを検討しているときに 注⽬している関係性の違い

    ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 33 loves Mary John likes She him 内部の構造が 保存されるので 良いアラインメント 意味が⼤きく異なる 単語同⼠でも気にしない 意味が似ているので アラインメントしやすい
  20. • ⼀般の最適輸送︓外部との関係性 (輸送コスト) に注⽬ • 今⽇考えたいこと︓内部の関係性 (構造) に注⽬ アラインメントの良さを検討しているときに 注⽬している関係性の違い

    ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 34 loves Mary John likes She him 内部の構造が 保存されるので 良いアラインメント 意味が似ているので アラインメントしやすい 意味が⼤きく異なる 単語同⼠でも気にしない
  21. • 最適輸送 − 構成パーツ(荷物)の効率的な輸送計画を考える − 全体として類似 = 部分同⼠に良いアラインメントを張れる • 今⽇のテーマ︓構造を考慮した類似度

    − 構造の類似性もアラインメントの良さに帰着できる − 全体として類似 = 内部構造を保存するようなアラインメントを張れる • このあと︓内部構造を保存する最適輸送の3つのアプローチ 1. 構造の類似度を最適輸送の⾔葉で定式化する 2. 輸送計画に選好を加える 3. コスト関数を動的に変化させる 構造を持った⾔語データと最適輸送 ̶ ⽬次 ⼆種類の「アラインメントに基づく類似度」 35 ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ loves Mary John likes She him
  22. • 全体の類似性 = 形の類似性 という考えかた (例︓合同) • 素直に最適輸送を使うと…… 全体の類似性 =

    形の類似性 という考え⽅ ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 40 🤔 輸送コスト︓⼩ 🤔 輸送コスト︓⼤
  23. • なぜこれらの点群が「似ている」と思っているのか • 全体の形状を保存する良いアラインメントが存在する − 近い点対は近い点対に対応 … d(a,b) ≈ d(aʼ,bʼ)

    − 遠い点対は遠い点対に対応 … d(a,c) ≈ d(aʼ,cʼ) − ※合同 = 等⻑変換 (合同変換) が存在 全体の類似性 = 形の類似性 ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 42 b a a’ b’ c’ c アイデア
  24. グロモフ=ワッサースタイン距離 [Mémoliʼ11] 内部構造に着⽬した最適輸送コスト 43 • グロモフ=ワッサースタイン距離 − ⼊⼒ – 荷物の量分布

    × 2 (⼯場, デパート)︓𝒂 ∈ ℝ! ", 𝒃 ∈ ℝ! # – コスト⾏列 × 2 (⼯場同⼠,デパート同⼠の位置関係)︓𝑫 ∈ ℝ! "×", 𝑫′ ∈ ℝ! #×# − 最適化 ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ cf. 最適輸送で使うのは ⼯場とデパートの距離 📄 Peyré&Cuturi, Computahonal Ophmal Transport, Figure 10.8 近い点ペアは 移動後も近い 遠い点ペアは 移動後も遠い 良いアラインメント を探す 📄 Mémoli, Gromov–Wasserstein Distances and the Metric Approach to Object Matching (Found. Comput. Math. 2011)
  25. ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ 44 • 異なる空間に置かれた点群のマッチングができる 📄 Solomon+, Entropic

    Metric Alignment for Correspondence Problems (SIGGRAPH 2016) グロモフ=ワッサースタイン距離 [Mémoliʼ11] 内部構造に着⽬した最適輸送コスト 📄 Mémoli, Gromov–Wasserstein Distances and the Metric Approach to Object Matching (Found. Comput. Math. 2011)
  26. ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ 45 • 異なる空間に置かれた点群のマッチングができる 📄 Solomon+, Entropic

    Metric Alignment for Correspondence Problems (SIGGRAPH 2016) グロモフ=ワッサースタイン距離 [Mémoliʼ11] 内部構造に着⽬した最適輸送コスト 📄 Mémoli, Gromov–Wasserstein Distances and the Metric Approach to Object Matching (Found. Comput. Math. 2011) グラフ,物体表⾯ それぞれで内部の点間距離 が定まっていれば良い グラフノードと物体表⾯の点 の距離(とは…)は 定まっていなくても良い ?
  27. グロモフ=ワッサースタイン距離 for ⾃然⾔語処理 [Alvarez-Melis&Jaakkolaʼ18] 46 • 問題︓教師なし辞書構築 − “猫” ↔

    “cat” − “科学” ↔ “science” ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ 📄 Alvarez-Melis&Jaakkola, Gromov-Wasserstein Alignment of Word Embedding Spaces (EMNLP 2018) 📄 Haghighi+, Learning Bilingual Lexicons from Monolingual Corpora (ACL 2008)
  28. グロモフ=ワッサースタイン距離 for ⾃然⾔語処理 [Alvarez-Melis&Jaakkolaʼ18] 47 • 異なる⾔語の埋込集合は,回転 (直交変換) でよく重なり合 うことが知られている

    [Xing+ʼ15] − d(vcat , vdog ) ≈ d(v猫 , v⽝ ), d(vcat , vscience ) ≈ d(v猫 , v科学 ) − 位置関係を保存するようにアラインメント… アレの出番では… ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ 📄 Alvarez-Melis&Jaakkola, Gromov-Wasserstein Alignment of Word Embedding Spaces (EMNLP 2018) 📄 Xing+, Normalized Word Embedding and Orthogonal Transform for Bilingual Word Translahon (NAACL 2015) 𝒗(cat) 𝒗(dog) 𝒗(science) 𝒗(technology) 𝒗(猫) 𝒗(⽝) 𝒗(科学) 𝒗(技術) 𝒗(cat) 図 by ⾚間さん (東北⼤)
  29. グロモフ=ワッサースタイン for ⾃然⾔語処理 [Alvarez-Melis&Jaakkolaʼ18] 48 • アイデア︓2つの⾔語 (単語ベクトル集合) を グロモフ=ワッサースタイン距離でマッチング

    • → 結構できてしまう ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ 📄 Alvarez-Melis&Jaakkola, Gromov-Wasserstein Alignment of Word Embedding Spaces (EMNLP 2018)
  30. 意味の類似度と構造の類似度の 両⽅を考えたい ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 51 • ワッサースタインとグロモフ=ワッサースタインは異なる 「類似度」を捉えられる

    • 両⽅同時に考慮したい ワッサースタインが好む アラインメント グロモフ=ワッサースタインが好む アラインメント 輸送コスト (•↔•) の 総和をできるだけ⼩さく 51 内部構造 (•↔•,•↔•) をできるだけ保存 たとえば “Mary kills John” と “John kills Mary” を 埋込空間に置くと述語項構造⽊が裏返しで重なる
  31. Fused Gromov–Wasserstein 距離 [Vayer+ʼ19] ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ 52 •

    Fused Gromov–Wasserstein 距離 [Vayer+ʼ19] − ワッサースタインとグロモフ=ワッサースタインを半々で使う − FGW(a,b) := (1-α) W(a,b) + α GW(a,b) 📄 Vayer+, Fused Gromov-Wasserstein Distancefor Structured Objects (Algorithm 2020) 配置変更のコストを最⼩限にとどめてほしい 元の各分布が持っている内部構造 も輸送前後で維持されてほしい Wのみを⽤いる場合︓ 同じ⾊の (近い) ノード同⼠が アラインメントされる GWのみを⽤いる場合︓ ⽊構造が維持される 📄 Vayer+, Fused Gromov-Wasserstein Distancefor Structured Objects (Algorithm 2020)
  32. Fused GW for ⽂類似度 [⼭際+ʼ22] ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 53

    • Q. ⽂類似度の問題に構⽂情報は効く︖ • モデル − W(別⽂に含まれる単語間の類似度)︓BERT の埋込間の距離 − GW(同⼀⽂内の単語間の関係の強さ)︓BERT のアテンション重み • タスク︓PAWS (語順 sensitive な⽂類似度タスク) [Zhang+ʼ19] • 評価 (AUC) 📄 Zhang+, PAWS: Paraphrase Adversaries from Word Scrambling (NAACL 2019) 📄 Clark+, What Does BERT Look at? An Analysis of BERT’s Amenhon (BlackboxNLP 2019) 📄 (presentahon) ⼭際, 横井, 下平. Self-Amenhon ⾏列を⽤いた最適輸送距離に基づく⾔い換え識別 (統計関連学会連合⼤会 2022) Wasserstein 0.64 Gromov–Wasserstein 0.62 Fused GW (W + GW) 0.72 アテンション重みからそこそこ 構⽂情報を復元できる [Clark+ʼ19]
  33. 今⽇のトピック︓最適輸送(再) 56 • ⼯場で作った特産品を市内のデパートに届けたい. もっとも効率的な届け⽅は︖ • 最適輸送= 最良の輸送計画 と総輸送コストを求める道具 ԣҪ

    ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 拠点間で運ぶ荷物の量が⼊った ⾏列 が返る 0.2 0.5 0.05 0 0 0 0.05 0.2
  34. 内部構造を考慮するための別の戦略︓ 輸送計画に選好を加える 57 • 最適輸送= 最良の輸送計画 と総輸送コストを求める道具 ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS

    ೥݄ 拠点間で運ぶ荷物の量が⼊った ⾏列 が返る 0.2 0.5 0.05 0 0 0 0.05 0.2 ワッサースタイン距離 輸送コスト ( ↔ ) の合計 を最⼩化する輸送計画を⽴てる ワッサーシュタイン距離+α 輸送計画 を⽴てる際に 内部の構造 ( ↔ , ↔ ) も考慮したい
  35. 58 • 語順の問題 − ⽂の類似度を考えるときには語順(⽂内の構造)も⼤事 − Word Moverʼs Distance は主語と⽬的語がひっくり返っていても

    コストゼロで (別⽂に含まれる単語同⼠の類似度のみを考慮して) マッチングできてしまう ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ 📄 Liu+, Matching Natural Language Sentences with Hierarchical Sentence Factorizahon (WWW 2018) 輸送計画に選好を加える 語順が維持されるように正則化 [Su&Huaʼ17][Liu+ʼ18] 📄 Su&Hua, Order-preserving Optimal Transport for Distances between Sequences (CVPR 2017) 📄 Liu+, Matching Natural Language Sentences with Hierarchical Sentence Factorization (WWW 2018)
  36. ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ 59 • 輸送計画 𝑇 はできるだけ “対⾓”

    成分ばかり使ってほしい (= 輸送元と輸送先で語順変わらないようにしてほしい) [Su&Huaʼ17] 対⾓成分ばかり使ってほしい その1 「⽂内部の相対位置がだいたい同じ 単語をマッチングしてほしい」 対⾓成分ばかり使ってほしい その2 「輸送⾏列はこの分布に近づいてほしい」 輸送計画に選好を加える 語順が維持されるように正則化 [Su&Huaʼ17][Liu+ʼ18] 📄 Su&Hua, Order-preserving Ophmal Transport for Distances between Sequences (CVPR 2017) 📄 Liu+, Matching Natural Language Sentences with Hierarchical Sentence Factorizahon (WWW 2018)
  37. 輸送計画に選好を加える 語順が維持されるように正則化 [Su&Huaʼ17][Liu+ʼ18] ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ 60 • この⽬的関数を作ったコンピュータ

    ヴィジョンでの利⽤ [Su&Huaʼ17] − 構成パーツと書き順の両⽅を考慮した 漢字の類似性 • ⾃然⾔語処理での利⽤ [Liu+ʼ18] − 構成単語と語順を考慮した⽂類似度 📄 Su&Hua, Order-preserving Optimal Transport for Distances between Sequences (CVPR 2017) 📄 Liu+, Matching Natural Language Sentences with Hierarchical Sentence Factorization (WWW 2018) 📄 Su&Hua, Order-preserving Optimal Transport for Distances between Sequences (CVPR 2017) 📄 Liu+, Matching Natural Language Sentences with Hierarchical Sentence Factorizahon (WWW 2018)
  38. 語順の意味で好ましいアラインメント は対⾓︖ ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ 61 • [Liu+ʼ18]︓意味的に類似した⽂同⼠は “対⾓”

    にアライメントが⽣じる • 本当か︖ 📄 Liu+, Matching Natural Language Sentences with Hierarchical Sentence Factorization (WWW 2018) 「if ⽂1, ⽂2」≈「⽂2 if ⽂1」 「君に本をあげるよ」≈「本を君にあげるよ」 ︖
  39. 別のアプローチ 輸送⾏列の良さをNNに判定させる [Tam+ʼ19] ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 65 • 問題︓2メンションは同⼀エンティティを指しているか

    • 難しさ − Chun How , Chun Hao → ⽂字列としては似ているが別エンティティ − Grace Hopper , Hopper, Grace → 編集距離は⼤きいが同⼀エンティティ • アイデア − 単語・句 = ⽂字の集まり 1. ⽂脈つき⽂字埋込の集合を最適輸送 2. “良いアラインメント” が取れたか どうかを CNN で判定 📄 Tam+, Optimal Transport-based Alignment of Learned Character Representations for String Similarity (ACL 2019)
  40. 今⽇のトピック︓最適輸送(再) 68 • ⼯場で作った特産品を市内のデパートに届けたい. もっとも効率的な届け⽅は︖ ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 8

    10 10 20 10 8 15 20 拠点間の 輸送コスト は事前に定まっている 8 10 10 10 20 20 10 8 荷物を単位量運ぶときにどれくらい コストがかかるか ※ 総コストを最⼩化するのが輸送計画を 考えるのが最適輸送問題
  41. 69 • ⼯場で作った特産品を市内のデパートに届けたい. もっとも効率的な届け⽅は︖ ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 8 10

    10 20 10 8 15 20 拠点間の 輸送コスト は事前に定まっている 8 10 10 10 20 20 10 8 ワッサースタイン距離 輸送コスト ( ↔ ) の合計 を最⼩化する輸送計画を⽴てる ワッサーシュタイン距離+α 内部の構造 ( ↔ , ↔ ) が⾃然に考慮されるように 輸送コスト を 動的に変化させられないか︖ 内部構造を考慮するためのさらに別の戦略︓ 輸送コストを動的に変化させる
  42. 輸送コストを動的に変更する n-gram の維持を好むコスト関数 [Alvarez-Melis+ʼ18] 70 • 句構造の問題 − スパンは輸送先でもスパンであってほしい −

    cf. 通常の最適輸送は 全体として構成単語集合が対応付けばよしと考える ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ …… ⼈⽣ の 意味 …… …… meaning of life …… 📄 Alvarez-Melis+, Structured Ophmal Transport (AISTATS 2018)
  43. 輸送コストを動的に変更する n-gram の維持を好むコスト関数 [Alvarez-Melis+ʼ18] 71 • アイデア︓劣モジュラ性,効⽤逓減性 − 効⽤({🍔}) –

    効⽤({}) > 効⽤({🍔,🍔,🍔,🍔}) - 効⽤({🍔,🍔,🍔}) ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ 📄 Alvarez-Melis+, Structured Optimal Transport (AISTATS 2018) 🍔 をひとつもらえる嬉しさ
  44. 輸送コストを動的に変更する n-gram の維持を好むコスト関数 [Alvarez-Melis+ʼ18] 72 • アイデア︓劣モジュラ性,効⽤逓減性 − 効⽤({🍔}) –

    効⽤({}) > 効⽤({🍔,🍔,🍔,🍔}) - 効⽤({🍔,🍔,🍔}) − コスト({(▪,★)}) – コスト({}) > コスト({(▪,★),(▪,★)}) – コスト({(▪,★)}) ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ 📄 Alvarez-Melis+, Structured Ophmal Transport (AISTATS 2018) 以前にアラインメントした組み合わせ (▪,★) と同じ組み合わせ (▪,★) (= スパンが輸送元と輸送先で維持 されるようなアラインメント) を追加する場合は輸送コストを⼩さくする
  45. 輸送コストを動的に変更する n-gram の維持を好むコスト関数 [Alvarez-Melis+ʼ18] 73 • アイデア︓劣モジュラ性,効⽤逓減性 − 効⽤({🍔}) –

    効⽤({}) > 効⽤({🍔,🍔,🍔,🍔}) - 効⽤({🍔,🍔,🍔}) − コスト({(▪,★)}) – コスト({}) > コスト({(▪,★),(▪,★)}) – コスト({(▪,★)}) − このあと⾊々⼯夫がありますがここでは略 – 離散のアイデア (劣モジュラ性) を最適輸送のソフトなアライメントに適⽤ できるよう連続緩和 (ロヴァース拡張) – 劣勾配の計算と射影の計算の反復解法 ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ 📄 Alvarez-Melis+, Structured Optimal Transport (AISTATS 2018) 以前にアラインメントした組み合わせ (▪,★) と同じ組み合わせ (▪,★) (= スパンが輸送元と輸送先で維持 されるようなアラインメント) を追加する場合は輸送コストを⼩さくする
  46. コスト関数を動的に変更する n-gram の維持を好むコスト関数 [Alvarez-Melis+ʼ18] 74 • 結果 − 事前に指定したグループの情報が保存されるような輸送計画が求まる −

    [NLP] n-gram を (重複を許す) グループだと思って提案法を適⽤ → ⽂類似度評価の性能が向上 ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ 📄 Alvarez-Melis+, Structured Ophmal Transport (AISTATS 2018) 通常の最適輸送 提案法
  47. 別のアプローチ スパンのマッチの良さは別途計算 [Chwo+ʼ19] ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 75 • 問題︓⽂類似度

    • アイデア︓ 最適輸送コスト × fragment penalty (METEOR) = ⾮類似度 − アラインメントに必要なチャンクがどの程度たくさん必要か…… に応じてペナルティ 📄 Chow+, WMDo: Fluency-based Word Mover’s Distance for Machine Translation Evaluation (WS 2019) 2チャンク必要な例 4チャンク必要な例
  48. • 最適輸送 − 構成パーツ(荷物)の効率的な輸送計画を考える − 全体として類似 = 部分同⼠に良いアラインメントを張れる • 今⽇のテーマ︓構造を考慮した類似度

    − 構造の類似性もアラインメントの良さに帰着できる − 全体として類似 = 内部構造を保存するようなアラインメントを張れる • 最適輸送+構造の3つのアプローチ 1. 構造の類似度を最適輸送の⾔葉で定式化する (グロモフ=ワッサー スタイン,Fused GW) 2. 輸送計画に選好を加える(対⾓な輸送⾏列を好む正則化) 3. コスト関数を動的に変化させる (劣モジュラ最適輸送) 構造を持った⾔語データと最適輸送 ̶ まとめ ⼆種類の「アラインメントに基づく類似度」 77 ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ loves Mary John likes She him
  49. ⽂献案内 78 • 教科書・スライド − 機械学習・最適化視点 – 📚 Peyré&Cuturi, Computational

    Optimal Transport (2019) • arXiv • サポートページ – Gabriel Peyré のスライド群 • Gabriel Peyré は Twitter アカウントもとてもおすすめ – 📚 佐藤,最適輸送の理論とアルゴリズム (2022, 予定) – 佐藤,最適輸送⼊⾨ (IBIS 2021 チュートリアル) − ⾃然⾔語処理視点 – 横井,最適輸送と⾃然⾔語処理 (NLP 2022 チュートリアル) ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 📄 Peyré&Cuturi, Computational Optimal Transport (Foundations and Trends in Machine Learning 2019) 📄 ࠤ౻ ࠷ద༌ૹͷཧ࿦ͱΞϧΰϦζϜ (ߨஊࣾ 2022) 今⽇触れなかった話もたくさん⼊れてあります 他の多くの NLP 活⽤事例,微分可能最適輸送,不均衡最適輸送,…
  50. ⽂献案内 79 • ライブラリ (ソルバ) − Python Optimal Transport (POT)

    (2020) GitHub − Optimal Transport Tools (OTT) with JAX (2022) GitHub • Notebook によるハンズオン − Python Optimal Transport (POT) > Examples gallery − Gabriel Peyré > Numerical Tours > Pythonʼs Tours > Optimal Transport ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 📄 Flamary+, POT: Python Ophmal Transport (JMLR 2021) 📄 Cuturi+, Ophmal Transport Tools (OTT): A JAX Toolbox for all things Wasserstein (arXiv 2022)
  51. 補遺︓部分のマッチでも構造のマッチでも 捉えられない “意味” ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 80 • ⽂類似度を例に

    • ⾮構成的な句 − “hot dog” は “hot” な “dog” ではない • ⽂脈 − パワハラ上司が部下に向かって「暑い…」= エアコンの温度を下げろ − 核戦争から1000年経ち地下世界からはじめて地上に出て太陽を浴び た⼈の「暑い…」 • etc. ︖
  52. 補遺︓いつ分解する必要があるのか ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 81 • 分解してから類似性を考えるアプローチを考えた − 最適輸送,注意機構,

    集合類似度,… • 分解しなくて良い場合もある − 少なくとも⻑⽂ (⽂書) に対しては OT ≈ BoW [Sato+ʼ22] − 短⽂ (⽂) であってもトピックレベルの類似性が必要な場合 (SICK-R) は OT < 加法構成 [Yokoi+ʼ20] • Q. いつどのような条件で「⼩さな単位のベクトル群」が 「⼤きなベクトルひとつ (e.g. ⽂ベクトル)」を優越するのか − 要素数 (単語数),求められている意味的類似度の種類の違い,埋込の表 現⼒,学習・利⽤の容易さ,… ︖ 📄 Sato+, Re-evaluahng Word Mover's Distance (ICML 2022) 📄 Yokoi+, Word Rotator's Distance (EMNLP 2020)
  53. 補遺︓いつ構造を考える必要があるのか ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 82 • ⽂脈付きの埋込 (BERTs, ⾔語モデル,

    etc.) は構⽂情報を保 持していると考えられている [多数] • Q. 構造情報を考えるべき状況はいつか − 分布意味論や⾔語モデルで捉えられない “意味” は何か − 各パーツ (e.g. 単語) の構⽂的役割を考慮するでは⾜りず,パーツ群 (e.g. 句) からなる内部構造が必要となるのは,いかなる種類の意味計 算が求められているときか • Q. 埋込に⼊った構造情報をいかに利⽤できるか − 複数のコスト⾏列を⽤意する︖ – 分布意味論的な意味の類似性,構⽂上の役割の類似性を別々に計算する︖ − 関連︓埋込に対していかなる種類の距離・計量を与える︖ ︖