構造を持った言語データと最適輸送

構造を持った⾔語データと最適輸送⼆種類の「アラインメントに基づく類似度」横井祥（東北⼤学） 2022-09-06 NAIST DSC NLP Seminar 2022
Summer

⾃⼰紹介 2 • 横井祥 − http://www.cl.ecei.tohoku.ac.jp/~yokoi/ 🕒 略歴 −
B: 京都⼤学⼯学部情報学科 (⿅島久嗣先⽣) 機械学習 − M, D, 現: 東北⼤学情報科学研究科 (乾健太郎先⽣) ⾃然⾔語処理 👪 ⾃然⾔語処理の和を広げるぞ活動 − NLPコロキウム @nlp_colloquium – 最新の研究を著者本⼈から紹介．⽔曜お昼休み．2〜3週に1度開催． – ⽇本⼈・⽇本語話者による NLP 研究のプレゼンスを向上させたい． 📝 最近の研究の興味 − ⾔語の “意味” が埋込空間の “形状” にどのように反映されるのか – ⻑さ [EMNLPʼ20, ICLRʼ21]，混ざり具合 [EMNLPʼ20, EMNLPʼ21]，集積 [TACLʼ21]，🚚 輸送 🚚 [EMNLPʼ20]，… ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄

今⽇の進め⽅ 3 • 直感的な理解を優先します − 形式的な説明（数式）はできるだけ避けます． − 形式的な説明が気になる⼈向けに参考資料を付記しておきます． • 「最適輸送＋構造︖
まず最適輸送から知らないけど……」 − ご安⼼ください． − ゼロからイメージをつかめるよう⼯夫しました． • 「⾔語処理学会年次⼤会のチュートリアルなら聞いたけど ……」 − ありがとうございます︕そしてご安⼼ください． − 新しい話題をたくさん含むだけでなく，全体を新しい視点でまとめ直しました．「アラインメントに基づく類似度計算」という⾃然⾔語処理でしばしば登場する考え⽅の解像度が上がる筈です． − スライドも半分以上書き起こしました． ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄

最適輸送のミニマルな⼊⾨⽬標︓アラインメントに基づく類似度っていいなぁ… という気持ちになってもらう本題に⼊る前に…

5分で気持ちだけわかる最適輸送

今⽇のトピック︓最適輸送 6 • ⼯場で作った特産品を市内のデパートに届けたい．もっとも効率的な届け⽅は︖ ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 突然ですが

今⽇のトピック︓最適輸送 7 • ⼯場で作った特産品を市内のデパートに届けたい．もっとも効率的な届け⽅は︖ ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 遠い拠点間で輸送するのは
効率が悪そう 🤔 🤔

今⽇のトピック︓最適輸送 8 • ⼯場で作った特産品を市内のデパートに届けたい．もっとも効率的な届け⽅は︖ ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 近い
(= コストのかからない) 拠点間で輸送したい 😄 😄

今⽇のトピック︓最適輸送 9 • ⼯場で作った特産品を市内のデパートに届けたい．もっとも効率的な届け⽅は︖ • 最適輸送＝最良の輸送計画と総輸送コストを求める道具 ԣҪ
ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄

またまた突然ですがテキストの類似度測定 ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 10 • ふたつのテキストの類似度の測定 −
NLP で極めて頻繁に必要とされるサブルーチン − 類似性の評価︓⽣成⽂ ↔ リファレンス⽂ – テキスト⽣成モデルの損失関数，⾃動評価尺度 − 関連テキスト検索︓⽂ ↔ ⽂，⽂書 ↔ ⽂書，クエリ ↔ ⽂書 – 近傍の事例を活⽤した⾔語⽣成，類似事例に基づくモデル解釈，etc. • 基本指針︓要素単語の重なりの度合いを柔らかく測る 📄 Sultan+, DLS$@$CU: Sentence Similarity from Word Alignment and Semantic Vector Composition (SemEval 2015) 昨⽇の岡崎さんのお話

Word Moverʼs Distance [Kusner+ʼ15] ⽂類似度 ↔ 最適輸送コスト 11 • アイデア︓単語ベクトル空間を地図だと思ってみる
− ⽂1︓単語埋込空間の⼯場の位置 − ⽂2︓単語埋込空間のデパートの位置 • 意味の近さの問題が輸送コストの⼤きさの問題に置き換わる − ⽂1, ⽂2: テキストの意味が似ている ↔ 低コストで輸送しきれる − ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 📄 Kusner+, From Word Embeddings To Document Distances (ICML 2015) 意味が近い単語同⼠ (⼯場とデパート) は輸送コストが低い

Word Moverʼs Distance [Kusner+ʼ15] ⽂類似度 ↔ 最適輸送コスト 12 • アイデア︓単語ベクトル空間を地図だと思ってみる
− ⽂1︓単語埋込空間の⼯場の位置 − ⽂2︓単語埋込空間のデパートの位置 • 意味の近さの問題が輸送コストの⼤きさの問題に置き換わる − ⽂1, ⽂2: テキストの意味が似ている ↔ 低コストで輸送しきれる − ⽂1, ⽂3: テキストの意味が似ていない ↔ ⾼い輸送コストがかかる ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 📄 Kusner+, From Word Embeddings To Document Distances (ICML 2015) Natural language processing is awesome document 3 ‘natural’ ‘awesome’ ‘processing’ ‘language’ 意味が近い単語同⼠ (⼯場とデパート) は輸送コストが低い

アラインメントに基づく類似度

「アラインメントに基づく類似性」という最適輸送の考え⽅は⾃然⾔語処理と相性がよい 14 • 最適輸送は⾃然⾔語処理とすごく相性が良い − “近さ” “遠さ” を考えられる空間で
− 荷物全体 (点群) を移し換えるコストを − アラインメントを介して計算する道具 ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄

− 荷物全体 (点群) を移し換えるコストを − アラインメントを介して計算する道具 ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 埋込ベース，ニューラルネットベースの各種⼿法 (＝対象が⾃然に距離空間に⼊っている状態) との相性が良い⾼い解釈性︔ 輸送コスト (最適値) だけではなく輸送プラン (最適解) がわかる⾃然⾔語処理でしばしば要請される例︓⽂と⽂の関係を単語と単語の関係に帰着させたい対象間の類似度や距離の計算は⾃然⾔語処理で頻出⾔語的対象は (たいてい) 何かの集まり⽂＝単語列，⽂書＝⽂の列，コーパス＝⽂集合，…

全体の類似性 = 部分のアラインメントの良さ ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 17 📄 Sultan+,
DLS$@$CU: Sentence Similarity from Word Alignment and Semantic Vector Composition (SemEval 2015) 📄 渡辺+, 機械翻訳 (コロナ社 2014) 📄 Schraagen&Hoogeboom, Predicting record linkage potential in a family reconstruction graph (BNAIC 2015) ⽂類似度統計的機械翻訳編集距離

全体の類似性 = 部分のアラインメントの良さ by 最適輸送 ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 19
• 単語・句が似ている = ⽂字をよくアラインメントできる [Sultun+ʼ15] • ⽂・⽂書が似ている = 単語をよくアラインメントできる [Kusner+ʼ15][Huang+ʼ16][Zhao+ʼ19][Yokoi+ʼ20][Chen+ʼ20][Wang+ʼ20]… • コーパス・⽣成モデルが似ている = ⽂をよくアラインメントできる [Chen+ʼ18][Semeniuta+ʼ18][Alvarez-Melis&Fusiʼ20]… 📄 Sultan+, DLS$@$CU: Sentence Similarity from Word Alignment and Semantic Vector Composition (SemEval 2015) 📄 Kusner+, From Word Embeddings To Document Distances (ICML 2015) 📄 Huang+, Supervised Word Mover’s Distance (NIPS 2016) 📄 Zhao+, MoverScore: Text Generation Evaluating with Contextualized Embeddings and Earth Mover Distance (EMNLP 2019) 📄 Yokoi+, Word Rotator's Distance (EMNLP 2020) 📄 Chen+, Evaluating Natural Language Generation via Unbalanced Optimal Transport (IJCAI 2020) 📄 Wang+, Robust Document Distance with Wasserstein-Fisher-Rao metric (ACML 2020) 📄 Chen+, Adversarial Text Generation via Feature-Mover’s Distance (NIPS 2018) 📄 Semeniuta+, On Accurate Evaluation of GANs for Language Generation (arXiv 2018) 📄 Alvarez-Melis&Fusi, Geometric Dataset Distances via Optimal Transport (NeurIPS 2020)

全体の類似性 = 部分のアラインメントの良さ by 最適輸送 ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 20
まだまだ…︕ • 単語が似ている = 意味素をよくアラインメントできる [Frogner+ʼ19] • 単語が似ている = 共起単語をよくアラインメントできる [Singh+ʼ20] • ⽂・⽂書が似ている = トピックをよくアラインメントできる [Wanʼ07] • ⾔語が似ている = 単語をよくアラインメントできる [Zhang+ʼ17][Alvarez-Melis&Jaakkolaʼ18][Grave+ʼ19][Alvarez-Melis+ʼ19]… 📄 Frogner+, Learning Embeddings into Entropic Wasserstein Spaces (ICLR 2019) 📄 Singh+, Context Mover’s Distance & Barycenters: Optimal Transport of Contexts for Building Representations (AISTATS 2020) 📄 Wan, A novel document similarity measure based on earth mover's distance (Information Sciences 2007) 📄 Zhang+, Earth Mover’s Distance Minimization for Unsupervised Bilingual Lexicon Induction (EMNLP 2017) 📄 Alvarez-Melis&Jaakkola, Gromov-Wasserstein Alignment of Word Embedding Spaces (EMNLP 2018) 📄 Grave+, Unsupervised Alignment of Embeddings with Wasserstein Procrustes (AISTATS 2019) 📄 Alvarez-Melis+, Towards Optimal Transport with Global Invariances (AISTATS 2019) おそらく最適輸送 for ⾃然⾔語処理の初出

ここまでのまとめ ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 21 • 最適輸送 − 荷物を最良のコストで移し替える計画と総コストを求める⼿法
− 「全体として類似 = 部分がよくアラインメントできる」という考え⽅に基づく⼿法と捉えることができる • ⾃然⾔語処理 − 単語＝⽂字列，コーパス＝⽂集合のような再帰的な構造を持つ − 「全体として類似 = 部分がよくアラインメントできる」という考え⽅がしばしば⽤いられる • 最適輸送 for ⾃然⾔語処理 − 相性よし︕

ここまでのまとめ ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 22 • 最適輸送 − 荷物を最良のコストで移し替える計画と総コストを求める⼿法
− 「全体として類似 = 部分がよくアラインメントできる」という考え⽅に基づく⼿法と捉えることができる • ⾃然⾔語処理 − 単語＝⽂字列，コーパス＝⽂集合のような再帰的な構造を持つ − 「全体として類似 = 部分がよくアラインメントできる」という考え⽅がしばしば⽤いられる • 最適輸送 for ⾃然⾔語処理 − 相性よし︕

構造を考慮した類似度⼆種類の「アラインメントに基づく類似性」本題

構造を考えたい ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 24 • 最適輸送 for ⾃然⾔語処理
の基本的な考え⽅ − テキスト表現の類似度＝より⼩さな単位の連続表現の集合の類似度 − ⽂の類似度＝単語ベクトル集合の類似度バラバラにしてベクトル化

構造を考えたい ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 25 • 最適輸送 for ⾃然⾔語処理
の基本的な考え⽅ − テキスト表現の類似度＝より⼩さな単位の連続表現の集合の類似度 − ⽂の類似度＝単語ベクトル集合の類似度 − Q. Bag-of-vectors 表現で⼗分︖ • テキスト表現には構造が⼊っているように思われる − 語順，句構造，依存構造 − “Mary kills John.” ≠ “John kills Mary.” バラバラにしてベクトル化

構造を考えるってどういうこと︖ ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 26 • 最適輸送 for ⾃然⾔語処理
の魅⼒ − 全体としての類似性を「部分のアラインメントの良さ」で判定する • 今⽇考えたいこと − 構造に基づく類似度 – 語順，n-gram，構⽂⽊，…に基づいて全体の類似度を計算したい

構造を考えるってどういうこと︖ ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 27 • 最適輸送 for ⾃然⾔語処理
の魅⼒ − 全体としての類似性を「部分のアラインメントの良さ」で判定する • 今⽇考えたいこと − 構造に基づく類似度 – 語順，n-gram，構⽂⽊，…に基づいて全体の類似度を計算したい − よく考えるとこの話も「部分のアラインメントの良さ」に帰着される

⼆種類の「アラインメントの良さ」 ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 28 • 最適輸送の「アラインメントの良さ」 ✔ ✗

⼆種類の「アラインメントの良さ」 ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 29 • 最適輸送の「アラインメントの良さ」 • 構造の意味での「アラインメントの良さ」
✔ ✗ これら2つの⽊は同じ形，同じ構造 …なぜそう判断できる︖

✔ ✗ ✔ これらふたつの⽊は「重なる」（＝ノード同⼠に対応関係を⾒出せる） ……ので構造が同じ

✔ ✗ ✔ 最適輸送の気持ちで考えるとダメなアラインメント Q. これら⼆種類の「アラインメントの良さ」はどういう違いから来るのか

• ⼀般の最適輸送︓外部との関係性 (輸送コスト) に注⽬アラインメントの良さを検討しているときに注⽬している関係性の違い ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄
32 loves Mary John likes She him 意味が似ているのでアラインメントしやすい

• ⼀般の最適輸送︓外部との関係性 (輸送コスト) に注⽬ • 今⽇考えたいこと︓内部の関係性 (構造) に注⽬アラインメントの良さを検討しているときに注⽬している関係性の違い
ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 33 loves Mary John likes She him 内部の構造が保存されるので良いアラインメント意味が⼤きく異なる単語同⼠でも気にしない意味が似ているのでアラインメントしやすい

• ⼀般の最適輸送︓外部との関係性 (輸送コスト) に注⽬ • 今⽇考えたいこと︓内部の関係性 (構造) に注⽬アラインメントの良さを検討しているときに注⽬している関係性の違い
ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 34 loves Mary John likes She him 内部の構造が保存されるので良いアラインメント意味が似ているのでアラインメントしやすい意味が⼤きく異なる単語同⼠でも気にしない

• 最適輸送 − 構成パーツ（荷物）の効率的な輸送計画を考える − 全体として類似 = 部分同⼠に良いアラインメントを張れる • 今⽇のテーマ︓構造を考慮した類似度
− 構造の類似性もアラインメントの良さに帰着できる − 全体として類似 = 内部構造を保存するようなアラインメントを張れる • このあと︓内部構造を保存する最適輸送の3つのアプローチ 1. 構造の類似度を最適輸送の⾔葉で定式化する 2. 輸送計画に選好を加える 3. コスト関数を動的に変化させる構造を持った⾔語データと最適輸送 ̶ ⽬次⼆種類の「アラインメントに基づく類似度」 35 ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ loves Mary John likes She him

最適輸送＋構造の3つのアプローチ

最適輸送＋構造のアプローチ1 構造の類似度を最適輸送の⾔葉で定式化グロモフ＝ワッサースタイン

• 全体の類似性 = 形の類似性という考えかた (例︓合同) • 素直に最適輸送を使うと…… 全体の類似性 =
形の類似性という考え⽅ ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 40 🤔 輸送コスト︓⼩ 🤔 輸送コスト︓⼤

• なぜこれらの点群が「似ている」と思っているのか • 全体の形状を保存する良いアラインメントが存在する全体の類似性 = 形の類似性 ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS
೥݄ 41 b a a’ b’ c’ c

• なぜこれらの点群が「似ている」と思っているのか • 全体の形状を保存する良いアラインメントが存在する − 近い点対は近い点対に対応 … d(a,b) ≈ d(aʼ,bʼ)
− 遠い点対は遠い点対に対応 … d(a,c) ≈ d(aʼ,cʼ) − ※合同 = 等⻑変換 (合同変換) が存在全体の類似性 = 形の類似性 ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 42 b a a’ b’ c’ c アイデア

グロモフ＝ワッサースタイン距離 [Mémoliʼ11] 内部構造に着⽬した最適輸送コスト 43 • グロモフ＝ワッサースタイン距離 − ⼊⼒ – 荷物の量分布
× 2 (⼯場, デパート)︓𝒂 ∈ ℝ! ", 𝒃 ∈ ℝ! # – コスト⾏列 × 2 (⼯場同⼠，デパート同⼠の位置関係)︓𝑫 ∈ ℝ! "×", 𝑫′ ∈ ℝ! #×# − 最適化 ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ cf. 最適輸送で使うのは⼯場とデパートの距離 📄 Peyré&Cuturi, Computahonal Ophmal Transport, Figure 10.8 近い点ペアは移動後も近い遠い点ペアは移動後も遠い良いアラインメントを探す 📄 Mémoli, Gromov–Wasserstein Distances and the Metric Approach to Object Matching (Found. Comput. Math. 2011)

ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ 44 • 異なる空間に置かれた点群のマッチングができる 📄 Solomon+, Entropic
Metric Alignment for Correspondence Problems (SIGGRAPH 2016) グロモフ＝ワッサースタイン距離 [Mémoliʼ11] 内部構造に着⽬した最適輸送コスト 📄 Mémoli, Gromov–Wasserstein Distances and the Metric Approach to Object Matching (Found. Comput. Math. 2011)

ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ 45 • 異なる空間に置かれた点群のマッチングができる 📄 Solomon+, Entropic
Metric Alignment for Correspondence Problems (SIGGRAPH 2016) グロモフ＝ワッサースタイン距離 [Mémoliʼ11] 内部構造に着⽬した最適輸送コスト 📄 Mémoli, Gromov–Wasserstein Distances and the Metric Approach to Object Matching (Found. Comput. Math. 2011) グラフ，物体表⾯それぞれで内部の点間距離が定まっていれば良いグラフノードと物体表⾯の点の距離（とは…）は定まっていなくても良い ?

グロモフ＝ワッサースタイン距離 for ⾃然⾔語処理 [Alvarez-Melis&Jaakkolaʼ18] 46 • 問題︓教師なし辞書構築 − “猫” ↔
“cat” − “科学” ↔ “science” ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ 📄 Alvarez-Melis&Jaakkola, Gromov-Wasserstein Alignment of Word Embedding Spaces (EMNLP 2018) 📄 Haghighi+, Learning Bilingual Lexicons from Monolingual Corpora (ACL 2008)

グロモフ＝ワッサースタイン距離 for ⾃然⾔語処理 [Alvarez-Melis&Jaakkolaʼ18] 47 • 異なる⾔語の埋込集合は，回転 (直交変換) でよく重なり合うことが知られている
[Xing+ʼ15] − d(vcat , vdog ) ≈ d(v猫 , v⽝ ), d(vcat , vscience ) ≈ d(v猫 , v科学 ) − 位置関係を保存するようにアラインメント… アレの出番では… ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ 📄 Alvarez-Melis&Jaakkola, Gromov-Wasserstein Alignment of Word Embedding Spaces (EMNLP 2018) 📄 Xing+, Normalized Word Embedding and Orthogonal Transform for Bilingual Word Translahon (NAACL 2015) 𝒗(cat) 𝒗(dog) 𝒗(science) 𝒗(technology) 𝒗(猫) 𝒗(⽝) 𝒗(科学) 𝒗(技術) 𝒗(cat) 図 by ⾚間さん（東北⼤）

グロモフ＝ワッサースタイン for ⾃然⾔語処理 [Alvarez-Melis&Jaakkolaʼ18] 48 • アイデア︓2つの⾔語 (単語ベクトル集合) をグロモフ＝ワッサースタイン距離でマッチング
• → 結構できてしまう ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ 📄 Alvarez-Melis&Jaakkola, Gromov-Wasserstein Alignment of Word Embedding Spaces (EMNLP 2018)

最適輸送＋構造のアプローチ1ʼ 構造の類似度を最適輸送の⾔葉で定式化ワッサースタイン + グロモフ＝ワッサースタイン

意味の類似度と構造の類似度の両⽅を考えたい ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 50 • ワッサースタインとグロモフ＝ワッサースタインは異なる「類似度」を捉えられる
• 両⽅同時に考慮したい分布意味論で捉えられるような構成要素の類似度 “意味” の類似度内部構造の類似度 “構⽂” の類似度

意味の類似度と構造の類似度の両⽅を考えたい ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 51 • ワッサースタインとグロモフ＝ワッサースタインは異なる「類似度」を捉えられる
• 両⽅同時に考慮したいワッサースタインが好むアラインメントグロモフ＝ワッサースタインが好むアラインメント輸送コスト (•↔•) の総和をできるだけ⼩さく 51 内部構造 (•↔•,•↔•) をできるだけ保存たとえば “Mary kills John” と “John kills Mary” を埋込空間に置くと述語項構造⽊が裏返しで重なる

Fused Gromov–Wasserstein 距離 [Vayer+ʼ19] ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ 52 •
Fused Gromov–Wasserstein 距離 [Vayer+ʼ19] − ワッサースタインとグロモフ＝ワッサースタインを半々で使う − FGW(a,b) := (1-α) W(a,b) + α GW(a,b) 📄 Vayer+, Fused Gromov-Wasserstein Distancefor Structured Objects (Algorithm 2020) 配置変更のコストを最⼩限にとどめてほしい元の各分布が持っている内部構造も輸送前後で維持されてほしい Wのみを⽤いる場合︓ 同じ⾊の (近い) ノード同⼠がアラインメントされる GWのみを⽤いる場合︓ ⽊構造が維持される 📄 Vayer+, Fused Gromov-Wasserstein Distancefor Structured Objects (Algorithm 2020)

Fused GW for ⽂類似度 [⼭際+ʼ22] ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 53
• Q. ⽂類似度の問題に構⽂情報は効く︖ • モデル − W（別⽂に含まれる単語間の類似度）︓BERT の埋込間の距離 − GW（同⼀⽂内の単語間の関係の強さ）︓BERT のアテンション重み • タスク︓PAWS （語順 sensitive な⽂類似度タスク） [Zhang+ʼ19] • 評価 (AUC) 📄 Zhang+, PAWS: Paraphrase Adversaries from Word Scrambling (NAACL 2019) 📄 Clark+, What Does BERT Look at? An Analysis of BERT’s Amenhon (BlackboxNLP 2019) 📄 (presentahon) ⼭際, 横井, 下平. Self-Amenhon ⾏列を⽤いた最適輸送距離に基づく⾔い換え識別 (統計関連学会連合⼤会 2022) Wasserstein 0.64 Gromov–Wasserstein 0.62 Fused GW (W + GW) 0.72 アテンション重みからそこそこ構⽂情報を復元できる [Clark+ʼ19]

最適輸送＋構造のアプローチ2 輸送計画に選好を加える

今⽇のトピック︓最適輸送（再） 55 • ⼯場で作った特産品を市内のデパートに届けたい．もっとも効率的な届け⽅は︖ • 最適輸送＝最良の輸送計画と総輸送コストを求める道具 ԣҪ
ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄

今⽇のトピック︓最適輸送（再） 56 • ⼯場で作った特産品を市内のデパートに届けたい．もっとも効率的な届け⽅は︖ • 最適輸送＝最良の輸送計画と総輸送コストを求める道具 ԣҪ
ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 拠点間で運ぶ荷物の量が⼊った⾏列が返る 0.2 0.5 0.05 0 0 0 0.05 0.2

内部構造を考慮するための別の戦略︓ 輸送計画に選好を加える 57 • 最適輸送＝最良の輸送計画と総輸送コストを求める道具 ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS
೥݄ 拠点間で運ぶ荷物の量が⼊った⾏列が返る 0.2 0.5 0.05 0 0 0 0.05 0.2 ワッサースタイン距離輸送コスト ( ↔ ) の合計を最⼩化する輸送計画を⽴てるワッサーシュタイン距離＋α 輸送計画を⽴てる際に内部の構造 ( ↔ , ↔ ) も考慮したい

58 • 語順の問題 − ⽂の類似度を考えるときには語順（⽂内の構造）も⼤事 − Word Moverʼs Distance は主語と⽬的語がひっくり返っていても
コストゼロで（別⽂に含まれる単語同⼠の類似度のみを考慮して）マッチングできてしまう ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ 📄 Liu+, Matching Natural Language Sentences with Hierarchical Sentence Factorizahon (WWW 2018) 輸送計画に選好を加える語順が維持されるように正則化 [Su&Huaʼ17][Liu+ʼ18] 📄 Su&Hua, Order-preserving Optimal Transport for Distances between Sequences (CVPR 2017) 📄 Liu+, Matching Natural Language Sentences with Hierarchical Sentence Factorization (WWW 2018)

ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ 59 • 輸送計画 𝑇 はできるだけ “対⾓”
成分ばかり使ってほしい (= 輸送元と輸送先で語順変わらないようにしてほしい) [Su&Huaʼ17] 対⾓成分ばかり使ってほしいその1 「⽂内部の相対位置がだいたい同じ単語をマッチングしてほしい」対⾓成分ばかり使ってほしいその2 「輸送⾏列はこの分布に近づいてほしい」輸送計画に選好を加える語順が維持されるように正則化 [Su&Huaʼ17][Liu+ʼ18] 📄 Su&Hua, Order-preserving Ophmal Transport for Distances between Sequences (CVPR 2017) 📄 Liu+, Matching Natural Language Sentences with Hierarchical Sentence Factorizahon (WWW 2018)

輸送計画に選好を加える語順が維持されるように正則化 [Su&Huaʼ17][Liu+ʼ18] ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ 60 • この⽬的関数を作ったコンピュータ
ヴィジョンでの利⽤ [Su&Huaʼ17] − 構成パーツと書き順の両⽅を考慮した漢字の類似性 • ⾃然⾔語処理での利⽤ [Liu+ʼ18] − 構成単語と語順を考慮した⽂類似度 📄 Su&Hua, Order-preserving Optimal Transport for Distances between Sequences (CVPR 2017) 📄 Liu+, Matching Natural Language Sentences with Hierarchical Sentence Factorization (WWW 2018) 📄 Su&Hua, Order-preserving Optimal Transport for Distances between Sequences (CVPR 2017) 📄 Liu+, Matching Natural Language Sentences with Hierarchical Sentence Factorizahon (WWW 2018)

語順の意味で好ましいアラインメントは対⾓︖ ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ 61 • [Liu+ʼ18]︓意味的に類似した⽂同⼠は “対⾓”
にアライメントが⽣じる • 本当か︖ 📄 Liu+, Matching Natural Language Sentences with Hierarchical Sentence Factorization (WWW 2018) 「if ⽂1, ⽂2」≈「⽂2 if ⽂1」「君に本をあげるよ」≈「本を君にあげるよ」 ︖

別のアプローチ輸送⾏列の良さをNNに判定させる [Tam+ʼ19] ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 65 • 問題︓2メンションは同⼀エンティティを指しているか
• 難しさ − Chun How , Chun Hao → ⽂字列としては似ているが別エンティティ − Grace Hopper , Hopper, Grace → 編集距離は⼤きいが同⼀エンティティ • アイデア − 単語・句 = ⽂字の集まり 1. ⽂脈つき⽂字埋込の集合を最適輸送 2. “良いアラインメント” が取れたかどうかを CNN で判定 📄 Tam+, Optimal Transport-based Alignment of Learned Character Representations for String Similarity (ACL 2019)

最適輸送＋構造のアプローチ3 コスト関数を動的に変化させる

今⽇のトピック︓最適輸送（再） 67 • ⼯場で作った特産品を市内のデパートに届けたい．もっとも効率的な届け⽅は︖ ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄

今⽇のトピック︓最適輸送（再） 68 • ⼯場で作った特産品を市内のデパートに届けたい．もっとも効率的な届け⽅は︖ ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 8
10 10 20 10 8 15 20 拠点間の輸送コストは事前に定まっている 8 10 10 10 20 20 10 8 荷物を単位量運ぶときにどれくらいコストがかかるか ※ 総コストを最⼩化するのが輸送計画を考えるのが最適輸送問題

69 • ⼯場で作った特産品を市内のデパートに届けたい．もっとも効率的な届け⽅は︖ ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 8 10
10 20 10 8 15 20 拠点間の輸送コストは事前に定まっている 8 10 10 10 20 20 10 8 ワッサースタイン距離輸送コスト ( ↔ ) の合計を最⼩化する輸送計画を⽴てるワッサーシュタイン距離＋α 内部の構造 ( ↔ , ↔ ) が⾃然に考慮されるように輸送コストを動的に変化させられないか︖ 内部構造を考慮するためのさらに別の戦略︓ 輸送コストを動的に変化させる

輸送コストを動的に変更する n-gram の維持を好むコスト関数 [Alvarez-Melis+ʼ18] 70 • 句構造の問題 − スパンは輸送先でもスパンであってほしい −
cf. 通常の最適輸送は全体として構成単語集合が対応付けばよしと考える ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ …… ⼈⽣の意味 …… …… meaning of life …… 📄 Alvarez-Melis+, Structured Ophmal Transport (AISTATS 2018)

輸送コストを動的に変更する n-gram の維持を好むコスト関数 [Alvarez-Melis+ʼ18] 71 • アイデア︓劣モジュラ性，効⽤逓減性 − 効⽤({🍔}) –
効⽤({}) > 効⽤({🍔,🍔,🍔,🍔}) - 効⽤({🍔,🍔,🍔}) ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ 📄 Alvarez-Melis+, Structured Optimal Transport (AISTATS 2018) 🍔 をひとつもらえる嬉しさ

効⽤({}) > 効⽤({🍔,🍔,🍔,🍔}) - 効⽤({🍔,🍔,🍔}) − コスト({(▪,★)}) – コスト({}) > コスト({(▪,★),(▪,★)}) – コスト({(▪,★)}) ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ 📄 Alvarez-Melis+, Structured Ophmal Transport (AISTATS 2018) 以前にアラインメントした組み合わせ (▪,★) と同じ組み合わせ (▪,★) （= スパンが輸送元と輸送先で維持されるようなアラインメント）を追加する場合は輸送コストを⼩さくする

効⽤({}) > 効⽤({🍔,🍔,🍔,🍔}) - 効⽤({🍔,🍔,🍔}) − コスト({(▪,★)}) – コスト({}) > コスト({(▪,★),(▪,★)}) – コスト({(▪,★)}) − このあと⾊々⼯夫がありますがここでは略 – 離散のアイデア (劣モジュラ性) を最適輸送のソフトなアライメントに適⽤できるよう連続緩和 (ロヴァース拡張) – 劣勾配の計算と射影の計算の反復解法 ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ 📄 Alvarez-Melis+, Structured Optimal Transport (AISTATS 2018) 以前にアラインメントした組み合わせ (▪,★) と同じ組み合わせ (▪,★) （= スパンが輸送元と輸送先で維持されるようなアラインメント）を追加する場合は輸送コストを⼩さくする

コスト関数を動的に変更する n-gram の維持を好むコスト関数 [Alvarez-Melis+ʼ18] 74 • 結果 − 事前に指定したグループの情報が保存されるような輸送計画が求まる −
[NLP] n-gram を (重複を許す) グループだと思って提案法を適⽤ → ⽂類似度評価の性能が向上 ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ 📄 Alvarez-Melis+, Structured Ophmal Transport (AISTATS 2018) 通常の最適輸送提案法

別のアプローチスパンのマッチの良さは別途計算 [Chwo+ʼ19] ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 75 • 問題︓⽂類似度
• アイデア︓ 最適輸送コスト × fragment penalty (METEOR) = ⾮類似度 − アラインメントに必要なチャンクがどの程度たくさん必要か…… に応じてペナルティ 📄 Chow+, WMDo: Fluency-based Word Mover’s Distance for Machine Translation Evaluation (WS 2019) 2チャンク必要な例 4チャンク必要な例

まとめ

• 最適輸送 − 構成パーツ（荷物）の効率的な輸送計画を考える − 全体として類似 = 部分同⼠に良いアラインメントを張れる • 今⽇のテーマ︓構造を考慮した類似度
− 構造の類似性もアラインメントの良さに帰着できる − 全体として類似 = 内部構造を保存するようなアラインメントを張れる • 最適輸送＋構造の3つのアプローチ 1. 構造の類似度を最適輸送の⾔葉で定式化する（グロモフ＝ワッサースタイン，Fused GW） 2. 輸送計画に選好を加える（対⾓な輸送⾏列を好む正則化） 3. コスト関数を動的に変化させる（劣モジュラ最適輸送）構造を持った⾔語データと最適輸送 ̶ まとめ⼆種類の「アラインメントに基づく類似度」 77 ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ loves Mary John likes She him

⽂献案内 78 • 教科書・スライド − 機械学習・最適化視点 – 📚 Peyré&Cuturi, Computational
Optimal Transport (2019) • arXiv • サポートページ – Gabriel Peyré のスライド群 • Gabriel Peyré は Twitter アカウントもとてもおすすめ – 📚 佐藤，最適輸送の理論とアルゴリズム (2022, 予定) – 佐藤，最適輸送⼊⾨ (IBIS 2021 チュートリアル) − ⾃然⾔語処理視点 – 横井，最適輸送と⾃然⾔語処理 (NLP 2022 チュートリアル) ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 📄 Peyré&Cuturi, Computational Optimal Transport (Foundations and Trends in Machine Learning 2019) 📄 ࠤ౻ ࠷ద༌ૹͷཧ࿦ͱΞϧΰϦζϜ (ߨஊࣾ 2022) 今⽇触れなかった話もたくさん⼊れてあります他の多くの NLP 活⽤事例，微分可能最適輸送，不均衡最適輸送，…

⽂献案内 79 • ライブラリ (ソルバ) − Python Optimal Transport (POT)
(2020) GitHub − Optimal Transport Tools (OTT) with JAX (2022) GitHub • Notebook によるハンズオン − Python Optimal Transport (POT) > Examples gallery − Gabriel Peyré > Numerical Tours > Pythonʼs Tours > Optimal Transport ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 📄 Flamary+, POT: Python Ophmal Transport (JMLR 2021) 📄 Cuturi+, Ophmal Transport Tools (OTT): A JAX Toolbox for all things Wasserstein (arXiv 2022)

補遺︓部分のマッチでも構造のマッチでも捉えられない “意味” ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 80 • ⽂類似度を例に
• ⾮構成的な句 − “hot dog” は “hot” な “dog” ではない • ⽂脈 − パワハラ上司が部下に向かって「暑い…」= エアコンの温度を下げろ − 核戦争から1000年経ち地下世界からはじめて地上に出て太陽を浴びた⼈の「暑い…」 • etc. ︖

補遺︓いつ分解する必要があるのか ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 81 • 分解してから類似性を考えるアプローチを考えた − 最適輸送，注意機構，
集合類似度，… • 分解しなくて良い場合もある − 少なくとも⻑⽂ (⽂書) に対しては OT ≈ BoW [Sato+ʼ22] − 短⽂ (⽂) であってもトピックレベルの類似性が必要な場合 (SICK-R) は OT < 加法構成 [Yokoi+ʼ20] • Q. いつどのような条件で「⼩さな単位のベクトル群」が「⼤きなベクトルひとつ (e.g. ⽂ベクトル)」を優越するのか − 要素数 (単語数)，求められている意味的類似度の種類の違い，埋込の表現⼒，学習・利⽤の容易さ，… ︖ 📄 Sato+, Re-evaluahng Word Mover's Distance (ICML 2022) 📄 Yokoi+, Word Rotator's Distance (EMNLP 2020)

補遺︓いつ構造を考える必要があるのか ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 82 • ⽂脈付きの埋込 (BERTs, ⾔語モデル,
etc.) は構⽂情報を保持していると考えられている [多数] • Q. 構造情報を考えるべき状況はいつか − 分布意味論や⾔語モデルで捉えられない “意味” は何か − 各パーツ (e.g. 単語) の構⽂的役割を考慮するでは⾜りず，パーツ群 (e.g. 句) からなる内部構造が必要となるのは，いかなる種類の意味計算が求められているときか • Q. 埋込に⼊った構造情報をいかに利⽤できるか − 複数のコスト⾏列を⽤意する︖ – 分布意味論的な意味の類似性，構⽂上の役割の類似性を別々に計算する︖ − 関連︓埋込に対していかなる種類の距離・計量を与える︖ ︖

構造を持った言語データと最適輸送

構造を持った言語データと最適輸送

More Decks by Sho Yokoi

Other Decks in Research

Featured

Transcript