Slide 1

Slide 1 text

構造を持った⾔語データと最適輸送 ⼆種類の「アラインメントに基づく類似度」 横井 祥(東北⼤学) 2022-09-06 NAIST DSC NLP Seminar 2022 Summer

Slide 2

Slide 2 text

⾃⼰紹介 2 • 横井 祥 − http://www.cl.ecei.tohoku.ac.jp/~yokoi/ 🕒 略歴 − B: 京都⼤学 ⼯学部 情報学科 (⿅島 久嗣 先⽣) 機械学習 − M, D, 現: 東北⼤学 情報科学研究科 (乾 健太郎 先⽣) ⾃然⾔語処理 👪 ⾃然⾔語処理の和を広げるぞ活動 − NLPコロキウム @nlp_colloquium – 最新の研究を著者本⼈から紹介.⽔曜お昼休み.2〜3週に1度開催. – ⽇本⼈・⽇本語話者による NLP 研究のプレゼンスを向上させたい. 📝 最近の研究の興味 − ⾔語の “意味” が 埋込空間の “形状” にどのように反映されるのか – ⻑さ [EMNLPʼ20, ICLRʼ21],混ざり具合 [EMNLPʼ20, EMNLPʼ21], 集積 [TACLʼ21],🚚 輸送 🚚 [EMNLPʼ20],… ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄

Slide 3

Slide 3 text

今⽇の進め⽅ 3 • 直感的な理解を優先します − 形式的な説明(数式)はできるだけ避けます. − 形式的な説明が気になる⼈向けに参考資料を付記しておきます. • 「最適輸送+構造︖ まず最適輸送から知らないけど……」 − ご安⼼ください. − ゼロからイメージをつかめるよう⼯夫しました. • 「⾔語処理学会年次⼤会のチュートリアルなら聞いたけど ……」 − ありがとうございます︕そしてご安⼼ください. − 新しい話題をたくさん含むだけでなく,全体を新しい視点でまとめ直 しました.「アラインメントに基づく類似度計算」という⾃然⾔語処 理でしばしば登場する考え⽅の解像度が上がる筈です. − スライドも半分以上書き起こしました. ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄

Slide 4

Slide 4 text

最適輸送のミニマルな⼊⾨ ⽬標︓アラインメントに基づく類似度っていいなぁ… という気持ちになってもらう 本題に⼊る前に…

Slide 5

Slide 5 text

5分で気持ちだけわかる最適輸送

Slide 6

Slide 6 text

今⽇のトピック︓最適輸送 6 • ⼯場で作った特産品を市内のデパートに届けたい. もっとも効率的な届け⽅は︖ ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 突然ですが

Slide 7

Slide 7 text

今⽇のトピック︓最適輸送 7 • ⼯場で作った特産品を市内のデパートに届けたい. もっとも効率的な届け⽅は︖ ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 遠い拠点間で輸送するのは 効率が悪そう 🤔 🤔

Slide 8

Slide 8 text

今⽇のトピック︓最適輸送 8 • ⼯場で作った特産品を市内のデパートに届けたい. もっとも効率的な届け⽅は︖ ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 近い (= コストのかからない) 拠点間で輸送したい 😄 😄

Slide 9

Slide 9 text

今⽇のトピック︓最適輸送 9 • ⼯場で作った特産品を市内のデパートに届けたい. もっとも効率的な届け⽅は︖ • 最適輸送= 最良の輸送計画 と総輸送コストを求める道具 ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄

Slide 10

Slide 10 text

またまた突然ですが テキストの類似度測定 ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 10 • ふたつのテキストの類似度の測定 − NLP で極めて頻繁に必要とされるサブルーチン − 類似性の評価︓⽣成⽂ ↔ リファレンス⽂ – テキスト⽣成モデルの損失関数,⾃動評価尺度 − 関連テキスト検索︓⽂ ↔ ⽂,⽂書 ↔ ⽂書,クエリ ↔ ⽂書 – 近傍の事例を活⽤した⾔語⽣成,類似事例に基づくモデル解釈,etc. • 基本指針︓要素単語の重なりの度合いを柔らかく測る 📄 Sultan+, DLS$@$CU: Sentence Similarity from Word Alignment and Semantic Vector Composition (SemEval 2015) 昨⽇の岡崎さんのお話

Slide 11

Slide 11 text

Word Moverʼs Distance [Kusner+ʼ15] ⽂類似度 ↔ 最適輸送コスト 11 • アイデア︓単語ベクトル空間を地図だと思ってみる − ⽂1︓単語埋込空間の⼯場の位置 − ⽂2︓単語埋込空間のデパートの位置 • 意味の近さの問題が輸送コストの⼤きさの問題に置き換わる − ⽂1, ⽂2: テキストの意味が似ている ↔ 低コストで輸送しきれる − ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 📄 Kusner+, From Word Embeddings To Document Distances (ICML 2015) 意味が近い単語同⼠ (⼯場とデパート) は 輸送コストが低い

Slide 12

Slide 12 text

Word Moverʼs Distance [Kusner+ʼ15] ⽂類似度 ↔ 最適輸送コスト 12 • アイデア︓単語ベクトル空間を地図だと思ってみる − ⽂1︓単語埋込空間の⼯場の位置 − ⽂2︓単語埋込空間のデパートの位置 • 意味の近さの問題が輸送コストの⼤きさの問題に置き換わる − ⽂1, ⽂2: テキストの意味が似ている ↔ 低コストで輸送しきれる − ⽂1, ⽂3: テキストの意味が似ていない ↔ ⾼い輸送コストがかかる ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 📄 Kusner+, From Word Embeddings To Document Distances (ICML 2015) Natural language processing is awesome document 3 ‘natural’ ‘awesome’ ‘processing’ ‘language’ 意味が近い単語同⼠ (⼯場とデパート) は 輸送コストが低い

Slide 13

Slide 13 text

アラインメントに基づく類似度

Slide 14

Slide 14 text

「アラインメントに基づく類似性」という 最適輸送の考え⽅は⾃然⾔語処理と相性がよい 14 • 最適輸送は⾃然⾔語処理とすごく相性が良い − “近さ” “遠さ” を考えられる空間 で − 荷物全体 (点群) を移し換えるコスト を − アラインメントを介して 計算する道具 ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄

Slide 15

Slide 15 text

「アラインメントに基づく類似性」という 最適輸送の考え⽅は⾃然⾔語処理と相性がよい 15 • 最適輸送は⾃然⾔語処理とすごく相性が良い − “近さ” “遠さ” を考えられる空間 で − 荷物全体 (点群) を移し換えるコスト を − アラインメントを介して 計算する道具 ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 埋込ベース,ニューラルネットベースの各種⼿法 (=対象が⾃然に距離空間に⼊っている状態) との相性が良い ⾼い解釈性︔ 輸送コスト (最適値) だけではなく輸送プラン (最適解) がわかる ⾃然⾔語処理でしばしば要請される 例︓⽂と⽂の関係を単語と単語の関係に帰着させたい 対象間の類似度や距離の計算は ⾃然⾔語処理で頻出 ⾔語的対象は (たいてい) 何かの集まり ⽂=単語列,⽂書=⽂の列,コーパス=⽂集合,…

Slide 16

Slide 16 text

「アラインメントに基づく類似性」という 最適輸送の考え⽅は⾃然⾔語処理と相性がよい 16 • 最適輸送は⾃然⾔語処理とすごく相性が良い − “近さ” “遠さ” を考えられる空間 で − 荷物全体 (点群) を移し換えるコスト を − アラインメントを介して 計算する道具 ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 埋込ベース,ニューラルネットベースの各種⼿法 (=対象が⾃然に距離空間に⼊っている状態) との相性が良い ⾼い解釈性︔ 輸送コスト (最適値) だけではなく輸送プラン (最適解) がわかる ⾃然⾔語処理でしばしば要請される 例︓⽂と⽂の関係を単語と単語の関係に帰着させたい 対象間の類似度や距離の計算は ⾃然⾔語処理で頻出 ⾔語的対象は (たいてい) 何かの集まり ⽂=単語列,⽂書=⽂の列,コーパス=⽂集合,…

Slide 17

Slide 17 text

全体の類似性 = 部分のアラインメントの良さ ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 17 📄 Sultan+, DLS$@$CU: Sentence Similarity from Word Alignment and Semantic Vector Composition (SemEval 2015) 📄 渡辺+, 機械翻訳 (コロナ社 2014) 📄 Schraagen&Hoogeboom, Predicting record linkage potential in a family reconstruction graph (BNAIC 2015) ⽂類似度 統計的機械翻訳 編集距離

Slide 18

Slide 18 text

全体の類似性 = 部分のアラインメントの良さ by 最適輸送 ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 19 • 単語・句が似ている = ⽂字をよくアラインメントできる [Sultun+ʼ15] • ⽂・⽂書が似ている = 単語をよくアラインメントできる [Kusner+ʼ15][Huang+ʼ16][Zhao+ʼ19][Yokoi+ʼ20][Chen+ʼ20][Wang+ʼ20]… • コーパス・⽣成モデルが似ている = ⽂をよくアラインメント できる [Chen+ʼ18][Semeniuta+ʼ18][Alvarez-Melis&Fusiʼ20]… 📄 Sultan+, DLS$@$CU: Sentence Similarity from Word Alignment and Semantic Vector Composition (SemEval 2015) 📄 Kusner+, From Word Embeddings To Document Distances (ICML 2015) 📄 Huang+, Supervised Word Mover’s Distance (NIPS 2016) 📄 Zhao+, MoverScore: Text Generation Evaluating with Contextualized Embeddings and Earth Mover Distance (EMNLP 2019) 📄 Yokoi+, Word Rotator's Distance (EMNLP 2020) 📄 Chen+, Evaluating Natural Language Generation via Unbalanced Optimal Transport (IJCAI 2020) 📄 Wang+, Robust Document Distance with Wasserstein-Fisher-Rao metric (ACML 2020) 📄 Chen+, Adversarial Text Generation via Feature-Mover’s Distance (NIPS 2018) 📄 Semeniuta+, On Accurate Evaluation of GANs for Language Generation (arXiv 2018) 📄 Alvarez-Melis&Fusi, Geometric Dataset Distances via Optimal Transport (NeurIPS 2020)

Slide 19

Slide 19 text

全体の類似性 = 部分のアラインメントの良さ by 最適輸送 ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 20 まだまだ…︕ • 単語が似ている = 意味素をよくアラインメントできる [Frogner+ʼ19] • 単語が似ている = 共起単語をよくアラインメントできる [Singh+ʼ20] • ⽂・⽂書が似ている = トピックをよくアラインメントできる [Wanʼ07] • ⾔語が似ている = 単語をよくアラインメントできる [Zhang+ʼ17][Alvarez-Melis&Jaakkolaʼ18][Grave+ʼ19][Alvarez-Melis+ʼ19]… 📄 Frogner+, Learning Embeddings into Entropic Wasserstein Spaces (ICLR 2019) 📄 Singh+, Context Mover’s Distance & Barycenters: Optimal Transport of Contexts for Building Representations (AISTATS 2020) 📄 Wan, A novel document similarity measure based on earth mover's distance (Information Sciences 2007) 📄 Zhang+, Earth Mover’s Distance Minimization for Unsupervised Bilingual Lexicon Induction (EMNLP 2017) 📄 Alvarez-Melis&Jaakkola, Gromov-Wasserstein Alignment of Word Embedding Spaces (EMNLP 2018) 📄 Grave+, Unsupervised Alignment of Embeddings with Wasserstein Procrustes (AISTATS 2019) 📄 Alvarez-Melis+, Towards Optimal Transport with Global Invariances (AISTATS 2019) おそらく 最適輸送 for ⾃然⾔語処理 の初出

Slide 20

Slide 20 text

ここまでのまとめ ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 21 • 最適輸送 − 荷物を最良のコストで移し替える計画と総コストを求める⼿法 − 「全体として類似 = 部分がよくアラインメントできる」という考え⽅ に基づく⼿法と捉えることができる • ⾃然⾔語処理 − 単語=⽂字列,コーパス=⽂集合のような再帰的な構造を持つ − 「全体として類似 = 部分がよくアラインメントできる」という考え⽅ がしばしば⽤いられる • 最適輸送 for ⾃然⾔語処理 − 相性よし︕

Slide 21

Slide 21 text

ここまでのまとめ ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 22 • 最適輸送 − 荷物を最良のコストで移し替える計画と総コストを求める⼿法 − 「全体として類似 = 部分がよくアラインメントできる」という考え⽅ に基づく⼿法と捉えることができる • ⾃然⾔語処理 − 単語=⽂字列,コーパス=⽂集合のような再帰的な構造を持つ − 「全体として類似 = 部分がよくアラインメントできる」という考え⽅ がしばしば⽤いられる • 最適輸送 for ⾃然⾔語処理 − 相性よし︕

Slide 22

Slide 22 text

構造を考慮した類似度 ⼆種類の「アラインメントに基づく類似性」 本題

Slide 23

Slide 23 text

構造を考えたい ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 24 • 最適輸送 for ⾃然⾔語処理 の基本的な考え⽅ − テキスト表現の類似度 = より⼩さな単位の連続表現の集合の類似度 − ⽂の類似度 = 単語ベクトル集合の類似度 バラバラにして ベクトル化

Slide 24

Slide 24 text

構造を考えたい ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 25 • 最適輸送 for ⾃然⾔語処理 の基本的な考え⽅ − テキスト表現の類似度 = より⼩さな単位の連続表現の集合の類似度 − ⽂の類似度 = 単語ベクトル集合の類似度 − Q. Bag-of-vectors 表現で⼗分︖ • テキスト表現には構造が⼊っているように思われる − 語順,句構造,依存構造 − “Mary kills John.” ≠ “John kills Mary.” バラバラにして ベクトル化

Slide 25

Slide 25 text

構造を考えるってどういうこと︖ ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 26 • 最適輸送 for ⾃然⾔語処理 の魅⼒ − 全体としての類似性を「部分のアラインメントの良さ」で判定する • 今⽇考えたいこと − 構造に基づく類似度 – 語順,n-gram,構⽂⽊,…に基づいて全体の類似度を計算したい

Slide 26

Slide 26 text

構造を考えるってどういうこと︖ ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 27 • 最適輸送 for ⾃然⾔語処理 の魅⼒ − 全体としての類似性を「部分のアラインメントの良さ」で判定する • 今⽇考えたいこと − 構造に基づく類似度 – 語順,n-gram,構⽂⽊,…に基づいて全体の類似度を計算したい − よく考えるとこの話も「部分のアラインメントの良さ」に帰着される

Slide 27

Slide 27 text

⼆種類の「アラインメントの良さ」 ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 28 • 最適輸送の「アラインメントの良さ」 ✔ ✗

Slide 28

Slide 28 text

⼆種類の「アラインメントの良さ」 ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 29 • 最適輸送の「アラインメントの良さ」 • 構造の意味での「アラインメントの良さ」 ✔ ✗ これら2つの⽊は同じ形,同じ構造 …なぜそう判断できる︖

Slide 29

Slide 29 text

⼆種類の「アラインメントの良さ」 ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 30 • 最適輸送の「アラインメントの良さ」 • 構造の意味での「アラインメントの良さ」 ✔ ✗ ✔ これらふたつの⽊は「重なる」 (=ノード同⼠に対応関係を⾒出せる) ……ので構造が同じ

Slide 30

Slide 30 text

⼆種類の「アラインメントの良さ」 ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 31 • 最適輸送の「アラインメントの良さ」 • 構造の意味での「アラインメントの良さ」 ✔ ✗ ✔ 最適輸送の気持ちで考えると ダメなアラインメント Q. これら⼆種類の「アラインメントの良さ」は どういう違いから来るのか

Slide 31

Slide 31 text

• ⼀般の最適輸送︓外部との関係性 (輸送コスト) に注⽬ アラインメントの良さを検討しているときに 注⽬している関係性の違い ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 32 loves Mary John likes She him 意味が似ているので アラインメントしやすい

Slide 32

Slide 32 text

• ⼀般の最適輸送︓外部との関係性 (輸送コスト) に注⽬ • 今⽇考えたいこと︓内部の関係性 (構造) に注⽬ アラインメントの良さを検討しているときに 注⽬している関係性の違い ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 33 loves Mary John likes She him 内部の構造が 保存されるので 良いアラインメント 意味が⼤きく異なる 単語同⼠でも気にしない 意味が似ているので アラインメントしやすい

Slide 33

Slide 33 text

• ⼀般の最適輸送︓外部との関係性 (輸送コスト) に注⽬ • 今⽇考えたいこと︓内部の関係性 (構造) に注⽬ アラインメントの良さを検討しているときに 注⽬している関係性の違い ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 34 loves Mary John likes She him 内部の構造が 保存されるので 良いアラインメント 意味が似ているので アラインメントしやすい 意味が⼤きく異なる 単語同⼠でも気にしない

Slide 34

Slide 34 text

• 最適輸送 − 構成パーツ(荷物)の効率的な輸送計画を考える − 全体として類似 = 部分同⼠に良いアラインメントを張れる • 今⽇のテーマ︓構造を考慮した類似度 − 構造の類似性もアラインメントの良さに帰着できる − 全体として類似 = 内部構造を保存するようなアラインメントを張れる • このあと︓内部構造を保存する最適輸送の3つのアプローチ 1. 構造の類似度を最適輸送の⾔葉で定式化する 2. 輸送計画に選好を加える 3. コスト関数を動的に変化させる 構造を持った⾔語データと最適輸送 ̶ ⽬次 ⼆種類の「アラインメントに基づく類似度」 35 ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ loves Mary John likes She him

Slide 35

Slide 35 text

最適輸送+構造 の3つのアプローチ

Slide 36

Slide 36 text

最適輸送+構造 のアプローチ1 構造の類似度を最適輸送の⾔葉で定式化 グロモフ=ワッサースタイン

Slide 37

Slide 37 text

• 全体の類似性 = 形の類似性 という考えかた (例︓合同) • 素直に最適輸送を使うと…… 全体の類似性 = 形の類似性 という考え⽅ ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 40 🤔 輸送コスト︓⼩ 🤔 輸送コスト︓⼤

Slide 38

Slide 38 text

• なぜこれらの点群が「似ている」と思っているのか • 全体の形状を保存する良いアラインメントが存在する 全体の類似性 = 形の類似性 ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 41 b a a’ b’ c’ c

Slide 39

Slide 39 text

• なぜこれらの点群が「似ている」と思っているのか • 全体の形状を保存する良いアラインメントが存在する − 近い点対は近い点対に対応 … d(a,b) ≈ d(aʼ,bʼ) − 遠い点対は遠い点対に対応 … d(a,c) ≈ d(aʼ,cʼ) − ※合同 = 等⻑変換 (合同変換) が存在 全体の類似性 = 形の類似性 ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 42 b a a’ b’ c’ c アイデア

Slide 40

Slide 40 text

グロモフ=ワッサースタイン距離 [Mémoliʼ11] 内部構造に着⽬した最適輸送コスト 43 • グロモフ=ワッサースタイン距離 − ⼊⼒ – 荷物の量分布 × 2 (⼯場, デパート)︓𝒂 ∈ ℝ! ", 𝒃 ∈ ℝ! # – コスト⾏列 × 2 (⼯場同⼠,デパート同⼠の位置関係)︓𝑫 ∈ ℝ! "×", 𝑫′ ∈ ℝ! #×# − 最適化 ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ cf. 最適輸送で使うのは ⼯場とデパートの距離 📄 Peyré&Cuturi, Computahonal Ophmal Transport, Figure 10.8 近い点ペアは 移動後も近い 遠い点ペアは 移動後も遠い 良いアラインメント を探す 📄 Mémoli, Gromov–Wasserstein Distances and the Metric Approach to Object Matching (Found. Comput. Math. 2011)

Slide 41

Slide 41 text

ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ 44 • 異なる空間に置かれた点群のマッチングができる 📄 Solomon+, Entropic Metric Alignment for Correspondence Problems (SIGGRAPH 2016) グロモフ=ワッサースタイン距離 [Mémoliʼ11] 内部構造に着⽬した最適輸送コスト 📄 Mémoli, Gromov–Wasserstein Distances and the Metric Approach to Object Matching (Found. Comput. Math. 2011)

Slide 42

Slide 42 text

ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ 45 • 異なる空間に置かれた点群のマッチングができる 📄 Solomon+, Entropic Metric Alignment for Correspondence Problems (SIGGRAPH 2016) グロモフ=ワッサースタイン距離 [Mémoliʼ11] 内部構造に着⽬した最適輸送コスト 📄 Mémoli, Gromov–Wasserstein Distances and the Metric Approach to Object Matching (Found. Comput. Math. 2011) グラフ,物体表⾯ それぞれで内部の点間距離 が定まっていれば良い グラフノードと物体表⾯の点 の距離(とは…)は 定まっていなくても良い ?

Slide 43

Slide 43 text

グロモフ=ワッサースタイン距離 for ⾃然⾔語処理 [Alvarez-Melis&Jaakkolaʼ18] 46 • 問題︓教師なし辞書構築 − “猫” ↔ “cat” − “科学” ↔ “science” ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ 📄 Alvarez-Melis&Jaakkola, Gromov-Wasserstein Alignment of Word Embedding Spaces (EMNLP 2018) 📄 Haghighi+, Learning Bilingual Lexicons from Monolingual Corpora (ACL 2008)

Slide 44

Slide 44 text

グロモフ=ワッサースタイン距離 for ⾃然⾔語処理 [Alvarez-Melis&Jaakkolaʼ18] 47 • 異なる⾔語の埋込集合は,回転 (直交変換) でよく重なり合 うことが知られている [Xing+ʼ15] − d(vcat , vdog ) ≈ d(v猫 , v⽝ ), d(vcat , vscience ) ≈ d(v猫 , v科学 ) − 位置関係を保存するようにアラインメント… アレの出番では… ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ 📄 Alvarez-Melis&Jaakkola, Gromov-Wasserstein Alignment of Word Embedding Spaces (EMNLP 2018) 📄 Xing+, Normalized Word Embedding and Orthogonal Transform for Bilingual Word Translahon (NAACL 2015) 𝒗(cat) 𝒗(dog) 𝒗(science) 𝒗(technology) 𝒗(猫) 𝒗(⽝) 𝒗(科学) 𝒗(技術) 𝒗(cat) 図 by ⾚間さん (東北⼤)

Slide 45

Slide 45 text

グロモフ=ワッサースタイン for ⾃然⾔語処理 [Alvarez-Melis&Jaakkolaʼ18] 48 • アイデア︓2つの⾔語 (単語ベクトル集合) を グロモフ=ワッサースタイン距離でマッチング • → 結構できてしまう ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ 📄 Alvarez-Melis&Jaakkola, Gromov-Wasserstein Alignment of Word Embedding Spaces (EMNLP 2018)

Slide 46

Slide 46 text

最適輸送+構造 のアプローチ1ʼ 構造の類似度を最適輸送の⾔葉で定式化 ワッサースタイン + グロモフ=ワッサースタイン

Slide 47

Slide 47 text

意味の類似度と構造の類似度の 両⽅を考えたい ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 50 • ワッサースタインとグロモフ=ワッサースタインは異なる 「類似度」を捉えられる • 両⽅同時に考慮したい 分布意味論で 捉えられるような 構成要素の類似度 “意味” の類似度 内部構造の類似度 “構⽂” の類似度

Slide 48

Slide 48 text

意味の類似度と構造の類似度の 両⽅を考えたい ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 51 • ワッサースタインとグロモフ=ワッサースタインは異なる 「類似度」を捉えられる • 両⽅同時に考慮したい ワッサースタインが好む アラインメント グロモフ=ワッサースタインが好む アラインメント 輸送コスト (●↔●) の 総和をできるだけ⼩さく 51 内部構造 (●↔●,●↔●) をできるだけ保存 たとえば “Mary kills John” と “John kills Mary” を 埋込空間に置くと述語項構造⽊が裏返しで重なる

Slide 49

Slide 49 text

Fused Gromov–Wasserstein 距離 [Vayer+ʼ19] ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ 52 • Fused Gromov–Wasserstein 距離 [Vayer+ʼ19] − ワッサースタインとグロモフ=ワッサースタインを半々で使う − FGW(a,b) := (1-α) W(a,b) + α GW(a,b) 📄 Vayer+, Fused Gromov-Wasserstein Distancefor Structured Objects (Algorithm 2020) 配置変更のコストを最⼩限にとどめてほしい 元の各分布が持っている内部構造 も輸送前後で維持されてほしい Wのみを⽤いる場合︓ 同じ⾊の (近い) ノード同⼠が アラインメントされる GWのみを⽤いる場合︓ ⽊構造が維持される 📄 Vayer+, Fused Gromov-Wasserstein Distancefor Structured Objects (Algorithm 2020)

Slide 50

Slide 50 text

Fused GW for ⽂類似度 [⼭際+ʼ22] ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 53 • Q. ⽂類似度の問題に構⽂情報は効く︖ • モデル − W(別⽂に含まれる単語間の類似度)︓BERT の埋込間の距離 − GW(同⼀⽂内の単語間の関係の強さ)︓BERT のアテンション重み • タスク︓PAWS (語順 sensitive な⽂類似度タスク) [Zhang+ʼ19] • 評価 (AUC) 📄 Zhang+, PAWS: Paraphrase Adversaries from Word Scrambling (NAACL 2019) 📄 Clark+, What Does BERT Look at? An Analysis of BERT’s Amenhon (BlackboxNLP 2019) 📄 (presentahon) ⼭際, 横井, 下平. Self-Amenhon ⾏列を⽤いた最適輸送距離に基づく⾔い換え識別 (統計関連学会連合⼤会 2022) Wasserstein 0.64 Gromov–Wasserstein 0.62 Fused GW (W + GW) 0.72 アテンション重みからそこそこ 構⽂情報を復元できる [Clark+ʼ19]

Slide 51

Slide 51 text

最適輸送+構造 のアプローチ2 輸送計画に選好を加える

Slide 52

Slide 52 text

今⽇のトピック︓最適輸送(再) 55 • ⼯場で作った特産品を市内のデパートに届けたい. もっとも効率的な届け⽅は︖ • 最適輸送= 最良の輸送計画 と総輸送コストを求める道具 ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄

Slide 53

Slide 53 text

今⽇のトピック︓最適輸送(再) 56 • ⼯場で作った特産品を市内のデパートに届けたい. もっとも効率的な届け⽅は︖ • 最適輸送= 最良の輸送計画 と総輸送コストを求める道具 ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 拠点間で運ぶ荷物の量が⼊った ⾏列 が返る 0.2 0.5 0.05 0 0 0 0.05 0.2

Slide 54

Slide 54 text

内部構造を考慮するための別の戦略︓ 輸送計画に選好を加える 57 • 最適輸送= 最良の輸送計画 と総輸送コストを求める道具 ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 拠点間で運ぶ荷物の量が⼊った ⾏列 が返る 0.2 0.5 0.05 0 0 0 0.05 0.2 ワッサースタイン距離 輸送コスト ( ↔ ) の合計 を最⼩化する輸送計画を⽴てる ワッサーシュタイン距離+α 輸送計画 を⽴てる際に 内部の構造 ( ↔ , ↔ ) も考慮したい

Slide 55

Slide 55 text

58 • 語順の問題 − ⽂の類似度を考えるときには語順(⽂内の構造)も⼤事 − Word Moverʼs Distance は主語と⽬的語がひっくり返っていても コストゼロで (別⽂に含まれる単語同⼠の類似度のみを考慮して) マッチングできてしまう ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ 📄 Liu+, Matching Natural Language Sentences with Hierarchical Sentence Factorizahon (WWW 2018) 輸送計画に選好を加える 語順が維持されるように正則化 [Su&Huaʼ17][Liu+ʼ18] 📄 Su&Hua, Order-preserving Optimal Transport for Distances between Sequences (CVPR 2017) 📄 Liu+, Matching Natural Language Sentences with Hierarchical Sentence Factorization (WWW 2018)

Slide 56

Slide 56 text

ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ 59 • 輸送計画 𝑇 はできるだけ “対⾓” 成分ばかり使ってほしい (= 輸送元と輸送先で語順変わらないようにしてほしい) [Su&Huaʼ17] 対⾓成分ばかり使ってほしい その1 「⽂内部の相対位置がだいたい同じ 単語をマッチングしてほしい」 対⾓成分ばかり使ってほしい その2 「輸送⾏列はこの分布に近づいてほしい」 輸送計画に選好を加える 語順が維持されるように正則化 [Su&Huaʼ17][Liu+ʼ18] 📄 Su&Hua, Order-preserving Ophmal Transport for Distances between Sequences (CVPR 2017) 📄 Liu+, Matching Natural Language Sentences with Hierarchical Sentence Factorizahon (WWW 2018)

Slide 57

Slide 57 text

輸送計画に選好を加える 語順が維持されるように正則化 [Su&Huaʼ17][Liu+ʼ18] ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ 60 • この⽬的関数を作ったコンピュータ ヴィジョンでの利⽤ [Su&Huaʼ17] − 構成パーツと書き順の両⽅を考慮した 漢字の類似性 • ⾃然⾔語処理での利⽤ [Liu+ʼ18] − 構成単語と語順を考慮した⽂類似度 📄 Su&Hua, Order-preserving Optimal Transport for Distances between Sequences (CVPR 2017) 📄 Liu+, Matching Natural Language Sentences with Hierarchical Sentence Factorization (WWW 2018) 📄 Su&Hua, Order-preserving Optimal Transport for Distances between Sequences (CVPR 2017) 📄 Liu+, Matching Natural Language Sentences with Hierarchical Sentence Factorizahon (WWW 2018)

Slide 58

Slide 58 text

語順の意味で好ましいアラインメント は対⾓︖ ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ 61 • [Liu+ʼ18]︓意味的に類似した⽂同⼠は “対⾓” にアライメントが⽣じる • 本当か︖ 📄 Liu+, Matching Natural Language Sentences with Hierarchical Sentence Factorization (WWW 2018) 「if ⽂1, ⽂2」≈「⽂2 if ⽂1」 「君に本をあげるよ」≈「本を君にあげるよ」 ︖

Slide 59

Slide 59 text

別のアプローチ 輸送⾏列の良さをNNに判定させる [Tam+ʼ19] ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 65 • 問題︓2メンションは同⼀エンティティを指しているか • 難しさ − Chun How , Chun Hao → ⽂字列としては似ているが別エンティティ − Grace Hopper , Hopper, Grace → 編集距離は⼤きいが同⼀エンティティ • アイデア − 単語・句 = ⽂字の集まり 1. ⽂脈つき⽂字埋込の集合を最適輸送 2. “良いアラインメント” が取れたか どうかを CNN で判定 📄 Tam+, Optimal Transport-based Alignment of Learned Character Representations for String Similarity (ACL 2019)

Slide 60

Slide 60 text

最適輸送+構造 のアプローチ3 コスト関数を動的に変化させる

Slide 61

Slide 61 text

今⽇のトピック︓最適輸送(再) 67 • ⼯場で作った特産品を市内のデパートに届けたい. もっとも効率的な届け⽅は︖ ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄

Slide 62

Slide 62 text

今⽇のトピック︓最適輸送(再) 68 • ⼯場で作った特産品を市内のデパートに届けたい. もっとも効率的な届け⽅は︖ ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 8 10 10 20 10 8 15 20 拠点間の 輸送コスト は事前に定まっている 8 10 10 10 20 20 10 8 荷物を単位量運ぶときにどれくらい コストがかかるか ※ 総コストを最⼩化するのが輸送計画を 考えるのが最適輸送問題

Slide 63

Slide 63 text

69 • ⼯場で作った特産品を市内のデパートに届けたい. もっとも効率的な届け⽅は︖ ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 8 10 10 20 10 8 15 20 拠点間の 輸送コスト は事前に定まっている 8 10 10 10 20 20 10 8 ワッサースタイン距離 輸送コスト ( ↔ ) の合計 を最⼩化する輸送計画を⽴てる ワッサーシュタイン距離+α 内部の構造 ( ↔ , ↔ ) が⾃然に考慮されるように 輸送コスト を 動的に変化させられないか︖ 内部構造を考慮するためのさらに別の戦略︓ 輸送コストを動的に変化させる

Slide 64

Slide 64 text

輸送コストを動的に変更する n-gram の維持を好むコスト関数 [Alvarez-Melis+ʼ18] 70 • 句構造の問題 − スパンは輸送先でもスパンであってほしい − cf. 通常の最適輸送は 全体として構成単語集合が対応付けばよしと考える ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ …… ⼈⽣ の 意味 …… …… meaning of life …… 📄 Alvarez-Melis+, Structured Ophmal Transport (AISTATS 2018)

Slide 65

Slide 65 text

輸送コストを動的に変更する n-gram の維持を好むコスト関数 [Alvarez-Melis+ʼ18] 71 • アイデア︓劣モジュラ性,効⽤逓減性 − 効⽤({🍔}) – 効⽤({}) > 効⽤({🍔,🍔,🍔,🍔}) - 効⽤({🍔,🍔,🍔}) ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ 📄 Alvarez-Melis+, Structured Optimal Transport (AISTATS 2018) 🍔 をひとつもらえる嬉しさ

Slide 66

Slide 66 text

輸送コストを動的に変更する n-gram の維持を好むコスト関数 [Alvarez-Melis+ʼ18] 72 • アイデア︓劣モジュラ性,効⽤逓減性 − 効⽤({🍔}) – 効⽤({}) > 効⽤({🍔,🍔,🍔,🍔}) - 効⽤({🍔,🍔,🍔}) − コスト({(■,★)}) – コスト({}) > コスト({(■,★),(■,★)}) – コスト({(■,★)}) ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ 📄 Alvarez-Melis+, Structured Ophmal Transport (AISTATS 2018) 以前にアラインメントした組み合わせ (■,★) と同じ組み合わせ (■,★) (= スパンが輸送元と輸送先で維持 されるようなアラインメント) を追加する場合は輸送コストを⼩さくする

Slide 67

Slide 67 text

輸送コストを動的に変更する n-gram の維持を好むコスト関数 [Alvarez-Melis+ʼ18] 73 • アイデア︓劣モジュラ性,効⽤逓減性 − 効⽤({🍔}) – 効⽤({}) > 効⽤({🍔,🍔,🍔,🍔}) - 効⽤({🍔,🍔,🍔}) − コスト({(■,★)}) – コスト({}) > コスト({(■,★),(■,★)}) – コスト({(■,★)}) − このあと⾊々⼯夫がありますがここでは略 – 離散のアイデア (劣モジュラ性) を最適輸送のソフトなアライメントに適⽤ できるよう連続緩和 (ロヴァース拡張) – 劣勾配の計算と射影の計算の反復解法 ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ 📄 Alvarez-Melis+, Structured Optimal Transport (AISTATS 2018) 以前にアラインメントした組み合わせ (■,★) と同じ組み合わせ (■,★) (= スパンが輸送元と輸送先で維持 されるようなアラインメント) を追加する場合は輸送コストを⼩さくする

Slide 68

Slide 68 text

コスト関数を動的に変更する n-gram の維持を好むコスト関数 [Alvarez-Melis+ʼ18] 74 • 結果 − 事前に指定したグループの情報が保存されるような輸送計画が求まる − [NLP] n-gram を (重複を許す) グループだと思って提案法を適⽤ → ⽂類似度評価の性能が向上 ݴޠॲཧֶձ ୈճ೥࣍େձ νϡʔτϦΞϧࢿྉ ೥݄ 📄 Alvarez-Melis+, Structured Ophmal Transport (AISTATS 2018) 通常の最適輸送 提案法

Slide 69

Slide 69 text

別のアプローチ スパンのマッチの良さは別途計算 [Chwo+ʼ19] ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 75 • 問題︓⽂類似度 • アイデア︓ 最適輸送コスト × fragment penalty (METEOR) = ⾮類似度 − アラインメントに必要なチャンクがどの程度たくさん必要か…… に応じてペナルティ 📄 Chow+, WMDo: Fluency-based Word Mover’s Distance for Machine Translation Evaluation (WS 2019) 2チャンク必要な例 4チャンク必要な例

Slide 70

Slide 70 text

まとめ

Slide 71

Slide 71 text

• 最適輸送 − 構成パーツ(荷物)の効率的な輸送計画を考える − 全体として類似 = 部分同⼠に良いアラインメントを張れる • 今⽇のテーマ︓構造を考慮した類似度 − 構造の類似性もアラインメントの良さに帰着できる − 全体として類似 = 内部構造を保存するようなアラインメントを張れる • 最適輸送+構造の3つのアプローチ 1. 構造の類似度を最適輸送の⾔葉で定式化する (グロモフ=ワッサー スタイン,Fused GW) 2. 輸送計画に選好を加える(対⾓な輸送⾏列を好む正則化) 3. コスト関数を動的に変化させる (劣モジュラ最適輸送) 構造を持った⾔語データと最適輸送 ̶ まとめ ⼆種類の「アラインメントに基づく類似度」 77 ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ loves Mary John likes She him

Slide 72

Slide 72 text

⽂献案内 78 • 教科書・スライド − 機械学習・最適化視点 – 📚 Peyré&Cuturi, Computational Optimal Transport (2019) • arXiv • サポートページ – Gabriel Peyré のスライド群 • Gabriel Peyré は Twitter アカウントもとてもおすすめ – 📚 佐藤,最適輸送の理論とアルゴリズム (2022, 予定) – 佐藤,最適輸送⼊⾨ (IBIS 2021 チュートリアル) − ⾃然⾔語処理視点 – 横井,最適輸送と⾃然⾔語処理 (NLP 2022 チュートリアル) ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 📄 Peyré&Cuturi, Computational Optimal Transport (Foundations and Trends in Machine Learning 2019) 📄 ࠤ౻ ࠷ద༌ૹͷཧ࿦ͱΞϧΰϦζϜ (ߨஊࣾ 2022) 今⽇触れなかった話もたくさん⼊れてあります 他の多くの NLP 活⽤事例,微分可能最適輸送,不均衡最適輸送,…

Slide 73

Slide 73 text

⽂献案内 79 • ライブラリ (ソルバ) − Python Optimal Transport (POT) (2020) GitHub − Optimal Transport Tools (OTT) with JAX (2022) GitHub • Notebook によるハンズオン − Python Optimal Transport (POT) > Examples gallery − Gabriel Peyré > Numerical Tours > Pythonʼs Tours > Optimal Transport ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 📄 Flamary+, POT: Python Ophmal Transport (JMLR 2021) 📄 Cuturi+, Ophmal Transport Tools (OTT): A JAX Toolbox for all things Wasserstein (arXiv 2022)

Slide 74

Slide 74 text

補遺︓部分のマッチでも構造のマッチでも 捉えられない “意味” ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 80 • ⽂類似度を例に • ⾮構成的な句 − “hot dog” は “hot” な “dog” ではない • ⽂脈 − パワハラ上司が部下に向かって「暑い…」= エアコンの温度を下げろ − 核戦争から1000年経ち地下世界からはじめて地上に出て太陽を浴び た⼈の「暑い…」 • etc. ︖

Slide 75

Slide 75 text

補遺︓いつ分解する必要があるのか ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 81 • 分解してから類似性を考えるアプローチを考えた − 最適輸送,注意機構, 集合類似度,… • 分解しなくて良い場合もある − 少なくとも⻑⽂ (⽂書) に対しては OT ≈ BoW [Sato+ʼ22] − 短⽂ (⽂) であってもトピックレベルの類似性が必要な場合 (SICK-R) は OT < 加法構成 [Yokoi+ʼ20] • Q. いつどのような条件で「⼩さな単位のベクトル群」が 「⼤きなベクトルひとつ (e.g. ⽂ベクトル)」を優越するのか − 要素数 (単語数),求められている意味的類似度の種類の違い,埋込の表 現⼒,学習・利⽤の容易さ,… ︖ 📄 Sato+, Re-evaluahng Word Mover's Distance (ICML 2022) 📄 Yokoi+, Word Rotator's Distance (EMNLP 2020)

Slide 76

Slide 76 text

補遺︓いつ構造を考える必要があるのか ԣҪ ߏ଄Λ࣋ͬͨݴޠσʔλͱ࠷ద༌ૹ /"*45%4$/-14FNJOBS4VNNFS ೥݄ 82 • ⽂脈付きの埋込 (BERTs, ⾔語モデル, etc.) は構⽂情報を保 持していると考えられている [多数] • Q. 構造情報を考えるべき状況はいつか − 分布意味論や⾔語モデルで捉えられない “意味” は何か − 各パーツ (e.g. 単語) の構⽂的役割を考慮するでは⾜りず,パーツ群 (e.g. 句) からなる内部構造が必要となるのは,いかなる種類の意味計 算が求められているときか • Q. 埋込に⼊った構造情報をいかに利⽤できるか − 複数のコスト⾏列を⽤意する︖ – 分布意味論的な意味の類似性,構⽂上の役割の類似性を別々に計算する︖ − 関連︓埋込に対していかなる種類の距離・計量を与える︖ ︖