Slide 1

Slide 1 text

ChatGPTと⾃然⾔語処理 + ⾔語の意味の計算と最適輸送 横井 祥(東北⼤学) 2023-03-17, Workshop OT 2023 ChatGPT を題材に ⾃然⾔語処理の気持ちを共有

Slide 2

Slide 2 text

⾃⼰紹介 • 横井 祥 − ⾃然⾔語処理(NLP)という分野にいます − http://www.cl.ecei.tohoku.ac.jp/~yokoi/ 🕒 経歴 − B︓京都⼤学 ⼯学部 情報学科(⿅島 久嗣 先⽣) 機械学習 − M, D, 現︓東北⼤学 情報科学研究科(乾 健太郎 先⽣) ⾃然⾔語処理 − 現︓理化学研究所 AIPセンター(下平 英寿 先⽣) 埋込表現 📝 研究の興味 − ⾔語の “意味” が 埋込空間の “形状” にどのように反映されるのか – ⻑さ [EMNLPʼ20, ICLRʼ21, arXivʼ22], – 混ざり具合 [EMNLPʼ20, EMNLPʼ21, arXivʼ22], – 輸送 [EMNLPʼ20, arXivʼ22],... 2

Slide 3

Slide 3 text

今⽇の話題 3 ⾃然⾔語処理 • NLP って何をする分野︖ 最適輸送 × ⾃然⾔語処理 • NLP 視点での OT の魅⼒ • 最適値に興味があるケース • 📄 NLP の場合の重み︖距離︖ [Y., Takahashi, Akama, Suzuki, Inui; EMNLPʼ20] • 📄 ノルムの意味 [Oyama, Y., Shimodaira; arxivʼ22] • 最適解に興味があるケース • 📄 アラインメントが不要なケースと不均衡 OT [Arase, Bao, Y.; ACLʼ23] • 📄 GW 距離に基づく複数⾔語の対応付け [Alvarez-Melis&Jaakkola EMNLPʼ18] • オープンクエスチョン

Slide 4

Slide 4 text

今⽇の話題 4 ⾃然⾔語処理 • NLP って何をする分野︖ • ChatGPT で NLP は終わるの︖ 最適輸送 × ⾃然⾔語処理 • NLP 視点での OT の魅⼒ • 最適値に興味があるケース • 📄 NLP の場合の重み︖距離︖ [Y., Takahashi, Akama, Suzuki, Inui; EMNLPʼ20] • 📄 ノルムの意味 [Oyama, Y., Shimodaira; arxivʼ22] • 最適解に興味があるケース • 📄 アラインメントが不要なケースと不均衡 OT [Arase, Bao, Y.; ACLʼ23] • 📄 GW 距離に基づく複数⾔語の対応付け [Alvarez-Melis&Jaakkola EMNLPʼ18] • オープンクエスチョン いま皆さんが気になるのはこれですよね. 「結局 ChatGPT って何︖」 「NLP 終わった…︖」 「今⽇のトーク(NLP 研究)はもう不要︖」 等の疑問に NLPer ⽬線で答えつつ,NLP の導⼊とします.

Slide 5

Slide 5 text

⾃然⾔語処理の気持ち 5 ※突貫資料で引⽤が⽢いです,ご容赦…. ChatGPT を題材に

Slide 6

Slide 6 text

分野の⽬標︓⾔葉の意味の計算とその活⽤ • ⾃然⾔語処理・計算⾔語学 − ⾃然⾔語⽂を計算機を⽤いて処理したい – 機械翻訳 (e.g. DeepL),⼊⼒補完 (e.g. GitHub copilot), チャットボット (e.g. ChatGPT),... − 計算モデルを介して⾃然⾔語を理解したい – ⾔語を越えた共通点は︖,⾔語による “複雑さ” の違い︖, ヒトの⾔語獲得の機序︖,... 6

Slide 7

Slide 7 text

分野の⽬標︓⾔葉の意味の計算を通した⾊々 • ⾃然⾔語処理・計算⾔語学 − ⾃然⾔語⽂を計算機を⽤いて処理したい – 機械翻訳 (e.g. DeepL),⼊⼒補完 (e.g. GitHub copilot), チャットボット (e.g. ChatGPT),... − 計算モデルを介して⾃然⾔語を理解したい – ⾔語を越えた共通点は︖,⾔語による “複雑さ” の違い︖, ヒトの⾔語獲得の機序︖,... 7

Slide 8

Slide 8 text

ChatGPT︓すごいチャットボット 8 https://openai.com/blog/chatgpt 共起に基づくであろう適切な補完 指⽰(推理⼩説)に合った素材を 流暢に導⼊

Slide 9

Slide 9 text

ChatGPT︓すごいチャットボット 9 このスライド内のすべてのスクショの設定︓ ・チェリーピックではなく1つめに試したプロンプト ・エンジンのバージョンは GPT-4

Slide 10

Slide 10 text

ChatGPT︓すごいチャットボット 10 「無茶苦茶じゃん」とは全くならない. ラボに⼊って2ヶ⽉の学部4年⽣のスラ イド内にあったら激褒めするレベル

Slide 11

Slide 11 text

ChatGPT の作り⽅(超簡略版) 11 • 1. ⼤規模コーパスで次の単語を予測する⾔語モデルを訓練 − ⽂章を途中まで読ませてその次の単語を当てさせる − (causal, left-to-right) language models; next word prediction

Slide 12

Slide 12 text

ChatGPT の作り⽅(超簡略版) 12 • 1. ⼤規模コーパスで次の単語を予測する⾔語モデルを訓練 − ⽂章を途中 [まで] 読ませてその次の単語を当てさせる − (causal, left-to-right) language models; next word prediction ⼊⼒ 出⼒

Slide 13

Slide 13 text

ChatGPT の作り⽅(超簡略版) 13 • 1. ⼤規模コーパスで次の単語を予測する⾔語モデルを訓練 − ⽂章を途中まで読ませて [その] 次の単語を当てさせる − (causal, left-to-right) language models; next word prediction ⼊⼒ 出⼒

Slide 14

Slide 14 text

ChatGPT の作り⽅(超簡略版) 14 • 1. ⼤規模コーパスで次の単語を予測する⾔語モデルを訓練 − ⽂章を途中まで読ませてその次の単語を当てさせる − (causal, left-to-right) language models; next word prediction • 2. 対話形式で各種質問に回答できるよう追加訓練 − 質問⽂ ← ⼈間のアノテータに作らせまくる 💰 − 適切な回答 ← ⼈間のアノテータに作らせまくる 💰 − モデルの回答の良さ ← ⼈間のアノテータにランキングさせまくる 💰 − InstructGPT; Reinforcement Learning from Human Feedback (RLHF)

Slide 15

Slide 15 text

NLP の中の⼈にとっての ChatGPT 15 • みな衝撃を受けている − 技術的には︓こういうアプリは作れるでしょとは思っていた – 修論ネタとして出てきたら「アイデアが凡庸すぎるかも…︖」「泥臭すぎ る」とコメントするレベル − でも,実際作られたものを使ったときの衝撃は無茶苦茶⼤きかった • この組み合わせが(たぶん)すごかった − 対話形式 − gentle なキャラクター設定 + 流暢性 • 今後は︖︓NLP の⼿を勝⼿に離れていく − 応⽤︓多様なアプリ,ビジネス,が確実に出てくる. – 研究者層とは参加者数のオーダーが違う,市場に任せるフェーズ − 個々のドメイン × NLP の研究 がずっとやりやすくなる 私⾒(強調)

Slide 16

Slide 16 text

NLP 終わった…︖ 16 • @⾔語処理学会 年次⼤会, 2023-03 (今週⽉〜⾦) − https://www.anlp.jp/nlp2023/ − NLP 分野の国内最⼤の会議

Slide 17

Slide 17 text

NLP 終わった…︖ → やりたいことが⼤量に増えた 17 • 😩 もう研究開発しなくて良いことはたぶん⾊々ある − 「頑張ってモデルを組むよりも ChatGPT にやらせる⽅が10ポイント ⾼いパフォーマンスが出る 」…なんて事例は今後いくらでも増えて いきそう – ※ 2023年3⽉現在はタスク特化モデルの⽅が良いパフォーマンスを出すこ とも多々 − NLP のそこそこの数のサブドメインが戦略変更を余儀なくされそう • 😄 ChatGPT という超⾯⽩いおもちゃが登場したことで, やりたいことも⼤量に増えた 私⾒

Slide 18

Slide 18 text

NLP 終わった…︖ → やりたいことが⼤量に増えた 18 ⾔語⾯・機械学習⾯でのさまざまな興味 • なぜ訓練はほぼ英語なのに他の⾔語でもすいすい動くのか − 異なる⾔語同⼠が共有する共通点は何︖いかなる情報がいかなる形 で⾔語モデル内で転移されている︖ − ※ たとえば,各⾔語でそれぞれ独⽴にある種の埋め込み表現を学習 したあと,埋め込み同⼠を直交変換でだいたい重ね合わることがで きる(e.g. 猫 ↔ cat,科学 ↔ science) .点群の重なりの良さを 確かめる道具として OT もしばしば⽤いられる.⾔語が違えば語彙 が異なるし,また訳語を与えられる場合にも指⽰先(ある種の意 味)が異なり得るのに(e.g. ⽣活 ↔ life),それでも語彙全体の共 起のグラフの形は “似て” いるらしい.すなわち,⾔語にはこの意味 である種の普遍性が存在する模様.重ね合わせられるという経験的 知⾒に関してはずいぶん前から知られているが,それがなぜなのか はまだわかっていない. 私⾒

Slide 19

Slide 19 text

NLP 終わった…︖ → やりたいことが⼤量に増えた 19 • 固有物の表現とそうでない語はモデル内でうまく区別され ているのか︔またそれは⾃然⾔語(訓練データ)のどのよ うな特徴に基づいて実現しているのか • 固有物の表現 • 「Biden」と「Trump」を⾔い間違えたら主張の正誤が簡単に反転 • そうでない語 • 「とても」と「ものすごく」を⾔い間違えてもほぼ問題なし • 単語の中には “離散” 度の⾼いものと “連続” 度の⾼いものが混在し ている 私⾒

Slide 20

Slide 20 text

NLP 終わった…︖ → やりたいことが⼤量に増えた 20 • どのような条件でモデルやエージェントは⾔語を獲得・運 ⽤できるようになるのか − ⾝体性抜きで(センサー・アクチュエーター抜きで)どこまで「意 味」の理解が可能か − ヒトと ChatGPT は全く違う⽅法で第⼀⾔語を獲得している,…… のに,ChatGPT は超流暢に⾔語を運⽤しているように⾒える – 刺激の貧困 ↔ ⼤量の教師データ – ⾮⾔語情報の活⽤ ↔ ⾔語情報のみ(いまのところは) – etc. 私⾒

Slide 21

Slide 21 text

NLP 終わった…︖ → やりたいことが⼤量に増えた 21 • 訓練データの丸暗記 (memorization) と汎化 (generalization) が両⽴しているように⾒えるのはなぜか − 丸暗記︓固有物に対する知識を “ある程度” 正確に問い合わせられる – language models as knowledge base? − 汎化︓⾒たこともないはずの質問にスムーズに回答できる 私⾒

Slide 22

Slide 22 text

NLP 終わった…︖ → やりたいことが⼤量に増えた 22 • すごいマルコフモデル(© kashi_pong 先⽣)(=簡単な確 率モデル)が,なぜこれほど上⼿に⾃然⾔語(=いくらでも 新しい概念・主張を書ける筈の超複雑な装置)を扱えるのか − 我々は有限な語彙を組み合わせることによってこれまで誰も表現して こなかった考えを表現できる [Frege, 19c] − ヒトが議論・思考に⽤いるテキスト全体は実際どの程度複雑なのか 私⾒ https://twitter.com/kashi_pong/status/1636225639182405633

Slide 23

Slide 23 text

NLP 終わった…︖ → やりたいことが⼤量に増えた 23 正確性・解釈性 • Hallucination − 嘘︔原義︓幻覚 • → 正確性特化のツール(e.g. 法律⽂書や医療⽂書の機械翻訳)と ⼤規模⾔語モデルの分業化︖ − 決まった出⼒を返すべきツール での損失(のちほど) • → 正確性に興味がある少数 のユーザ向けに,出⼒の根拠 をどう⽰すか − 単語アラインメント(のちほ ど) 私⾒

Slide 24

Slide 24 text

NLP 終わった…︖ → やりたいことが⼤量に増えた 24 • 現況 − ⾔語を使ってものすごく流暢にコミュニケーションをとることができ る(ように⾒える)何かがどうやら爆誕した − NLP 界隈の⼿を良い意味で離れていく部分 – 個々のアプリケーション,ビジネス • とくに創造的な出⼒が求められるもの,正確性が要求されないもの – 各ドメイン × NLP な協働が無茶苦茶やりやすくなる • NLP の⼈(のひとり)⽬線では,やりたいことが増えた感 − コーパスから学習したいこと ↔ できていることのギャップは︖ – e.g. 固有表現とそうでない語の峻別 – e.g. 低頻度事象の学習 − ⾃然⾔語の複雑さ︖ ヒトの⾔語獲得への⽰唆︖ ⾔語間の共通項︖ − 正確な⽣成︖ 解釈性︖ − etc. 私⾒

Slide 25

Slide 25 text

ChatGPT おすすめ⽇本語資料 25 • 導⼊ − ことラボ, “AI としゃべろう,” YouTube. (2023-02-27 公開) − https://www.youtube.com/watch?v=44Bl1ZwShxI • ニューラル⾔語モデルから ChatGPT までの⼀連の経緯 − ⻄⽥(京), ⻄⽥(光), ⽥中, ⻫藤 (NTT ⼈間情報研究所), “NLPと Vision-and-Languageの基礎・最新動向 (1): NLP,” DEIM 2023. (2023-03-08) − https://speakerdeck.com/kyoun/deim-tutorial-part-1-nlp • ChatGPT 周辺のファクト(⽤語・技術・課題) − 鈴⽊ (東北⼤学), “ChatGPTに関する調査結果,” NLP 2023. − coming soon 類似資料に20本ほど⽬を通した上で,いち NLPer ⽬線で

Slide 26

Slide 26 text

最適輸送 × ⾃然⾔語処理 26 まずは 解くべき(=ChatGPT で解決していない)問題を

Slide 27

Slide 27 text

最適輸送 × ⾃然⾔語処理 その1 最適値が気になるシリーズ 27

Slide 28

Slide 28 text

テキストの類似度測定 28 • ふたつのテキストの類似度の測定 − NLP で極めて頻繁に必要とされるサブルーチン − テキスト⽣成︓⽣成⽂ ↔ リファレンス⽂ – 損失関数,⾃動評価尺度 − 関連テキスト検索︓⽂ ↔ ⽂,⽂書 ↔ ⽂書,クエリ ↔ ⽂書 – 検索機能で拡張した(retrieval-augmented)⾔語モデル,類似性に基づ く説明,etc. • 基本指針のひとつ︓要素単語の重なりの度合いを測る 📄 Sultan+, DLS$@$CU: Sentence Similarity from Word Alignment and Seman=c Vector Composi=on (SemEval 2015) ChatGPT の訓練でも 教師ありテキスト⽣成が⼊る

Slide 29

Slide 29 text

Word Moverʼs Distance [Kusner+ʼ15] ⽂類似度 ↔ 最適輸送コスト 29 • 単語ベクトル空間上で点群間の最適輸送コストを考える − ⽂1︓単語埋込空間で重みが乗っている位置 (before) − ⽂2︓単語埋込空間の重みが乗っている位置 (after) 📄 Kusner+, From Word Embeddings To Document Distances (ICML 2015)

Slide 30

Slide 30 text

Word Moverʼs Distance [Kusner+ʼ15] ⽂類似度 ↔ 最適輸送コスト 30 • 単語ベクトル空間上で点群間の最適輸送コストを考える − ⽂1︓単語埋込空間で重みが乗っている位置 (before) − ⽂2︓単語埋込空間の重みが乗っている位置 (after) • 意味の近さ (単語単位のアラインメントしやすさ) ↔ 輸送コスト − ⽂1, ⽂2: テキストの意味が似ている ↔ 低コストで輸送しきれる − 📄 Kusner+, From Word Embeddings To Document Distances (ICML 2015)

Slide 31

Slide 31 text

Word Moverʼs Distance [Kusner+ʼ15] ⽂類似度 ↔ 最適輸送コスト 31 • 単語ベクトル空間上で点群間の最適輸送コストを考える − ⽂1︓単語埋込空間で重みが乗っている位置 (before) − ⽂2︓単語埋込空間の重みが乗っている位置 (after) • 意味の近さ (単語単位のアラインメントしやすさ) ↔ 輸送コスト − ⽂1, ⽂2: テキストの意味が似ている ↔ 低コストで輸送しきれる − ⽂1, ⽂3: テキストの意味が似ていない ↔ ⾼い輸送コストがかかる 📄 Kusner+, From Word Embeddings To Document Distances (ICML 2015) Natural language processing is awesome document 3 ‘natural’ ‘processing’ ‘awesome’ ‘language’

Slide 32

Slide 32 text

重みと輸送コストをどう与えると “⾃然” か 32 • Word Moverʼs Distance [Kusner+ʼ15] − 確率分布︓𝒂 = 1/𝑛, … , 1/𝑛 ,確率分布︓𝒃 = 1/𝑚, … , 1/𝑚 − 輸送コスト︓𝑪!" = 𝒘! − 𝒘" # $ − ⽂の⾮類似度のモデル︓ 𝑊%(𝒂, 𝒃; 𝑪) • 変更例︓Word Rotatorʼs Distance [Yokoi+ʼ20] − 確率分布︓𝒂 ∝ 𝒘% $, … , 𝒘& $ ,𝒃 ∝ 𝒘′% $, … , 𝒘′' $ − 輸送コスト︓𝑪!" = 1 − cos 𝒘!, 𝒘" # − ⽂の⾮類似度のモデル︓ OT(𝒂, 𝒃; 𝑪) 📄 Kusner+, From Word Embeddings To Document Distances (ICML 2015) 📄 Yokoi+, Word Rotator’s Distance (EMNLP 2020) hVps://arxiv.org/abs/2004.15003 📄 Schakel&Wilson, Measuring Word Significance using Distributed Representa=ons of Words (arXiv 2015) 📄 Oyama+, Norm of word embedding encodes informa=on gain (arXiv 2022) おそらく数理科学の⼈が 「点群の違いを最適輸送の気持ち で測りましょう」となったときの もっとも⾃然な初⼿

Slide 33

Slide 33 text

重みと輸送コストをどう与えると “⾃然” か 33 • Word Moverʼs Distance [Kusner+ʼ15] − 確率分布︓𝒂 = 1/𝑛, … , 1/𝑛 ,確率分布︓𝒃 = 1/𝑚, … , 1/𝑚 − 輸送コスト︓𝑪!" = 𝒘! − 𝒘" # $ − ⽂の⾮類似度のモデル︓ 𝑊%(𝒂, 𝒃; 𝑪) • 変更例︓Word Rotatorʼs Distance [Yokoi+ʼ20] − 確率分布︓𝒂 ∝ 𝒘% $, … , 𝒘& $ ,𝒃 ∝ 𝒘′% $, … , 𝒘′' $ − 輸送コスト︓𝑪!" = 1 − cos 𝒘!, 𝒘" # − ⽂の⾮類似度のモデル︓ OT(𝒂, 𝒃; 𝑪) 📄 Kusner+, From Word Embeddings To Document Distances (ICML 2015) 📄 Yokoi+, Word Rotator’s Distance (EMNLP 2020) https://arxiv.org/abs/2004.15003 📄 Schakel&Wilson, Measuring Word Significance using Distributed Representations of Words (arXiv 2015) 📄 Oyama+, Norm of word embedding encodes information gain (arXiv 2022) 単語ベクトルの⻑さには 単語の重要度が近似的に埋め込まれている [Schakel&Wilsonʼ15], [Oyama+ʼ22] なす⾓ (※) が単語の⾮類似度として有⽤ ※ 単語ベクトルの⻑さを無視した距離 NLP マンから⾒るとこちらの⽅が⾃然

Slide 34

Slide 34 text

⽂のトピックを決める度合い↔⻑さ [Oyama+ʼ22] 34 トピック 決める度 ベクトルの⻑さ gdi 国内総所得 10.13 78.2 phosphide リン化物 10.10 82.2 tachycardia 頻脈 10.00 82.1 … of 0.09 1.2 and 0.08 0.9 the 0.08 1.0 KL(p ⋅ ||p ⋅ 𝑤 ) ⽩⾊化後の2-ノルム 📄 Oyama+, Norm of word embedding encodes informa=on gain (arXiv 2022) hVps://arxiv.org/abs/2212.09663

Slide 35

Slide 35 text

重みと輸送コストをどう与えると “⾃然” か 35 • Word Moverʼs Distance [Kusner+ʼ15] − 確率分布︓𝒂 = 1/𝑛, … , 1/𝑛 ,確率分布︓𝒃 = 1/𝑚, … , 1/𝑚 − 輸送コスト︓𝑪!" = 𝒘! − 𝒘" # $ − ⽂の⾮類似度のモデル︓ 𝑊%(𝒂, 𝒃; 𝑪) • 変更例︓Word Rotatorʼs Distance [Yokoi+ʼ20] − 確率分布︓𝒂 ∝ 𝒘% $, … , 𝒘& $ ,𝒃 ∝ 𝒘′% $, … , 𝒘′' $ − 輸送コスト︓𝑪!" = 1 − cos 𝒘!, 𝒘" # − ⽂の⾮類似度のモデル︓ OT(𝒂, 𝒃; 𝑪) 📄 Kusner+, From Word Embeddings To Document Distances (ICML 2015) 📄 Yokoi+, Word Rotator’s Distance (EMNLP 2020) hVps://arxiv.org/abs/2004.15003 📄 Schakel&Wilson, Measuring Word Significance using Distributed Representa=ons of Words (arXiv 2015) 📄 Oyama+, Norm of word embedding encodes informa=on gain (arXiv 2022) ⽂類似度タスクで10ポイント程度性能が改善 [Yokoi+’20] k-NN⽂書分類でも安定した性能改善 [Smirnov&Yamshchikov’22] ⾔語処理の問題を解いた際の 経験的性能が⼤きく伸びる

Slide 36

Slide 36 text

最適輸送と⾃然⾔語処理の 相性の良さ 36

Slide 37

Slide 37 text

最適輸送は⾃然⾔語処理の⼈にとって とても便利なモデル 37 • 最適輸送は⾃然⾔語処理とすごく相性が良い − “近さ” “遠さ” を考えられる空間 で 点群を移し換えるコストを計算する 道具 − 副次効果として アラインメント情報 が得られる 埋込ベース,ニューラルネットベースの各種⼿法 (=対象が⾃然に距離空間に⼊っている状態)との相性が良い ⾼い解釈性︔ 輸送コスト (最適値) だけではなく輸送プラン (最適解) がわかる ⾃然⾔語処理でしばしば要請される 例︓⽂と⽂の関係を単語と単語の関係に帰着させたい 対象間の類似度や距離の計算は ⾃然⾔語処理で頻出 ⾔語的対象は(たいてい)何かの集まり︔再帰的な構造を持つ ⽂=単語列,⽂書=⽂の列,コーパス=⽂集合,…

Slide 38

Slide 38 text

全体の類似性 ≈ 部分のアラインメントの良さ 38 📄 Sultan+, DLS$@$CU: Sentence Similarity from Word Alignment and Seman=c Vector Composi=on (SemEval 2015) 📄 渡辺+, 機械翻訳 (コロナ社 2014) 📄 Schraagen&Hoogeboom, Predicting record linkage potential in a family reconstruction graph (BNAIC 2015) ⽂類似度 統計的機械翻訳 編集距離

Slide 39

Slide 39 text

全体の類似性 = 部分のアラインメントの良さ by 最適輸送 横井, 構造を持った⾔語データと最適輸送, NAIST DSC NLP Seminar 2022 Summer (2022年9⽉) 39 • 単語・句が似ている = ⽂字をよくアラインメントできる [Tam+ʼ19] • ⽂・⽂書が似ている = 単語をよくアラインメントできる [Kusner+ʼ15][Huang+ʼ16][Zhao+ʼ19][Yokoi+ʼ20][Chen+ʼ20][Wang+ʼ20]… • コーパス・⽣成モデルが似ている = ⽂をよくアラインメント できる [Chen+ʼ18][Semeniuta+ʼ18][Alvarez-Melis&Fusiʼ20]… 📄 Tam+, Optimal Transport-based Alignment of Learned Character Representations for String Similarity (ACL 2019) 📄 Kusner+, From Word Embeddings To Document Distances (ICML 2015) 📄 Huang+, Supervised Word Mover’s Distance (NIPS 2016) 📄 Zhao+, MoverScore: Text Generation Evaluating with Contextualized Embeddings and Earth Mover Distance (EMNLP 2019) 📄 Yokoi+, Word Rotator's Distance (EMNLP 2020) 📄 Chen+, Evaluating Natural Language Generation via Unbalanced Optimal Transport (IJCAI 2020) 📄 Wang+, Robust Document Distance with Wasserstein-Fisher-Rao metric (ACML 2020) 📄 Chen+, Adversarial Text Generation via Feature-Mover’s Distance (NIPS 2018) 📄 Semeniuta+, On Accurate Evaluation of GANs for Language Generation (arXiv 2018) 📄 Alvarez-Melis&Fusi, Geometric Dataset Distances via Optimal Transport (NeurIPS 2020)

Slide 40

Slide 40 text

全体の類似性 = 部分のアラインメントの良さ by 最適輸送 横井, 構造を持った⾔語データと最適輸送, NAIST DSC NLP Seminar 2022 Summer (2022年9⽉) 40 まだまだ…︕ • 単語が似ている = 意味素をよくアラインメントできる [Frogner+ʼ19] • 単語が似ている = 共起単語をよくアラインメントできる [Singh+ʼ20] • ⽂・⽂書が似ている = トピックをよくアラインメントできる [Wanʼ07] • ⾔語が似ている = 単語をよくアラインメントできる [Zhang+ʼ17][Alvarez-Melis&Jaakkolaʼ18][Grave+ʼ19][Alvarez-Melis+ʼ19]… 📄 Frogner+, Learning Embeddings into Entropic Wasserstein Spaces (ICLR 2019) 📄 Singh+, Context Mover’s Distance & Barycenters: Optimal Transport of Contexts for Building Representations (AISTATS 2020) 📄 Wan, A novel document similarity measure based on earth mover's distance (Information Sciences 2007) 📄 Zhang+, Earth Mover’s Distance Minimization for Unsupervised Bilingual Lexicon Induction (EMNLP 2017) 📄 Alvarez-Melis&Jaakkola, Gromov-Wasserstein Alignment of Word Embedding Spaces (EMNLP 2018) 📄 Grave+, Unsupervised Alignment of Embeddings with Wasserstein Procrustes (AISTATS 2019) 📄 Alvarez-Melis+, Towards Optimal Transport with Global Invariances (AISTATS 2019) おそらく 最適輸送 for ⾃然⾔語処理 の初出

Slide 41

Slide 41 text

最適輸送 × ⾃然⾔語処理 その2 最適解/アラインメントが 気になるシリーズ 41

Slide 42

Slide 42 text

不均衡最適輸送 for 単語アラインメント w/Arase-san, Bao-san (ACLʼ23) 42 • ⾔い換え表現間の単語アラインメント 簡単な単語で⾔い直してほしい, おしゃれな英語にしてほしい,etc. Q. ChatGPT ⽒は正確に 抜け漏れなく⾔い換えてる…︖ アラインメントは (正確性が気になる⼀部の)ユーザ にとって嬉しい説明

Slide 43

Slide 43 text

不均衡最適輸送 for 単語アラインメント w/Arase-san, Bao-san (ACLʼ23) 43 • ⾔い換え表現間の単語アラインメント 多対多 対応 null aligment Q. ここどうする︖ 簡単な単語で⾔い直してほしい, おしゃれな英語にしてほしい,etc. Q. ChatGPT ⽒は正確に 抜け漏れなく⾔い換えてる…︖ アラインメントは (正確性が気になる⼀部の)ユーザ にとって嬉しい説明

Slide 44

Slide 44 text

不均衡最適輸送 for 単語アラインメント w/Arase-san, Bao-san (ACLʼ23) 44 • ⾔い換え表現間の単語アラインメント − 1. null alignment があるので不均衡最適輸送を採⽤ − 2. OT の最適値ではなく最適解(輸送⾏列)に損失を流して, 単語埋め込みを作ってくれるモデル(masked language models) を更新 − → 綺麗に動く

Slide 45

Slide 45 text

グロモフ=ワッサースタイン距離 for ⾃然⾔語処理 [Alvarez-Melis&Jaakkolaʼ18] 45 • 問題︓教師なし辞書構築 − “猫” ↔ “cat” − “科学” ↔ “science” 📄 Alvarez-Melis&Jaakkola, Gromov-Wasserstein Alignment of Word Embedding Spaces (EMNLP 2018) 📄 Haghighi+, Learning Bilingual Lexicons from Monolingual Corpora (ACL 2008)

Slide 46

Slide 46 text

グロモフ=ワッサースタイン距離 for ⾃然⾔語処理 [Alvarez-Melis&Jaakkolaʼ18] 46 • 異なる⾔語の埋込集合は,回転 (直交変換) でよく重なり合うこ とが知られている [Xing+ʼ15] d(vcat , vdog ) ≈ d(v猫 , v⽝ ) d(vcat , vscience ) ≈ d(v猫 , v科学 ) − 位置関係を保存するようにアラインメント → グロモフ=ワッサーシュタイン距離の出番では 📄 Alvarez-Melis&Jaakkola, Gromov-Wasserstein Alignment of Word Embedding Spaces (EMNLP 2018) 📄 Xing+, Normalized Word Embedding and Orthogonal Transform for Bilingual Word Translation (NAACL 2015) 𝒗(cat) 𝒗(dog) 𝒗(science) 𝒗(technology) 𝒗(猫) 𝒗(⽝) 𝒗(科学) 𝒗(技術) 𝒗(cat) 図 by ⾚間さん (東北⼤)

Slide 47

Slide 47 text

グロモフ=ワッサースタイン for ⾃然⾔語処理 [Alvarez-Melis&Jaakkolaʼ18] 47 • アイデア︓2つの⾔語 (単語ベクトル集合) を グロモフ=ワッサースタイン距離でマッチング • → 結構できてしまう 📄 Alvarez-Melis&Jaakkola, Gromov-Wasserstein Alignment of Word Embedding Spaces (EMNLP 2018)

Slide 48

Slide 48 text

最適輸送 × ⾃然⾔語処理 まとめ 48

Slide 49

Slide 49 text

まとめ 49 • NLP − ⾔葉の意味の計算をしたい︔⾔語処理,⾔語理解 − ChatGPT︓やることの幅が広がって⾯⽩い時代に − たくさんの⾔語的・機械学習的オープンクエスチョン – 離散的対象と連続的対象が混ざった空間︔⾔語の複雑さ • OT × NLP − NLP と OT との親和性 – “距離” 空間に埋め込まれている + 再帰構造を持つ − 埋込空間で点群間の距離(最適値)が欲しいケース – e.g. ⽂類似度 − 埋込空間で点群同⼠のアラインメント(最適解)が欲しいケース – e.g. 多⾔語埋込の対応

Slide 50

Slide 50 text

まとめ 50 • 興味を持たれたかた向けに,OT × NLP の詳細資料︓ • “最適輸送と⾃然⾔語処理,” NLP 2023. − https://speakerdeck.com/eumesy/optimal-transport-for- natural-language-processing − NLPer 向け OT イントロ − 微分可能 OT や不均衡 OT の NLP 活⽤(最適値の話中⼼) • “構造を持った⾔語データと最適輸送,” NAIST DSC NLP Seminar 2023. − https://speakerdeck.com/eumesy/optimal-transport-for- structured-language-data − Wasserstein と Gromov–Wasserstein のアラインメント⽬線での考 え⽅の違い − GW や劣モジュラ OT の NLP 利⽤(最適解の話中⼼)