ChatGPT と自然言語処理 / 言語の意味の計算と最適輸送

ChatGPTと⾃然⾔語処理＋⾔語の意味の計算と最適輸送横井祥（東北⼤学） 2023-03-17, Workshop OT 2023 ChatGPT
を題材に⾃然⾔語処理の気持ちを共有

⾃⼰紹介 • 横井祥 − ⾃然⾔語処理（NLP）という分野にいます − http://www.cl.ecei.tohoku.ac.jp/~yokoi/ 🕒 経歴
− B︓京都⼤学⼯学部情報学科（⿅島久嗣先⽣）機械学習 − M, D, 現︓東北⼤学情報科学研究科（乾健太郎先⽣）⾃然⾔語処理 − 現︓理化学研究所 AIPセンター（下平英寿先⽣）埋込表現 📝 研究の興味 − ⾔語の “意味” が埋込空間の “形状” にどのように反映されるのか – ⻑さ [EMNLPʼ20, ICLRʼ21, arXivʼ22]， – 混ざり具合 [EMNLPʼ20, EMNLPʼ21, arXivʼ22]， – 輸送 [EMNLPʼ20, arXivʼ22]，... 2

今⽇の話題 3 ⾃然⾔語処理 • NLP って何をする分野︖ 最適輸送 × ⾃然⾔語処理 •
NLP 視点での OT の魅⼒ • 最適値に興味があるケース • 📄 NLP の場合の重み︖距離︖ [Y., Takahashi, Akama, Suzuki, Inui; EMNLPʼ20] • 📄 ノルムの意味 [Oyama, Y., Shimodaira; arxivʼ22] • 最適解に興味があるケース • 📄 アラインメントが不要なケースと不均衡 OT [Arase, Bao, Y.; ACLʼ23] • 📄 GW 距離に基づく複数⾔語の対応付け [Alvarez-Melis&Jaakkola EMNLPʼ18] • オープンクエスチョン

今⽇の話題 4 ⾃然⾔語処理 • NLP って何をする分野︖ • ChatGPT で NLP
は終わるの︖ 最適輸送 × ⾃然⾔語処理 • NLP 視点での OT の魅⼒ • 最適値に興味があるケース • 📄 NLP の場合の重み︖距離︖ [Y., Takahashi, Akama, Suzuki, Inui; EMNLPʼ20] • 📄 ノルムの意味 [Oyama, Y., Shimodaira; arxivʼ22] • 最適解に興味があるケース • 📄 アラインメントが不要なケースと不均衡 OT [Arase, Bao, Y.; ACLʼ23] • 📄 GW 距離に基づく複数⾔語の対応付け [Alvarez-Melis&Jaakkola EMNLPʼ18] • オープンクエスチョンいま皆さんが気になるのはこれですよね．「結局 ChatGPT って何︖」「NLP 終わった…︖」「今⽇のトーク（NLP 研究）はもう不要︖」等の疑問に NLPer ⽬線で答えつつ，NLP の導⼊とします．

⾃然⾔語処理の気持ち 5 ※突貫資料で引⽤が⽢いです，ご容赦…． ChatGPT を題材に

分野の⽬標︓⾔葉の意味の計算とその活⽤ • ⾃然⾔語処理・計算⾔語学 − ⾃然⾔語⽂を計算機を⽤いて処理したい – 機械翻訳 (e.g. DeepL)，⼊⼒補完 (e.g.
GitHub copilot)，チャットボット (e.g. ChatGPT)，... − 計算モデルを介して⾃然⾔語を理解したい – ⾔語を越えた共通点は︖，⾔語による “複雑さ” の違い︖，ヒトの⾔語獲得の機序︖，... 6

分野の⽬標︓⾔葉の意味の計算を通した⾊々 • ⾃然⾔語処理・計算⾔語学 − ⾃然⾔語⽂を計算機を⽤いて処理したい – 機械翻訳 (e.g. DeepL)，⼊⼒補完 (e.g.
GitHub copilot)，チャットボット (e.g. ChatGPT)，... − 計算モデルを介して⾃然⾔語を理解したい – ⾔語を越えた共通点は︖，⾔語による “複雑さ” の違い︖，ヒトの⾔語獲得の機序︖，... 7

ChatGPT︓すごいチャットボット 8 https://openai.com/blog/chatgpt 共起に基づくであろう適切な補完指⽰（推理⼩説）に合った素材を流暢に導⼊

ChatGPT︓すごいチャットボット 9 このスライド内のすべてのスクショの設定︓ ・チェリーピックではなく1つめに試したプロンプト・エンジンのバージョンは GPT-4

ChatGPT︓すごいチャットボット 10 「無茶苦茶じゃん」とは全くならない．ラボに⼊って2ヶ⽉の学部4年⽣のスライド内にあったら激褒めするレベル

ChatGPT の作り⽅（超簡略版） 11 • 1. ⼤規模コーパスで次の単語を予測する⾔語モデルを訓練 − ⽂章を途中まで読ませてその次の単語を当てさせる − (causal,
left-to-right) language models; next word prediction

ChatGPT の作り⽅（超簡略版） 12 • 1. ⼤規模コーパスで次の単語を予測する⾔語モデルを訓練 − ⽂章を途中 [まで] 読ませてその次の単語を当てさせる
− (causal, left-to-right) language models; next word prediction ⼊⼒出⼒

ChatGPT の作り⽅（超簡略版） 13 • 1. ⼤規模コーパスで次の単語を予測する⾔語モデルを訓練 − ⽂章を途中まで読ませて [その] 次の単語を当てさせる
− (causal, left-to-right) language models; next word prediction ⼊⼒出⼒

ChatGPT の作り⽅（超簡略版） 14 • 1. ⼤規模コーパスで次の単語を予測する⾔語モデルを訓練 − ⽂章を途中まで読ませてその次の単語を当てさせる − (causal,
left-to-right) language models; next word prediction • 2. 対話形式で各種質問に回答できるよう追加訓練 − 質問⽂ ← ⼈間のアノテータに作らせまくる 💰 − 適切な回答 ← ⼈間のアノテータに作らせまくる 💰 − モデルの回答の良さ ← ⼈間のアノテータにランキングさせまくる 💰 − InstructGPT; Reinforcement Learning from Human Feedback (RLHF)

NLP の中の⼈にとっての ChatGPT 15 • みな衝撃を受けている − 技術的には︓こういうアプリは作れるでしょとは思っていた – 修論ネタとして出てきたら「アイデアが凡庸すぎるかも…︖」「泥臭すぎ
る」とコメントするレベル − でも，実際作られたものを使ったときの衝撃は無茶苦茶⼤きかった • この組み合わせが（たぶん）すごかった − 対話形式 − gentle なキャラクター設定 + 流暢性 • 今後は︖︓NLP の⼿を勝⼿に離れていく − 応⽤︓多様なアプリ，ビジネス，が確実に出てくる． – 研究者層とは参加者数のオーダーが違う，市場に任せるフェーズ − 個々のドメイン × NLP の研究がずっとやりやすくなる私⾒（強調）

NLP 終わった…︖ 16 • @⾔語処理学会年次⼤会, 2023-03 (今週⽉〜⾦) − https://www.anlp.jp/nlp2023/
− NLP 分野の国内最⼤の会議

NLP 終わった…︖ → やりたいことが⼤量に増えた 17 • 😩 もう研究開発しなくて良いことはたぶん⾊々ある − 「頑張ってモデルを組むよりも
ChatGPT にやらせる⽅が10ポイント⾼いパフォーマンスが出る」…なんて事例は今後いくらでも増えていきそう – ※ 2023年3⽉現在はタスク特化モデルの⽅が良いパフォーマンスを出すことも多々 − NLP のそこそこの数のサブドメインが戦略変更を余儀なくされそう • 😄 ChatGPT という超⾯⽩いおもちゃが登場したことで，やりたいことも⼤量に増えた私⾒

NLP 終わった…︖ → やりたいことが⼤量に増えた 18 ⾔語⾯・機械学習⾯でのさまざまな興味 • なぜ訓練はほぼ英語なのに他の⾔語でもすいすい動くのか − 異なる⾔語同⼠が共有する共通点は何︖いかなる情報がいかなる形
で⾔語モデル内で転移されている︖ − ※ たとえば，各⾔語でそれぞれ独⽴にある種の埋め込み表現を学習したあと，埋め込み同⼠を直交変換でだいたい重ね合わることができる（e.g. 猫 ↔ cat，科学 ↔ science）．点群の重なりの良さを確かめる道具として OT もしばしば⽤いられる．⾔語が違えば語彙が異なるし，また訳語を与えられる場合にも指⽰先（ある種の意味）が異なり得るのに（e.g. ⽣活 ↔ life），それでも語彙全体の共起のグラフの形は “似て” いるらしい．すなわち，⾔語にはこの意味である種の普遍性が存在する模様．重ね合わせられるという経験的知⾒に関してはずいぶん前から知られているが，それがなぜなのかはまだわかっていない．私⾒

NLP 終わった…︖ → やりたいことが⼤量に増えた 19 • 固有物の表現とそうでない語はモデル内でうまく区別されているのか︔またそれは⾃然⾔語（訓練データ）のどのような特徴に基づいて実現しているのか •
固有物の表現 • 「Biden」と「Trump」を⾔い間違えたら主張の正誤が簡単に反転 • そうでない語 • 「とても」と「ものすごく」を⾔い間違えてもほぼ問題なし • 単語の中には “離散” 度の⾼いものと “連続” 度の⾼いものが混在している私⾒

NLP 終わった…︖ → やりたいことが⼤量に増えた 20 • どのような条件でモデルやエージェントは⾔語を獲得・運⽤できるようになるのか − ⾝体性抜きで（センサー・アクチュエーター抜きで）どこまで「意
味」の理解が可能か − ヒトと ChatGPT は全く違う⽅法で第⼀⾔語を獲得している，…… のに，ChatGPT は超流暢に⾔語を運⽤しているように⾒える – 刺激の貧困 ↔ ⼤量の教師データ – ⾮⾔語情報の活⽤ ↔ ⾔語情報のみ（いまのところは） – etc. 私⾒

NLP 終わった…︖ → やりたいことが⼤量に増えた 21 • 訓練データの丸暗記 (memorization) と汎化 (generalization)
が両⽴しているように⾒えるのはなぜか − 丸暗記︓固有物に対する知識を “ある程度” 正確に問い合わせられる – language models as knowledge base? − 汎化︓⾒たこともないはずの質問にスムーズに回答できる私⾒

NLP 終わった…︖ → やりたいことが⼤量に増えた 22 • すごいマルコフモデル（© kashi_pong 先⽣）（＝簡単な確率モデル）が，なぜこれほど上⼿に⾃然⾔語（＝いくらでも
新しい概念・主張を書ける筈の超複雑な装置）を扱えるのか − 我々は有限な語彙を組み合わせることによってこれまで誰も表現してこなかった考えを表現できる [Frege, 19c] − ヒトが議論・思考に⽤いるテキスト全体は実際どの程度複雑なのか私⾒ https://twitter.com/kashi_pong/status/1636225639182405633

NLP 終わった…︖ → やりたいことが⼤量に増えた 23 正確性・解釈性 • Hallucination − 嘘︔原義︓幻覚
• → 正確性特化のツール（e.g. 法律⽂書や医療⽂書の機械翻訳）と⼤規模⾔語モデルの分業化︖ − 決まった出⼒を返すべきツールでの損失（のちほど） • → 正確性に興味がある少数のユーザ向けに，出⼒の根拠をどう⽰すか − 単語アラインメント（のちほど）私⾒

NLP 終わった…︖ → やりたいことが⼤量に増えた 24 • 現況 − ⾔語を使ってものすごく流暢にコミュニケーションをとることができる（ように⾒える）何かがどうやら爆誕した
− NLP 界隈の⼿を良い意味で離れていく部分 – 個々のアプリケーション，ビジネス • とくに創造的な出⼒が求められるもの，正確性が要求されないもの – 各ドメイン × NLP な協働が無茶苦茶やりやすくなる • NLP の⼈（のひとり）⽬線では，やりたいことが増えた感 − コーパスから学習したいこと ↔ できていることのギャップは︖ – e.g. 固有表現とそうでない語の峻別 – e.g. 低頻度事象の学習 − ⾃然⾔語の複雑さ︖ ヒトの⾔語獲得への⽰唆︖ ⾔語間の共通項︖ − 正確な⽣成︖ 解釈性︖ − etc. 私⾒

ChatGPT おすすめ⽇本語資料 25 • 導⼊ − ことラボ, “AI としゃべろう,” YouTube.
(2023-02-27 公開) − https://www.youtube.com/watch?v=44Bl1ZwShxI • ニューラル⾔語モデルから ChatGPT までの⼀連の経緯 − ⻄⽥(京), ⻄⽥(光), ⽥中, ⻫藤 (NTT ⼈間情報研究所), “NLPと Vision-and-Languageの基礎・最新動向 (1): NLP,” DEIM 2023. (2023-03-08) − https://speakerdeck.com/kyoun/deim-tutorial-part-1-nlp • ChatGPT 周辺のファクト（⽤語・技術・課題） − 鈴⽊ (東北⼤学), “ChatGPTに関する調査結果,” NLP 2023. − coming soon 類似資料に20本ほど⽬を通した上で，いち NLPer ⽬線で

最適輸送 × ⾃然⾔語処理 26 まずは解くべき（＝ChatGPT で解決していない）問題を

最適輸送 × ⾃然⾔語処理その1 最適値が気になるシリーズ 27

テキストの類似度測定 28 • ふたつのテキストの類似度の測定 − NLP で極めて頻繁に必要とされるサブルーチン − テキスト⽣成︓⽣成⽂ ↔
リファレンス⽂ – 損失関数，⾃動評価尺度 − 関連テキスト検索︓⽂ ↔ ⽂，⽂書 ↔ ⽂書，クエリ ↔ ⽂書 – 検索機能で拡張した（retrieval-augmented）⾔語モデル，類似性に基づく説明，etc. • 基本指針のひとつ︓要素単語の重なりの度合いを測る 📄 Sultan+, DLS$@$CU: Sentence Similarity from Word Alignment and Seman=c Vector Composi=on (SemEval 2015) ChatGPT の訓練でも教師ありテキスト⽣成が⼊る

Word Moverʼs Distance [Kusner+ʼ15] ⽂類似度 ↔ 最適輸送コスト 29 • 単語ベクトル空間上で点群間の最適輸送コストを考える
− ⽂1︓単語埋込空間で重みが乗っている位置 (before) − ⽂2︓単語埋込空間の重みが乗っている位置 (after) 📄 Kusner+, From Word Embeddings To Document Distances (ICML 2015)

− ⽂1︓単語埋込空間で重みが乗っている位置 (before) − ⽂2︓単語埋込空間の重みが乗っている位置 (after) • 意味の近さ (単語単位のアラインメントしやすさ) ↔ 輸送コスト − ⽂1, ⽂2: テキストの意味が似ている ↔ 低コストで輸送しきれる − 📄 Kusner+, From Word Embeddings To Document Distances (ICML 2015)

− ⽂1︓単語埋込空間で重みが乗っている位置 (before) − ⽂2︓単語埋込空間の重みが乗っている位置 (after) • 意味の近さ (単語単位のアラインメントしやすさ) ↔ 輸送コスト − ⽂1, ⽂2: テキストの意味が似ている ↔ 低コストで輸送しきれる − ⽂1, ⽂3: テキストの意味が似ていない ↔ ⾼い輸送コストがかかる 📄 Kusner+, From Word Embeddings To Document Distances (ICML 2015) Natural language processing is awesome document 3 ‘natural’ ‘processing’ ‘awesome’ ‘language’

重みと輸送コストをどう与えると “⾃然” か 32 • Word Moverʼs Distance [Kusner+ʼ15] −
確率分布︓𝒂 = 1/𝑛, … , 1/𝑛 ，確率分布︓𝒃 = 1/𝑚, … , 1/𝑚 − 輸送コスト︓𝑪!" = 𝒘! − 𝒘" # $ − ⽂の⾮類似度のモデル︓ 𝑊%(𝒂, 𝒃; 𝑪) • 変更例︓Word Rotatorʼs Distance [Yokoi+ʼ20] − 確率分布︓𝒂 ∝ 𝒘% $, … , 𝒘& $ ，𝒃 ∝ 𝒘′% $, … , 𝒘′' $ − 輸送コスト︓𝑪!" = 1 − cos 𝒘!, 𝒘" # − ⽂の⾮類似度のモデル︓ OT(𝒂, 𝒃; 𝑪) 📄 Kusner+, From Word Embeddings To Document Distances (ICML 2015) 📄 Yokoi+, Word Rotator’s Distance (EMNLP 2020) hVps://arxiv.org/abs/2004.15003 📄 Schakel&Wilson, Measuring Word Signiﬁcance using Distributed Representa=ons of Words (arXiv 2015) 📄 Oyama+, Norm of word embedding encodes informa=on gain (arXiv 2022) おそらく数理科学の⼈が「点群の違いを最適輸送の気持ちで測りましょう」となったときのもっとも⾃然な初⼿

確率分布︓𝒂 = 1/𝑛, … , 1/𝑛 ，確率分布︓𝒃 = 1/𝑚, … , 1/𝑚 − 輸送コスト︓𝑪!" = 𝒘! − 𝒘" # $ − ⽂の⾮類似度のモデル︓ 𝑊%(𝒂, 𝒃; 𝑪) • 変更例︓Word Rotatorʼs Distance [Yokoi+ʼ20] − 確率分布︓𝒂 ∝ 𝒘% $, … , 𝒘& $ ，𝒃 ∝ 𝒘′% $, … , 𝒘′' $ − 輸送コスト︓𝑪!" = 1 − cos 𝒘!, 𝒘" # − ⽂の⾮類似度のモデル︓ OT(𝒂, 𝒃; 𝑪) 📄 Kusner+, From Word Embeddings To Document Distances (ICML 2015) 📄 Yokoi+, Word Rotator’s Distance (EMNLP 2020) https://arxiv.org/abs/2004.15003 📄 Schakel&Wilson, Measuring Word Significance using Distributed Representations of Words (arXiv 2015) 📄 Oyama+, Norm of word embedding encodes information gain (arXiv 2022) 単語ベクトルの⻑さには単語の重要度が近似的に埋め込まれている [Schakel&Wilsonʼ15], [Oyama+ʼ22] なす⾓ (※) が単語の⾮類似度として有⽤ ※ 単語ベクトルの⻑さを無視した距離 NLP マンから⾒るとこちらの⽅が⾃然

⽂のトピックを決める度合い↔⻑さ [Oyama+ʼ22] 34 トピック決める度ベクトルの⻑さ gdi 国内総所得 10.13 78.2
phosphide リン化物 10.10 82.2 tachycardia 頻脈 10.00 82.1 … of 0.09 1.2 and 0.08 0.9 the 0.08 1.0 KL(p ⋅ ||p ⋅ 𝑤 ) ⽩⾊化後の2-ノルム 📄 Oyama+, Norm of word embedding encodes informa=on gain (arXiv 2022) hVps://arxiv.org/abs/2212.09663

確率分布︓𝒂 = 1/𝑛, … , 1/𝑛 ，確率分布︓𝒃 = 1/𝑚, … , 1/𝑚 − 輸送コスト︓𝑪!" = 𝒘! − 𝒘" # $ − ⽂の⾮類似度のモデル︓ 𝑊%(𝒂, 𝒃; 𝑪) • 変更例︓Word Rotatorʼs Distance [Yokoi+ʼ20] − 確率分布︓𝒂 ∝ 𝒘% $, … , 𝒘& $ ，𝒃 ∝ 𝒘′% $, … , 𝒘′' $ − 輸送コスト︓𝑪!" = 1 − cos 𝒘!, 𝒘" # − ⽂の⾮類似度のモデル︓ OT(𝒂, 𝒃; 𝑪) 📄 Kusner+, From Word Embeddings To Document Distances (ICML 2015) 📄 Yokoi+, Word Rotator’s Distance (EMNLP 2020) hVps://arxiv.org/abs/2004.15003 📄 Schakel&Wilson, Measuring Word Signiﬁcance using Distributed Representa=ons of Words (arXiv 2015) 📄 Oyama+, Norm of word embedding encodes informa=on gain (arXiv 2022) ⽂類似度タスクで10ポイント程度性能が改善 [Yokoi+’20] k-NN⽂書分類でも安定した性能改善 [Smirnov&Yamshchikov’22] ⾔語処理の問題を解いた際の経験的性能が⼤きく伸びる

最適輸送と⾃然⾔語処理の相性の良さ 36

最適輸送は⾃然⾔語処理の⼈にとってとても便利なモデル 37 • 最適輸送は⾃然⾔語処理とすごく相性が良い − “近さ” “遠さ” を考えられる空間で
点群を移し換えるコストを計算する道具 − 副次効果としてアラインメント情報が得られる埋込ベース，ニューラルネットベースの各種⼿法（＝対象が⾃然に距離空間に⼊っている状態）との相性が良い⾼い解釈性︔ 輸送コスト (最適値) だけではなく輸送プラン (最適解) がわかる⾃然⾔語処理でしばしば要請される例︓⽂と⽂の関係を単語と単語の関係に帰着させたい対象間の類似度や距離の計算は⾃然⾔語処理で頻出⾔語的対象は（たいてい）何かの集まり︔再帰的な構造を持つ⽂＝単語列，⽂書＝⽂の列，コーパス＝⽂集合，…

全体の類似性 ≈ 部分のアラインメントの良さ 38 📄 Sultan+, DLS$@$CU: Sentence Similarity from
Word Alignment and Seman=c Vector Composi=on (SemEval 2015) 📄 渡辺+, 機械翻訳 (コロナ社 2014) 📄 Schraagen&Hoogeboom, Predicting record linkage potential in a family reconstruction graph (BNAIC 2015) ⽂類似度統計的機械翻訳編集距離

全体の類似性 = 部分のアラインメントの良さ by 最適輸送横井, 構造を持った⾔語データと最適輸送, NAIST DSC NLP
Seminar 2022 Summer (2022年9⽉) 39 • 単語・句が似ている = ⽂字をよくアラインメントできる [Tam+ʼ19] • ⽂・⽂書が似ている = 単語をよくアラインメントできる [Kusner+ʼ15][Huang+ʼ16][Zhao+ʼ19][Yokoi+ʼ20][Chen+ʼ20][Wang+ʼ20]… • コーパス・⽣成モデルが似ている = ⽂をよくアラインメントできる [Chen+ʼ18][Semeniuta+ʼ18][Alvarez-Melis&Fusiʼ20]… 📄 Tam+, Optimal Transport-based Alignment of Learned Character Representations for String Similarity (ACL 2019) 📄 Kusner+, From Word Embeddings To Document Distances (ICML 2015) 📄 Huang+, Supervised Word Mover’s Distance (NIPS 2016) 📄 Zhao+, MoverScore: Text Generation Evaluating with Contextualized Embeddings and Earth Mover Distance (EMNLP 2019) 📄 Yokoi+, Word Rotator's Distance (EMNLP 2020) 📄 Chen+, Evaluating Natural Language Generation via Unbalanced Optimal Transport (IJCAI 2020) 📄 Wang+, Robust Document Distance with Wasserstein-Fisher-Rao metric (ACML 2020) 📄 Chen+, Adversarial Text Generation via Feature-Mover’s Distance (NIPS 2018) 📄 Semeniuta+, On Accurate Evaluation of GANs for Language Generation (arXiv 2018) 📄 Alvarez-Melis&Fusi, Geometric Dataset Distances via Optimal Transport (NeurIPS 2020)

全体の類似性 = 部分のアラインメントの良さ by 最適輸送横井, 構造を持った⾔語データと最適輸送, NAIST DSC NLP
Seminar 2022 Summer (2022年9⽉) 40 まだまだ…︕ • 単語が似ている = 意味素をよくアラインメントできる [Frogner+ʼ19] • 単語が似ている = 共起単語をよくアラインメントできる [Singh+ʼ20] • ⽂・⽂書が似ている = トピックをよくアラインメントできる [Wanʼ07] • ⾔語が似ている = 単語をよくアラインメントできる [Zhang+ʼ17][Alvarez-Melis&Jaakkolaʼ18][Grave+ʼ19][Alvarez-Melis+ʼ19]… 📄 Frogner+, Learning Embeddings into Entropic Wasserstein Spaces (ICLR 2019) 📄 Singh+, Context Mover’s Distance & Barycenters: Optimal Transport of Contexts for Building Representations (AISTATS 2020) 📄 Wan, A novel document similarity measure based on earth mover's distance (Information Sciences 2007) 📄 Zhang+, Earth Mover’s Distance Minimization for Unsupervised Bilingual Lexicon Induction (EMNLP 2017) 📄 Alvarez-Melis&Jaakkola, Gromov-Wasserstein Alignment of Word Embedding Spaces (EMNLP 2018) 📄 Grave+, Unsupervised Alignment of Embeddings with Wasserstein Procrustes (AISTATS 2019) 📄 Alvarez-Melis+, Towards Optimal Transport with Global Invariances (AISTATS 2019) おそらく最適輸送 for ⾃然⾔語処理の初出

最適輸送 × ⾃然⾔語処理その2 最適解/アラインメントが気になるシリーズ 41

不均衡最適輸送 for 単語アラインメント w/Arase-san, Bao-san (ACLʼ23) 42 • ⾔い換え表現間の単語アラインメント簡単な単語で⾔い直してほしい，
おしゃれな英語にしてほしい，etc. Q. ChatGPT ⽒は正確に抜け漏れなく⾔い換えてる…︖ アラインメントは（正確性が気になる⼀部の）ユーザにとって嬉しい説明

不均衡最適輸送 for 単語アラインメント w/Arase-san, Bao-san (ACLʼ23) 43 • ⾔い換え表現間の単語アラインメント多対多
対応 null aligment Q. ここどうする︖ 簡単な単語で⾔い直してほしい，おしゃれな英語にしてほしい，etc. Q. ChatGPT ⽒は正確に抜け漏れなく⾔い換えてる…︖ アラインメントは（正確性が気になる⼀部の）ユーザにとって嬉しい説明

不均衡最適輸送 for 単語アラインメント w/Arase-san, Bao-san (ACLʼ23) 44 • ⾔い換え表現間の単語アラインメント −
1. null alignment があるので不均衡最適輸送を採⽤ − 2. OT の最適値ではなく最適解（輸送⾏列）に損失を流して，単語埋め込みを作ってくれるモデル（masked language models）を更新 − → 綺麗に動く

グロモフ＝ワッサースタイン距離 for ⾃然⾔語処理 [Alvarez-Melis&Jaakkolaʼ18] 45 • 問題︓教師なし辞書構築 − “猫” ↔
“cat” − “科学” ↔ “science” 📄 Alvarez-Melis&Jaakkola, Gromov-Wasserstein Alignment of Word Embedding Spaces (EMNLP 2018) 📄 Haghighi+, Learning Bilingual Lexicons from Monolingual Corpora (ACL 2008)

グロモフ＝ワッサースタイン距離 for ⾃然⾔語処理 [Alvarez-Melis&Jaakkolaʼ18] 46 • 異なる⾔語の埋込集合は，回転 (直交変換) でよく重なり合うことが知られている
[Xing+ʼ15] d(vcat , vdog ) ≈ d(v猫 , v⽝ ) d(vcat , vscience ) ≈ d(v猫 , v科学 ) − 位置関係を保存するようにアラインメント → グロモフ＝ワッサーシュタイン距離の出番では 📄 Alvarez-Melis&Jaakkola, Gromov-Wasserstein Alignment of Word Embedding Spaces (EMNLP 2018) 📄 Xing+, Normalized Word Embedding and Orthogonal Transform for Bilingual Word Translation (NAACL 2015) 𝒗(cat) 𝒗(dog) 𝒗(science) 𝒗(technology) 𝒗(猫) 𝒗(⽝) 𝒗(科学) 𝒗(技術) 𝒗(cat) 図 by ⾚間さん（東北⼤）

グロモフ＝ワッサースタイン for ⾃然⾔語処理 [Alvarez-Melis&Jaakkolaʼ18] 47 • アイデア︓2つの⾔語 (単語ベクトル集合) をグロモフ＝ワッサースタイン距離でマッチング
• → 結構できてしまう 📄 Alvarez-Melis&Jaakkola, Gromov-Wasserstein Alignment of Word Embedding Spaces (EMNLP 2018)

最適輸送 × ⾃然⾔語処理まとめ 48

まとめ 49 • NLP − ⾔葉の意味の計算をしたい︔⾔語処理，⾔語理解 − ChatGPT︓やることの幅が広がって⾯⽩い時代に − たくさんの⾔語的・機械学習的オープンクエスチョン
– 離散的対象と連続的対象が混ざった空間︔⾔語の複雑さ • OT × NLP − NLP と OT との親和性 – “距離” 空間に埋め込まれている＋再帰構造を持つ − 埋込空間で点群間の距離（最適値）が欲しいケース – e.g. ⽂類似度 − 埋込空間で点群同⼠のアラインメント（最適解）が欲しいケース – e.g. 多⾔語埋込の対応

まとめ 50 • 興味を持たれたかた向けに，OT × NLP の詳細資料︓ • “最適輸送と⾃然⾔語処理,” NLP
2023. − https://speakerdeck.com/eumesy/optimal-transport-for- natural-language-processing − NLPer 向け OT イントロ − 微分可能 OT や不均衡 OT の NLP 活⽤（最適値の話中⼼） • “構造を持った⾔語データと最適輸送,” NAIST DSC NLP Seminar 2023. − https://speakerdeck.com/eumesy/optimal-transport-for- structured-language-data − Wasserstein と Gromov–Wasserstein のアラインメント⽬線での考え⽅の違い − GW や劣モジュラ OT の NLP 利⽤（最適解の話中⼼）

ChatGPT と自然言語処理 / 言語の意味の計算と最適輸送

ChatGPT と自然言語処理 / 言語の意味の計算と最適輸送

More Decks by Sho Yokoi

Other Decks in Education

Featured

Transcript