Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ChatGPT と自然言語処理 / 言語の意味の計算と最適輸送

ChatGPT と自然言語処理 / 言語の意味の計算と最適輸送

Workshop OT 2023 最適輸送とその周辺 – 機械学習から熱力学的最適化まで」で用いたスライドです

Sho Yokoi
PRO

March 17, 2023
Tweet

More Decks by Sho Yokoi

Other Decks in Education

Transcript

  1. ⾃然⾔語処理の気持ち

    ⾔語の意味の計算と最適輸送
    横井 祥(東北⼤学)
    2023-03-17, Workshop OT 2023
    ChatGPT を題材に

    View Slide

  2. ⾃⼰紹介
    • 横井 祥
    − ⾃然⾔語処理(NLP)という分野にいます
    − http://www.cl.ecei.tohoku.ac.jp/~yokoi/
    🕒 経歴
    − B︓京都⼤学 ⼯学部 情報学科(⿅島 久嗣 先⽣) 機械学習
    − M, D, 現︓東北⼤学 情報科学研究科(乾 健太郎 先⽣) ⾃然⾔語処理
    − 現︓理化学研究所 AIPセンター(下平 英寿 先⽣) 埋込表現
    📝 研究の興味
    − ⾔語の “意味” が 埋込空間の “形状” にどのように反映されるのか
    – ⻑さ [EMNLPʼ20, ICLRʼ21, arXivʼ22],
    – 混ざり具合 [EMNLPʼ20, EMNLPʼ21, arXivʼ22],
    – 輸送 [EMNLPʼ20, arXivʼ22],...
    2

    View Slide

  3. 今⽇の話題
    3
    ⾃然⾔語処理
    • NLP って何をする分野︖
    最適輸送 × ⾃然⾔語処理
    • NLP 視点での OT の魅⼒
    • 最適値に興味があるケース
    • 📄 NLP の場合の重み︖距離︖ [Y., Takahashi, Akama, Suzuki, Inui; EMNLPʼ20]
    • 📄 ノルムの意味 [Oyama, Y., Shimodaira; arxivʼ22]
    • 最適解に興味があるケース
    • 📄 アラインメントが不要なケースと不均衡 OT [Arase, Bao, Y.; under review]
    • 📄 GW 距離に基づく複数⾔語の対応付け [Alvarez-Melis&Jaakkola EMNLPʼ18]
    • オープンクエスチョン
    後⽇公開

    View Slide

  4. 今⽇の話題
    4
    ⾃然⾔語処理
    • NLP って何をする分野︖
    • ChatGPT で NLP は終わるの︖
    最適輸送 × ⾃然⾔語処理
    • NLP 視点での OT の魅⼒
    • 最適値に興味があるケース
    • 📄 NLP の場合の重み︖距離︖ [Y., Takahashi, Akama, Suzuki, Inui; EMNLPʼ20]
    • 📄 ノルムの意味 [Oyama, Y., Shimodaira; arxivʼ22]
    • 最適解に興味があるケース
    • 📄 アラインメントが不要なケースと不均衡 OT [Arase, Bao, Y.; under review]
    • 📄 GW 距離に基づく複数⾔語の対応付け [Alvarez-Melis&Jaakkola EMNLPʼ18]
    • オープンクエスチョン
    後⽇公開
    いま皆さんが気になるのはこれですよね.
    「結局 ChatGPT って何︖」
    「NLP 終わった…︖」
    「今⽇のトーク(NLP 研究)はもう不要︖」
    等の疑問に NLPer ⽬線で答えつつ,NLP の導⼊とします.

    View Slide

  5. ⾃然⾔語処理の気持ち
    5
    ※突貫資料で引⽤が⽢いです,ご容赦….
    ChatGPT を題材に

    View Slide

  6. 分野の⽬標︓⾔葉の意味の計算を通した⾊々
    • ⾃然⾔語処理・計算⾔語学
    − ⾃然⾔語⽂を計算機を⽤いて処理したい
    – 機械翻訳 (e.g. DeepL),⼊⼒補完 (e.g. GitHub copilot),
    チャットボット (e.g. ChatGPT),...
    − 計算モデルを介して⾃然⾔語を理解したい
    – ⾔語を越えた共通点は︖,⾔語による “複雑さ” の違い︖,
    ヒトの⾔語獲得の機序︖,...
    6

    View Slide

  7. 分野の⽬標︓⾔葉の意味の計算を通した⾊々
    • ⾃然⾔語処理・計算⾔語学
    − ⾃然⾔語⽂を計算機を⽤いて処理したい
    – 機械翻訳 (e.g. DeepL),⼊⼒補完 (e.g. GitHub copilot),
    チャットボット (e.g. ChatGPT),...
    − 計算モデルを介して⾃然⾔語を理解したい
    – ⾔語を越えた共通点は︖,⾔語による “複雑さ” の違い︖,
    ヒトの⾔語獲得の機序︖,...
    7

    View Slide

  8. ChatGPT︓すごいチャットボット
    8
    https://openai.com/blog/chatgpt
    共起に基づくであろう適切な補完
    指⽰(推理⼩説)に合った素材を
    流暢に導⼊

    View Slide

  9. ChatGPT︓すごいチャットボット
    9
    このスライド内のすべてのスクショの設定︓
    ・チェリーピックではなく1つめに試したプロンプト
    ・エンジンのバージョンは GPT-4

    View Slide

  10. ChatGPT︓すごいチャットボット
    10
    「無茶苦茶じゃん」とは全くならない.
    ラボに⼊って2ヶ⽉の学部4年⽣のスラ
    イド内にあったら激褒めするレベル

    View Slide

  11. ChatGPT の作り⽅(超簡略版)
    11
    • 1. ⼤規模コーパスで次の単語を予測する⾔語モデルを訓練
    − ⽂章を途中まで読ませてその次の単語を当てさせる
    − (causal, left-to-right) language models; next word prediction

    View Slide

  12. ChatGPT の作り⽅(超簡略版)
    12
    • 1. ⼤規模コーパスで次の単語を予測する⾔語モデルを訓練
    − ⽂章を途中 [まで] 読ませてその次の単語を当てさせる
    − (causal, left-to-right) language models; next word prediction
    ⼊⼒ 出⼒

    View Slide

  13. ChatGPT の作り⽅(超簡略版)
    13
    • 1. ⼤規模コーパスで次の単語を予測する⾔語モデルを訓練
    − ⽂章を途中まで読ませて [その] 次の単語を当てさせる
    − (causal, left-to-right) language models; next word prediction
    ⼊⼒ 出⼒

    View Slide

  14. ChatGPT の作り⽅(超簡略版)
    14
    • 1. ⼤規模コーパスで次の単語を予測する⾔語モデルを訓練
    − ⽂章を途中まで読ませてその次の単語を当てさせる
    − (causal, left-to-right) language models; next word prediction
    • 2. 対話形式で各種質問に回答できるよう追加訓練
    − 質問⽂ ← ⼈間のアノテータに作らせまくる 💰
    − 適切な回答 ← ⼈間のアノテータに作らせまくる 💰
    − モデルの回答の良さ ← ⼈間のアノテータにランキングさせまくる 💰
    − InstructGPT; Reinforcement Learning from Human Feedback
    (RLHF)

    View Slide

  15. NLP の中の⼈にとっての ChatGPT
    15
    • みな衝撃を受けている
    − 技術的には︓こういうアプリは作れるでしょとは思っていた
    – 修論ネタとして出てきたら「アイデアが凡庸すぎるかも…︖」「泥臭すぎ
    る」とコメントするレベル
    − でも,実際作られたものを使ったときの衝撃は無茶苦茶⼤きかった
    • この組み合わせが(たぶん)すごかった
    − 対話形式
    − gentle なキャラクター設定 + 流暢性
    • 今後は︖︓NLP の⼿を勝⼿に離れていく
    − 応⽤︓多様なアプリ,ビジネス,が確実に出てくる.
    – 研究者層とは参加者数のオーダーが違う,市場に任せるフェーズ
    − 個々のドメイン × NLP の研究 がずっとやりやすくなる
    私⾒(強調)

    View Slide

  16. NLP 終わった…︖
    16
    • @⾔語処理学会 年次⼤会, 2023-03 (今週⽉〜⾦)
    − https://www.anlp.jp/nlp2023/
    − NLP 分野の国内最⼤の会議

    View Slide

  17. NLP 終わった…︖
    → やりたいことが⼤量に増えた
    17
    • 😩 もう研究開発しなくて良いことはたぶん⾊々ある
    − 「頑張ってモデルを組むよりも ChatGPT にやらせる⽅が10ポイント
    ⾼いパフォーマンスが出る 」…なんて事例は今後いくらでも増えて
    いきそう
    – ※ 2023年3⽉現在はタスク特化モデルの⽅が良いパフォーマンスを出すこ
    とも多々
    − NLP のそこそこの数のサブドメインが戦略変更を余儀なくされそう
    • 😄 ChatGPT という超⾯⽩いおもちゃが登場したことで,
    やりたいことも⼤量に増えた
    私⾒

    View Slide

  18. NLP 終わった…︖
    → やりたいことが⼤量に増えた
    18
    ⾔語⾯・機械学習⾯でのさまざまな興味
    • なぜ訓練はほぼ英語なのに他の⾔語でもすいすい動くのか
    − 異なる⾔語同⼠が共有する共通点は何︖いかなる情報がいかなる形
    で⾔語モデル内で転移されている︖
    − ※ たとえば,各⾔語でそれぞれ独⽴にある種の埋め込み表現を学習
    したあと,埋め込み同⼠を直交変換でだいたい重ね合わることがで
    きる(e.g. 猫 ↔ cat,科学 ↔ science) .点群の重なりの良さを
    確かめる道具として OT もしばしば⽤いられる.⾔語が違えば語彙
    が異なるし,また訳語を与えられる場合にも指⽰先(ある種の意
    味)が異なり得るのに(e.g. ⽣活 ↔ life),それでも語彙全体の共
    起のグラフの形は “似て” いるらしい.すなわち,⾔語にはこの意味
    である種の普遍性が存在する模様.重ね合わせられるという経験的
    知⾒に関してはずいぶん前から知られているが,それがなぜなのか
    はまだわかっていない.
    私⾒

    View Slide

  19. NLP 終わった…︖
    → やりたいことが⼤量に増えた
    19
    • 固有物の表現とそうでない語はモデル内でうまく区別され
    ているのか︔またそれは⾃然⾔語(訓練データ)のどのよ
    うな特徴に基づいて実現しているのか
    • 固有物の表現
    • 「Biden」と「Trump」を⾔い間違えたら主張の正誤が簡単に反転
    • そうでない語
    • 「とても」と「ものすごく」を⾔い間違えてもほぼ問題なし
    • 単語の中には “離散” 度の⾼いものと “連続” 度の⾼いものが混在し
    ている
    私⾒

    View Slide

  20. NLP 終わった…︖
    → やりたいことが⼤量に増えた
    20
    • どのような条件でモデルやエージェントは⾔語を獲得・運
    ⽤できるようになるのか
    − ⾝体性抜きで(センサー・アクチュエーター抜きで)どこまで「意
    味」の理解が可能か
    − ヒトと ChatGPT は全く違う⽅法で第⼀⾔語を獲得している,……
    のに,ChatGPT は超流暢に⾔語を運⽤しているように⾒える
    – 刺激の貧困 ↔ ⼤量の教師データ
    – ⾮⾔語情報の活⽤ ↔ ⾔語情報のみ(いまのところは)
    – etc.
    私⾒

    View Slide

  21. NLP 終わった…︖
    → やりたいことが⼤量に増えた
    21
    • 訓練データの丸暗記 (memorization) と汎化
    (generalization) が両⽴しているように⾒えるのはなぜか
    − 丸暗記︓固有物に対する知識を “ある程度” 正確に問い合わせられる
    – language models as knowledge base?
    − 汎化︓⾒たこともないはずの質問にスムーズに回答できる
    私⾒

    View Slide

  22. NLP 終わった…︖
    → やりたいことが⼤量に増えた
    22
    • すごいマルコフモデル(© kashi_pong 先⽣)(=簡単な確
    率モデル)が,なぜこれほど上⼿に⾃然⾔語(=いくらでも
    新しい概念・主張を書ける筈の超複雑な装置)を扱えるのか
    − 我々は有限な語彙を組み合わせることによってこれまで誰も表現して
    こなかった考えを表現できる [Frege, 19c]
    − ヒトが議論・思考に⽤いるテキスト全体は実際どの程度複雑なのか
    私⾒
    https://twitter.com/kashi_pong/status/1636225639182405633

    View Slide

  23. NLP 終わった…︖
    → やりたいことが⼤量に増えた
    23
    正確性・解釈性
    • Hallucination
    − 嘘︔原義︓幻覚
    • → 正確性特化のツール(e.g.
    法律⽂書や医療⽂書の機械翻訳)と
    ⼤規模⾔語モデルの分業化︖
    − 決まった出⼒を返すべきツール
    での損失(のちほど)
    • → 正確性に興味がある少数
    のユーザ向けに,出⼒の根拠
    をどう⽰すか
    − 単語アラインメント(のちほ
    ど)
    私⾒

    View Slide

  24. NLP 終わった…︖
    → やりたいことが⼤量に増えた
    24
    • 現況
    − ⾔語を使ってものすごく流暢にコミュニケーションをとることができ
    る(ように⾒える)何かがどうやら爆誕した
    − NLP 界隈の⼿を良い意味で離れていく部分
    – 個々のアプリケーション,ビジネス
    • とくに創造的な出⼒が求められるもの,正確性が要求されないもの
    – 各ドメイン × NLP な協働が無茶苦茶やりやすくなる
    • NLP の⼈(のひとり)⽬線では,やりたいことが増えた感
    − コーパスから学習したいこと ↔ できていることのギャップは︖
    – e.g. 固有表現とそうでない語の峻別
    – e.g. 低頻度事象の学習
    − ⾃然⾔語の複雑さ︖ ヒトの⾔語獲得への⽰唆︖ ⾔語間の共通項︖
    − 正確な⽣成︖ 解釈性︖
    − etc.
    私⾒

    View Slide

  25. ChatGPT おすすめ⽇本語資料
    25
    • 導⼊
    − ことラボ, “AI としゃべろう,” YouTube. (2023-02-27 公開)
    − https://www.youtube.com/watch?v=44Bl1ZwShxI
    • ニューラル⾔語モデルから ChatGPT までの⼀連の経緯
    − ⻄⽥(京), ⻄⽥(光), ⽥中, ⻫藤 (NTT ⼈間情報研究所), “NLPと
    Vision-and-Languageの基礎・最新動向 (1): NLP,” DEIM 2023.
    (2023-03-08)
    − https://speakerdeck.com/kyoun/deim-tutorial-part-1-nlp
    • ChatGPT 周辺のファクト(⽤語・技術・課題)
    − 鈴⽊ (東北⼤学), “ChatGPTに関する調査結果,” NLP 2023.
    − coming soon
    類似資料に20本ほど⽬を通した上で,いち NLPer ⽬線で

    View Slide

  26. 最適輸送 × ⾃然⾔語処理
    26
    まずは
    解くべき(=ChatGPT で解決していない)問題を

    View Slide

  27. 最適輸送 × ⾃然⾔語処理 その1
    最適値が気になるシリーズ
    27

    View Slide

  28. テキストの類似度測定
    28
    • ふたつのテキストの類似度の測定
    − NLP で極めて頻繁に必要とされるサブルーチン
    − テキスト⽣成︓⽣成⽂ ↔ リファレンス⽂
    – 損失関数,⾃動評価尺度
    − 関連テキスト検索︓⽂ ↔ ⽂,⽂書 ↔ ⽂書,クエリ ↔ ⽂書
    – 検索機能で拡張した(retrieval-augmented)⾔語モデル,類似性に基づ
    く説明,etc.
    • 基本指針のひとつ︓要素単語の重なりの度合いを測る
    📄 Sultan+, [email protected]$CU: Sentence Similarity from Word Alignment and Seman=c Vector Composi=on (SemEval 2015)
    ChatGPT の訓練でも
    教師ありテキスト⽣成が⼊る

    View Slide

  29. Word Moverʼs Distance [Kusner+ʼ15]
    ⽂類似度 ↔ 最適輸送コスト
    29
    • 単語ベクトル空間上で点群間の最適輸送コストを考える
    − ⽂1︓単語埋込空間で重みが乗っている位置 (before)
    − ⽂2︓単語埋込空間の重みが乗っている位置 (after)
    📄 Kusner+, From Word Embeddings To Document Distances (ICML 2015)

    View Slide

  30. Word Moverʼs Distance [Kusner+ʼ15]
    ⽂類似度 ↔ 最適輸送コスト
    30
    • 単語ベクトル空間上で点群間の最適輸送コストを考える
    − ⽂1︓単語埋込空間で重みが乗っている位置 (before)
    − ⽂2︓単語埋込空間の重みが乗っている位置 (after)
    • 意味の近さ (単語単位のアラインメントしやすさ) ↔ 輸送コスト
    − ⽂1, ⽂2: テキストの意味が似ている ↔ 低コストで輸送しきれる

    📄 Kusner+, From Word Embeddings To Document Distances (ICML 2015)

    View Slide

  31. Word Moverʼs Distance [Kusner+ʼ15]
    ⽂類似度 ↔ 最適輸送コスト
    31
    • 単語ベクトル空間上で点群間の最適輸送コストを考える
    − ⽂1︓単語埋込空間で重みが乗っている位置 (before)
    − ⽂2︓単語埋込空間の重みが乗っている位置 (after)
    • 意味の近さ (単語単位のアラインメントしやすさ) ↔ 輸送コスト
    − ⽂1, ⽂2: テキストの意味が似ている ↔ 低コストで輸送しきれる
    − ⽂1, ⽂3: テキストの意味が似ていない ↔ ⾼い輸送コストがかかる
    📄 Kusner+, From Word Embeddings To Document Distances (ICML 2015)
    Natural
    language
    processing
    is
    awesome
    document 3
    ‘natural’
    ‘processing’
    ‘awesome’
    ‘language’

    View Slide

  32. 重みと輸送コストをどう与えると “⾃然” か
    32
    • Word Moverʼs Distance [Kusner+ʼ15]
    − 確率分布︓𝒂 = 1/𝑛, … , 1/𝑛 ,確率分布︓𝒃 = 1/𝑚, … , 1/𝑚
    − 輸送コスト︓𝑪!" = 𝒘! − 𝒘"
    #
    $
    − ⽂の⾮類似度のモデル︓ 𝑊%(𝒂, 𝒃; 𝑪)
    • 変更例︓Word Rotatorʼs Distance [Yokoi+ʼ20]
    − 確率分布︓𝒂 ∝ 𝒘% $, … , 𝒘& $
    ,𝒃 ∝ 𝒘′% $, … , 𝒘′' $
    − 輸送コスト︓𝑪!" = 1 − cos 𝒘!, 𝒘"
    #
    − ⽂の⾮類似度のモデル︓ OT(𝒂, 𝒃; 𝑪)
    📄 Kusner+, From Word Embeddings To Document Distances (ICML 2015)
    📄 Yokoi+, Word Rotator’s Distance (EMNLP 2020) https://arxiv.org/abs/2004.15003
    📄 Schakel&Wilson, Measuring Word Significance using Distributed Representations of Words (arXiv 2015)
    📄 Oyama+, Norm of word embedding encodes information gain (arXiv 2022)
    おそらく数理科学の⼈が
    「点群の違いを最適輸送の気持ち
    で測りましょう」となったときの
    もっとも⾃然な初⼿

    View Slide

  33. 重みと輸送コストをどう与えると “⾃然” か
    33
    • Word Moverʼs Distance [Kusner+ʼ15]
    − 確率分布︓𝒂 = 1/𝑛, … , 1/𝑛 ,確率分布︓𝒃 = 1/𝑚, … , 1/𝑚
    − 輸送コスト︓𝑪!" = 𝒘! − 𝒘"
    #
    $
    − ⽂の⾮類似度のモデル︓ 𝑊%(𝒂, 𝒃; 𝑪)
    • 変更例︓Word Rotatorʼs Distance [Yokoi+ʼ20]
    − 確率分布︓𝒂 ∝ 𝒘% $, … , 𝒘& $
    ,𝒃 ∝ 𝒘′% $, … , 𝒘′' $
    − 輸送コスト︓𝑪!" = 1 − cos 𝒘!, 𝒘"
    #
    − ⽂の⾮類似度のモデル︓ OT(𝒂, 𝒃; 𝑪)
    📄 Kusner+, From Word Embeddings To Document Distances (ICML 2015)
    📄 Yokoi+, Word Rotator’s Distance (EMNLP 2020) https://arxiv.org/abs/2004.15003
    📄 Schakel&Wilson, Measuring Word Significance using Distributed Representations of Words (arXiv 2015)
    📄 Oyama+, Norm of word embedding encodes information gain (arXiv 2022)
    単語ベクトルの⻑さには
    単語の重要度が近似的に埋め込まれている
    [Schakel&Wilsonʼ15], [Oyama+ʼ22]
    なす⾓ (※) が単語の⾮類似度として有⽤
    ※ 単語ベクトルの⻑さを無視した距離
    NLP マンから⾒るとこちらの⽅が⾃然

    View Slide

  34. ⽂のトピックを決める度合い↔⻑さ [Oyama+ʼ22]
    34
    トピック
    決める度
    ベクトルの⻑さ
    gdi 国内総所得 10.13 78.2
    phosphide リン化物 10.10 82.2
    tachycardia 頻脈 10.00 82.1

    of 0.09 1.2
    and 0.08 0.9
    the 0.08 1.0
    KL(p ⋅ ||p ⋅ 𝑤 ) ⽩⾊化後の2-ノルム
    📄 Oyama+, Norm of word embedding encodes information gain (arXiv 2022) https://arxiv.org/abs/2212.09663

    View Slide

  35. 重みと輸送コストをどう与えると “⾃然” か
    35
    • Word Moverʼs Distance [Kusner+ʼ15]
    − 確率分布︓𝒂 = 1/𝑛, … , 1/𝑛 ,確率分布︓𝒃 = 1/𝑚, … , 1/𝑚
    − 輸送コスト︓𝑪!" = 𝒘! − 𝒘"
    #
    $
    − ⽂の⾮類似度のモデル︓ 𝑊%(𝒂, 𝒃; 𝑪)
    • 変更例︓Word Rotatorʼs Distance [Yokoi+ʼ20]
    − 確率分布︓𝒂 ∝ 𝒘% $, … , 𝒘& $
    ,𝒃 ∝ 𝒘′% $, … , 𝒘′' $
    − 輸送コスト︓𝑪!" = 1 − cos 𝒘!, 𝒘"
    #
    − ⽂の⾮類似度のモデル︓ OT(𝒂, 𝒃; 𝑪)
    📄 Kusner+, From Word Embeddings To Document Distances (ICML 2015)
    📄 Yokoi+, Word Rotator’s Distance (EMNLP 2020) haps://arxiv.org/abs/2004.15003
    📄 Schakel&Wilson, Measuring Word Significance using Distributed Representa=ons of Words (arXiv 2015)
    📄 Oyama+, Norm of word embedding encodes informa=on gain (arXiv 2022)
    ⽂類似度タスクで10ポイント程度性能が改善 [Yokoi+’20]
    k-NN⽂書分類でも安定した性能改善 [Smirnov&Yamshchikov’22]
    ⾔語処理の問題を解いた際の
    経験的性能が⼤きく伸びる

    View Slide

  36. 最適輸送と⾃然⾔語処理の
    相性の良さ
    36

    View Slide

  37. 最適輸送は⾃然⾔語処理の⼈にとって
    とても便利なモデル
    37
    • 最適輸送は⾃然⾔語処理とすごく相性が良い
    − “近さ” “遠さ” を考えられる空間 で
    点群を移し換えるコストを計算する 道具
    − 副次効果として アラインメント情報 が得られる
    埋込ベース,ニューラルネットベースの各種⼿法
    (=対象が⾃然に距離空間に⼊っている状態)との相性が良い
    ⾼い解釈性︔
    輸送コスト (最適値) だけではなく輸送プラン (最適解) がわかる
    ⾃然⾔語処理でしばしば要請される
    例︓⽂と⽂の関係を単語と単語の関係に帰着させたい
    対象間の類似度や距離の計算は
    ⾃然⾔語処理で頻出
    ⾔語的対象は(たいてい)何かの集まり︔再帰的な構造を持つ
    ⽂=単語列,⽂書=⽂の列,コーパス=⽂集合,…

    View Slide

  38. 全体の類似性 ≈ 部分のアラインメントの良さ
    38
    📄 Sultan+, [email protected]$CU: Sentence Similarity from Word Alignment and Semantic Vector Composition (SemEval 2015)
    📄 渡辺+, 機械翻訳 (コロナ社 2014)
    📄 Schraagen&Hoogeboom, Predicting record linkage
    potential in a family reconstruction graph (BNAIC 2015)
    ⽂類似度
    統計的機械翻訳 編集距離

    View Slide

  39. 全体の類似性 = 部分のアラインメントの良さ
    by 最適輸送
    横井, 構造を持った⾔語データと最適輸送, NAIST DSC NLP
    Seminar 2022 Summer (2022年9⽉)
    39
    • 単語・句が似ている = ⽂字をよくアラインメントできる
    [Tam+ʼ19]
    • ⽂・⽂書が似ている = 単語をよくアラインメントできる
    [Kusner+ʼ15][Huang+ʼ16][Zhao+ʼ19][Yokoi+ʼ20][Chen+ʼ20][Wang+ʼ20]…
    • コーパス・⽣成モデルが似ている = ⽂をよくアラインメント
    できる
    [Chen+ʼ18][Semeniuta+ʼ18][Alvarez-Melis&Fusiʼ20]…
    📄 Tam+, Optimal Transport-based Alignment of Learned Character Representations for String Similarity (ACL 2019)
    📄 Kusner+, From Word Embeddings To Document Distances (ICML 2015)
    📄 Huang+, Supervised Word Mover’s Distance (NIPS 2016)
    📄 Zhao+, MoverScore: Text Generation Evaluating with Contextualized Embeddings and Earth Mover Distance (EMNLP 2019)
    📄 Yokoi+, Word Rotator's Distance (EMNLP 2020)
    📄 Chen+, Evaluating Natural Language Generation via Unbalanced Optimal Transport (IJCAI 2020)
    📄 Wang+, Robust Document Distance with Wasserstein-Fisher-Rao metric (ACML 2020)
    📄 Chen+, Adversarial Text Generation via Feature-Mover’s Distance (NIPS 2018)
    📄 Semeniuta+, On Accurate Evaluation of GANs for Language Generation (arXiv 2018)
    📄 Alvarez-Melis&Fusi, Geometric Dataset Distances via Optimal Transport (NeurIPS 2020)

    View Slide

  40. 全体の類似性 = 部分のアラインメントの良さ
    by 最適輸送
    横井, 構造を持った⾔語データと最適輸送, NAIST DSC NLP
    Seminar 2022 Summer (2022年9⽉)
    40
    まだまだ…︕
    • 単語が似ている = 意味素をよくアラインメントできる
    [Frogner+ʼ19]
    • 単語が似ている = 共起単語をよくアラインメントできる
    [Singh+ʼ20]
    • ⽂・⽂書が似ている = トピックをよくアラインメントできる
    [Wanʼ07]
    • ⾔語が似ている = 単語をよくアラインメントできる
    [Zhang+ʼ17][Alvarez-Melis&Jaakkolaʼ18][Grave+ʼ19][Alvarez-Melis+ʼ19]…
    📄 Frogner+, Learning Embeddings into Entropic Wasserstein Spaces (ICLR 2019)
    📄 Singh+, Context Mover’s Distance & Barycenters: Optimal Transport of Contexts for Building Representations (AISTATS 2020)
    📄 Wan, A novel document similarity measure based on earth mover's distance (Information Sciences 2007)
    📄 Zhang+, Earth Mover’s Distance Minimization for Unsupervised Bilingual Lexicon Induction (EMNLP 2017)
    📄 Alvarez-Melis&Jaakkola, Gromov-Wasserstein Alignment of Word Embedding Spaces (EMNLP 2018)
    📄 Grave+, Unsupervised Alignment of Embeddings with Wasserstein Procrustes (AISTATS 2019)
    📄 Alvarez-Melis+, Towards Optimal Transport with Global Invariances (AISTATS 2019)
    おそらく 最適輸送 for ⾃然⾔語処理 の初出

    View Slide

  41. 最適輸送 × ⾃然⾔語処理 その2
    最適解/アラインメントが
    気になるシリーズ
    41

    View Slide

  42. 不均衡最適輸送 for 単語アラインメント
    w/Arase-san, Bao-san (under review)
    42
    • ⾔い換え表現間の単語アラインメント
    簡単な単語で⾔い直してほしい,
    おしゃれな英語にしてほしい,etc.
    Q. ChatGPT ⽒は正確に
    抜け漏れなく⾔い換えてる…︖
    アラインメントは
    (正確性が気になる⼀部の)ユーザ
    にとって嬉しい説明
    後⽇公開

    View Slide

  43. 不均衡最適輸送 for 単語アラインメント
    w/Arase-san, Bao-san (under review)
    43
    • ⾔い換え表現間の単語アラインメント
    多対多
    対応
    null aligment
    Q. ここどうする︖
    簡単な単語で⾔い直してほしい,
    おしゃれな英語にしてほしい,etc.
    Q. ChatGPT ⽒は正確に
    抜け漏れなく⾔い換えてる…︖
    アラインメントは
    (正確性が気になる⼀部の)ユーザ
    にとって嬉しい説明
    後⽇公開

    View Slide

  44. 不均衡最適輸送 for 単語アラインメント
    w/Arase-san, Bao-san (under review)
    44
    • ⾔い換え表現間の単語アラインメント
    − 1. null alignment があるので不均衡最適輸送を採⽤
    − 2. OT の最適値ではなく最適解(輸送⾏列)に損失を流して,
    単語埋め込みを作ってくれるモデル(masked language models)
    を更新
    − → 綺麗に動く
    後⽇公開

    View Slide

  45. グロモフ=ワッサースタイン距離 for ⾃然⾔語処理
    [Alvarez-Melis&Jaakkolaʼ18]
    45
    • 問題︓教師なし辞書構築
    − “猫” ↔ “cat”
    − “科学” ↔ “science”
    📄 Alvarez-Melis&Jaakkola, Gromov-Wasserstein Alignment of Word Embedding Spaces (EMNLP 2018)
    📄 Haghighi+, Learning Bilingual
    Lexicons from Monolingual
    Corpora (ACL 2008)

    View Slide

  46. グロモフ=ワッサースタイン距離 for ⾃然⾔語処理
    [Alvarez-Melis&Jaakkolaʼ18]
    46
    • 異なる⾔語の埋込集合は,回転 (直交変換) でよく重なり合うこ
    とが知られている [Xing+ʼ15]
    d(vcat
    , vdog
    ) ≈ d(v猫
    , v⽝
    )
    d(vcat
    , vscience
    ) ≈ d(v猫
    , v科学
    )
    − 位置関係を保存するようにアラインメント
    → グロモフ=ワッサーシュタイン距離の出番では
    📄 Alvarez-Melis&Jaakkola, Gromov-Wasserstein Alignment of Word Embedding Spaces (EMNLP 2018)
    📄 Xing+, Normalized Word Embedding and Orthogonal Transform for Bilingual Word Translation (NAACL 2015)
    𝒗(cat)
    𝒗(dog)
    𝒗(science)
    𝒗(technology) 𝒗(猫)
    𝒗(⽝)
    𝒗(科学)
    𝒗(技術)
    𝒗(cat)
    図 by ⾚間さん
    (東北⼤)

    View Slide

  47. グロモフ=ワッサースタイン for ⾃然⾔語処理
    [Alvarez-Melis&Jaakkolaʼ18]
    47
    • アイデア︓2つの⾔語 (単語ベクトル集合) を
    グロモフ=ワッサースタイン距離でマッチング
    • → 結構できてしまう
    📄 Alvarez-Melis&Jaakkola, Gromov-Wasserstein Alignment of Word Embedding Spaces (EMNLP 2018)

    View Slide

  48. 最適輸送 × ⾃然⾔語処理
    まとめ
    48

    View Slide

  49. まとめ
    49
    • NLP
    − ⾔葉の意味の計算をしたい︔⾔語処理,⾔語理解
    − ChatGPT︓やることの幅が広がって⾯⽩い時代に
    − たくさんの⾔語的・機械学習的オープンクエスチョン
    – 離散的対象と連続的対象が混ざった空間︔⾔語の複雑さ
    • OT × NLP
    − NLP と OT との親和性
    – “距離” 空間に埋め込まれている + 再帰構造を持つ
    − 埋込空間で点群間の距離(最適値)が欲しいケース
    – e.g. ⽂類似度
    − 埋込空間で点群同⼠のアラインメント(最適解)が欲しいケース
    – e.g. 多⾔語埋込の対応

    View Slide

  50. まとめ
    50
    • 興味を持たれたかた向けに,OT × NLP の詳細資料︓
    • “最適輸送と⾃然⾔語処理,” NLP 2023.
    − https://speakerdeck.com/eumesy/optimal-transport-for-
    natural-language-processing
    − NLPer 向け OT イントロ
    − 微分可能 OT や不均衡 OT の NLP 活⽤(最適値の話中⼼)
    • “構造を持った⾔語データと最適輸送,” NAIST DSC NLP
    Seminar 2023.
    − https://speakerdeck.com/eumesy/optimal-transport-for-
    structured-language-data
    − Wasserstein と Gromov–Wasserstein のアラインメント⽬線での考
    え⽅の違い
    − GW や劣モジュラ OT の NLP 利⽤(最適解の話中⼼)

    View Slide