Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ことばの意味を計算するしくみ

 ことばの意味を計算するしくみ

言語処理学会第31回年次大会(NLP2025)チュートリアル資料

Hitomi Yanaka

March 09, 2025
Tweet

More Decks by Hitomi Yanaka

Other Decks in Research

Transcript

  1. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 本日 内容 • 導入:こと 意味と • こと 意味 理論と計算:分布意味論と形式意味論、

    自然言語処理と計算言語学 • 自然言語処理と計算言語学 合流1:言語モデル 分析 • 自然言語処理と計算言語学 合流2:意味解析と推論 • まとめと今後 展望 3
  2. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 こと (自然言語) 意味と ? • さまざまな側面や性質がある(これから紹介します) • さまざまな研究分野が関わる ◦

    自然言語処理 ◦ 言語学 ◦ 哲学 ◦ 認知科学 … • 直接研究対象として扱う 難しい ◦ こと 意味に関して何らか 立場をとり、 こと 意味を別 「こと 」で論じる必要がある ◦ メタ言語:分析対象を記述する側 言語 ◦ オブジェクト言語:分析対象 言語 5
  3. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 私たちがこと 意味について判断できること 「太郎しか泳がなかった」という文に対して…  • 「太郎だけが泳いだ」 同じ意味(同義) • 「太郎だけが泳がなかった」 反対

    意味(反義) • 「太郎だけが平泳ぎをした」と近い意味(類義) • 「太郎しかが泳いだ」 おかしな意味(容認不可能) 母語話者 文を与えられたとき、そ 文が容認可能である(文と して理解できる)か否かを、即座に判断できる 容認可能な文について 、そ 意味も即座に理解できる 6 ※容認可能という判断と容認不可能という判断 非対称であることに注意
  4. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 こと 意味をとらえる単位 • 単語 「犬」 「長崎」よりも「猫」と意味が近い • フレーズ cut

    cost payと、cut wood chopと意味が近い • 文 「社員 何人か 男性だ」と 「全て 社員が男性であるわけで ない」 意味が近い 7
  5. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 こと 意味 曖昧性 • 単語・フレーズ ◦ 同音異義語「 しがここにある」(橋、箸、端) ◦

    多義性「洋服を縫う」「人混みを縫う」 ◦ 用法 違い「雪 白くて冷たい」「雪が降って積もった」 • 文 ◦ 構 的曖昧性 ◦ 解釈 違い • 発話 ◦ 省略 ◦ 言外 意味 8
  6. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 こと 意味 曖昧性:文 • 文 ◦ 構 的曖昧性 ▪

    警官が[[[自転車で逃げる]泥棒を]追いかけた] ▪ 警官が[[自転車で][逃げる泥棒を追いかけた]] ◦ 解釈 違い 「3人 研究者が5本 論文を査読した」 ▪ 分配読み(distributive reading) 3人 研究者がそれぞれ5本 論文を査読した ▪ 集団読み(collective reading) 3人 研究者が一緒に5本 論文を査読した ▪ 累積読み(cumulative reading) 3人 研究者が合計で5本 論文を査読した 9 構成素(constituent): 文 構 単位として機能する語 まとまり
  7. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 こと 意味 曖昧性:発話 • 発話:伝達 ため 言語使用 ◦ 省略(ellipsis)

    ▪ 僕 うなぎだ ▪ 花子 太郎より研究が好きだ ▪ 太郎 急いで長崎に行ったけど、花子 行かなかった ◦ 言外 意味、意図 ▪ こ 部屋 寒い ▪ そこに水たまりがあるよ ▪ そこに塩 ある? 10 ここまで ポイント: 「こと 意味」に 、いくつも 粒度がある
  8. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 こと 意味に関する原理:合成性 • 合成性原理 (principle of compositionality)[Frege,1884] 言語表現 意味

    そ 構成素をなす表現 意味と、それら 結合方法によって定まるという原理 • 次 二つ 文 同じ単語からなるが、意味 異なる ◦ 子供が走っている猫を見ている ◦ 猫が走っている子供を見ている • 言語表現 意味 、語 意味 組み合わせだけでなく、統語 構 による影響を受ける 11
  9. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 12 合成性と体系性 • 合成性(compositionality) 人 これまで見たこと ない文も、文 構成素と統語構 にしたがっ

    てそ 文を理解できる • 体系性(systematicity)[Fodor and Pylyshyn,1988] 人 ある処理ができれ 、関連した処理もできる 80-90年代にコネクショニズム、現在でいうニューラルネットを批判す る文脈で提起された概念 John loves Annという文を理解できる人 、Ann loves Johnという文も理解でき る どちらか一方だけ 理解できる人 変?
  10. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 文間 関係に関する経験的判断:推論 • 推論(inference) ある命題(前提, premise)から別 命題(仮説, hypothesis) を導くこと

    ◦ 命題(proposition):真偽を問えるも (文 意味) • 前提が仮説を(意味論的に)含意する =前提が真である状況 もとで、仮説が常に真となる 13 前提P  子供が走っている猫を見ている 仮説H 1  猫が走っている     含意 仮説H 2  子供が走っている   非含意 日本語自然言語推論(NLI)データセットJaNLI [Yanaka&Mineshima,2021] https://huggingface.co/datasets/hpprc/janli
  11. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 含意・推意・前提 違い 含意・前提 増強不可能、推意 増強可能(reinforcible) • # 太郎が冷蔵庫 ロールケーキをほとんど食べた、

    しかし太郎が冷蔵庫 ロールケーキを食べた • # 太郎が冷蔵庫 ロールケーキをほとんど食べた、 しかし冷蔵庫にロールケーキがある • 太郎が冷蔵庫 ロールケーキをほとんど食べた、 しかし太郎 冷蔵庫 ケーキをすべて食べたわけで ない 前提 投射的(projective, 否定や様相に埋め込まれても文全体に 意味が引き継がれる)、含意 投射的でない • 太郎が冷蔵庫 ロールケーキをほとんど食べなかった →冷蔵庫にロールケーキがある 15
  12. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 こと 意味と ?:使用説[Wittgenstein,1953] ここまでで紹介したこと 意味に関する様々な事実を説明する ようなこと 意味 理論が、言語哲学で 議論されてきた。そ

    中 一つ 説が使用説 • こと 意味と 、そ こと 使用法 • こと 意味がわかると 、そ こと 使用法がわかると いうこと L. Wittgenstein, 2009, Philosophical Investigations (鬼界彰夫訳, 哲学探究, 2020): 「意味」という語が使われる多く 場合に—すべて 場合で ないとして も— こ 語 次 ように説明することができる。すなわち、語 意味と 、言語におけるそ 使われ方である、と。 19
  13. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 分布意味論(distributional semantics) 分布仮説に基づいて、語 意味からこと 意味をとらえる 分布仮説(distributional hypothesis):語 意味 そ

    語 周 辺に現れる語(文脈, context)によって定まる Zellig Harris, 1954: “oculist and eye-doctor…occur in almost the same environments. … If A and B have almost identical environments we say that they are synonyms.” J. R. Firth, 1957: “You shall know a word by the company it keeps!” (使用説に対する)批判:合成性(人 これまで見たこと ない文 も、文 構成素と統語構 にしたがってそ 文を理解できる)を ど ように説明するか? 20
  14. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 こと 意味と ?:真理条件説[Davidson,1967] • こと 意味と 、こと 真理条件(truth condition,

    こと がど ような状況で 真となり、ど ような状況で 偽となる か) こと • こと 意味がわかると 、そ こと 真理条件がわかる ということ 例)文「東京 晴れ、かつ、埼玉 雨」 真理条件   こ 文が真である 、   「東京 晴れ」と「埼玉 雨」がどちらも真 ときであり、   こ 文が偽である 、   「東京 晴れ」と「埼玉 雨」 少なくとも一方が偽 とき 21
  15. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 形式意味論(formal semantics) • 真理条件的意味論 (truth-conditional semantics)に基づいて、文 意味からこと 意味をとらえる •

    定名詞句 意味を指示対象(個体)、述語 意味を指示対象 集 合(個体に対し真理値を返す関数)として解釈し、 語 意味から合成的に文 意味を説明する 例)文「日本 国である」 真、文「東京 国である」 偽 定名詞句「日本」「東京」:個体を指示する 述語「… 国である」:「日本」や「スイス」という個体に対し真を返し、「東京」と いう個体に対し偽を返す関数 (述語に個体を代入することで、文 真理値が定まる) 22 … 国である (真理条件説に対する)批判: 疑問文や命令文など真理値をもたない文 存在
  16. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 意味表現、意味表示(semantic representation) 自然言語処理と計算言語学 合流点: こと 意味を計算可能な形式(意味表現、意味表示 )で表し、 推論によって意味表現 妥当性を検証する

    自然言語処理 (Natural Language Processing): 分布意味論に基づいてベクトル表現でこと 意味を分析 計算言語学 (Computational Linguistics): 形式意味論に基づいて論理表現などでこと 意味を分析 23
  17. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 自然言語処理:分布意味論に基づくアプローチ • 大量 テキスト(コーパス)から統計的に文脈に基づいて語 意味を学習し、ベクトルで語 意味を表す ◦ 伝統的な方法として 、前後に現れる語

    共起頻度を要素とす る行列を作り、単語ベクトルを構成 ◦ 意味が似ている語 、似たベクトルで表される 議論:大規模言語モデル(LLM) 分布意味論に基づく? [Enyan+2024] • 訓練データ 規模 分布意味論 定義に含まれない • 指示チューニング(タスク 指示と入出力ペア 学習) 学習 時 データ分布を変える可能性 あるが、こと 意味を言 語使用 分布に基づいて表すという分布意味論 考え方から 外れるも で ない 25
  18. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 単語 分散表現 (単語埋め込み:word embedding) 密なベクトルv one-hotベクトルxに変換⾏列Wをかけて得られる : v =

    Wx - x 次元 語彙数 - v 次元 埋め込みたい数(ハイパーパラメータ) - W 重みを表す埋め込み行列、コーパスから学習 27
  19. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 単語 意味から文 意味 計算へ:言語モデル 単語列(文)w 1 , w 2

    ,…,w i-1 次に続く単語w i 出現確率(確からしさ)P(w 1 , w 2 ,…,w i )を計算するモデル     P(今日, ,天気, ,GPT)=0.0000003     P(今日, ,天気, ,パンダ)=0.0000007     P(今日, ,天気, ,晴れ)=0.0000127 出現確率が高い文を自然な文として生成     →今日, ,天気, ,晴れ 28
  20. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 大規模言語モデル 根幹:Transformer [Vaswani+ 2017] 29 • Self-Attentionに基づく Encoder-Decoderモデル •

    Self-Attention: 単語列(文)中 ある単語 埋め込みベクトル を前後 単語(文脈) 埋め込 みベクトルで重みづけする • Encoder-Decoder: 単語列を 埋め込みベクトルに変換する Encoderモデルと、埋め込みベ クトルを受け取り1単語ずつ生成 するDecoderモデル • 計算処理を並列化でき、計算効 率が上がり、大規模言語モデル 誕生へ Encoder
 Decoder
  21. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 GPT-3:in-context learning[Brown+, 2020] • OpenAIが開発した大規模言語モデル • 基本的な構成 GPTと同じだが、事前学習に用いるデータサ イズやパラメータ数が桁違いに大きい

    ◦ 570GB テキストデータで事前学習、パラメータ数 175B • GPT-3以前 モデル タスクに併せてモデル アーキテク チャを変更する必要があった ◦ NLIなら、最終層に分類タスクを解く層を追加するなど • GPT-3以降で タスク 指示と少数 正解例をプロンプトとし て入力に含めてしまうin-context learningが主流となり、アー キテクチャ 変更が不要となった 31
  22. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 言語モデル 解釈性(interpretability) 問題 ベクトルによる意味表現やベクトル表現を用いた推論 原則ブ ラックボックスであり、ど ようにこと 意味をとらえている か

    説明が難しい 34 入力: 「私 泳げなくないわけで ない」と発言した 話者 泳げますか? 出力: 話者 泳げます 自然言語処理と計算言語学 合流 1:言語モデル 分析に形式意味論 知見を活用できないか?
  23. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 35 言語モデル 合成性や体系性を獲得しているか John loves Annという文を理解できる人 、Ann loves Johnという文も理解でき

    る。 どちらか一方だけ 理解できる人 変? • 合成性(compositionality) 人 これまで見たこと ない文も、文 構成素と統語構 にしたがっ てそ 文を理解できる • 体系性(systematicity)[Fodor and Pylyshyn,1988] 人 ある処理ができれ 、関連した処理もできる 80-90年代にコネクショニズム、現在でいうニューラルネットを批判す る文脈で提起された概念 再掲
  24. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 単調性推論(monotonicity) 量化表現や否定表現など 単調性に基づき、文中 構成素を 意味的に上位 / 下位 構成素に置き換えた文と、 元

    文と 含意関係が成立する推論現象 [van Benthem,1983] 上方含意(Upward entailing)↑: 意味的に下位 構成素から上位 構成素へ 含意関係が成立 36 前提P: ある日本人がノーベル文学賞↑を受賞した 仮説H: ある日本人がノーベル賞を受賞した 含意 ある日本人 ノーベル賞受賞 ノーベル文学賞受賞
  25. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 単調性推論(monotonicity) 下方含意(Downward entailing)↓: 意味的に上位 構成素から下位 構成素へ 含意関係が成立 単調性推論 特性:

    • 量化表現や否定表現など 単調性と 構成素 置き換え で含意関係が定まる • 上位・下位 置き換え しかた も様々な種類がある (語彙 置換・追加・削除) 37 P: 今年日本人 ノーベル賞↓を受賞しなかった H1: 今年日本人 ノーベル文学賞を受賞しなかった  含意 H2: 今年日本人 ノーベル文学賞と化学賞を受賞しなかった 含意 ノーベル賞受賞 ノーベル文学賞受賞 日本人
  26. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 文脈自由文法を用いた単調性推論データ 自動構築 1. 文脈自由文法を用いて量化表現を含む前提文を生成 生成規則N→{dogs}, IV→{ran}, TV→{chased}, Q→{some}, NP→Q

    N|Q N Sbar, S→ NP IV, Sbar→which TV NP から生成される文 Some dogs ran (再帰的規則 適用回数n=1 とき) Some dogs which chased some dogs ran (n=2 とき) Some dogs which chased some dogs which chased some dogs ran (n=3 と き) 2. 単調性に従い構成素 表現を置き換えて仮説文を生成 P: Some dogs ran H: Some animals ran 含意 3. 前提文と仮説文を入れ換えて新たな推論ペアを生成 P’: Some animals ran H’: Some dogs ran 非含意 38 形式意味論における多様な構文・意味に関する知見が、 自然言語 評価・学習データセット 構築に活用できる
  27. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料    単調性推論に基づく言語モデル 体系性 評価 [Yanaka+2020] 39 学習 (i. 量化表現 種類を段階的に増やしデータを追加)

      ii. 量化表現全種類 × 置き換え1種類 組み合わせ P: A dog ran. H: An animal ran 含意 P: No animal ran. H: No dog ran 含意 P: A wild animal ran. H: An animal ran. 含意 P: No animal ran. H: No wild animal ran. 含意 評価 量化表現 × 置き換え 未知 組み合わせ some 上位語 置換 D2 L1 上位語 置換 形容詞 追加 D2 L2 D3 L2 D1 L1 D1 L2 D3 L1 a/an no 上位語 置換 no 形容詞 追加 形容詞 追加 a/an i. 量化表現1種類 × 置き換え全種類 組み合わせ P: Some dogs ran. H: Some animals ran. 含意 P: Some wild animals ran. H: Some animals ran. 含意
  28. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 単調性推論に基づく言語モデル 体系性 評価 BERT 量化表現と置き換え 未知 組み合わせからなる推論 に対して一部汎化、LSTMやTreeLSTM 汎化しない

        40 P: A wild animal ran. H: An animal ran. 含意 P: No animal ran. H: No wild animal ran. 含意 評価 量化表現 × 置き換え 未知 組み合わせ 学習 (i. 量化表現 種類を段階的に増やしデータを追加)   i. 量化表現1種類 × 置き換え全種類 組み合わせ P: Some dogs ran. H: Some animals ran. 含意 P: Some wild animals ran. H: Some animals ran. 含意 ii. 量化表現全種類 × 置き換え1種類 組み合わせ P: A dog ran. H: An animal ran. 含意 P: No animal ran. H: No dog ran. 含意
  29. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 単調性推論に基づく言語モデル 体系性 評価 BERT 量化表現と置き換え 未知 組み合わせからなる推論 に対して一部汎化、LSTMやTreeLSTM 汎化しない

    i. データを段階的に増やしていくとLSTMやTreeLSTMも性能向 上:データ拡張による部分的な改善 可能性 41 P: A wild animal ran. H: An animal ran. 含意 P: No animal ran. H: No wild animal ran. 含意 評価 量化表現 × 置き換え 未知 組み合わせ 学習 (i. 量化表現 種類を段階的に増やしデータを追加)   i. 量化表現1種類 × 置き換え全種類 組み合わせ P: Some dogs ran. H: Some animals ran. 含意 P: Some wild animals ran. H: Some animals ran. 含意 ii. 量化表現全種類 × 置き換え1種類 組み合わせ P: A dog ran. H: An animal ran. 含意 P: No animal ran. H: No dog ran. 含意
  30. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 意味表示を用いた言語モデル 体系性 評価 • COGS [Kim and Linzen,2020] 主語→目的語へ

    汎化、一階述語論理に基づく意味表示 学習:入力 John liked the meat → 出力 like(john, meat) テスト:入力 The kid liked John → 出力 like(kid, john) • SyGNS [Yanaka+2021] 未知 組み合わせへ 汎化、複数種類 意味表示 談話表示構 、一階述語論理、変数除去形式 ※意味表示 表現力 高さと系列変換タスクとして 扱いやすさ トレードオ フ 42
  31. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 合成性に関するTransformer 内部機序 分析 [九門・谷中,NLP2025,NAACL2025] 合成的汎化に寄与するサブネットワーク 探索と、統語情報 活用に 関する因果分析により、Transformer 内部機序を分析

    43 • 合成的汎化能力 高い サブネットワーク 存在を 実証的に発見 • 一方、見つかったサブネッ トワーク 統語情報を用 いた合成的な解法だけで なく、非合成的な解法にも 依存する傾向
  32. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 LLMが課題とする様々な推論現象    46 事実性推論 (veridical inference)[Ross&Pavlick19][Yanaka+24] P: 太郎 二郎が来たと気づいていた

    H: 二郎が来た 含意 P: 太郎 二郎が来たと信じていた H: 二郎が来た 非含意 時間推論(temporal inference)[Thukral+21][杉本+2024] P: 車 2時間で到着した H: 車 3時間以内に到着した 含意 P: 車 2時間で到着した H: 車 3時間で到着した 非含意 比較表現(comparative)[Haruta+20] P: 太郎 二郎より多く 本を買った H: 太郎 何冊か 本を買った 含意 P: 太郎 二郎より多く 本を買った H: 二郎 何冊か 本を買った 非含意 自然言語処理と計算言語学 合流 2:形式意味論に 基づいてこと 意味を解析し推論できないか?
  33. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 形式意味論 構成[戸次 (2017)「形式意味論」, 人工知能学事典] 1. 自然言語 意味と 何か、という問題について何らか 立場を

    採り、意味を表示するため 形式言語を定義 する 2. 自然言語 統語論について、何らか 立場を採る 3. 与えられた言語 与えられた文もしく 談話について、2. 統 語論が与える構 にしたがって、 1. による意味表示 (意味表現) を計算する機構を与える 4. そ 言語 個々 文また 談話について、3. によって予測さ れる意味と、母語話者 言語直観とを照合 することにより経験 的検証を行う。誤り 1.2.3. に遡り(通常 3. を)修正する 47
  34. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 形式意味論 礎:モンタギュー意味論 モンタギュー意味論[Montague, 1973] • 文 意味を真理条件(truth condition, 文がど

    ような状況で 真となり、ど ような状況で 偽となるかを示す条件)として とらえ、文間 含意関係を説明する • 自然言語 統語論に基づき論理式へ 翻訳を行い、状況を 表すモデルによって自然言語 意味 解釈を与える: 反証可能性 担保 48 自然言語 論理式 モデル 翻訳 解釈 オブジェクト言語 メタ言語
  35. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 意味論に基づく含意関係 計算:モデルによる解釈 • 述語論理 モデル:領域D(個体 集合)と述語が指示する個体 部分集合を指定する解釈I から構成 •

    含意関係:前提(論理式)が真であるすべて モデルにおいて、仮 説(論理式)も必ず真である • 前提が仮説を含意しないこと 、反例モデル 存在から示せる 49 前提「太郎 働き者かつ金持ちである」 働き者(太郎)∧金持ち(太郎) 仮説「働き者 皆金持ちである」    ∀x.(働き者(x)→金持ち(x)) 反例モデル: 前提 真、 仮説 偽 金持ち 働き者 太郎 次郎 モデル1 モデル2 金持ち 働き者 太郎 次郎 モデル1,2とも 領域D= {太郎、次郎}
  36. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 証明論に基づく含意関係 計算:証明図 導出 • モデル理論で含意関係 成立を示すに 、前提が真となるすべて モデルで仮説が真となることを示さないといけない •

    対して証明論的アプローチで 、前提(論理式)に推論規則を適用 して仮説(論理式)を導出することで、含意関係 成立を示すことが できる 50 前提1「働き者 皆金持ちである」  ∀x.(働き者(x)→金持ち(x)) 前提2「太郎 働き者である」    働き者(太郎) 仮説 「太郎 金持ちである」    金持ち(太郎) 前提ー仮説間 含意関係 証明図 例: ∀x.(働き者(x)→金持ち(x)) 働き者(太郎)→金持ち(太郎) 働き者(太郎) 金持ち(太郎) 含意記号(→)除去 全称量化子(∀)除去 推論規則 適用
  37. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 形式意味論に基づく意味解析・論理推論システム ccg2lambda[Mineshima+2015][Yanaka+2018]: 組合せ範疇文法に基づく意味解析・論理推論システム 他 形式意味論に基づく意味解析・論理推論システム: LangPro[Abzianidze+2017], MonaLog[Hu+2020], lightblue[Tomita+2024] 関連する意味解析システム、推論システムとして

    NeuralLog[Zhen+2021], Hy-NLI[Kalouli+2020], UDepLambda[Reddy+2017], Boxer[Bos,2015]など 51 ∃x∃y∃e (dog(x) & sheep(y) & touch(e) & subj(e,x) & obj(e,y)) 二匹 羊が寝ている。 
 犬が羊にさわっている。 
 論理式 A’’, B’’ CCG導出木 A’, B’ 前提文A 仮説文B 含意 関係 構文解析 意味解析 自動定理証明 unknown

  38. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 組合せ範疇文法[Steedman, 2000] • Combinatorial Categorial Grammar(CCG) 統語構 と意味解釈 対応が明示的かつ簡潔な文法理論

    • 語 語彙的・文法的な性質を統語範疇として辞書に記述し、 言語普遍的な性質を少数 統語規則で記述する語彙化文法 一つ • 統語範疇 定義: ◦ S, NP, N 統語範疇である。これを基底範疇という。 ◦ XとYが統語範疇なら 、X/YとY\Xも統語範疇である。こ れを関数型範疇 という。 • S(文), NP(名詞句), N(名詞) 52
  39. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 CCGに基づく構文解析と意味解析 • 辞書:語 統語範疇と意味表示を同時に指定(語彙項目) • 組合せ規則:統語構 構成方法と意味合成 計算方法を同 時に指定

    • 様々なCCG構文解析器が現在も研究されている ◦ 英語:C&C[Clark and Curran, 2007] ,HoLCCG[Yamaki+,2023] ◦ 日本語:depccg[Yoshikawa+,2017], lightblue[Tomita+,2024] 57 語 統語範疇 意味表示 John NP John love (S\NP)/NP λy.λx.love(x,y) 語 意味 ラムダ式で記述 (後で説明!) 辞書 例
  40. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 ラムダ計算:関数適用と関数抽象 重要な二つ 操作:関数適用と関数抽象 関数適用(function application) 関数 項に値を与える操作 (λx.run(x))(John)=run(John) :関数λx.run(x)にJohnという値を適用

    関数抽象(function abstraction) λと変項を用いて明示的に引数を示し新しい関数を作る操作 λx.love(x,y) 一番左側にλyを追加すると、yをλx.love(x,y)にマッ プする新しい関数λy.λx.love(x,y)が得られる 60
  41. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 意味表示 型 型つきラムダ計算 :モンタギュー意味論に じまる形式意味論 標準的な記述言語。文法理論と意味理論 シンプルで統一的な 計算体系 一つ

    例 62 語 意味表示 型 John John e run λx.run(x) e→t • eとt 型である。e 個体(entity)、t 真理値(type) 型を表す。 • αとβが型なら α→βも型である。 • それ以外 型で ない。 意味表示 型 定義
  42. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 CCGに基づく意味合成 65 語 統語範疇 意味表示 意味表示 型 John NP

    John e love (S\NP)/NP λy.λx.love(x,y) e→e→t John loves Mary CCG導出木と意味合成 例 語彙項目 例
  43. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 CCGに基づく意味合成:量化を伴う名詞句 • 文A dog runs 意味表示 ∃x.(dog(x)∧run(x)) • 述語dog、runを関数抽象すると、a

    意味表示 λF.λG.∃x.(F(x)∧G(x)) • 限定詞a 意味表示 型 、普通名詞dog (e→t)と自動詞run (e→t)を受け取り文(t)となる で、(e→t)→(e→t)→t • 名詞句a dog 意味表示 型 、限定詞aが普通名詞を受け 取って得られる で、(e→t)→t ◦ 先ほど 名詞句に対応するCCG 統語範疇NPに 、意味表 示 型eが対応づけられていたことに注意! ◦ 統語範疇と意味表示 型 対応づけを更新する必要がある 66
  44. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 統語範疇と意味表示 型 対応づけ(更新版) • CCG 統語範疇と組合せ規則 統語構 構成方法と意味合成 計算方法を同時に指定している

    • 統語範疇から意味表示 型へ 写像を定義する • 扱う言語現象に応じて、統語範疇と意味表示 型 対応づけを考 える必要がある 67
  45. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 CCGに基づく意味合成:量化を伴う名詞句 68 語 統語範疇 意味表示 意味表示 型 a NP/N

    λF.λG.∃x.(F(x)∧G(x)) (e→t)→(e→t)→t dog N λx.run(x) e→t run S\NP λQ.Q(λx.run(x)) e→t A dog runs CCG導出木と意味合成 例 語彙項目 例
  46. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 まとめ:ccg2lambdaを用いた含意関係 証明 ccg2lambda[Mineshima+2015][Yanaka+2018]: CCGに基づく構文解析・意味解析・論理推論システム 69 ∃x∃y∃e (dog(x) & sheep(y)

    & touch(e) & subj(e,x) & obj(e,y)) 二匹 羊が寝ている。 
 犬が羊にさわっている。 
 論理式 A’’, B’’ CCG導出木 A’, B’ 前提文A 仮説文B 含意 関係 構文解析 意味解析 自動定理証明 unknown
 https://github.com/mynlp/ccg2lambda
  47. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 ccg2lambdaを用いた含意関係 証明:(i) 構文解析 文A: Some cats are runningと文B: Some

    animals are running 意 味表示を構文解析・意味解析により導出し、含意関係を示す B: Some animals are running. A: Some cats are running. 70
  48. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 (ii) CCGに基づく意味解析 文A: Some cats are runningと文B: Some animals

    are running 意 味表示を構文解析・意味解析により導出し、含意関係を示す 71 B: Some animals are running. A: Some cats are running.
  49. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 (iii) 定理証明器を用いた自動推論 72 文間 含意関係を定理証明器(Coq, Vampireなど)で自動証明 • 語彙知識、常識的知識や世界知識 公理として補完

    • 証明過程を観測でき、解釈性がある A1: ∃e 1 ∃x 1 (cat(x 1 )∧run(e 1 )∧(subj(e 1 )=x 1 )) B1: ∃e 2 ∃x 2 (animal(x 2 )∧run(e 2 )∧(subj(e 2 )=x 2 )) 文A: Some cats are running. 文B: Some animals are running.   ① ② ③ ④ A2: cat(x 1 )∧run(e 1 )∧(subj(e 1 )=x 1 ) B2: animal(x 2 )∧sing(e 2 )∧(subj(e 2 )=x 2 ) A3: cat(x 1 ), A4: run(e 1 ), A5: subj(e 1 )=x 1 B3: animal(x 2 ), B4: run(e 2 ), B5: subj(e 2 )=x 2 A3: cat(x 1 ), A4: run(e 1 ), A5: subj(e 1 )=x 1 B3: animal(x 1 ), B4: run(e 1 ), B5: subj(e 1 )=x 1 存在量化子(∃) 除去 連言(∧) 除去 変数 単一化 公理 ∀x.cat(x)→animal(x)補完 サブゴール 除去
  50. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 まとめ:こと 意味を計算する2つ アプローチ アプローチ 自然言語処理 計算言語学 意味 理論 分布意味論(使用説)

    形式意味論(真理条件説) 意味 単位 語 意味 文 意味 意味表現 ベクトル表現 論理表現など 経験的な 利点 ・連続値・離散値問わず  end-to-endで計算 ・内容語 意味 扱い ・推論過程を解釈しやすい ・体系的な推論 ・機能語 意味 扱い 経験的な 課題 ・機能語 意味 扱い ・体系性 獲得 ・推論過程がblack-box ・内容語 意味 扱い ・連続値 計算 ・頑健なパイプライン処理 75
 …と必ずしもきれいに まとまらない!
  51. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 合成性を満たす分布意味論:合成分布意味論 Compositional Distributional Semantics (CDS) [Coecke,2010] 76 • 文

    統語構 を考慮して語 意味ベクトルを合成 ◦ 他動詞like ような項を取る語 意味を、項と同じベクトル空間 元 で なく、ベクトル空間 テンソル積 元として表し、テンソル 縮約 で項関係を考慮して意味合成 ◦ 型つきラムダ計算と 対応で述べると:関数 代わりにテンソル積、 関数適用 代わりにテンソル縮約を用いる • 実装で 量子計算が用いられる(量子言語処理、QNLP) ◦ DisCoPy: pythonツールキット https://discopy.org/
  52. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 CDS:前群文法に基づく意味合成 • 前群文法(Pregroup Grammar, PG) ◦ 語w 1 ,...w

    n 型をt 1 ,...t n とすると、文w 1 ,...w n がPG もとで文法的であ るとき、t 1 ・…・t n ≤ s が成り立つ ◦ 例:Mary likes wordsが文法的であることを示す 文 型をs、名詞 型をn、他動詞 型をnrsnlとする ※nrs 左にnをとりsになる型、snl 右にnをとりsになる型) n・nrsnl・n = (n・nr)・s・(nl・n ) ≤ 1・s・1  ≤ s ◦ CCGで解析しPGに変換する研究も[Yeung and Kertsaklis,2021] • PG コンパクト閉圏、ベクトル空間もコンパクト閉圏 ◦ PGに基づいて語 意味ベクトル(テンソル) 内積をとりテンソル 縮約を行うことで、文 意味表示を導出 ◦ 例 v mary ⊗v likes ⊗v words     v mary ,v words ∈ N, v likes ∈ N⊗S⊗N = N⊗N⊗S⊗N⊗N ≅ S 77 縮約n・nr≤ 1、nl・n≤ 1
  53. 言語処理学会第31回年次大会(NLP2025)チュートリアル資料 おわりに:こと 意味を多面的にみてみよう 82 • LLM 発展に伴い、他分野へ 自然言語処理応用や社会実 装 幅が広がる

    • 計算言語学と自然言語処理 合流: ◦ LLM 課題解決に向けた言語理論 活用 ◦ LLMと人 比較分析による言語理論 再検証 • 人がど ようにこと 意味を計算している か まだ十分 に解明されていない。こと 意味 研究 、様々な分野と立 場が関わる学際的な研究領域。自ら様々な立場から検討し反 証する形で相互尊重することによって、 こと 意味について 「真理」にさらに一歩近づける可能性 ご清聴ありがとうございました!