Upgrade to Pro — share decks privately, control downloads, hide ads and more …

補足資料:LLMとは?

Avatar for hashiba daiki hashiba daiki
July 31, 2025
12

 補足資料:LLMとは?

Avatar for hashiba daiki

hashiba daiki

July 31, 2025
Tweet

Transcript

  1. © Stockmark Inc. ⾃然⾔語処理も関数で実現する ??? 入力 関数 出力 ?? ??

    I am an engineer. 数値表現 私はエンジ ニアです 数値表現 4
  2. © Stockmark Inc. ⾃然⾔語の数値表現: 単語を ID (⾃然数) で置き換え (1, 3,

    6, 7, 0) ⽂の各単語を ID で置き換えてエンコード‧デコードする 単語 ID の例: . → 0, I → 1, you → 2 am → 3, is → 4, a → 5, an → 6, engineer → 7, engineers → 8 。 → 100, 私 → 101, は → 102, あなた → 103, です → 104, エンジニア → 105 I am an engineer. (101, 102, 105, 104, 100) 私はエンジニアです。 5
  3. © Stockmark Inc. ⾃然⾔語処理は整数列の変換問題とみなせる ??? 入力 関数 出力 数値表現 私はエンジ

    ニアです 数値表現 (1, 3, 6, 7, 0) I am an engineer. (101, 102, 105, 104, 100) ??? 6
  4. © Stockmark Inc. ⾔語モデルを上⼿く使えば他のタスクも解ける ⾔語モデル 英⽂は以下の通りです。 I am an engineer.

    ⽇本語⽂は以下の通りです。 ___ 私はエンジニアです。 あくまで言語モデルの問題 (次の単語の予測) だが、 間接的に翻訳問題が解けている 9
  5. © Stockmark Inc. ⾃然⾔語処理の歴史 = より⾼精度な関数の実装の歴史 関数の作成⽅法 初期 中期 現代

    ニューラルネットワークの学習 ⼈⼿によるルール作成 精度: ⾼ ⼤規模ニューラル⾔語モデルの学習 10
  6. © Stockmark Inc. 初期の関数: 単語IDに対するルール作成 入力と出力の 変換ルール を作成 (1, 3,

    5, 7, 0) (101, 102, 105, 104, 100) 変換ルールの例: (1, 3, *, 0) → (101, 102, *, 100), (7) → (105), (5) → () I am an engineer. ルールによる変換 = 関数 私はエンジニアです。 11
  7. © Stockmark Inc. ルールベースの限界: ルールの網羅は不可能 I am an engineer. You

    are engineers. (1, 3, 5, 7, 0) (1, 3, 8, 0) 意味がほとんど同じだが 新しいルールが必要 → 必要なルール数が膨大に 12
  8. © Stockmark Inc. ニューラルネットワークは学習できる ニューラルネットワークは大量の (入力, 出力) のペアから関数を 学習 し,

    未知のデータに対し 予測できる (5, 3, 3, 2) (10, 5, 2) (5, 3, 1, 1) 1 2 1 学習データ 学習データ (5, 2 , 3) 1 未知のデータ 予測 → ルール変換の弱点 (ルールの網羅性 ) を克服! 14
  9. © Stockmark Inc. 最近: ⼤規模ニューラル⾔語モデルの台頭 ChatGPT, Gemini などはいずれも、「⼤規模なニューラルネットワークで実装され た⾔語モデル (という関数)」

    15 ユーザーは以下のテキストを入力しました: 今日の天気は何ですか? それに対してあなたはこう答えます: ____ ここを連鎖的に埋めているだけ!
  10. © Stockmark Inc. ここまでのまとめ • ⾃然⾔語処理の関数は次の順番で進化してきた ◦ ルールベース ◦ ニューラルネットワーク

    ◦ ⼤規模ニューラル⾔語モデル • ニューラルネットワークはデータから学習できる特殊な関数 • ⾔語モデルは次の単語を予測する関数 16