Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLM入門教材_ 「意味の固定」がなぜ AI 活用の勝負所になるのか_プレゼン版

Avatar for たなまい たなまい
February 20, 2026
1

LLM入門教材_ 「意味の固定」がなぜ AI 活用の勝負所になるのか_プレゼン版

Avatar for たなまい

たなまい

February 20, 2026
Tweet

Transcript

  1. 第1章 LLMとは何か:「次のトークンを当てる機械」 LLM = 「次のトークンを当てる確率モデル」(スマホ予測変換の超強力版) 文字列 → トークン化 → トークンID

    → 埋め込み → ベクトル列 → Attention/FFN → 次トークン予測 トークン化 文章を“モデルが食べられる粒”に分解しID化 埋め込み トークンIDを意味の座標(ベクトル)に変換 Attention 文中のどこを強く参照するか重みづけ FFN 集めた情報を層ごとに加工して表現を作り替え LLMは「真偽判定機械」ではなく「続きをそれっぽく出す機械」→ 意味の固定が必要
  2. 第2章 トークン:LLMが文章を「食べる」前の下ごしらえ なぜトークン化が必要か LLMは数値しか扱えない。文字列をそのまま処 理できないため、必ず「区切ってID化」する。 サブワード分割 単語より細かく、文字より賢く分割。未知語や 日本語でも破綻しにくい。BPE、SentencePiece が代表例。 LLM内部処理の4ステップ

    1 文章をID列にする vocab(語彙表=辞書)で対応 2 IDをベクトルに置換 意味っぽい座標へ変換 3 文脈でベクトル更新 Attention+FFNで文脈表現に 4 候補に点数→確率→選択 softmaxで確率分布を作成 DM実務者への接続:vocabは「コード表」、トークンIDは「コード値」。確率が出るのは最後だけ。
  3. 第4-6章 Transformer & 生成 vs 理解 & ハルシネーション Attention(注意機構) 文脈中の「どこを参照するか」を重みづけ。照

    応や依存関係の解決に効く。 FFN:混ぜた情報を層ごとに加工し表現を作り替え る BERT(理解系) 穴埋め学習で文脈理解。分 類・抽出・検索に強い。 GPT系(生成系) 次トークン予測の繰返し。 指示追従・ツール利用で業 務にも。 第6章 誤読とハルシネーション:どこで起き、どう減らすか 誤読:渡した情報を読み違える(参照の抜け・ 取り違え) ハルシネーション:無い事実を作る(尤もらしさ で補完) 対策:入力を短く構造化 + 参照できる根拠を与える(→ RAG / セマンティックレイヤー)
  4. 第7章 検索とRAG:LLMに「根拠の足場」を渡す ユーザー質問 → 検索 (KW/ベクトル/ ハイブリッド) → 根拠断片を プロンプトに

    → LLMが 根拠参照で生成 検索の3流派 BM25(キーワード) 単語出現で関連度を計算。 透明で監査・説明に向く。 ベクトル検索 embedding+近傍探索。 類義語・言い換えに強い。 ハイブリッド(RRF) 両方を組み合わせ。 実務では最も一般的。 RAGの限界 → 次章へ 根拠が複数あり定義が揺れる/文章ベースで操作の契約になっていない → セマンティックレイヤー&オントロジーが 必要
  5. 第7章(続き) RAGの発展:GraphRAG / Self-RAG / CRAG GraphRAG 文書からエンティティや関係を抽出しグラフ構造を構築。「部署Aの施策がどのKPI・データ定義に依存する か」のような関係を辿る問いに有効。グラフ構築の設計(粒度・正規化)が必要。 Self-RAG

    必要なときに検索し、生成内容も自己批評して 改善。「検索すべきか」の判断もモデルが行う 。 Corrective RAG(CRAG) 検索結果の品質を評価し、修正・追加検索で補 正。「根拠を拾う」→「根拠の扱いを制御する 」段階へ。 B-treeがスカラー検索のインデックスなら、HNSWはベクトル検索(意味の近さ)のインデックス
  6. 第8章 セマンティックレイヤー:「意味の固定」 RAGで根拠を渡しても社内で起きること: ✕ 根拠(文章)が複数あり、定義が揺れる ✕ 指標・粒度・結合条件が暗黙で、部署ごとに解釈が変わる ✕ LLMが“それっぽい統合”をして監査不能に セマンティックレイヤー

    = 意味の固定装置 ビジネス指標・粒度・エンティティ関係・結合条件を一箇所に宣言し、共通参照可能にする。 LLMの「自由作文してよい領域」と「定義で拘束すべき領域」を分離する境界線。 技術の流れ(1〜7章)からの説明: LLMは尤もらしさに寄る(1章) → 長文で読み違える(6章) → RAGでも定義が揺れる(7章) → → 定義済みメトリクスを 呼ぶ形にする
  7. 第9章 オントロジー:AIが「操作」する世界の厳密性 セマンティックレイヤーは「読み取り専用」→ AIが「動かす」側に広がると足りなくなる 操作に伴うルール: ▸ 誰が(権限) ▸ 何の対象に(エンティティ間の関係) ▸

    どの条件で(制約・前提条件) ▸ やり直せるか(履歴・ロールバック) 場面 必要な層 先月の売上は? セマンティックレイヤー この部品を発注して オントロジー 請求先を変更して オントロジー 企業事例:Toyota「O-Beya」 大部屋文化をデジタル化。複数AIエージェント+ベクトル検索で設計・意思決定を加速。参照・定義・権 限・履歴がセットで必要。
  8. 第10章 まとめ:データマネジメントの主戦場 トークン化 =「コード化」(文字列→ID) ↓ 埋め込み =「近さで結合するための座標」 ↓ RAG =

    根拠の足場。ただし文章のままでは定義が揺れる ↓ セマンティックレイヤー = 指標・粒度・結合条件を契約として固定 ↓ オントロジー = 操作に必要な対象・関係・制約・権限・履歴 ★ 核心:LLM活用の勝負所は「モデル選定」より「意味の固定・供給・検証(ガバナンス 含む)」にあり
  9. 付録 業界動向 & 参考文献 1 自律化 AIがワークフローの実行主体へ オペレーティングモデルが変わる 2 Vertical

    AI 汎用AIから業界特化へ 医療・建設・法務など 3 ガバナンス標準化 説明可能性・倫理・監査が 「企業品質」になる 主要参考文献 ▸ Vaswani et al. (2017) "Attention Is All You Need" ▸ Devlin et al. (2018) "BERT" ▸ Lewis et al. (2020) "Retrieval-Augmented Generation" ▸ Liu et al. (2023) "Lost in the Middle" ▸ Malkov & Yashunin (2016) "HNSW" ▸ dbt Semantic Models / W3C OWL 2 ▸ Microsoft Research: GraphRAG ▸ Toyota O-Beya (Microsoft News / DevBlogs) LLM入門教材 ― DM実務者向け(2026年2月改訂版)