LLM入門教材_ 「意味の固定」がなぜ AI 活用の勝負所になるのか_プレゼン版

データマネジメント実務者のための LLM 入門教材「意味の固定」がなぜ AI 活用の勝負所になるのか 2026年2月改訂版

この教材の到達点 1 LLMが「何を学習して」「どう出力しているか」を最低限の内部構造で説明できる 2 トークン化・埋め込みが、検索・データ基盤・ガバナンス設計とどうつながるかを説明できる 3 「意味の固定（セマンティックレイヤー）」と「操作の厳密性（オントロジー）」の必要性を説明できる

第1章 LLMとは何か：「次のトークンを当てる機械」 LLM ＝「次のトークンを当てる確率モデル」（スマホ予測変換の超強力版）文字列 → トークン化 → トークンID
→ 埋め込み → ベクトル列 → Attention/FFN → 次トークン予測トークン化文章を“モデルが食べられる粒”に分解しID化埋め込みトークンIDを意味の座標（ベクトル）に変換 Attention 文中のどこを強く参照するか重みづけ FFN 集めた情報を層ごとに加工して表現を作り替え LLMは「真偽判定機械」ではなく「続きをそれっぽく出す機械」→ 意味の固定が必要

第2章トークン：LLMが文章を「食べる」前の下ごしらえなぜトークン化が必要か LLMは数値しか扱えない。文字列をそのまま処理できないため、必ず「区切ってID化」する。サブワード分割単語より細かく、文字より賢く分割。未知語や日本語でも破綻しにくい。BPE、SentencePiece が代表例。 LLM内部処理の4ステップ
1 文章をID列にする vocab（語彙表＝辞書）で対応 2 IDをベクトルに置換意味っぽい座標へ変換 3 文脈でベクトル更新 Attention＋FFNで文脈表現に 4 候補に点数→確率→選択 softmaxで確率分布を作成 DM実務者への接続：vocabは「コード表」、トークンIDは「コード値」。確率が出るのは最後だけ。

第3章埋め込み（Embedding）：言葉に座標を与える離散的なID（トークン）を、連続値ベクトル空間の点に写像する。類似語は近く、無関係な語は遠くに配置。静的Embedding（Word2Vec）単語ごとに固定のベクトル「bank」はいつでも同じ位置同音異義語・多義語に弱い文脈Embedding（BERT以降）同じ単語でも文脈で表現が変化
金融の“bank” ≠ 川の“bank” ✓ 曖昧さが文脈でほどける → 精度向上 DM実務者への接続：embeddingは「近さで結合するための座標」。DBのキー一致結合に対し、ベクトル検索は近傍で曖昧結合。

第4-6章 Transformer ＆生成 vs 理解＆ハルシネーション Attention（注意機構）文脈中の「どこを参照するか」を重みづけ。照
応や依存関係の解決に効く。 FFN：混ぜた情報を層ごとに加工し表現を作り替える BERT（理解系）穴埋め学習で文脈理解。分類・抽出・検索に強い。 GPT系（生成系）次トークン予測の繰返し。指示追従・ツール利用で業務にも。第6章誤読とハルシネーション：どこで起き、どう減らすか誤読：渡した情報を読み違える（参照の抜け・取り違え）ハルシネーション：無い事実を作る（尤もらしさで補完）対策：入力を短く構造化＋参照できる根拠を与える（→ RAG / セマンティックレイヤー）

第7章検索とRAG：LLMに「根拠の足場」を渡すユーザー質問 → 検索 (KW/ベクトル/ ハイブリッド) → 根拠断片をプロンプトに
→ LLMが根拠参照で生成検索の3流派 BM25（キーワード）単語出現で関連度を計算。透明で監査・説明に向く。ベクトル検索 embedding＋近傍探索。類義語・言い換えに強い。ハイブリッド（RRF）両方を組み合わせ。実務では最も一般的。 RAGの限界 → 次章へ根拠が複数あり定義が揺れる／文章ベースで操作の契約になっていない → セマンティックレイヤー＆オントロジーが必要

第7章（続き） RAGの発展：GraphRAG / Self-RAG / CRAG GraphRAG 文書からエンティティや関係を抽出しグラフ構造を構築。「部署Aの施策がどのKPI・データ定義に依存するか」のような関係を辿る問いに有効。グラフ構築の設計（粒度・正規化）が必要。 Self-RAG
必要なときに検索し、生成内容も自己批評して改善。「検索すべきか」の判断もモデルが行う。 Corrective RAG（CRAG）検索結果の品質を評価し、修正・追加検索で補正。「根拠を拾う」→「根拠の扱いを制御する」段階へ。 B-treeがスカラー検索のインデックスなら、HNSWはベクトル検索（意味の近さ）のインデックス

第8章セマンティックレイヤー：「意味の固定」 RAGで根拠を渡しても社内で起きること： ✕ 根拠（文章）が複数あり、定義が揺れる ✕ 指標・粒度・結合条件が暗黙で、部署ごとに解釈が変わる ✕ LLMが“それっぽい統合”をして監査不能にセマンティックレイヤー
＝意味の固定装置ビジネス指標・粒度・エンティティ関係・結合条件を一箇所に宣言し、共通参照可能にする。 LLMの「自由作文してよい領域」と「定義で拘束すべき領域」を分離する境界線。技術の流れ（1〜7章）からの説明： LLMは尤もらしさに寄る（1章） → 長文で読み違える（6章） → RAGでも定義が揺れる（7章） → → 定義済みメトリクスを呼ぶ形にする

第9章オントロジー：AIが「操作」する世界の厳密性セマンティックレイヤーは「読み取り専用」→ AIが「動かす」側に広がると足りなくなる操作に伴うルール： ▸ 誰が（権限） ▸ 何の対象に（エンティティ間の関係） ▸
どの条件で（制約・前提条件） ▸ やり直せるか（履歴・ロールバック）場面必要な層先月の売上は？セマンティックレイヤーこの部品を発注してオントロジー請求先を変更してオントロジー企業事例：Toyota「O-Beya」大部屋文化をデジタル化。複数AIエージェント＋ベクトル検索で設計・意思決定を加速。参照・定義・権限・履歴がセットで必要。

第10章まとめ：データマネジメントの主戦場トークン化＝「コード化」（文字列→ID） ↓ 埋め込み＝「近さで結合するための座標」 ↓ RAG ＝
根拠の足場。ただし文章のままでは定義が揺れる ↓ セマンティックレイヤー＝指標・粒度・結合条件を契約として固定 ↓ オントロジー＝操作に必要な対象・関係・制約・権限・履歴 ★ 核心：LLM活用の勝負所は「モデル選定」より「意味の固定・供給・検証（ガバナンス含む）」にあり

付録業界動向 & 参考文献 1 自律化 AIがワークフローの実行主体へオペレーティングモデルが変わる 2 Vertical
AI 汎用AIから業界特化へ医療・建設・法務など 3 ガバナンス標準化説明可能性・倫理・監査が「企業品質」になる主要参考文献 ▸ Vaswani et al. (2017) "Attention Is All You Need" ▸ Devlin et al. (2018) "BERT" ▸ Lewis et al. (2020) "Retrieval-Augmented Generation" ▸ Liu et al. (2023) "Lost in the Middle" ▸ Malkov & Yashunin (2016) "HNSW" ▸ dbt Semantic Models / W3C OWL 2 ▸ Microsoft Research: GraphRAG ▸ Toyota O-Beya (Microsoft News / DevBlogs) LLM入門教材 ― DM実務者向け（2026年2月改訂版）

LLM入門教材_ 「意味の固定」がなぜ AI 活用の勝負所になるのか_プレゼン版

LLM入門教材_ 「意味の固定」がなぜ AI 活用の勝負所になるのか_プレゼン版

たなまい

More Decks by たなまい

Featured

Transcript

データマネジメント実務者のための LLM 入門教材「意味の固定」がなぜ AI 活用の勝負所になるのか 2026年2月改訂版

第1章 LLMとは何か：「次のトークンを当てる機械」 LLM ＝「次のトークンを当てる確率モデル」（スマホ予測変換の超強力版）文字列 → トークン化 → トークンID

第4-6章 Transformer ＆生成 vs 理解＆ハルシネーション Attention（注意機構）文脈中の「どこを参照するか」を重みづけ。照

第7章検索とRAG：LLMに「根拠の足場」を渡すユーザー質問 → 検索 (KW/ベクトル/ ハイブリッド) → 根拠断片をプロンプトに

第9章オントロジー：AIが「操作」する世界の厳密性セマンティックレイヤーは「読み取り専用」→ AIが「動かす」側に広がると足りなくなる操作に伴うルール： ▸ 誰が（権限） ▸ 何の対象に（エンティティ間の関係） ▸

第10章まとめ：データマネジメントの主戦場トークン化＝「コード化」（文字列→ID） ↓ 埋め込み＝「近さで結合するための座標」 ↓ RAG ＝

付録業界動向 & 参考文献 1 自律化 AIがワークフローの実行主体へオペレーティングモデルが変わる 2 Vertical