LLM入門教材_ 「意味の固定」がなぜ AI 活用の勝負所になるのか_QA補足資料

LLM 入門教材 Q&A 補足資料 LLM 入門教材― 「意味の固定」がなぜ AI 活用の勝負所になるのか ―
Q&A 補足 LLM 入門教材 Q&A 補足資料 ― 「意味の固定」がなぜ AI 活用の勝負所になるのか ― 本資料は、LLM 入門教材に対する初学者からの想定質問に答える補足資料です。教材本編の技術的説明を「自分の仕事との関係」で捕え直すための補助教材として位置づけています。 Part 1：モデルの内部構造に関する Q&A（第 1〜6 章の補足） Q1. vocab（語彙表）や embedding（埋め込み行列）は、どこにあるのですか？誰が作ったのですか？ A. どちらもモデル開発者（OpenAI、Anthropic、Meta、Google など）がモデル訓練の過程で作ります。格納場所は利用形態によって異なります。API 経由で使う場合は、モデルの重み（vocab・ embedding を含む）は提供者側のインフラに置かれており、利用者は直接保持しません。Llama などのオープンモデルをローカルで動かす場合は、利用者の PC や GPU 環境にモデルファイルとして格納されます。 vocab は、モデル訓練の前段階で作られます。大量のテキストに BPE や SentencePiece などのアルゴリズムを適用し、「どの文字列の並びをひとまとまりのトークンとするか」を統計的に決定します。出来上がった対応表（分割ルール＋ID）は、トークナイザー定義ファイルとしてモデルに同梱されます。通常、一度決めたら変更しません。完全に一からの再訓練（フルスクラッチ学習）が必須になるわけではありませんが、語彙を追加・変更した場合は、少なくともモデルに対する追加の学習プロセスが必要となります。例えば、英語圏で開発されたモデルに vocab を拡張して日本語トークンを追加し、継続事前学習で馴染ませる手法は広く確立されています。 embedding 行列は、サイズが「vocab_size × N 次元」の巨大な行列です（例：vocab 10 万 × 4096 次元）。この行列の各行が、あるトークン ID に対応する N 次元ベクトルです。初期値はランダムで、訓練を通じて「意味っぽい位置関係」が自然に獲得されます。N 次元の値（768、 4096、8192 など）はモデル開発者が設計時に決めるハイパーパラメータです。補足 DM 実務者向けに言い換えると、vocab は「コード体系のマスタテーブル」、embedding 行列は「コード値ごとの属性ベクトルを格納したテーブル」に相当します。tiktoken や Hugging Face の tokenizer ライブラリを使えば、vocab 側は直接確認できます。

Q&A 補足用語注釈 BPE（Byte Pair Encoding）：頻出する文字ペアを繰り返し統合していくサブワード分割法 SentencePiece：言語依存の分かち書きなしでサブワード化するトークナイザー。日本語のように単語境界が曖昧な言語でも使えるハイパーパラメータ：モデルが自動で学習する値ではなく、人間が設計時に決める設定値（層の数、次元数など）トークナイザー：自然言語処理（NLP）や大規模言語モデル（LLM）において、人間が書いたテキスト（文章）を、機械が処理できる最小単位の「トークン」に分割し、数値 ID に変換するツール Q2. vocab や embedding は、各社が自作するものですか？ A. いいえ。vocab も embedding 行列も基盤モデルの開発工程に含まれるため、一般企業が自作するものではありません。一般企業はモデルを API 経由やモデルファイルとして「使う側」です。関連する作業として、ファインチューニング（自社データでモデルの重みを微調整する）を一般企業が行うケースはあります。しかしこの場合も、vocab や embedding の構造自体は変更せず、値の一部を調整するだけです。LoRA のような手法では、モデル本体の重みは固定したまま、小さな「調整用パーツ」だけを追加して学習します。この調整用パーツは通常、モデル内部の計算を担う部分（Attention 層や FFN）に取り付けられ、vocab や embedding には手を入れないことが多いです。ただし、新しいトークンの追加や専門領域への適応が目的の場合は、embedding 層にも調整を加える設計もあります。vocab から作り直す事前学習を行うケースは、医療・法務・金融など高度に専門的な領域で存在しますが、計算資源・データ量ともに大規模な投資が必要で、実行できるのはごく一部の企業・研究機関に限られます。補足この教材の対象である DM 実務者の立場では、vocab・embedding・モデル構造は所与のインフラです。DM 実務者が手を入れるべきは、教材の第 8 章・第 9 章で扱っている「セマンティックレイヤーやオントロジー」の層、つまりモデルの上に載せる「意味の固定」の部分です。用語注釈 LoRA（Low-Rank Adaptation）：大きな重み行列を凍結し、小さな低ランク行列の差分だけを学習するファインチューニング手法。少ない計算資源でモデルを適応できるファインチューニング：事前学習済みモデルを、特定のタスクやドメインのデータで追加学習し、性能を調整すること

Q&A 補足 Q3. 第 1〜6 章の「モデルの内部構造」の知識は、DM 実務者としてどこまで必要ですか？ A. 設計・実装ができるレベルは不要です。必要なのは「なぜ後半（第 7 章以降）の施策が必要になるのか」を構造的に説明できる程度の理解です。具体的には、次の 3 点が説明できれば十分です。（1）LLM は次トークン予測であり、真偽判定をしているわけではないこと。（2）長文をそのまま渡しても万能ではなく、構造化や分割が有効であること。（3）モデルの出力は確率的であり、再現性や監査性を担保するには外部の仕組みが必要であること。これらの理解があれば、「なぜ RAG が要るのか」「なぜセマンティックレイヤーが要るのか」という後半の議論に、技術的な裏付けを持って臨めます。 Part 2：RAG・検索に関する Q&A（第 7 章の補足） Q4. RAG はモデル性能とは関係ない「検索の話」であり、位相が異なると考えてよいですか？ A. はい、基本的にその理解で合っています。 RAG の本質はモデルの外側の仕組みです。モデルの性能（パラメータ数、訓練データ、アーキテクチャ）をどう改善しても、モデルが持っていない社内情報は出てきません。RAG は「モデルを賢くする」のではなく「モデルに読ませる入力を良くする」話です。ただし、完全に無関係ではありません。接点が 2 つあります。（1）モデル側の能力が RAG の効果を左右します。検索で正しい根拠を渡しても、モデルのコンテキスト理解力が低ければ読み違えます（第 6 章の Lost in the Middle がまさにこれです）。RAG の天井はモデル性能に依存します。（2）モデル側に RAG を前提とした設計が入り始めています。最新のモデルでは「自分の知識で補完するより、渡された根拠に従う」ようアライメントで調整されており、モデルと RAG の境界は徐々に溶け始めています。教材本編の第 7 章で紹介されている Self-RAG は、「検索判断・生成・自己批評をモデル内部で一体化する」アプローチであり、この境界が溶ける具体例です。補足 DM 実務者にとっての実務上の整理としては、モデルは所与（選定するだけ）、RAG は自分たちが設計するもの、セマンティックレイヤー・オントロジーはさらに自分たちが作り込むもの、という三層で捕えるのが最も実用的です。

Q&A 補足 Q5. 教材の第 1〜6 章は「モデルの内部」、第 7 章から「モデルの外側」に話が移るという理解で合っていますか？ A. はい、その理解で合っています。教材の構成は、DM 実務者が「自分の手が届く範囲」に向かって進んでいく設計になっています。第 1〜6 章（モデル内部）：トークン化、embedding、Attention/FFN、生成と理解の設計思想、ハルシネーション。これらはモデル開発者の領域であり、DM 実務者は「なぜ後半の施策が必要か」を理解するための前提知識として押さえます。第 7 章（RAG）：モデルの外側に出て、検索と根拠供給の仕組みを設計する話です。ここから DM 実務者の守備範囲に入ります。第 8〜9 章（セマンティックレイヤー・オントロジー）：DM 実務者の専門性が最も直接的に活きる領域です。定義の固定、粒度設計、結合条件の管理、権限・履歴の設計は、データマネジメントそのものです。 Q6. RAG を導入すれば、ハルシネーション（嘘）はなくなりますか？ A. いいえ、なくなりません。 RAG はハルシネーションを「減らす方向」に働きますが、完全には防げません。教材の第 7 章で示されているとおり、RAG の限界は主に 3 つです。第一に、検索が外れるケースです。質問に対して的外れな文書が検索されれば、モデルはその的外れな根拠を基に回答を生成します。第二に、根拠が複数あって定義が揺れているケースです（例：「営業利益」の定義が部門で異なる）。第三に、根拠が文章のままで構造化されていないケースです。モデルは曖昧な文章を「それっぽく統合」してしまいます。このうち、②定義の揺れと③文章の曖昧さを潰すのが、セマンティックレイヤー（定義の固定）の役割です。これらの限界が、第 8 章のセマンティックレイヤーと第 9 章のオントロジーが必要になる理由に直結しています。

Q&A 補足 Part 3：セマンティックレイヤー・オントロジーに関する Q&A（第 8〜9 章の補足） Q7. セマンティックレイヤーとオントロジーの違いが、いまひとつピンときません。 A. 本教材の文脈では、セマンティックレイヤーは「読み取り（分析）のための意味の固定」、オントロジーは「操作（実行）のための世界の構造定義」として位置づけています。セマンティックレイヤーが答えるのは「売上とは何か」「粗利はどう計算するか」「この指標の粒度は月次か日次か」といった、データを正しく集計・参照するための契約です。dbt Semantic Layer のように、entities / dimensions / measures を定義して、共通の意味でクエリできる状態を作ります。オントロジーが答えるのは「この部品を発注するとき、誰の承認が要るか」「契約 A の請求先を変更できるのは誰か」といった、現実世界を変更する行為に伴う構造とルールです。概念（クラス）、関係（プロパティ）、制約を形式的に定義します。雑に判断基準は言えばシンプルです。AI に「答えさせる」だけならセマンティックレイヤー、AI に「動かさせる」ならオントロジーが必要になります。補足なお、情報科学におけるオントロジーの本来の定義は「対象世界の概念とその関係性の形式的な表現」であり、操作だけでなく高度な知識検索や推論（読み取りの高度化）にも広く活用されます（例：医療オントロジーSNOMED CT など）。本教材では、DM 実務者が「いつセマンティックレイヤーで足り、いつオントロジーが必要になるか」を判断しやすいよう、分析（読み取り）と操作（実行）の軸で整理しています。 Q8. 結局、DM 実務者としてまず何から始めればよいのですか？ A. 教材全体の流れを踏まえると、優先順位は次のとおりです。最優先は、社内で使われているビジネス指標の定義を棚卸しすることです。「売上」「粗利」「アクティブユーザー」などの指標が、部門や文脈によって異なる定義で使われていないかを確認します。LLM 以前の問題として、ここが揺れていればどんな AI ツールを入れても出力は信頼できません。次に、RAG で参照させる社内文書の構造化・品質管理です。第 7 章で見たとおり、RAG の性能は「拾ってくる根拠の質」に依存します。文書が整理されていない、古い版が混在している、メタデータがないといった状態では、検索精度が上がりません。

Q&A 補足その上で、セマンティックレイヤーの設計に着手します。 dbt Semantic Layer などのツールを使い、指標・粒度・結合条件を宣言的に定義します。これにより、LLM が「SQL を自由生成する」のではなく「定義済みのメトリクスを呼ぶ」形になり、ガバナンス・再現性・監査性が確保されます。補足教材の核心メッセージ「LLM 活用の勝負所はモデル選定より、意味の固定・供給・検証にあり」は、まさにこの順序を指しています。モデルは選ぶだけ、意味の固定は自分たちで作り込む ― この役割分担を明確にすることが出発点です。 Q10. 「操作する AI」になると、実際に何が必要になるのですか？企業事例はありますか？ A. 教材第 9 章で述べられているとおり、AI が「答える」から「動かす」に広がると、対象・関係・権限・状態の厳密な定義が必要になります。代表的な企業事例を 2 つ紹介します。 Palantir Foundry の Ontology： Palantir は自社プラットフォーム Foundry において、 Ontology を「オペレーション層」として位置づけています。データ資産を現実世界の対象（設備・注文・患者など）に結びつけ、アクション（トランザクション的な変更）や動的セキュリティまで含めた形で管理します。トヨタ「O-Beya」：トヨタの「O-Beya」は、もともとの“Obeya（大部屋）”文化をデジタル化した取り組みです。複数の AI エージェントが専門知を組み合わせて設計意思決定を支援する事例として、Microsoft が技術的に紹介しています。これらの事例が示す論点は共通しています。「チャットで賢く答える」だけでなく、業務プロセスの一部を担う AI になるほど、参照・定義・権限・履歴がセットで要求されます。まさにデータマネジメントが前面に出る場面です。補足教材本編の第 9 章でも触れられているとおり、現時点でオントロジーまで必要になる業界は限定的です（インフラ・金融・自動車・医療・大規模 SaaS など、プロダクトの不整合が重大な影響を持つ業界）。多くの企業にとっての実務的な第一歩は、セマンティックレイヤーの整備です。

Q&A 補足参考情報源 Q&A 補足で追加参照した情報源 • Hu et al. (2021) "LoRA: Low-Rank Adaptation of Large Language Models" — arXiv:2106.09685 • Geva et al. (2021) "Transformer Feed-Forward Layers Are Key-Value Memories" — arXiv:2012.14913 • Wei et al. (2022) "Emergent Abilities of Large Language Models" — arXiv:2206.07682 • Cui et al. (2023) "Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca" — arXiv:2304.08177 — 英語モデルへの日本語・中国語 vocab 拡張の代表例 • Yan et al. (2023) "Corrective Retrieval Augmented Generation (CRAG)" — arXiv:2401.15884 • dbt Semantic Layer — docs.getdbt.com/docs/build/semantic-models • W3C "OWL 2 Web Ontology Language" — w3.org/TR/owl2-overview • SNOMED CT — snomed.org — 医療オントロジーの代表例 • Palantir Foundry Ontology — palantir.com/docs/foundry/ontology/overview/ • Microsoft News "トヨタ自動車、エンジニアの知見を AI エージェントで継承へ" • Microsoft DevBlogs "How Toyota uses Azure Cosmos DB to power their multi-agent AI system" 本資料について本資料は、LLM 入門教材「意味の固定がなぜ AI 活用の勝負所になるのか」（2026 年 2 月改訂版）の補足 Q&A です。教材本編と合わせてご利用ください。

LLM入門教材_ 「意味の固定」がなぜ AI 活用の勝負所になるのか_QA補足資料

LLM入門教材_ 「意味の固定」がなぜ AI 活用の勝負所になるのか_QA補足資料

たなまい

More Decks by たなまい

Featured

Transcript

LLM 入門教材 Q&A 補足資料 LLM 入門教材― 「意味の固定」がなぜ AI 活用の勝負所になるのか ―

LLM 入門教材 Q&A 補足資料 LLM 入門教材― 「意味の固定」がなぜ AI 活用の勝負所になるのか ―

LLM 入門教材 Q&A 補足資料 LLM 入門教材― 「意味の固定」がなぜ AI 活用の勝負所になるのか ―

LLM 入門教材 Q&A 補足資料 LLM 入門教材― 「意味の固定」がなぜ AI 活用の勝負所になるのか ―

LLM 入門教材 Q&A 補足資料 LLM 入門教材― 「意味の固定」がなぜ AI 活用の勝負所になるのか ―

LLM 入門教材 Q&A 補足資料 LLM 入門教材― 「意味の固定」がなぜ AI 活用の勝負所になるのか ―

LLM 入門教材 Q&A 補足資料 LLM 入門教材― 「意味の固定」がなぜ AI 活用の勝負所になるのか ―