Q&A 補足 用語注釈 BPE(Byte Pair Encoding):頻出する文字ペアを繰り返し統合していくサブワード分割法 SentencePiece:言語依存の分かち書きなしでサブワード化するトークナイザー。日本語のように単語境 界が曖昧な言語でも使える ハイパーパラメータ:モデルが自動で学習する値ではなく、人間が設計時に決める設定値(層の数、次元数 など) トークナイザー:自然言語処理(NLP)や大規模言語モデル(LLM)において、人間が書いたテキスト (文章)を、機械が処理できる最小単位の「トークン」に分割し、数値 ID に変換するツール Q2. vocab や embedding は、各社が自作するものですか? A. いいえ。vocab も embedding 行列も基盤モデルの開発工程に含まれるため、一般企業が自 作するものではありません。 一般企業はモデルを API 経由やモデルファイルとして「使う側」です。 関連する作業として、ファインチューニング(自社データでモデルの重みを微調整する)を一般企業が 行うケースはあります。しかしこの場合も、vocab や embedding の構造自体は変更せず、値の一 部を調整するだけです。LoRA のような手法では、モデル本体の重みは固定したまま、小さな「調整用 パーツ」だけを追加して学習します。この調整用パーツは通常、モデル内部の計算を担う部分 (Attention 層や FFN)に取り付けられ、vocab や embedding には手を入れないことが多いで す。ただし、新しいトークンの追加や専門領域への適応が目的の場合は、embedding 層にも調整を 加える設計もあります。vocab から作り直す事前学習を行うケースは、医療・法務・金融など高度に 専門的な領域で存在しますが、計算資源・データ量ともに大規模な投資が必要で、実行できるのは ごく一部の企業・研究機関に限られます。 補足 この教材の対象である DM 実務者の立場では、vocab・embedding・モデル構造は所与のインフラで す。DM 実務者が手を入れるべきは、教材の第 8 章・第 9 章で扱っている「セマンティックレイヤーやオン トロジー」の層、つまりモデルの上に載せる「意味の固定」の部分です。 用語注釈 LoRA(Low-Rank Adaptation):大きな重み行列を凍結し、小さな低ランク行列の差分だけを学 習するファインチューニング手法。少ない計算資源でモデルを適応できる ファインチューニング:事前学習済みモデルを、特定のタスクやドメインのデータで追加学習し、性能を調整す ること