Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【新卒研修資料】LLM・生成AI研修 / Large Language Model・Gener...

Avatar for BrainPad BrainPad
September 29, 2025

【新卒研修資料】LLM・生成AI研修 / Large Language Model・Generative AI

株式会社ブレインパッドの2025年新卒研修資料です。LLM・生成AIについて扱っています。
データサイエンティストや機械学習エンジニアだけでなく、ビジネス職も受講する研修の資料です。

※ 本資料の公開は、ブレインパッドをもっとオープンにする取り組みOpenBPの活動です。
[OpenBrainPad Project]
https://brainpad.github.io/OpenBrainPad/

Avatar for BrainPad

BrainPad

September 29, 2025
Tweet

More Decks by BrainPad

Other Decks in Technology

Transcript

  1. 2 ©BrainPad Inc. Strictly Confidential For データサイエンティスト、機械学習エンジニア • LLM・生成AIの技術が何に使われていて代表的なアルゴリズムを理解している。 •

    最近のLLM・生成AIの動向を理解し、どのようなモデルがトレンドか知っている。 For エンジニア職、ITコンサルタント • LLM・生成AIの技術がどのようなことに使われているか分かる • 最近のLLM・生成AIの動向を理解し、どのようなモデルがトレンドか知っている。 For ビジネス職 • LLM・生成AIの技術がどのようなことに使われているか分かる • 最近のLLM・生成AIの動向を理解している この講義はLLM・生成AIが何に使われていて、どのように使われているのかを知るための講義です 目的・ゴール ビジネス エンジニア DS・MLE
  2. 3 ©BrainPad Inc. Strictly Confidential 1日目 5/22(木) ディープラーニング研修 タイムスケジュール 時間 所要時間 内容

    9:55-10:45 50分 講義1:導入 10:45-11:00 15分 休憩 11:00-12:00 45分 講義1:ディープラーニングの推論と学習 12:00-13:00 60分 お昼休憩 13:00-14:00 90分 ハンズオン: 14:00-15:00 30分 講義3:ディープラーニングの応用 15:00-16:00 60分 ハンズオン 16:00-16:15 15分 休憩 16:15-17:00 45分 講義4:ディープラーニングの発展 17:00-18:00 60分 講義1:生成AI 時間 所要時間 内容 9:30-10:30 60分 講義1:生成モデル、大規模言語モデル 10:30-10:45 15分 休憩 10:45~11:15 30分 講義2:拡散モデル、マルチモーダル・クロ スモーダル 11:15-12:30 75分 ハンズオン 12:30-13:30 60分 お昼休憩 13:30~15:00 90分 案件紹介 2日目 5/23(金) 生成AI・LLM研修 
  3. 4 ©BrainPad Inc. Strictly Confidential この研修のため資料のリンクはそれぞれ以下になります。(※ 公開用のためリンクは解除) 資料 ディープラーニング研修の資料 •

    講義資料 • ハンズオン • 質問シート  生成AI・LLM研修の資料 • 講義資料 • ハンズオン • 質問シート • 案件紹介
  4. 5 ©BrainPad Inc. Strictly Confidential 質問について  講義 • 講義に関する質問は以下の質問シートに記入してください。 ◦

    質問シート(※ 公開用のためリンクは解除) • 研修の間の時間で質問シートへの回答解説を行います。  ハンズオン • ハンズオン中の質問は講師やTAの方にぜひ聞いてみてください。質問シートに記載いただいても問題ありません。
  5. 8 ©BrainPad Inc. Strictly Confidential 生成AIについて はじめに  生成AI • 一般的にディープラーニングモデルの一つである生成モデルを含むシステムをさす

    ※この講義でおける定義であり、一般的に定義が明確に決まっている言葉ではありません  生成AIを理解するためには生成モデルを理解することが重要   本講義では生成モデルについて重点的に説明します ビジネス エンジニア DS・MLE 引用元:https://x.com/cognition_labs 引用元:https://share.google/images/kh9UkJdH09FDORLDI 引用元:https://claude.com/product/overview 引用元: https://share.google/images/K130ZZqoBlICY1ACO 引用元:https://openai.com/ja-JP/brand/
  6. 9 ©BrainPad Inc. Strictly Confidential 生成モデル概要 生成モデルとは 生成モデルとは • 画像や文章などを生成することができるモデル

    • 近年のAIブームのきっかけになっており世界中で開発競争が起きている なぜ今、生成モデルなのか? • インターネット、SNSの普及により、テキスト、画像、音声、動画などの さまざまな形式のデータが量産され学習データが容易に手に入るようになった • ディープラーニングモデルのアーキテクチャにおける技術的な進展 • 人間に匹敵する、または超えるようなモデルが誕生 • その結果、実用的なツールが多く登場 ビジネス エンジニア DS・MLE 引用元:https://focus-tantei.com/directional-speaker-harassment/ 引用元:https://www.nikkei.com/article/DGXZQOUC035ZI0T00C25A2000000/
  7. 10 ©BrainPad Inc. Strictly Confidential 入力から複雑な特徴を識別することができる 言語認識 • 文章分類など ※2019年にBERTが人間と同程度の性能

    画像認識 • 画像分類など ※2015年にResNetが人間と同程度の性能 新しいデータの生成に特化したものを特に生成モデルという 生成モデルとは 生成モデル 識別モデル 入力に対してさまざまな出力を生成することができる 言語生成 ※2022年にChatGPTが登場 画像生成 ※2022年にStable Diffusionが登場 犬 猫 猫 犬 引用元:ChatGPTより 引用元:https://ja.stability.ai/stable-diffusion ビジネス エンジニア DS・MLE 引用元:Text Classifier
  8. 11 ©BrainPad Inc. Strictly Confidential 生成モデルの数理 生成モデルの数理 理論的な背景 • 観測されたデータ(画像、テキスト、音声、動画)は未知のデータ分布から生成されていると仮定

    • 生成される過程をモデル化する枠組みを生成モデルという 生成モデルの学習 • 生成モデルPθ(x)がデータ分布Pdata(x)を近似するように学習 • 生成したい対象(画像、テキスト、音声、動画など)を踏まえたアーキテクチャを使いデータからθを推定 画像生成 テキスト生成 AIは、機械が人間のように思考する技術 で、画像認識、言語処理、予測分析など 多岐にわたって使用されています。 未知のデータ分布 生成 エンジニア DS・MLE
  9. 12 ©BrainPad Inc. Strictly Confidential 代表的な生成モデル 近年注目を集めているのは、「自己回帰モデル」と「拡散モデル」の2種類 代表的な生成モデル 大規模言語モデルに代表される文章のような連続的な生成を得意とするモデ ル、自然言語やプログラミング言、時系列データなどの生成を得意とする。

    ※後ほど詳しく説明する Diffusion Model(拡散モデル) Autoregressive Model(自己回帰モデル) ノイズから生成したいものを作る過程を学習することで、さまざまなものを 生成することができる。主に画像生成に使われることが多いが、音声生成や 時系列データの生成などさまざまな分野で応用が期待されている。 ※後ほど詳しく説明する 画像の再構築方法を学習することで生成モデルを学習 潜在空間からサンプリングした潜在変数をもとに画像生成ができる その他の代表的なモデル 二つのネットワークを競わせることで生成モデルを学習 学習後のGeneratorを使うことで生成ができる 引用元:https://blog.deepblue-ts.co.jp/image-generation/variational-autoencoder-part1/ 引用元:GAN:敵対的生成ネットワークとは何か ~「教師なし学習」による画像生成 VAE(Variational Autoencoder、変分オートエンコーダ) GAN(Generative Adversarial Network、敵対的生成ネットワーク) エンジニア DS・MLE
  10. ©BrainPad Inc. Strictly Confidential 大規模言語モデル(Large Language Model) • 大規模言語モデルとは •

    大規模言語モデルの数理 • 大規模言語モデルの予測 • 大規模言語モデルの学習 • 大規模言語モデルに関連する技術 ◦ プロンプトエンジニアリング ◦ RAG ◦ AIエージェント • (Appendix)大規模言語モデルの精度比較 • (Appendix)大規模言語モデルの歴史
  11. 14 ©BrainPad Inc. Strictly Confidential 大規模言語モデル(Large Language Model)の概要 大規模言語モデルとは  大規模言語モデル

    自然言語やプログラミング言語のパターンや意味を学習し、文章の生成や要約、翻訳、質問応答などが行える生成モデル  大規模言語モデルとビジネス • モデルを提供するビジネス ▪ 大規模言語モデルの提供は従量課金制でAPI経由。企業ごと独自の強みを持つLLMを提供している • OpenAIのGPT:高度な推論 • Google:膨大なテキスト入力、実行速度 • Anthropic:コーディング • モデルを利用したビジネス ▪ APIを提供している企業は自社の大規模言語モデルを利用したチャットサービスを展開 • ChatGPT (OpenAI)、Gemini (Google)、Claude (Anthropic) ▪ コーディングアシスタントAI • GitHub copilot、Cursor、Devin ビジネス エンジニア DS・MLE
  12. 15 ©BrainPad Inc. Strictly Confidential 大規模言語モデルの能力として特に重要なものとして「In-Context Learning(文脈内学習)」というものがある • In-Context Learningとはモデルに与えられたテキスト(プロンプト)の文脈に基づいて、新しいタスクを理解し適応する能力

    • この能力は非常に応用範囲が広く、ビジネスの現場でもよく活用されている • The cat is on the table. -> 猫がテーブルの上にいます。 • The weather is nice today. -> 今日は天気がいいです。 • I love to read books. -> 本を読むのが大好きです。 • She is a good friend. -> 彼女はいい友達です。 • The children are playing outside. -> ビジネス エンジニア DS・MLE LLM The children are playing outside. 従来の機械学習(ディープラーニングを含む) LLMのIn-Context Learning 子供たちが外で遊んでいます。 学習データ 機械学習モデル • The cat is on the table. • The weather is nice today. • I love reading books. • She is a good friend. • 猫がテーブルの上にいます。 • 今日は天気がいいです。 • 本を読むのが大好きです。 • 彼女はいい友達です。 インプットデータ アウトプットデータ 機械学習モデル 推論 学習 推論 子供たちが外で遊んでいます。 LLMはプロンプト内でどのような出力を行えばいいか学習を行い、未知の タスクについても出力を行うことができる能力を獲得している。 これを学術的にはメタ学習(meta learning)と呼ぶ 大規模言語モデルとは
  13. 16 ©BrainPad Inc. Strictly Confidential 大規模言語モデルにはまだ多くの課題が存在するため、ビジネスでの活用を検討する際には以下のような点に注意が必要  Hallucination(ハルシネーション) • 事実とは異なる情報をもっともらしく出力する現象  文脈の保持

    • 入力が長くなると、文脈を保持する能力が低下し、矛盾した応答や意味の通らない回答をすることがある。 • Lost in the Middle ◦ 論文:Lost in the Middle: How Language Models Use Long Contexts  論理的な推論・因果関係 • モデルの構造上、数学などに必要な論理的な推論や因果関係を踏まえた出力が難しい  学習データのバイアス • モデルの学習に使われたデータに含まれる偏見(性別・人種・文化など)をそのまま再現してしまうことがある ビジネス エンジニア DS・MLE 大規模言語モデルとは
  14. 17 ©BrainPad Inc. Strictly Confidential 大規模言語モデル(Large Language Model)についての数理的な説明 大規模言語モデルの数理  数理モデル

    • Language Model(自己回帰モデルの一つ) ◦ 今までの文章から次に来る語彙を予測するモデル ◦ 一つずつ次に来る単語を予測する  学習対象 • 次に来る語彙の確率分布の予測をDNNによって学習 エンジニア DS・MLE 画像引用元:Attention Is All You Need
  15. 23 ©BrainPad Inc. Strictly Confidential プロンプトエンジニアリング 大規模言語モデルに関連する技術 プロンプトエンジニアリングとは • LLMに入力するテキスト(プロンプト)に対する工夫

    • 出力を制御する技術 代表的なプロンプトエンジニアリングの手法 • Zero-shot chain of thought: ◦ 論文:Large Language Models are Zero-Shot Reasoners • Role-Play Prompting: ◦ 論文:Better Zero-Shot Reasoning with Role-Play Prompting • In-Context Learningを使ったものなど他にもたくさんある ◦ LLMのプロンプト技術まとめ プロンプトエンジニアリングで考えるべきこと • どのような学習データが使われたか • 言葉の紡ぎ方 通常のプロンプト        Zero-shot chain of thought 通常のプロンプト        Role-Play Prompting 食堂には23個のリンゴがあった。昼 食に20個使い、さらに6個買ったと すると、りんごは何個あるか。 食堂には23個のリンゴがあった。昼 食に20個使い、さらに6個買ったと すると、りんごは何個あるか。 上の質問に対して段階的に考えてく ださい. ある患者が糖尿病と診断さ れました。糖尿病の治療と して正しいものは何です か? あなたは医者です. ある患者が糖尿病と診断され ました。糖尿病の治療として 正しいものは何ですか? 7個です 初めに23個のリンゴがありました。 昼 食に20個使われたので、23 - 20 = 3個の リンゴが残ります。次に、6個リンゴを 購入したのでリンゴの総数は3 + 6 = 9 個です。 定期的な運動と食事調整 適切な薬を飲む ビジネス エンジニア DS・MLE ビジネス エンジニア DS・MLE
  16. 24 ©BrainPad Inc. Strictly Confidential RAG(Retrieval-Augmented Generation) Retrieval-Augmented Generation for

    Knowledge-Intensive NLP Tasks (Meta) 大規模言語モデルに関連する技術 RAGとは • 何らかの外部情報をLLMにプロンプトとして与え、テキストを生成する手法の総称 • LLMの学習にないデータに答えられたり、ハルシネーションを抑制できる RAGの利用 • チャットボット ◦ BrainPadのメディア、DOORSにも実装されている ◦ https://www.brainpad.co.jp/doors/ • 社内検索システム RAGの課題 • 検索の品質に依存 ◦ 取得してくる情報の精度が良くないと正しい出力を得られない • ハルシネーションが解決するわけではない 引用元:https://officebot.jp/columns/ai-tool/rag-structure/ ビジネス エンジニア DS・MLE
  17. 25 ©BrainPad Inc. Strictly Confidential AIエージェントとAIワークフローのシステムとその違い 大規模言語モデルに関連する技術 ビジネス エンジニア DS・MLE

    AIワークフロー AIエージェント • AIワークフローは、既存のシステムに大規模言語モデル(LLM)の 処理を組み込んだ自動化システム • あらかじめ定められた手順に従って処理が進むため、安定性が高 く、決まった業務を効率よくこなすのに適している • 手順が明確な業務の自動化に活用 • AIエージェントは、LLMがその都度状況を判断し、最適な処理を自 律的に選択して実行するシステム • あらかじめ決められた手順に縛られず、想定外のケースにも柔軟に 対応できるのが特徴 • 高度で適応力の求められる場面で活用 ローカルファイル API データベース LLM LLM API LLM 処理2 処理1 API 処理3
  18. 26 ©BrainPad Inc. Strictly Confidential GPT(Generative Pre-training Transformer)のアーキテクチャ (Appendix)大規模言語モデルのアーキテクチャ  GPT(Generative

    Pre-training Transformer)とは • 論文:Improving Language Understanding by Generative Pre-Training • Transformerのdecoder部分を使ったモデル • 大規模言語モデルの元祖 主要なコンポーネント • Multi-Head Attention ◦ 入力されたテキストのトークン(≓単語)間の関係性を捉える • Feed Forward Network 非線形性を導入し、Multi-Head Attentionから得られた特徴を強化 • Positional Encoding ◦ 入力されたテキストのトークンの位置情報をモデルに認識させるために導入 DS・MLE
  19. 30 ©BrainPad Inc. Strictly Confidential 大規模言語モデルはパラメータ数を増やすことで精度を上げている Transformerデコーダー(現在のLLMで主に使われている)以外のさらに効率のよいアーキテクチャが模索されている (Appendix)大規模言語モデルの歴史 2018年6月 GPT(OpenAI)

    1億1700万param Transformer decoderを使った文章生成を 行うモデル、生成能力も飛躍的に進化を 遂げた 2017年 Transformer(Google) Attentionだけを利用した翻訳モ デル。処理上並列計算ができな かったRNNを使わないためGPU の計算と非常に相性が良い 論文:Attention is All You Need Attention is All You Need パラメータを増やす+様々なアーキテクチャの考案 2020年5月 GPT-3 (OpenAI) 1750億param 2023年3月 GPT-4 (OpenAI) 1.8兆param? MoEを使用? 2024年3月 Claude3 Opus(Anthropic) GPT-4 Turboを上回る性能 2019年2月 GPT-2(OpenAI) 15億param 2023年7月 Llama2 (Meta) OSSで公開されている 高性能なLLM 2024年4月 Llama3(Meta) Llama2をさらに改善した LLM。OSSでは最高性能 2023年5月 RWKV Attentionを使わないRNNベースの モデルで高い言語生成能力を示す 2022年11月 ChatGPT (OpenAI) LLMを使った初め てのwebサービス 2023年11月 GPT-4 Turbo (OpenAI) GPT-4からさらに性能 が向上 2023年11月 GPT-4 Turbo with vision(OpenAI) GPT-4に画像認識の機能も追加したモデル 2023年12月 Mixtral(Mistral AI) MoEアーキテクチャのLLM 2023年12月 Mamba 状態空間モデルを使った新 しいLLMアーキテクチャ Transformerより5倍高速と 言われている 2023年9月 Mistral(Mistral AI) Transformer decoderをベース にSliding window attentionや GQAなどの技術を使っている 2022年5月 Zero-shot Chain of Thoughts 有名なプロンプトエンジニアリング手法 2024年3月 EvoLLM-JP(Sakanal AI) モデルマージにより作成 した日本語LLM 2023年7月 Claude2 (Anthropic) 2023年12月 Gemini (Google) マルチモーダル 2024年2月 Gemini Ultra (Google) マルチモーダル 2024年5月 GPT-4 omni(OpenAI) GPT-4に画像、音声の機 能も追加したモデル DS・MLE
  20. 31 ©BrainPad Inc. Strictly Confidential (Appendix)大規模言語モデルの参考文献 • 大規模言語モデル ◦ 大規模言語モデルの全体感がまとまっている資料

    • 作って学ぶ日本語大規模言語モデル ◦ 大規模言語モデルの作り方 • Awesome-japanese-llm ◦ 日本語に対応している大規模言語モデルがまとまっています。案件でLLMを使う際に確認すると便利です。 • Comparison of Models:Quality, Performance & Price Analysis ◦ LLMの性能や速度、値段などを比較できるサイト
  21. ©BrainPad Inc. Strictly Confidential 拡散モデル(Diffusion Model) • 拡散モデルとは • 拡散モデルの学習

    • 拡散モデルの予測 • (Appendix)テキストを用いた拡散モデルによる画像生成 • (Appendix)拡散モデルによる言語生成 • (Appendix)拡散モデルの歴史
  22. 34 ©BrainPad Inc. Strictly Confidential 拡散モデル(Diffusion Model)の概要 拡散モデルとは 拡散モデル データの復元方法を学習し、様々なデータを生成することができる生成モデル

    画像生成が最も有名だが言語や音声の生成に関する研究も進んでいる  拡散モデルとビジネス • モデルを提供するビジネス • DALL・E(OpenAI):ChatGPT内の画像生成でも使われている • Stable Diffusion(Stability AI) • モデルを利用したビジネス 任意の画像生成が人間に比べ非常に低コストでできるためさまざまな応用が模索されている ▪ 画像上での服の試着 ▪ 広告画像の生成 ビジネス エンジニア DS・MLE 拡散モデルで生成した画像 引用元:https://stability.ai/stable-image 引用元:https://techblog.zozo.com/entry/image-based-virtual-try-on
  23. 35 ©BrainPad Inc. Strictly Confidential データに載せられたノイズを予測する方法を学習することで、ノイズがもとのデータを復元できるようになる 拡散モデルの学習  用語 • 拡散過程(Forward

    Process) ◦ データに段階的にノイズを加え、標準正規分布(ガウスノイズ)に近づける • 逆拡散過程(Reverse Process) ◦ 拡散過程の逆、データから段階的にノイズを取り除く処理 学習方法 • DNNを使い拡散過程で加えたノイズを予測、「予測したノイズ」と「実際に加えたノイズ」の差(損失)が小さくなるようにD学習 して、逆拡散過程を行えるようにする。 Forward Process(順拡散過程) Reverse Process(逆拡散過程) DS・MLE 引用元:https://xtech.nikkei.com/atcl/nxt/column/18/02553/081800002/
  24. 37 ©BrainPad Inc. Strictly Confidential Latent Diffusion Model 論文:High-Resolution Image

    Synthesis with Latent Diffusion Model (Appendix)テキストを用いた拡散モデルによる画像生成 Stable Diffusionのもとになっているモデル • テキストから画像を生成することができるモデル 主要なコンポーネント • Denoising Autoencoder ◦ 拡散モデルのメインの処理 ◦ 画像からノイズを取り除く • Text Encoder & QKV Attention Blocks ◦ 文章を埋め込み表現(ベクトル)に変換 ◦ 画像情報と文章情報を組み合わせる • Variational Autoencoder • 画像をより小さなサイズの画像に変換 引用元:https://arxiv.org/pdf/2112.10752 DS・MLE
  25. 38 ©BrainPad Inc. Strictly Confidential QKV Attention Blocks、Text Encoder 画像からノイズを取り除く処理をテキスト情報に紐付ける

    (Appendix)テキストを用いた拡散モデルによる画像生成 QKV Attention Blocks • Self Attention:自分自身のベクトルと内積を計算し新しいベクトルを作る • Cross Attention:言語情報のベクトルと内積を計算し新しいベクトルを作る Text Encoder • CLIPという画像と言語が対応するような埋め込み表現を獲得できるモデルを利用 Cross Attentionによってテキスト情報と紐づけ • ノイズを取り除く際にテキスト情報とAttentionを計算する • テキスト情報yをもとに、どのように段階的にノイズを取り除いていけば元の画像になるかを学習  課題 • QKV Attentionは計算量が多く、画像レベルのデータだと莫大な計算量となってしまう ヨークシャテリア DS・MLE 引用元:https://speakerdeck.com/payanotty/deffusionjie-shuo?slide=37
  26. 39 ©BrainPad Inc. Strictly Confidential Variational Autoencoder(VAE) VAEを使い画像を小さくすることで莫大な計算となるのを回避する (Appendix)テキストを用いた拡散モデルによる画像生成 Variational

    Autoencoder(VAE) • 画像を潜在表現に変換し、潜在表現から元の画像を復元するように学習を行う • VAEでは変分推論により複雑な確率分布を近似する • この確率分布のパラメータが潜在ベクトル Latent Diffusion Modelでの利用 • VAEで全体の処理を挟むことで元の画像の情報を保ったまま計算量を減らした学習ができる 元の画像サイズに変換 画像の圧縮 DS・MLE 引用元:https://blog.deepblue-ts.co.jp/2021/02/06/variational-autoencoder-part1/ 引用元:https://speakerdeck.com/payanotty/deffusionjie-shuo?slide=48
  27. 41 ©BrainPad Inc. Strictly Confidential Gemini Diffusion 公式サイト:https://deepmind.google/models/gemini-diffusion/ (Appendix)拡散モデルによる言語生成 拡散モデルによる言語生成

    • 拡散モデルでも実用レベルの言語生成が可能にを生成する ことができるモデル • 拡散離散モデルというモデルがベースになっている 引用元:https://deepmind.google/models/gemini-diffusion/ DS・MLE
  28. 42 ©BrainPad Inc. Strictly Confidential 画像生成はGANから拡散モデルの時代へ 画像以外にも様々なモーダルの生成を行うことができる (Appendix)拡散モデルの歴史 2021年12月 Latent

    Diffusion Model VAEによる潜在空間への圧縮により さらに高速化を達成した Stable Diffusionの元になっている 2015年 Deep Unsupervised Learning using Nonequilibrium Thermodynamics マルコフ連鎖を学習するこ とで複雑な確率分布にモデ ルを適合させる 2020年6月 Denoising Diffusion Probabilistic Models(DDPM) Diffusion Modelの基礎が提案された論文 2022年5月 Imagen テキストエンコーダを改良し CLIPを使わなくて良くなる 2020年10月 DDIM ステップ数を削減する高 速化に関する論文 2021年2月 CLIP テキストと画像の紐付けを 可能にするエンコーダとし て利用できる 2021年5月 ADM(Ablated Diffusion Model) 高解像度化のきっかけになった 論文。Big GANを超える 2021年12月 GLIDE Diffusionを用いた初のtext2imageモデル 画像生成にCLIPを適用 2022年4月 DALL-E2 大量のデータを学習させた 大規模モデル 2014年6月 GAN 敵対的学習を用いた高品 質画像の生成方法 2013年12月 VAE エンコーダで潜在空間へ変換 し、デコーダで似た画像を生成 することができる。 様々なところで使われている 2022年8月 DreamBooth 固有概念特化型の Text2Imageモデル 2023年3月 Consistency Models 拡散モデルをスコアベースモデ ルとして捉え発展したモデル。 非常に少ないstep数で画像生成が できる 現在使われている画像生成の 基礎技術が登場 GANの時代 拡散モデルの時代 2022年11月 InstructPix2pix 部分的な編集指示に応じて画 像編集ができるモデル DS・MLE
  29. 43 ©BrainPad Inc. Strictly Confidential (Appendix)拡散モデルの参考文献 画像生成モデルのまとめ • 拡散モデルに至るまでの画像生成AIについて解説をしてみた •

    DiffusionによるText2Imageの系譜と生成画像が動き出すまで Consistency Model • Consistency Models:1~4stepsで画像が生成できる、新しいスコアベース生成モデル 実装 • ゼロから作るDeep Learning ❺ ―生成モデル編
  30. ©BrainPad Inc. Strictly Confidential • マルチモーダルモデルとは • クロスモーダルモデルとは • 代表的なマルチモーダル・クロスモーダルモデル

    CLIP LlaVa(Appendix) Whisper(Appendix) マルチモーダルモデル(Multimodal Model) クロスモーダルモデル(Crossmodal Model)
  31. 45 ©BrainPad Inc. Strictly Confidential マルチモーダルモデルとは  マルチモーダルモデル • 複数のモダリティ(テキスト、画像、音声など)を同時に入力・処理ができるモデル •

    モダリティ間の相互作用を学習し、それらの情報を用いて推論や生成を行う    マルチモーダルモデルの発展 • 大規模言語モデルおよび拡散モデルの発展とともにマルチモーダルモデルも進展 • 各モダリティ(画像,テキスト,音声など)ごとで使われている技術は異なることが多いが、ベースにLLMを使うものが現状だと多い 様々なモダリティをまとめて扱うようなモデルの総称 引用元:https://storage.googleapis.com/videopoet/paper.pdf テキスト、画像、音声、動画を扱えるマルチモーダルモデル
  32. 46 ©BrainPad Inc. Strictly Confidential  クロスモーダルモデル • あるモダリティ(テキスト、画像、音声など)から別のモダリティへ変換、対応づけをするためのモデル • モダリティ間の写像関係(マッピング)に焦点を当てている

     モダリティの組み合わせだけタスクが存在 • Text 2(to) Image • Image 2 Text...OCR • Text 2 Speech • Speech 2 Text • Text 2 Music • Image 2 Music • Text 2 Movie • Movie 2 Text • Image 2 Movie • … クロスモーダルモデルとは モダリティ間の変換に焦点を当てているモデルの総称 白い子猫 Text 2 Image Speech 2 Text 引用元:https://focus-tantei.com/directional-speaker-harassment/
  33. 47 ©BrainPad Inc. Strictly Confidential Text2Movie テキスト情報から動画を生成(リンク先を確認) クロスモーダルモデルの例 応用事例 •

    CM、アニメ、映画などの生成 主要なモデル • Sora ◦ https://openai.com/ja-JP/sora/ 引用元:https://openai.com/ja-JP/sora/
  34. 48 ©BrainPad Inc. Strictly Confidential 様々な応用がされているマルチモーダル・クロスモーダルのディープラーニングモデル 代表的なマルチモーダル・クロスモーダルモデル  CLIP • テキストデータと画像データの対応づけを行うクロスモーダルモデル

    • さまざまな技術に応用されている  LlaVa(Appendix) • テキストと画像のマルチモーダルモデル  Whisper(Appendix) • Speech2Textのクロスモーダルモデル  Latent Diffusion Model(Stable Diffusion) • Text2Imageのクロスモーダルモデル • 「拡散モデル」で紹介
  35. 49 ©BrainPad Inc. Strictly Confidential アーキテクチャ • Text Encoder(Transformer Encoder)とImage

    Encoder(Vision TransformerやResNet)を接続した構造 学習方法 • 入力:画像と対応するテキスト情報や画像と対応しないテキスト情報 • 出力:画像とテキストが紐づくようなベクトル表現 • テキスト情報はText Encoderで画像情報はImage Encoderを使いそれぞれベクトル化 • それぞれベクトルの類似度(コサイン類似度)を計算し、正しいペアは類似度が高く、間違ったペアは類似度が低くなるように学 習する(対照学習)。これにより画像とテキストが紐づくようなベクトル化が可能になる 応用事例 • 他の多くのモデルで利用されている ▪ Stable Diffusion:テキスト情報の入力 ▪ Llava 画像情報とテキスト情報を橋渡しするマルチモーダルモデル Learning Transferable Visual Models From Natural Language Supervision (OpenAI) CLIP 引用元:https://trail.t.u-tokyo.ac.jp/ja/blog/22-12-02-clip/
  36. 50 ©BrainPad Inc. Strictly Confidential アーキテクチャ • 事前に学習されたCLIPとのImage Encoderと大規模言語モデル(Vicuna)を結びつけるネットワーク層を追加した構造 学習方法

    • 入力:画像とその画像への質問文 • 出力:画像への質問文の解答 • 画像の埋め込み表現とテキスト情報を用意したLLMに入力し、正しいテキストの出力になるように学習を行う 応用事例 • イメージキャプション 画像の情報をテキストへ変換したり画像に対して質問をすることができるマルチモーダルモデル Visual Instruction Tuning (Microsoft) (Appendix)LlaVa(Large Language and Vision Assistant) 引用元:https://arxiv.org/abs/2304.08485
  37. 51 ©BrainPad Inc. Strictly Confidential 音声情報をテキスト情報に変換するクロスモーダルモデル Robust Speech Recognition via

    Large-Scale Weak Supervision (OpenAI) (Appendix)Whisper アーキテクチャ • EncoderとDecoderのTransformerの構造 学習方法 • 入力:音声データ • 出力:テキストデータ • 音声データをlog-Melスペクトグラムに変換し処理をした後、Transformer Encoderに入力され、Transformer Decoderでテキストを生成。学習方法と してはNext Token Predicitionを行なっています。 • 翻訳や多言語音声転写などのさまざまなタスクに対応するために専用の トークンを使いタスクを分ている 応用事例 • 文字起こし、議事録生成 引用元:https://zenn.dev/robes/articles/a72b95f9f76c39
  38. 53 ©BrainPad Inc. Strictly Confidential ここでは拡散モデルを使った画像生成、特にブレインパッドのマスコットを生成します ※ 公開用のためリンクは解除済 ハンズオン ハンズオンの概要

    • 拡散モデルを使った画像生成 • 昨年行われた木村さん主催の「BPマスコット生成コンペ」を題材にします • 生成したマスコットはGoogle Formより投稿いただき、スコアを算出します • みなさん、1Subを目指しましょう! ハンズオンの資料 • 以下のNotebookを自分のGoogle Driveにコピーして作業してください • リンク