LLMの活用方法と課題

LLMの活用方法と課題八木橋拓之 1

八木橋拓之 / yagipy • 株式会社サイバーエージェント AI事業本部アドテクDiv ProFit-X
ソフトウェアエンジニア • 広告配信システム(SSP)の開発 • OSS開発 • maintidx (Owner) • ソースコードの保守性を計測する静的解析ツール • Althea (Owner) • 所有権付き参照カウントを備えたプログラミング言語 • golangci-lint (Maintainer) • Goの静的解析ツールをまとめて実行するツール • etc … @yagipy @yagipy_ 2

1 .基礎 2 .学習と活用方法 3 .課題 LLMを有効活用
するために押さえておきたい知識を話します 3

基礎 4

第4次AIブーム令和6年版総務省情報通信白書第3章第1節 5

第4次AIブーム • 第1次(1960年代): 推論、探索の時代 • 特定の問題をコンピュータに適した形で記述し、探索木などの手法で解を提
示する • 簡単なパズルや迷路のような問題(Toy problem)しか解くことができない • 第2次(1980年代): 知識の時代 • コンピュータの高性能化により、専門家のように振る舞うエキスパートシステムが登場 • コンピュータの性能や学習データの不足により、複雑な問題への対処ができない • 第3次(2010年代): 機械学習の時代 • パソコンとネットワークが普及し、データ流通量が飛躍的に増加 • コンピュータの演算処理能力が向上したことにより、ビッグデータの処理が可能 • 第4次(2022年~現在): 生成AIの時代 • Transformerなど基盤技術の進化により、AIの性能が飛躍的に向上 • 画像認識や予測など固有タスクではなく、テキストや画像を生成することで、単一モデルを様々なタスクに利用可能 6

第4次AIブーム • 第1次(1960年代): 推論、探索の時代 • 特定の問題をコンピュータに適した形で記述し、探索木などの手法で解を提
示する • 簡単なパズルや迷路のような問題(Toy problem)しか解くことができない • 第2次(1980年代): 知識の時代 • コンピュータの高性能化により、専門家のように振る舞うエキスパートシステムが登場 • コンピュータの性能や学習データの不足により、複雑な問題への対処ができない • 第3次(2010年代): 機械学習の時代 • パソコンとネットワークが普及し、データ流通量が飛躍的に増加 • コンピュータの演算処理能力が向上したことにより、ビッグデータの処理が可能 • 第4次(2022年~現在): 生成AIの時代 • Transformerなど基盤技術の進化により、AIの性能が飛躍的に向上 • 画像認識や予測など固有タスクではなく、テキストや画像を生成することで、単一モデルを様々なタスクに利用可能本発表ではテキストの生成AIで利用されている大規模言語モデル(LLM)について話します 7

言語モデル • 一連の単語の並び(トークン列)が”どの程度発生しやすいか”の確率を予測するモデル • 自己
回帰的に次の単語を予測することで、文章を生成することができる • 自己回帰: 出力を入力として使う • ”どの程度発生しやすいか”の確率をどう求めるかが技術的課題の1つ • N-gram 言語モデル • ニューラル言語モデル(NLM) 8

言語モデル • 一連の単語の並び(トークン列)が”どの程度発生しやすいか”の確率を予測するモデル • 自己
回帰的に次の単語を予測することで、文章を生成することができる • 自己回帰: 出力を入力として使う • ”どの程度発生しやすいか”の確率をどう求めるかが技術的課題の1つ • N-gram 言語モデル • ニューラル言語モデル(NLM) 9

ニューラル言語モデル(NLM) • ”どの程度発生しやすいか”の確率をニューラルネットワークで推定 • 学習データに無い未知の関係も他のデータから推測可能に LLM
大規模言語モデル講座講義資料 © 2023 by 東京大学松尾研究室 is licensed under CC BY-NC-ND 4 . 0 10

大規模言語モデル(LLM) • NLMの計算量、学習データ量、パラメータ数を大規模にしたモデル • パラメータ数はニューラルネットワークの深さ(レイヤ数)と幅(内部表現の次元数)で決まる
• 現在、“ 大規模”に明確な基準はない 11

スケーリング則 • 計算量、学習データ量、パラメータ数を増やすほど性能が向上する • べき乗則であることに注意 • Scaling Laws for Neural
Language Models PF-days: Peta FLOPS days( 1 Peta FLOPSの処理速度を持つサーバを何日分学習に使ったか) Test Loss: 学習データとは全く別のデータを用意して、LLMが出力するテキスト(予測)と期待するテキスト(正解)の誤差を測定する 12

創発現象 • あるスケールを超えると急激に精度が向上する現象 Emergent Abilities of Large Language Models 算数
単語並び替え人が間違えやすい問題発音記号の推定ペルシャ語の問題概念の獲得マルチタスクの問題文脈の理解 13

汎化性能の向上 • 学習で得た情報を新しい問題にあてはめて回答することができるようになる • 過学習後も学習し続けることで検証データでの精度が急激に向上する Grokking: Generalization Beyond Over fi
tting on Small Algorithmic Datasets 14

LLM利用時のチェックポイント • 計算量、学習データ量、パラメータ数 • ベンチマークやベンチマークのリーダーボード • MMLU •
Chatbot Arena • Nejumi( 日本語) • コンテキストウィンドウサイズ • 一度に処理できるトークン数 • 利用料金 • アクセス数や必要な精度に応じた選択が必要 • 実際に活用予定のタスクやドメインに使用する 15

学習と活用方法 16

様々な学習 • パラメータの更新あり • Pre-training • Fine-Tuning • Instruction Tuning
• RLHF • パラメータの更新なし(In-Context Learning) • RAG • Prompting 上になればなるほど抜本的な学習が可能になるが、コストが高い 17

パラメータの更新あり 18

Pre-training • 語彙、文法、知識、推論能力などの言語能力
を持たせるフェーズ • 大規模な計算資源と大規模なデータセットを必要とする • 学習データはWebからのクロールデータが一般的 LLaMA: Open and E ffi cient Foundation Language Models 19 Webのクロールデータ CommonCrawlの整形データ技術者を中心とするQ&A

Fine-Tuning • Pre-training済みのモデルに対して、特定のタスクやドメインへの適応を行うフェーズ • Instruction Tuning •
様々なタスクを対話(指示 +応答)形式に統一してFine-Tuningする手法 • 対話性能やZero-Shot性能の向上 • RLHF(Reinforcement Learning with Human Feedback) • LLMで同じ問題に対して複数の答えを出力させ、人が良し悪しを判定する • 良し悪しの判定を再現する報酬モデルを作成し、その報酬を最大化するように強化学習する • 有用性や安全性の向上 • LLMの出力を人間の趣向に合わせて調整することはアラインメントと呼ばれる 20

Fine-Tuning: OpenAI APIの例 • OpenAI APIでは自前のデータセットを用いたFine-Tuningが可能
• 一般的な使用例 • 話し方や応答フォーマットの指定 • 複雑なプロンプトに従えない場合の修正 • プロンプトで表現するのが難しいスキルやタスクの習得や実行 OpenAI Fine-tuning Common use cases {"messages": [ {"role": "system", "content": “͚ͨ͠͸ͪΐͬͱൽ೑ͬΆ͍ؔ੢ਓͰ͢ɻ"}, {"role": "user", "content": “ϑϥϯεͷट౎͸Ͳ͜ʁ"}, {"role": "assistant", "content": “ύϦ΍Ͱɻ·ɺΈΜͳ஌ͬͯΔͱࢥ͏͚Ͳͳɻ"} ]} {"messages": [ {"role": "system", "content": “͚ͨ͠͸ͪΐͬͱൽ೑ͬΆ͍ؔ੢ਓͰ͢ɻ"}, {"role": "user", "content": “݄·Ͱͷڑ཭͸ͲΕ͘Β͍ʁ"}, {"role": "assistant", "content": “͍͍ͩͨ384,400Ωϩ͘Β͍΍ͳɻ·͋ɺ਺Ωϩ͘Β͍ͷҧ͍ͳΜ͔ؾʹͤΜͰ͚͑͑Ͳͳɻ"} ]} {"messages": [..]} 21

パラメータの更新なし (In-Context Learning) 22

Prompting • 期待する出力を得られるように、言語モデルに入力するコンテキスト文
• 入力する指示や事例を変えることで、様々な出力を得られる • Zero-Shotの例 • 事例を与えず、タスクの指示だけを出す Language Models are Few-Shot Learners 23

Prompting: Few-Shot • タスクの指示に加えて、少しの事例を与える • モデルが大規模な場合、
大幅に性能が向上することが多い Language Models are Few-Shot Learners 24

Prompting: CoT(One-Shot) • 事例の中に思考過程を入れる • 出力にも思考過程が
入り、正解率が向上 • 特に算数の文章題などのタスクで大幅に性能が向上 • モデルが大規模だと、大幅に性能が向上することが多い Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 25

Prompting: CoT(Zero-Shot) • 事例は与えずに、思考過程が出力されるよう直接指示する Large Language
Models are Zero-Shot Reasoners 26

Prompting: CoT(Zero-Shot) • 簡単なタスクは考えすぎて失敗するケースがあることに注意 • 補足 : 回答形式に対応した回答プロンプト /
標準的な回答プロンプト(The answer is) Large Language Models are Zero-Shot Reasoners 27

Prompting: CoT(Zero-Shot) • プロンプトによって正解率が大きく異なる Large Language Models are
Zero-Shot Reasoners 28

Prompting: PS+(Zero-Shot) • Plan-and-Solve Prompting • 「関連する変数とそれに対応する数値を抽出し計画を立ててください」「その計画を実行
し、中間変数を計算し、ステップバイステップで考えてください」という指示を与えると性能が向上する Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models 29

RAG(Retrieval-Augmented Generation) • 外部データソースの検索を行うRetrieverと検索結果をコンテキストに含めるGeneratorの2つで構成される In-Context Retrieval-Augmented Language
Models ユーザー入力をベクトル表現に変換し類似度検索(Retriever)、Retrieverで検索した文章をコンテキストとして追加(Generator) 30

RAG: 必要性 • 学習範囲以外の知識(新しい知識や会社固有の知識など)をベースとした回答 • 信頼性の向上(参照先を確認できる) 31

RAG: Retriever(検索部) • ユーザーの入力に類似した文章を見つける
• OpenAIのtext-embedding- 3 -smallなどのテキスト埋め込みモデルを使用し、テキストを1536次元のベクトル表現に変換 • VectorDBなどで類似度検索を行う • クエリ拡張など色々な手法があるが、基本的には重要なキーワードをユーザーの入力に含める必要がある { "object": "list", "data": [ { "object": "embedding", "index": 0, "embedding": [ -0.006929283495992422, -0.005336422007530928, ... (omitted for spacing) -4.547132266452536e-05, -0.024047505110502243 ], } ], "model": "text-embedding-3-small", "usage": { "prompt_tokens": 5, "total_tokens": 5 } } 32 OpenAI Embeddings How to get embeddings

RAG: Generator( 生成部) • Retrieverで検索した文章をユーザーの入力にコンテキストとして追加する
• 複数の文章を追加することも可能生成AIの「RAG」とは？知っておきたい重要キーワードを解説する 33

応用例: Text-to-SQL • LlamaIndexを利用 34 データサイエンス100本ノック（構造化データ加工
編）のデータを利用

ReAct(Reason + Act) • 回答に必要な情報をネット検索するなどの行動をLLM 自身に判断、実行
させ、その結果を使って回答を生成する • Action • Search: 検索 • Finish: 回答 35 ReAct: Synergizing Reasoning and Acting in Language Models

応用例: 予定登録Agent • LangChainを利用 36

学習にLLMを活用する • プロンプトの改善やRAG/Fine-Tuningで使用する学習データの生成にLLMを活
用することで、効率良く改善や生成を行うことが可能遺伝的アルゴリズムによりチューニングされたプロンプトテンプレートを使うことで、スコアが大きく向上 37 日本語LLMベンチマークと自動プロンプトエンジニアリング

学習方法の比較 • Prompting • RAGやFine-Tuningで必要な学習データの蓄積や整理が不要 •
他の方法に比べて高速にフィードバックループを回せる • RAGやFine-Tuningと合わせて使用できるため、無駄にはならない • RAG • 新しい知識や会社固有の知識をベースに回答できる • Fine-Tuningに比べて、データの準備が容易 • 対話形式でデータを準備するのが基本のFine-Tuningに比べ、RAGはテキストを準備するだけで一旦は使えるようになる(チャンク化やEmbeddingはライブラリに任せることが可能) • メタデータを活用することで参照先(回答の根拠)を確認できる • 類似度検索なので、抽象的な質問や複数ステップを踏まないと答えられない質問が苦手 • Fine-Tuning • より多くのデータを学習できる • PromptingやRAGに比べてコンテキストを消費しないため、コストや処理時間を節約できる • 高いモデルをFine-Tuningした安いモデルに置き換えることにより、特定タスクやドメインの性能はそのままにコストや処理時間を削減できる • 学習データを更新する際には、モデルの更新を伴うため手軽には実行できない 38

課題

精度の限界: 三豊市と松尾研の例 • 香川県三豊市のごみ出し案内業務にChatGPTを活用しないことを決断 • サービス内容 •
市民からのごみの分別や収集日に関する問い合わせに対して、三豊市のごみに関する学習をしたAIが24時間自動応答する • 正答率99％を本格導入の条件にした理由 • ごみ出し案内は正確性が特に求められる。AIが間違った案内をしてしまうとその案内に基づいて行動した市民や収集業者などに迷惑が掛かる。職員でも即座に回答できない問い合わせはあるが、時間をいただき調べてから正確な情報を回答している。 • AIには少なくとも職員と同等のレベルを求め、それに達しない限り対市民向けとしては導入できないと考えた。また、AI がどのように回答したかを結局のところ職員が確認する作業が伴い、正答率が低ければそれだけ確認する頻度も上げなければならない。100％は無理としても99％は譲れない条件だった。 • 誤った回答をしないようにAIが答えられない回答や、不安のある回答については「環境衛生課へお問合せください」という文言を表示していた。これにより“結局職員の負担は減らない”と分かった。「チャットGPTを利用したごみ出し案内」本格導入について ChatGPTでの業務効率化を“断念”──正答率94％でも「ごみ出し案内」をAIに託せなかったワケ　三豊市と松尾研の半年間 40

精度の限界: ハルシネーション • 学習データから真偽を判断できない事実に対して、ハルシネーションの発生率には統計的に避けられない下限が存在する • 理想的な学習データと完璧なLMアーキテクチャを使用しても避けられない
• 強化学習や事実確認を行うためのDB参照は、特定のタイプのハルシネーションを軽減するために有効 Calibrated Language Models Must Hallucinate 41

評価や検証が難しい • ベンチマークと似たデータを学習することで評価スコアが高くなっている完全に新しいベンチマークで再評価すると、ほとんどのLLMの性能が下がった • プロンプトテンプレートによって大きな性能差が発
生する 42 A Careful Examination of Large Language Model Performance on Grade School Arithmetic 日本語LLMベンチマークと自動プロンプトエンジニアリング

学習用データの枯渇 • データセットサイズの成長が続くと、2026年から2032年の間に、人が作成した全公開テキストデータを利
用することになる • 補足 : 高品質なデータセットがあれば、1/10のモデルサイズ、1/100のデータセットサイズでも様々なモデルの性能を超えられる Will we run out of data? Limits of LLM scaling based on human-generated data Textbooks Are All You Need 43

ライセンス問題: ChatGPT • ChatGPTのアウトプットをOpenAIと競合するモデルの開発に使用することはライセンスで禁止されている OpenAI利
用規約 44

ライセンス問題: LLaMA • Metaが開発したオープンソースのLLM オープンソースでは最高水準の性能(Chatbot Arena) •LLaMAの出力
はLLaMAの派生モデルでしか使用できない Meta-Llama- 3 - 8 B/LICENSE お客様は、LlamaマテリアルまたはLlamaマテリアルの出力もしくは結果を、他の大規模言語モデル（Meta Llama 3 またはその派生物を除く）を改良するために使用することはできません。 Progress Tracker: Open vs. Proprietary LLMs 45

まとめ 46

LLMを活用する前に • LLMの特徴を理解する • 計算量、学習データ量、パラメータ数、ベンチマークのリーダーボードなどによってLLMの性能を大まかに掴むことができる(あくまでも参考程度に)
• 活用予定のタスクやドメインに使用して、期待した精度が出るか確認する • LLMの課題を理解する • データの整理、API使用料金、RAGシステムの構築など、想定よりコストがかかることが多い • その割に評価や検証が難しく、一定の確率でハルシネーションも発生する LLMを使用しなくても解決できないかを考える 47

LLMを有効活用するために • 各学習方法の特徴を理解 • まずはPromptingで精度を高
められないか試す • 必要に応じてRAGやFine-Tuningなどをユースケースに合わせて選択する • 質の高い学習データの蓄積と整理 • 対話形式や適切なチャンクサイズでの整理など、学習方法に合う効果的な形式でまとめる • 蓄積と整理にLLMを活用する際はライセンスに注意 • LLMの回答を評価できる専門的な知識を身につける • ハルシネーションを完全に避けることは難しい 48

ありがとうございました 49

参考資料 • 大規模言語モデル (LLM) の技術と最新動向 • LLMの現在
• 大規模言語モデルを作る、拡張する • 松尾研 LLM 大規模言語モデル講座講義資料 • Retrieval-based LM (RAG system) ざっくり理解する 50

LLMの活用方法と課題

LLMの活用方法と課題

More Decks by HiroyukiYagihashi

Other Decks in Technology

Featured

Transcript