Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LLM生成文章の精度評価自動化とプロンプトチューニングの効率化について
Search
LayerX
PRO
October 28, 2024
Programming
4
810
LLM生成文章の精度評価自動化とプロンプトチューニングの効率化について
2024/10/25 AI Engineering Decoded #4
株式会社LayerX 恩田 壮恭
LayerX
PRO
October 28, 2024
Tweet
Share
More Decks by LayerX
See All by LayerX
AI時代の経営、Bet AI Vision #BetAIDay
layerx
PRO
5
3k
バクラクによるコーポレート業務の自動運転 #BetAIDay
layerx
PRO
1
1.3k
金融サービスにおける高速な価値提供とAIの役割 #BetAIDay
layerx
PRO
1
1k
LLMをツールからプラットフォームへ〜Ai Workforceの戦略〜 #BetAIDay
layerx
PRO
1
1.5k
Bet "Bet AI" - Accelerating Our AI Journey #BetAIDay
layerx
PRO
5
2.4k
人に寄り添うAIエージェントとアーキテクチャ #BetAIDay
layerx
PRO
10
2.9k
生成AI時代におけるAI・機械学習技術を用いたプロダクト開発の深化と進化 #BetAIDay
layerx
PRO
1
1.7k
AIエージェントが変える開発組織のEnabling #開発生産性con_findy
layerx
PRO
3
28k
LayerX AI・LLM Division Deck
layerx
PRO
2
42k
Other Decks in Programming
See All in Programming
時間軸から考えるTerraformを使う理由と留意点
fufuhu
16
4.8k
はじめてのMaterial3 Expressive
ym223
2
910
rage against annotate_predecessor
junk0612
0
170
基礎から学ぶ大画面対応(Learning Large-Screen Support from the Ground Up)
tomoya0x00
0
4.5k
The Past, Present, and Future of Enterprise Java with ASF in the Middle
ivargrimstad
0
190
Testing Trophyは叫ばない
toms74209200
0
900
Android端末で実現するオンデバイスLLM 2025
masayukisuda
1
170
機能追加とリーダー業務の類似性
rinchoku
2
1.3k
Navigation 2 を 3 に移行する(予定)ためにやったこと
yokomii
0
350
HTMLの品質ってなんだっけ? “HTMLクライテリア”の設計と実践
unachang113
4
3k
MCPでVibe Working。そして、結局はContext Eng(略)/ Working with Vibe on MCP And Context Eng
rkaga
5
2.3k
Compose Multiplatform × AI で作る、次世代アプリ開発支援ツールの設計と実装
thagikura
0
170
Featured
See All Featured
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
61k
Producing Creativity
orderedlist
PRO
347
40k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
23
1.4k
Why Our Code Smells
bkeepers
PRO
339
57k
RailsConf 2023
tenderlove
30
1.2k
Testing 201, or: Great Expectations
jmmastey
45
7.7k
GraphQLの誤解/rethinking-graphql
sonatard
72
11k
Imperfection Machines: The Place of Print at Facebook
scottboms
268
13k
[RailsConf 2023] Rails as a piece of cake
palkan
57
5.8k
KATA
mclloyd
32
14k
The Cult of Friendly URLs
andyhume
79
6.6k
Making Projects Easy
brettharned
117
6.4k
Transcript
© LayerX Inc. LLM生成文章の精度評価自動化とプロンプト チューニングの効率化について 2024/10/25 AI Engineering Decoded #4
株式会社LayerX 恩田 壮恭
目次 Agenda • 自己紹介、会社紹介、プロダクト紹介 • LLM生成文章の精度評価 • プロンプトチューニングの効率化
自己紹介、会社紹介、プロダクト紹介
4 Confidential © 2024 LayerX Inc. 自己紹介 • 恩田壮恭(おんだまさのり) •
cipepser(さいぺ) • LayerX AI・LLM事業部 マネージャー • LayerXに入社して4年半 • これまで ◦ TEEやPrivacyTechなど、技術を軸にした新規プロ ダクトの開発 • 現在 ◦ Ai Workforce導入の高速化や、本番で使えるだけ のLLMの精度達成を目指すチームのマネージャー
5 | 株式会社LayerX(レイヤーエックス) | 代表取締役CEO 福島 良典 (Gunosy創業・上場) 代表取締役CTO 松本
勇気 (Gunosy/DMM CTO) | 2018年 | 132.6億円 | バクラク事業、Fintech事業、AI・LLM事業 | 三井物産デジタル・アセットマネジメント*2 | 会社紹介 LayerXのご紹介 *1 資本準備金含む *2 三井物産、LayerX、三井住友信託銀行、SMBC日興証券、JA三井リースによる合弁会社 会社名 代表取締役 創業 資本金*1 関連会社 株主一覧 大企業とのR&D組織が母体 生成AIプロダクトを開発・提供 バクラク事業 AIをプロダクトのコアとすることで 経費精算・法人カード等の伝統的な ソフトウェア市場を再定義 Fintech事業 三井物産との合弁会社で デジタル証券を発行 AI・LLM事業
6
© LayerX Inc. 7 多くのお客様に共通する「文章処理の課題」 さまざまの業種業界のお客様へのヒアリングによってわかった文章処理の課題 契約書やレポート作成時に、複数の資料を参考しているけど、フォーマットや 構成がバラバラで欲しい情報を探すのが大変… 手作業での コピー&ペーストも面倒くさい…
契約書が社内規定にあっているかのチェック業務に時間がかかっている。 早く案件を進めたいのに… 過去資料検索が大変。結局ファイルを開いて中を見てみないとわからない。 タグを付けるルールにしたけど誰も付けてくれない… “知的だが単純な作業”に多くの時間を取られている(疲弊している) 各業界共通
8 ノーコード、ノープロンプトAIプラットフォーム「Ai Workforce」 生成AIの活用課題とLayerXのアプローチ 生成AIの業務活用におけるポテンシャルを最大限に引き出す ノーコード、ノープロンプトAIプラットフォームとして「Ai Workforce」を開発。 ナレッジポータル (検索・ポータルアプリケーション) •
AI ワークフローによって、非構造化データから業務上の 意思決定に役立つ価値ある情報(Intelligence)を抽出 • ナレッジシェアやプロジェクト管理、契約書等のドキュメン ト管理などで活用 AI ワークフロー (文書処理効率化アプリケーション) • ノーコード、ノープロンプトで様々な文書処理業務の効率化・ 自動化を実現するAIワークフロー • AIに業務の仕方(ワークフロー)を教えたら、日々の業務で はAIにインプットを与えて処理結果をレビューするだけ Intelligence DB 蓄積データを 検索・活用する AIに業務を実行させ、 結果をレビューする AIに一連の業務フ ローを教える AIアルゴリズム基盤(LLM, OCR etc) 外部データを 取り込んで拡充 書類を”活用できるデータ”に変える データを最大限”活用する”
© LayerX Inc. 9 文章をLLMが解釈して、欲しい項目をデータ化 Ai Workforceの特徴 プロンプトを操作せず、ボタン操作やファイルアップロードだけでLLMが文章を解釈し、項目を抽出 フォーマットや構成が異なる文章でも、LLMが意味や文脈を理解して欲しい情報を抽出(してデータ化) ファイルアップロード画面
アウトプット画面 英語や他言語も 翻訳して抽出・要約 参照元表示機能 (抽出項目の 参照元に飛べる) 文章の”活用できるデータ”化 解釈・抽出 精度向上のために利用者が参照元を見ながら、抽出結果を修正することが出来る
© LayerX Inc. 10 抽出した内容が、元文書の どこに対応するのかを、ワ ンタッチで表示できるの で、一眼で内容レビューが 可能 (出典)Jin,
Bowen, et al. "Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs in RAG." arXiv preprint arXiv:2410.05983 (2024).
LLM生成文章の精度評価
© LayerX Inc. 12 Ai Workforceにおける精度評価の対象 単純な値を 取得するもの 文章が 生成されるもの
• 著者名 • 著者の所属 • 実験に用いたデータセット • … 項目 精度評価手法 • 要約 • 論文が解決する課題 • 先行研究との比較 • … • exact match • ROUGE score ?? 単純な値は精度評価が容易だが、生成された文章は「人間が見て評価」しがち(とても大変。スケールしない)
© LayerX Inc. 13 LLM生成文章の精度評価の難しさ • 評価の主観性 ◦ 人間による評価のばらつき ◦
一貫した評価基準の設定の困難さ • 多様な生成結果 ◦ 何をもって「正解」とするのか ◦ 文脈やニュアンスの違い 機械的な判断ができず、 スケールしない
© LayerX Inc. 14 一般的な精度評価手法 評価メトリクス メトリクスの計測方法 (出典)Jeffrey Ip. "LLM
Evaluation Metrics: The Ultimate LLM Evaluation Guide", 2024. https://www.confident-ai.com/blog/llm-evaluation-metrics-everything-you-need-for-llm-evaluation • Answer Relevancy ◦ 有益かつ簡潔な出力か • Correctness ◦ ファクトとして正しいか • Hallucination ◦ 捏造された情報が含まれているか • Contextual Relevancy ◦ コンテキストとして関連性が高いか • Responsible Metrics ◦ バイアスなどなく、有害でないか • Task-Specific Metrics ◦ ユースケースごとにカスタマイズす るメトリクス
© LayerX Inc. 15 間接的な精度評価 直接的にメトリクスを計算しなくても、精度の上界・下界を抑える形で精度を評価できる 例: RAG ・・・ これまでの研究では、LLMの出力
を高精度にするためには、XXXら のXXXやXXXらのXXXという手 法が存在するが、XXXという課題 が存在 本論文では、XXXのアーキテク チャを提案し、XXXという課題の 解決と堅牢な評価を行った 大量のドキュメント・チャンク Retrieveされたドキュメント・ チャンク 最終的に Generationされた文章 Generationされた文章ではなく、 Retrieveされたチャンクでrecallを計算 (そもそものRetrieveに失敗していればGenerationもう まくいかない = 精度の上界を計測)
© LayerX Inc. 16 LLM生成文章の精度評価まとめ • 単純な項目取得に対して、要約といった文章の精度評価は難しい • まずは一般的な精度評価手法を用いる •
直接的な測定が難しい場合は、間接的な評価も有効 ◦ ポイント: チューニング効率化のためには「自動化可能な定量化」が重要 ◦ ※必ずしも正確な精度は不要で、「メトリクスの変化」を追えればエンジニア リングができる
プロンプトチューニングの効率化
© LayerX Inc. 18 プロンプトチューニングの戦略 • プロンプトエンジニアリングガイド にある基本的なテクニックに則る • ロールの指定、明確・具体的な指
示、md/xml記法etc ベストプラクティスに従う タスクの分割、ブロック分け few-shot example CoT • プロンプトエンジニアリング関連 の論文が多数出ている※1 • o1では非推奨※2 • input/outputペアの記載だけ でなく、outputだけの記載も効 果的 • 出力フォーマットの指定など ※1: Saumajit Saha, “Prompt Engineering Techniques — Brief Survey”, 2024. https://medium.com/@saha.saumajit/prompt-engineering-techniques-brief-survey-5e23993ef520 ※2: Emilia David, “How to prompt on OpenAI’s new o1 models”, 2024. https://venturebeat.com/ai/how-to-prompt-on-openai-o1/ • ある項目をチューニングしたら、 無関係の他項目の精度が悪化す る、等を防止 • エンジニアリングしやすさにも寄 与 • タスク数が増えるのでprompt cacheも活用
© LayerX Inc. 19 自動評価とプロンプトチューニングの統合 プロンプト チューニング 精度評価 • 間接的でもいいので、
定量的なメトリクスを 採用 • 精度評価を自動化 • 一つのパラメタの変更で 変わる出力の範囲を限定 するようプロンプトを設 計 • 多数のパラメタを一括で 実行できる工夫 • few-shot exampleな ども追加しやすく プロンプトの変更と精度評価のフィードバックループを構築し、探索を高速化