Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LLM生成文章の精度評価自動化とプロンプトチューニングの効率化について
Search
LayerX
PRO
October 28, 2024
Programming
3
240
LLM生成文章の精度評価自動化とプロンプトチューニングの効率化について
2024/10/25 AI Engineering Decoded #4
株式会社LayerX 恩田 壮恭
LayerX
PRO
October 28, 2024
Tweet
Share
More Decks by LayerX
See All by LayerX
LayerX DesignersDeck
layerx
PRO
0
770
vercel AI SDK のストリームと戯れる
layerx
PRO
1
25
意外(?)と語られないGoのいいところ
layerx
PRO
5
450
事前準備が肝!AI活用のための業務改革
layerx
PRO
1
760
Ai Workforceを支える技術
layerx
PRO
3
1.1k
開発スピードを落とさないために必要なイネーブルメント組織の在り方
layerx
PRO
1
360
プロジェクト推進におけるLLMチューニング
layerx
PRO
2
960
バクラク事業部 5分でわかるQAチーム
layerx
PRO
1
490
Fintech事業部流・爆速開発
layerx
PRO
2
370
Other Decks in Programming
See All in Programming
Flutterを言い訳にしない!アプリの使い心地改善テクニック5選🔥
kno3a87
3
400
Keeping it Ruby: Why Your Product Needs a Ruby SDK - RubyWorld 2024
envek
0
110
React + Tauriでデスクトップアプリ開発に入門してみた
ynishimura0922
0
210
The Efficiency Paradox and How to Save Yourself and the World
hollycummins
1
240
Figma Dev Modeで変わる!Flutterの開発体験
watanave
0
3.7k
事業成長を爆速で進めてきたプロダクトエンジニアたちの成功談・失敗談
nealle
3
1.3k
layerx_20241129.pdf
kyoheig3
2
260
Criando Commits Incríveis no Git
marcelgsantos
2
150
CSC509 Lecture 14
javiergs
PRO
0
110
CSC305 Lecture 25
javiergs
PRO
0
120
テスト自動化失敗から再挑戦しチームにオーナーシップを委譲した話/STAC2024 macho
ma_cho29
1
810
物流システムにおけるリファクタリングとアーキテクチャの再構築 〜依存関係とモジュール分割の重要性〜
deeprain
1
740
Featured
See All Featured
Stop Working from a Prison Cell
hatefulcrawdad
267
20k
Building a Scalable Design System with Sketch
lauravandoore
459
33k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
6
480
A designer walks into a library…
pauljervisheath
204
24k
Making Projects Easy
brettharned
116
5.9k
Designing for Performance
lara
604
68k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
247
1.3M
How to Think Like a Performance Engineer
csswizardry
21
1.2k
How GitHub (no longer) Works
holman
310
140k
The Pragmatic Product Professional
lauravandoore
32
6.3k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
126
18k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
28
9.1k
Transcript
© LayerX Inc. LLM生成文章の精度評価自動化とプロンプト チューニングの効率化について 2024/10/25 AI Engineering Decoded #4
株式会社LayerX 恩田 壮恭
目次 Agenda • 自己紹介、会社紹介、プロダクト紹介 • LLM生成文章の精度評価 • プロンプトチューニングの効率化
自己紹介、会社紹介、プロダクト紹介
4 Confidential © 2024 LayerX Inc. 自己紹介 • 恩田壮恭(おんだまさのり) •
cipepser(さいぺ) • LayerX AI・LLM事業部 マネージャー • LayerXに入社して4年半 • これまで ◦ TEEやPrivacyTechなど、技術を軸にした新規プロ ダクトの開発 • 現在 ◦ Ai Workforce導入の高速化や、本番で使えるだけ のLLMの精度達成を目指すチームのマネージャー
5 | 株式会社LayerX(レイヤーエックス) | 代表取締役CEO 福島 良典 (Gunosy創業・上場) 代表取締役CTO 松本
勇気 (Gunosy/DMM CTO) | 2018年 | 132.6億円 | バクラク事業、Fintech事業、AI・LLM事業 | 三井物産デジタル・アセットマネジメント*2 | 会社紹介 LayerXのご紹介 *1 資本準備金含む *2 三井物産、LayerX、三井住友信託銀行、SMBC日興証券、JA三井リースによる合弁会社 会社名 代表取締役 創業 資本金*1 関連会社 株主一覧 大企業とのR&D組織が母体 生成AIプロダクトを開発・提供 バクラク事業 AIをプロダクトのコアとすることで 経費精算・法人カード等の伝統的な ソフトウェア市場を再定義 Fintech事業 三井物産との合弁会社で デジタル証券を発行 AI・LLM事業
6
© LayerX Inc. 7 多くのお客様に共通する「文章処理の課題」 さまざまの業種業界のお客様へのヒアリングによってわかった文章処理の課題 契約書やレポート作成時に、複数の資料を参考しているけど、フォーマットや 構成がバラバラで欲しい情報を探すのが大変… 手作業での コピー&ペーストも面倒くさい…
契約書が社内規定にあっているかのチェック業務に時間がかかっている。 早く案件を進めたいのに… 過去資料検索が大変。結局ファイルを開いて中を見てみないとわからない。 タグを付けるルールにしたけど誰も付けてくれない… “知的だが単純な作業”に多くの時間を取られている(疲弊している) 各業界共通
8 ノーコード、ノープロンプトAIプラットフォーム「Ai Workforce」 生成AIの活用課題とLayerXのアプローチ 生成AIの業務活用におけるポテンシャルを最大限に引き出す ノーコード、ノープロンプトAIプラットフォームとして「Ai Workforce」を開発。 ナレッジポータル (検索・ポータルアプリケーション) •
AI ワークフローによって、非構造化データから業務上の 意思決定に役立つ価値ある情報(Intelligence)を抽出 • ナレッジシェアやプロジェクト管理、契約書等のドキュメン ト管理などで活用 AI ワークフロー (文書処理効率化アプリケーション) • ノーコード、ノープロンプトで様々な文書処理業務の効率化・ 自動化を実現するAIワークフロー • AIに業務の仕方(ワークフロー)を教えたら、日々の業務で はAIにインプットを与えて処理結果をレビューするだけ Intelligence DB 蓄積データを 検索・活用する AIに業務を実行させ、 結果をレビューする AIに一連の業務フ ローを教える AIアルゴリズム基盤(LLM, OCR etc) 外部データを 取り込んで拡充 書類を”活用できるデータ”に変える データを最大限”活用する”
© LayerX Inc. 9 文章をLLMが解釈して、欲しい項目をデータ化 Ai Workforceの特徴 プロンプトを操作せず、ボタン操作やファイルアップロードだけでLLMが文章を解釈し、項目を抽出 フォーマットや構成が異なる文章でも、LLMが意味や文脈を理解して欲しい情報を抽出(してデータ化) ファイルアップロード画面
アウトプット画面 英語や他言語も 翻訳して抽出・要約 参照元表示機能 (抽出項目の 参照元に飛べる) 文章の”活用できるデータ”化 解釈・抽出 精度向上のために利用者が参照元を見ながら、抽出結果を修正することが出来る
© LayerX Inc. 10 抽出した内容が、元文書の どこに対応するのかを、ワ ンタッチで表示できるの で、一眼で内容レビューが 可能 (出典)Jin,
Bowen, et al. "Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs in RAG." arXiv preprint arXiv:2410.05983 (2024).
LLM生成文章の精度評価
© LayerX Inc. 12 Ai Workforceにおける精度評価の対象 単純な値を 取得するもの 文章が 生成されるもの
• 著者名 • 著者の所属 • 実験に用いたデータセット • … 項目 精度評価手法 • 要約 • 論文が解決する課題 • 先行研究との比較 • … • exact match • ROUGE score ?? 単純な値は精度評価が容易だが、生成された文章は「人間が見て評価」しがち(とても大変。スケールしない)
© LayerX Inc. 13 LLM生成文章の精度評価の難しさ • 評価の主観性 ◦ 人間による評価のばらつき ◦
一貫した評価基準の設定の困難さ • 多様な生成結果 ◦ 何をもって「正解」とするのか ◦ 文脈やニュアンスの違い 機械的な判断ができず、 スケールしない
© LayerX Inc. 14 一般的な精度評価手法 評価メトリクス メトリクスの計測方法 (出典)Jeffrey Ip. "LLM
Evaluation Metrics: The Ultimate LLM Evaluation Guide", 2024. https://www.confident-ai.com/blog/llm-evaluation-metrics-everything-you-need-for-llm-evaluation • Answer Relevancy ◦ 有益かつ簡潔な出力か • Correctness ◦ ファクトとして正しいか • Hallucination ◦ 捏造された情報が含まれているか • Contextual Relevancy ◦ コンテキストとして関連性が高いか • Responsible Metrics ◦ バイアスなどなく、有害でないか • Task-Specific Metrics ◦ ユースケースごとにカスタマイズす るメトリクス
© LayerX Inc. 15 間接的な精度評価 直接的にメトリクスを計算しなくても、精度の上界・下界を抑える形で精度を評価できる 例: RAG ・・・ これまでの研究では、LLMの出力
を高精度にするためには、XXXら のXXXやXXXらのXXXという手 法が存在するが、XXXという課題 が存在 本論文では、XXXのアーキテク チャを提案し、XXXという課題の 解決と堅牢な評価を行った 大量のドキュメント・チャンク Retrieveされたドキュメント・ チャンク 最終的に Generationされた文章 Generationされた文章ではなく、 Retrieveされたチャンクでrecallを計算 (そもそものRetrieveに失敗していればGenerationもう まくいかない = 精度の上界を計測)
© LayerX Inc. 16 LLM生成文章の精度評価まとめ • 単純な項目取得に対して、要約といった文章の精度評価は難しい • まずは一般的な精度評価手法を用いる •
直接的な測定が難しい場合は、間接的な評価も有効 ◦ ポイント: チューニング効率化のためには「自動化可能な定量化」が重要 ◦ ※必ずしも正確な精度は不要で、「メトリクスの変化」を追えればエンジニア リングができる
プロンプトチューニングの効率化
© LayerX Inc. 18 プロンプトチューニングの戦略 • プロンプトエンジニアリングガイド にある基本的なテクニックに則る • ロールの指定、明確・具体的な指
示、md/xml記法etc ベストプラクティスに従う タスクの分割、ブロック分け few-shot example CoT • プロンプトエンジニアリング関連 の論文が多数出ている※1 • o1では非推奨※2 • input/outputペアの記載だけ でなく、outputだけの記載も効 果的 • 出力フォーマットの指定など ※1: Saumajit Saha, “Prompt Engineering Techniques — Brief Survey”, 2024. https://medium.com/@saha.saumajit/prompt-engineering-techniques-brief-survey-5e23993ef520 ※2: Emilia David, “How to prompt on OpenAI’s new o1 models”, 2024. https://venturebeat.com/ai/how-to-prompt-on-openai-o1/ • ある項目をチューニングしたら、 無関係の他項目の精度が悪化す る、等を防止 • エンジニアリングしやすさにも寄 与 • タスク数が増えるのでprompt cacheも活用
© LayerX Inc. 19 自動評価とプロンプトチューニングの統合 プロンプト チューニング 精度評価 • 間接的でもいいので、
定量的なメトリクスを 採用 • 精度評価を自動化 • 一つのパラメタの変更で 変わる出力の範囲を限定 するようプロンプトを設 計 • 多数のパラメタを一括で 実行できる工夫 • few-shot exampleな ども追加しやすく プロンプトの変更と精度評価のフィードバックループを構築し、探索を高速化