Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LLM生成文章の精度評価自動化とプロンプトチューニングの効率化について
Search
LayerX
PRO
October 28, 2024
Programming
3
230
LLM生成文章の精度評価自動化とプロンプトチューニングの効率化について
2024/10/25 AI Engineering Decoded #4
株式会社LayerX 恩田 壮恭
LayerX
PRO
October 28, 2024
Tweet
Share
More Decks by LayerX
See All by LayerX
LayerX DesignersDeck
layerx
PRO
0
500
vercel AI SDK のストリームと戯れる
layerx
PRO
1
25
意外(?)と語られないGoのいいところ
layerx
PRO
5
450
事前準備が肝!AI活用のための業務改革
layerx
PRO
1
750
Ai Workforceを支える技術
layerx
PRO
3
1.1k
開発スピードを落とさないために必要なイネーブルメント組織の在り方
layerx
PRO
1
350
プロジェクト推進におけるLLMチューニング
layerx
PRO
2
940
バクラク事業部 5分でわかるQAチーム
layerx
PRO
1
480
Fintech事業部流・爆速開発
layerx
PRO
2
370
Other Decks in Programming
See All in Programming
Vapor Revolution
kazupon
2
2.5k
Jakarta EE meets AI
ivargrimstad
0
1.2k
HTTP compression in PHP and Symfony apps
dunglas
2
1.2k
WebAssembly Unleashed: Powering Server-Side Applications
chrisft25
0
2.1k
気をつけたい!Desktop対応で陥りやすい罠とその対策
goto_tsl
0
190
複雑な仕様に立ち向かうアーキテクチャ
myohei
0
110
Missing parts when designing and implementing Android UI
ericksli
0
390
Leverage LLMs in Java with LangChain4j and Quarkus
hollycummins
0
160
[Do iOS '24] Ship your app on a Friday...and enjoy your weekend!
polpielladev
0
230
あれやってみてー駆動から成長を加速させる / areyattemite-driven
nashiusagi
1
130
競技プログラミングで 基礎体力を身につけよう / You can get basic skills through competitive programming
mdstoy
0
140
Gestaltung digitaler Lösungen – Produktions- oder Designprozess?
techstories
0
120
Featured
See All Featured
Fireside Chat
paigeccino
34
3.1k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
28
9.1k
Speed Design
sergeychernyshev
25
650
Building a Modern Day E-commerce SEO Strategy
aleyda
38
7k
No one is an island. Learnings from fostering a developers community.
thoeni
19
3k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
226
22k
The Art of Programming - Codeland 2020
erikaheidi
53
13k
The Cult of Friendly URLs
andyhume
78
6.1k
Build The Right Thing And Hit Your Dates
maggiecrowley
33
2.4k
BBQ
matthewcrist
85
9.3k
How to Ace a Technical Interview
jacobian
276
23k
Typedesign – Prime Four
hannesfritz
40
2.4k
Transcript
© LayerX Inc. LLM生成文章の精度評価自動化とプロンプト チューニングの効率化について 2024/10/25 AI Engineering Decoded #4
株式会社LayerX 恩田 壮恭
目次 Agenda • 自己紹介、会社紹介、プロダクト紹介 • LLM生成文章の精度評価 • プロンプトチューニングの効率化
自己紹介、会社紹介、プロダクト紹介
4 Confidential © 2024 LayerX Inc. 自己紹介 • 恩田壮恭(おんだまさのり) •
cipepser(さいぺ) • LayerX AI・LLM事業部 マネージャー • LayerXに入社して4年半 • これまで ◦ TEEやPrivacyTechなど、技術を軸にした新規プロ ダクトの開発 • 現在 ◦ Ai Workforce導入の高速化や、本番で使えるだけ のLLMの精度達成を目指すチームのマネージャー
5 | 株式会社LayerX(レイヤーエックス) | 代表取締役CEO 福島 良典 (Gunosy創業・上場) 代表取締役CTO 松本
勇気 (Gunosy/DMM CTO) | 2018年 | 132.6億円 | バクラク事業、Fintech事業、AI・LLM事業 | 三井物産デジタル・アセットマネジメント*2 | 会社紹介 LayerXのご紹介 *1 資本準備金含む *2 三井物産、LayerX、三井住友信託銀行、SMBC日興証券、JA三井リースによる合弁会社 会社名 代表取締役 創業 資本金*1 関連会社 株主一覧 大企業とのR&D組織が母体 生成AIプロダクトを開発・提供 バクラク事業 AIをプロダクトのコアとすることで 経費精算・法人カード等の伝統的な ソフトウェア市場を再定義 Fintech事業 三井物産との合弁会社で デジタル証券を発行 AI・LLM事業
6
© LayerX Inc. 7 多くのお客様に共通する「文章処理の課題」 さまざまの業種業界のお客様へのヒアリングによってわかった文章処理の課題 契約書やレポート作成時に、複数の資料を参考しているけど、フォーマットや 構成がバラバラで欲しい情報を探すのが大変… 手作業での コピー&ペーストも面倒くさい…
契約書が社内規定にあっているかのチェック業務に時間がかかっている。 早く案件を進めたいのに… 過去資料検索が大変。結局ファイルを開いて中を見てみないとわからない。 タグを付けるルールにしたけど誰も付けてくれない… “知的だが単純な作業”に多くの時間を取られている(疲弊している) 各業界共通
8 ノーコード、ノープロンプトAIプラットフォーム「Ai Workforce」 生成AIの活用課題とLayerXのアプローチ 生成AIの業務活用におけるポテンシャルを最大限に引き出す ノーコード、ノープロンプトAIプラットフォームとして「Ai Workforce」を開発。 ナレッジポータル (検索・ポータルアプリケーション) •
AI ワークフローによって、非構造化データから業務上の 意思決定に役立つ価値ある情報(Intelligence)を抽出 • ナレッジシェアやプロジェクト管理、契約書等のドキュメン ト管理などで活用 AI ワークフロー (文書処理効率化アプリケーション) • ノーコード、ノープロンプトで様々な文書処理業務の効率化・ 自動化を実現するAIワークフロー • AIに業務の仕方(ワークフロー)を教えたら、日々の業務で はAIにインプットを与えて処理結果をレビューするだけ Intelligence DB 蓄積データを 検索・活用する AIに業務を実行させ、 結果をレビューする AIに一連の業務フ ローを教える AIアルゴリズム基盤(LLM, OCR etc) 外部データを 取り込んで拡充 書類を”活用できるデータ”に変える データを最大限”活用する”
© LayerX Inc. 9 文章をLLMが解釈して、欲しい項目をデータ化 Ai Workforceの特徴 プロンプトを操作せず、ボタン操作やファイルアップロードだけでLLMが文章を解釈し、項目を抽出 フォーマットや構成が異なる文章でも、LLMが意味や文脈を理解して欲しい情報を抽出(してデータ化) ファイルアップロード画面
アウトプット画面 英語や他言語も 翻訳して抽出・要約 参照元表示機能 (抽出項目の 参照元に飛べる) 文章の”活用できるデータ”化 解釈・抽出 精度向上のために利用者が参照元を見ながら、抽出結果を修正することが出来る
© LayerX Inc. 10 抽出した内容が、元文書の どこに対応するのかを、ワ ンタッチで表示できるの で、一眼で内容レビューが 可能 (出典)Jin,
Bowen, et al. "Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs in RAG." arXiv preprint arXiv:2410.05983 (2024).
LLM生成文章の精度評価
© LayerX Inc. 12 Ai Workforceにおける精度評価の対象 単純な値を 取得するもの 文章が 生成されるもの
• 著者名 • 著者の所属 • 実験に用いたデータセット • … 項目 精度評価手法 • 要約 • 論文が解決する課題 • 先行研究との比較 • … • exact match • ROUGE score ?? 単純な値は精度評価が容易だが、生成された文章は「人間が見て評価」しがち(とても大変。スケールしない)
© LayerX Inc. 13 LLM生成文章の精度評価の難しさ • 評価の主観性 ◦ 人間による評価のばらつき ◦
一貫した評価基準の設定の困難さ • 多様な生成結果 ◦ 何をもって「正解」とするのか ◦ 文脈やニュアンスの違い 機械的な判断ができず、 スケールしない
© LayerX Inc. 14 一般的な精度評価手法 評価メトリクス メトリクスの計測方法 (出典)Jeffrey Ip. "LLM
Evaluation Metrics: The Ultimate LLM Evaluation Guide", 2024. https://www.confident-ai.com/blog/llm-evaluation-metrics-everything-you-need-for-llm-evaluation • Answer Relevancy ◦ 有益かつ簡潔な出力か • Correctness ◦ ファクトとして正しいか • Hallucination ◦ 捏造された情報が含まれているか • Contextual Relevancy ◦ コンテキストとして関連性が高いか • Responsible Metrics ◦ バイアスなどなく、有害でないか • Task-Specific Metrics ◦ ユースケースごとにカスタマイズす るメトリクス
© LayerX Inc. 15 間接的な精度評価 直接的にメトリクスを計算しなくても、精度の上界・下界を抑える形で精度を評価できる 例: RAG ・・・ これまでの研究では、LLMの出力
を高精度にするためには、XXXら のXXXやXXXらのXXXという手 法が存在するが、XXXという課題 が存在 本論文では、XXXのアーキテク チャを提案し、XXXという課題の 解決と堅牢な評価を行った 大量のドキュメント・チャンク Retrieveされたドキュメント・ チャンク 最終的に Generationされた文章 Generationされた文章ではなく、 Retrieveされたチャンクでrecallを計算 (そもそものRetrieveに失敗していればGenerationもう まくいかない = 精度の上界を計測)
© LayerX Inc. 16 LLM生成文章の精度評価まとめ • 単純な項目取得に対して、要約といった文章の精度評価は難しい • まずは一般的な精度評価手法を用いる •
直接的な測定が難しい場合は、間接的な評価も有効 ◦ ポイント: チューニング効率化のためには「自動化可能な定量化」が重要 ◦ ※必ずしも正確な精度は不要で、「メトリクスの変化」を追えればエンジニア リングができる
プロンプトチューニングの効率化
© LayerX Inc. 18 プロンプトチューニングの戦略 • プロンプトエンジニアリングガイド にある基本的なテクニックに則る • ロールの指定、明確・具体的な指
示、md/xml記法etc ベストプラクティスに従う タスクの分割、ブロック分け few-shot example CoT • プロンプトエンジニアリング関連 の論文が多数出ている※1 • o1では非推奨※2 • input/outputペアの記載だけ でなく、outputだけの記載も効 果的 • 出力フォーマットの指定など ※1: Saumajit Saha, “Prompt Engineering Techniques — Brief Survey”, 2024. https://medium.com/@saha.saumajit/prompt-engineering-techniques-brief-survey-5e23993ef520 ※2: Emilia David, “How to prompt on OpenAI’s new o1 models”, 2024. https://venturebeat.com/ai/how-to-prompt-on-openai-o1/ • ある項目をチューニングしたら、 無関係の他項目の精度が悪化す る、等を防止 • エンジニアリングしやすさにも寄 与 • タスク数が増えるのでprompt cacheも活用
© LayerX Inc. 19 自動評価とプロンプトチューニングの統合 プロンプト チューニング 精度評価 • 間接的でもいいので、
定量的なメトリクスを 採用 • 精度評価を自動化 • 一つのパラメタの変更で 変わる出力の範囲を限定 するようプロンプトを設 計 • 多数のパラメタを一括で 実行できる工夫 • few-shot exampleな ども追加しやすく プロンプトの変更と精度評価のフィードバックループを構築し、探索を高速化