Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LLM生成文章の精度評価自動化とプロンプトチューニングの効率化について
Search
LayerX
PRO
October 28, 2024
Programming
3
190
LLM生成文章の精度評価自動化とプロンプトチューニングの効率化について
2024/10/25 AI Engineering Decoded #4
株式会社LayerX 恩田 壮恭
LayerX
PRO
October 28, 2024
Tweet
Share
More Decks by LayerX
See All by LayerX
vercel AI SDK のストリームと戯れる
layerx
PRO
1
6
意外(?)と語られないGoのいいところ
layerx
PRO
5
430
事前準備が肝!AI活用のための業務改革
layerx
PRO
1
700
Ai Workforceを支える技術
layerx
PRO
3
930
開発スピードを落とさないために必要なイネーブルメント組織の在り方
layerx
PRO
1
320
プロジェクト推進におけるLLMチューニング
layerx
PRO
2
710
バクラク事業部 5分でわかるQAチーム
layerx
PRO
1
440
Fintech事業部流・爆速開発
layerx
PRO
2
360
Beyond PoC〜LLMを本番業務で適用するためにLayerXで取り組んでいること〜
layerx
PRO
5
1.7k
Other Decks in Programming
See All in Programming
watsonx.ai Dojo #4 生成AIを使ったアプリ開発、応用編
oniak3ibm
PRO
1
150
TypeScript Graph でコードレビューの心理的障壁を乗り越える
ysk8hori
3
1.2k
Snowflake x dbtで作るセキュアでアジャイルなデータ基盤
tsoshiro
2
520
Quine, Polyglot, 良いコード
qnighy
4
650
Jakarta EE meets AI
ivargrimstad
0
240
Outline View in SwiftUI
1024jp
1
330
CSC509 Lecture 12
javiergs
PRO
0
160
CSC509 Lecture 13
javiergs
PRO
0
110
よくできたテンプレート言語として TypeScript + JSX を利用する試み / Using TypeScript + JSX outside of Web Frontend #TSKaigiKansai
izumin5210
6
1.8k
レガシーシステムにどう立ち向かうか 複雑さと理想と現実/vs-legacy
suzukihoge
14
2.3k
最新TCAキャッチアップ
0si43
0
200
Kaigi on Rails 2024 〜運営の裏側〜
krpk1900
1
240
Featured
See All Featured
Fashionably flexible responsive web design (full day workshop)
malarkey
405
65k
GraphQLの誤解/rethinking-graphql
sonatard
67
10k
Ruby is Unlike a Banana
tanoku
97
11k
Done Done
chrislema
181
16k
A Modern Web Designer's Workflow
chriscoyier
693
190k
Producing Creativity
orderedlist
PRO
341
39k
Writing Fast Ruby
sferik
627
61k
Git: the NoSQL Database
bkeepers
PRO
427
64k
What's in a price? How to price your products and services
michaelherold
243
12k
Stop Working from a Prison Cell
hatefulcrawdad
267
20k
Designing Experiences People Love
moore
138
23k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
26
2.1k
Transcript
© LayerX Inc. LLM生成文章の精度評価自動化とプロンプト チューニングの効率化について 2024/10/25 AI Engineering Decoded #4
株式会社LayerX 恩田 壮恭
目次 Agenda • 自己紹介、会社紹介、プロダクト紹介 • LLM生成文章の精度評価 • プロンプトチューニングの効率化
自己紹介、会社紹介、プロダクト紹介
4 Confidential © 2024 LayerX Inc. 自己紹介 • 恩田壮恭(おんだまさのり) •
cipepser(さいぺ) • LayerX AI・LLM事業部 マネージャー • LayerXに入社して4年半 • これまで ◦ TEEやPrivacyTechなど、技術を軸にした新規プロ ダクトの開発 • 現在 ◦ Ai Workforce導入の高速化や、本番で使えるだけ のLLMの精度達成を目指すチームのマネージャー
5 | 株式会社LayerX(レイヤーエックス) | 代表取締役CEO 福島 良典 (Gunosy創業・上場) 代表取締役CTO 松本
勇気 (Gunosy/DMM CTO) | 2018年 | 132.6億円 | バクラク事業、Fintech事業、AI・LLM事業 | 三井物産デジタル・アセットマネジメント*2 | 会社紹介 LayerXのご紹介 *1 資本準備金含む *2 三井物産、LayerX、三井住友信託銀行、SMBC日興証券、JA三井リースによる合弁会社 会社名 代表取締役 創業 資本金*1 関連会社 株主一覧 大企業とのR&D組織が母体 生成AIプロダクトを開発・提供 バクラク事業 AIをプロダクトのコアとすることで 経費精算・法人カード等の伝統的な ソフトウェア市場を再定義 Fintech事業 三井物産との合弁会社で デジタル証券を発行 AI・LLM事業
6
© LayerX Inc. 7 多くのお客様に共通する「文章処理の課題」 さまざまの業種業界のお客様へのヒアリングによってわかった文章処理の課題 契約書やレポート作成時に、複数の資料を参考しているけど、フォーマットや 構成がバラバラで欲しい情報を探すのが大変… 手作業での コピー&ペーストも面倒くさい…
契約書が社内規定にあっているかのチェック業務に時間がかかっている。 早く案件を進めたいのに… 過去資料検索が大変。結局ファイルを開いて中を見てみないとわからない。 タグを付けるルールにしたけど誰も付けてくれない… “知的だが単純な作業”に多くの時間を取られている(疲弊している) 各業界共通
8 ノーコード、ノープロンプトAIプラットフォーム「Ai Workforce」 生成AIの活用課題とLayerXのアプローチ 生成AIの業務活用におけるポテンシャルを最大限に引き出す ノーコード、ノープロンプトAIプラットフォームとして「Ai Workforce」を開発。 ナレッジポータル (検索・ポータルアプリケーション) •
AI ワークフローによって、非構造化データから業務上の 意思決定に役立つ価値ある情報(Intelligence)を抽出 • ナレッジシェアやプロジェクト管理、契約書等のドキュメン ト管理などで活用 AI ワークフロー (文書処理効率化アプリケーション) • ノーコード、ノープロンプトで様々な文書処理業務の効率化・ 自動化を実現するAIワークフロー • AIに業務の仕方(ワークフロー)を教えたら、日々の業務で はAIにインプットを与えて処理結果をレビューするだけ Intelligence DB 蓄積データを 検索・活用する AIに業務を実行させ、 結果をレビューする AIに一連の業務フ ローを教える AIアルゴリズム基盤(LLM, OCR etc) 外部データを 取り込んで拡充 書類を”活用できるデータ”に変える データを最大限”活用する”
© LayerX Inc. 9 文章をLLMが解釈して、欲しい項目をデータ化 Ai Workforceの特徴 プロンプトを操作せず、ボタン操作やファイルアップロードだけでLLMが文章を解釈し、項目を抽出 フォーマットや構成が異なる文章でも、LLMが意味や文脈を理解して欲しい情報を抽出(してデータ化) ファイルアップロード画面
アウトプット画面 英語や他言語も 翻訳して抽出・要約 参照元表示機能 (抽出項目の 参照元に飛べる) 文章の”活用できるデータ”化 解釈・抽出 精度向上のために利用者が参照元を見ながら、抽出結果を修正することが出来る
© LayerX Inc. 10 抽出した内容が、元文書の どこに対応するのかを、ワ ンタッチで表示できるの で、一眼で内容レビューが 可能 (出典)Jin,
Bowen, et al. "Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs in RAG." arXiv preprint arXiv:2410.05983 (2024).
LLM生成文章の精度評価
© LayerX Inc. 12 Ai Workforceにおける精度評価の対象 単純な値を 取得するもの 文章が 生成されるもの
• 著者名 • 著者の所属 • 実験に用いたデータセット • … 項目 精度評価手法 • 要約 • 論文が解決する課題 • 先行研究との比較 • … • exact match • ROUGE score ?? 単純な値は精度評価が容易だが、生成された文章は「人間が見て評価」しがち(とても大変。スケールしない)
© LayerX Inc. 13 LLM生成文章の精度評価の難しさ • 評価の主観性 ◦ 人間による評価のばらつき ◦
一貫した評価基準の設定の困難さ • 多様な生成結果 ◦ 何をもって「正解」とするのか ◦ 文脈やニュアンスの違い 機械的な判断ができず、 スケールしない
© LayerX Inc. 14 一般的な精度評価手法 評価メトリクス メトリクスの計測方法 (出典)Jeffrey Ip. "LLM
Evaluation Metrics: The Ultimate LLM Evaluation Guide", 2024. https://www.confident-ai.com/blog/llm-evaluation-metrics-everything-you-need-for-llm-evaluation • Answer Relevancy ◦ 有益かつ簡潔な出力か • Correctness ◦ ファクトとして正しいか • Hallucination ◦ 捏造された情報が含まれているか • Contextual Relevancy ◦ コンテキストとして関連性が高いか • Responsible Metrics ◦ バイアスなどなく、有害でないか • Task-Specific Metrics ◦ ユースケースごとにカスタマイズす るメトリクス
© LayerX Inc. 15 間接的な精度評価 直接的にメトリクスを計算しなくても、精度の上界・下界を抑える形で精度を評価できる 例: RAG ・・・ これまでの研究では、LLMの出力
を高精度にするためには、XXXら のXXXやXXXらのXXXという手 法が存在するが、XXXという課題 が存在 本論文では、XXXのアーキテク チャを提案し、XXXという課題の 解決と堅牢な評価を行った 大量のドキュメント・チャンク Retrieveされたドキュメント・ チャンク 最終的に Generationされた文章 Generationされた文章ではなく、 Retrieveされたチャンクでrecallを計算 (そもそものRetrieveに失敗していればGenerationもう まくいかない = 精度の上界を計測)
© LayerX Inc. 16 LLM生成文章の精度評価まとめ • 単純な項目取得に対して、要約といった文章の精度評価は難しい • まずは一般的な精度評価手法を用いる •
直接的な測定が難しい場合は、間接的な評価も有効 ◦ ポイント: チューニング効率化のためには「自動化可能な定量化」が重要 ◦ ※必ずしも正確な精度は不要で、「メトリクスの変化」を追えればエンジニア リングができる
プロンプトチューニングの効率化
© LayerX Inc. 18 プロンプトチューニングの戦略 • プロンプトエンジニアリングガイド にある基本的なテクニックに則る • ロールの指定、明確・具体的な指
示、md/xml記法etc ベストプラクティスに従う タスクの分割、ブロック分け few-shot example CoT • プロンプトエンジニアリング関連 の論文が多数出ている※1 • o1では非推奨※2 • input/outputペアの記載だけ でなく、outputだけの記載も効 果的 • 出力フォーマットの指定など ※1: Saumajit Saha, “Prompt Engineering Techniques — Brief Survey”, 2024. https://medium.com/@saha.saumajit/prompt-engineering-techniques-brief-survey-5e23993ef520 ※2: Emilia David, “How to prompt on OpenAI’s new o1 models”, 2024. https://venturebeat.com/ai/how-to-prompt-on-openai-o1/ • ある項目をチューニングしたら、 無関係の他項目の精度が悪化す る、等を防止 • エンジニアリングしやすさにも寄 与 • タスク数が増えるのでprompt cacheも活用
© LayerX Inc. 19 自動評価とプロンプトチューニングの統合 プロンプト チューニング 精度評価 • 間接的でもいいので、
定量的なメトリクスを 採用 • 精度評価を自動化 • 一つのパラメタの変更で 変わる出力の範囲を限定 するようプロンプトを設 計 • 多数のパラメタを一括で 実行できる工夫 • few-shot exampleな ども追加しやすく プロンプトの変更と精度評価のフィードバックループを構築し、探索を高速化