Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LLM生成文章の精度評価自動化とプロンプトチューニングの効率化について
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
LayerX
PRO
October 28, 2024
Programming
1k
4
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
LLM生成文章の精度評価自動化とプロンプトチューニングの効率化について
2024/10/25 AI Engineering Decoded #4
株式会社LayerX 恩田 壮恭
LayerX
PRO
October 28, 2024
More Decks by LayerX
See All by LayerX
受託開発からtoCプロダクトへ 〜変わったこと・変わらないこと〜 #事業を動かすエンジニア
layerx
PRO
3
760
Ai Workforce Engineering Hiring Deck
layerx
PRO
2
12k
AI時代のプロダクト成長を支えるEvals #ProductScaleTech
layerx
PRO
2
800
プロダクトエンジニアこそ必要なPMスキル 〜デリバリー力を最大化し、価値を届け続けるために〜
layerx
PRO
0
520
Bakuraku Product Manager Team Deck
layerx
PRO
5
4k
AIエージェント開発に求められるPdMの仕事を考える
layerx
PRO
1
970
Bakuraku Engineering Team Deck
layerx
PRO
20
25k
エンジニア → 人事への「急」な転身で見えた、お互いの誤解と理解 #yapcjapan
layerx
PRO
10
8k
可観測性は開発環境から、開発環境にもオブザーバビリティ導入のススメ
layerx
PRO
5
4.3k
Other Decks in Programming
See All in Programming
Skillsは効率化、Agentsは"自分の拡張"——Builder時代のエージェント編成(CC Night 2026)
wemra
1
110
CLIであることを活かしたGitHub Copilot CLI活用術 / GitHub Copilot CLI Pro Tips & Tricks
nao_mk2
1
1.2k
柔軟なPDFレイアウトエディタを支える型システム設計 — Discriminated UnionとConditional Typeの実践
minako__ph
4
1.5k
タクシーアプリ『GO』の バックエンド開発のおける AI利活用と若者のすべて
pyama86
3
1.9k
Spring Security 実践 ─ GraphQL APIで実務に役立つ 認証・認可 を学ぶ
wagyu
0
190
ふつうのFeature Flag実践入門
irof
7
3.6k
代数的データ型って何が嬉しいの? #frontend_phpcon_do
kajitack
8
3.3k
New "Type" system on PicoRuby
pocke
1
690
AI時代の仕事技芸論 — ソフトウェア開発で「遊ぶように働く」職人的熟達のすすめ
kuranuki
1
630
AIとRubyの静的型付け
ukin0k0
0
550
Oxlintのカスタムルールの現況
syumai
6
1k
Webフレームワークの ベンチマークについて
yusukebe
0
150
Featured
See All Featured
Primal Persuasion: How to Engage the Brain for Learning That Lasts
tmiket
0
360
Heart Work Chapter 1 - Part 1
lfama
PRO
7
36k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
141
35k
Mozcon NYC 2025: Stop Losing SEO Traffic
samtorres
1
250
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
71
40k
Marketing to machines
jonoalderson
1
5.4k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.8k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
49
10k
Digital Ethics as a Driver of Design Innovation
axbom
PRO
1
300
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
47
8.2k
How People are Using Generative and Agentic AI to Supercharge Their Products, Projects, Services and Value Streams Today
helenjbeal
1
200
Bridging the Design Gap: How Collaborative Modelling removes blockers to flow between stakeholders and teams @FastFlow conf
baasie
0
580
Transcript
© LayerX Inc. LLM生成文章の精度評価自動化とプロンプト チューニングの効率化について 2024/10/25 AI Engineering Decoded #4
株式会社LayerX 恩田 壮恭
目次 Agenda • 自己紹介、会社紹介、プロダクト紹介 • LLM生成文章の精度評価 • プロンプトチューニングの効率化
自己紹介、会社紹介、プロダクト紹介
4 Confidential © 2024 LayerX Inc. 自己紹介 • 恩田壮恭(おんだまさのり) •
cipepser(さいぺ) • LayerX AI・LLM事業部 マネージャー • LayerXに入社して4年半 • これまで ◦ TEEやPrivacyTechなど、技術を軸にした新規プロ ダクトの開発 • 現在 ◦ Ai Workforce導入の高速化や、本番で使えるだけ のLLMの精度達成を目指すチームのマネージャー
5 | 株式会社LayerX(レイヤーエックス) | 代表取締役CEO 福島 良典 (Gunosy創業・上場) 代表取締役CTO 松本
勇気 (Gunosy/DMM CTO) | 2018年 | 132.6億円 | バクラク事業、Fintech事業、AI・LLM事業 | 三井物産デジタル・アセットマネジメント*2 | 会社紹介 LayerXのご紹介 *1 資本準備金含む *2 三井物産、LayerX、三井住友信託銀行、SMBC日興証券、JA三井リースによる合弁会社 会社名 代表取締役 創業 資本金*1 関連会社 株主一覧 大企業とのR&D組織が母体 生成AIプロダクトを開発・提供 バクラク事業 AIをプロダクトのコアとすることで 経費精算・法人カード等の伝統的な ソフトウェア市場を再定義 Fintech事業 三井物産との合弁会社で デジタル証券を発行 AI・LLM事業
6
© LayerX Inc. 7 多くのお客様に共通する「文章処理の課題」 さまざまの業種業界のお客様へのヒアリングによってわかった文章処理の課題 契約書やレポート作成時に、複数の資料を参考しているけど、フォーマットや 構成がバラバラで欲しい情報を探すのが大変… 手作業での コピー&ペーストも面倒くさい…
契約書が社内規定にあっているかのチェック業務に時間がかかっている。 早く案件を進めたいのに… 過去資料検索が大変。結局ファイルを開いて中を見てみないとわからない。 タグを付けるルールにしたけど誰も付けてくれない… “知的だが単純な作業”に多くの時間を取られている(疲弊している) 各業界共通
8 ノーコード、ノープロンプトAIプラットフォーム「Ai Workforce」 生成AIの活用課題とLayerXのアプローチ 生成AIの業務活用におけるポテンシャルを最大限に引き出す ノーコード、ノープロンプトAIプラットフォームとして「Ai Workforce」を開発。 ナレッジポータル (検索・ポータルアプリケーション) •
AI ワークフローによって、非構造化データから業務上の 意思決定に役立つ価値ある情報(Intelligence)を抽出 • ナレッジシェアやプロジェクト管理、契約書等のドキュメン ト管理などで活用 AI ワークフロー (文書処理効率化アプリケーション) • ノーコード、ノープロンプトで様々な文書処理業務の効率化・ 自動化を実現するAIワークフロー • AIに業務の仕方(ワークフロー)を教えたら、日々の業務で はAIにインプットを与えて処理結果をレビューするだけ Intelligence DB 蓄積データを 検索・活用する AIに業務を実行させ、 結果をレビューする AIに一連の業務フ ローを教える AIアルゴリズム基盤(LLM, OCR etc) 外部データを 取り込んで拡充 書類を”活用できるデータ”に変える データを最大限”活用する”
© LayerX Inc. 9 文章をLLMが解釈して、欲しい項目をデータ化 Ai Workforceの特徴 プロンプトを操作せず、ボタン操作やファイルアップロードだけでLLMが文章を解釈し、項目を抽出 フォーマットや構成が異なる文章でも、LLMが意味や文脈を理解して欲しい情報を抽出(してデータ化) ファイルアップロード画面
アウトプット画面 英語や他言語も 翻訳して抽出・要約 参照元表示機能 (抽出項目の 参照元に飛べる) 文章の”活用できるデータ”化 解釈・抽出 精度向上のために利用者が参照元を見ながら、抽出結果を修正することが出来る
© LayerX Inc. 10 抽出した内容が、元文書の どこに対応するのかを、ワ ンタッチで表示できるの で、一眼で内容レビューが 可能 (出典)Jin,
Bowen, et al. "Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs in RAG." arXiv preprint arXiv:2410.05983 (2024).
LLM生成文章の精度評価
© LayerX Inc. 12 Ai Workforceにおける精度評価の対象 単純な値を 取得するもの 文章が 生成されるもの
• 著者名 • 著者の所属 • 実験に用いたデータセット • … 項目 精度評価手法 • 要約 • 論文が解決する課題 • 先行研究との比較 • … • exact match • ROUGE score ?? 単純な値は精度評価が容易だが、生成された文章は「人間が見て評価」しがち(とても大変。スケールしない)
© LayerX Inc. 13 LLM生成文章の精度評価の難しさ • 評価の主観性 ◦ 人間による評価のばらつき ◦
一貫した評価基準の設定の困難さ • 多様な生成結果 ◦ 何をもって「正解」とするのか ◦ 文脈やニュアンスの違い 機械的な判断ができず、 スケールしない
© LayerX Inc. 14 一般的な精度評価手法 評価メトリクス メトリクスの計測方法 (出典)Jeffrey Ip. "LLM
Evaluation Metrics: The Ultimate LLM Evaluation Guide", 2024. https://www.confident-ai.com/blog/llm-evaluation-metrics-everything-you-need-for-llm-evaluation • Answer Relevancy ◦ 有益かつ簡潔な出力か • Correctness ◦ ファクトとして正しいか • Hallucination ◦ 捏造された情報が含まれているか • Contextual Relevancy ◦ コンテキストとして関連性が高いか • Responsible Metrics ◦ バイアスなどなく、有害でないか • Task-Specific Metrics ◦ ユースケースごとにカスタマイズす るメトリクス
© LayerX Inc. 15 間接的な精度評価 直接的にメトリクスを計算しなくても、精度の上界・下界を抑える形で精度を評価できる 例: RAG ・・・ これまでの研究では、LLMの出力
を高精度にするためには、XXXら のXXXやXXXらのXXXという手 法が存在するが、XXXという課題 が存在 本論文では、XXXのアーキテク チャを提案し、XXXという課題の 解決と堅牢な評価を行った 大量のドキュメント・チャンク Retrieveされたドキュメント・ チャンク 最終的に Generationされた文章 Generationされた文章ではなく、 Retrieveされたチャンクでrecallを計算 (そもそものRetrieveに失敗していればGenerationもう まくいかない = 精度の上界を計測)
© LayerX Inc. 16 LLM生成文章の精度評価まとめ • 単純な項目取得に対して、要約といった文章の精度評価は難しい • まずは一般的な精度評価手法を用いる •
直接的な測定が難しい場合は、間接的な評価も有効 ◦ ポイント: チューニング効率化のためには「自動化可能な定量化」が重要 ◦ ※必ずしも正確な精度は不要で、「メトリクスの変化」を追えればエンジニア リングができる
プロンプトチューニングの効率化
© LayerX Inc. 18 プロンプトチューニングの戦略 • プロンプトエンジニアリングガイド にある基本的なテクニックに則る • ロールの指定、明確・具体的な指
示、md/xml記法etc ベストプラクティスに従う タスクの分割、ブロック分け few-shot example CoT • プロンプトエンジニアリング関連 の論文が多数出ている※1 • o1では非推奨※2 • input/outputペアの記載だけ でなく、outputだけの記載も効 果的 • 出力フォーマットの指定など ※1: Saumajit Saha, “Prompt Engineering Techniques — Brief Survey”, 2024. https://medium.com/@saha.saumajit/prompt-engineering-techniques-brief-survey-5e23993ef520 ※2: Emilia David, “How to prompt on OpenAI’s new o1 models”, 2024. https://venturebeat.com/ai/how-to-prompt-on-openai-o1/ • ある項目をチューニングしたら、 無関係の他項目の精度が悪化す る、等を防止 • エンジニアリングしやすさにも寄 与 • タスク数が増えるのでprompt cacheも活用
© LayerX Inc. 19 自動評価とプロンプトチューニングの統合 プロンプト チューニング 精度評価 • 間接的でもいいので、
定量的なメトリクスを 採用 • 精度評価を自動化 • 一つのパラメタの変更で 変わる出力の範囲を限定 するようプロンプトを設 計 • 多数のパラメタを一括で 実行できる工夫 • few-shot exampleな ども追加しやすく プロンプトの変更と精度評価のフィードバックループを構築し、探索を高速化