LLMアプリケーションの安定性を高めるための精度評価・改善
Confidential © 2023 LayerX Inc.LLMアプリケーションの安定性を高めるための精度評価・改善2023/9/26中村龍矢 (LayerX 事業部執行役員)
View Slide
© 2023 LayerX Inc. 2中村 龍矢 (Twitter: @nrryuya_jp)機械学習エンジニア東京大 工学部● データサイエンスと出会うGunosy データ分析部● 推薦システム開発等セキュリティ研究者 (現在) 事業責任者LayerX 創業時からR&D● プログラムの形式検証● ブロックチェーン○ Ethereumへのコントリビューション● LayerX 事業部執行役員● IPA 未踏スーパークリエータ● 2020年度 電子情報通信学会 インターネットアーキテクチャ研究賞 最優秀賞 (共著)● Forbes JAPAN 30 UNDER 30 2023LayerXの新規事業● プライバシーテック● 大規模言語モデル自己紹介
目次Agenda● LayerXの紹介● “Beyond PoC” させるLLM活用● 精度評価と改善
LayerXの紹介
© 2023 LayerX Inc. 5LayerXの事業概要LayerX LLM Labsの紹介* 資本準備金含む会社名 代表取締役 創業 資本金*関連会社株主一覧 取得認証| 株式会社LayerX(レイヤーエックス)| 代表取締役CEO 福島 良典 代表取締役CTO 松本 勇気| 2018年| 112.6億円| バクラク事業、Fintech事業、Privacy Tech事業| 三井物産デジタル・アセットマネジメント 三井物産、LayerX、三井住友信託銀行、SMBC日興証券、JA三井リースによる合弁会社| | 情報セキュリティマネジメントシステム、 JIIMA認証次世代のプライバシー保護秘匿化技術バクラク事業企業活動のインフラとなる法人支出管理(BSM)SaaSを開発・提供Fintech事業ソフトウェアを駆使したアセットマネジメント証券事業を合弁会社にて展開Privacy Tech事業IS 747702 / ISO 27001
© 2023 LayerX Inc. 6法人支出管理SaaS 『バクラク』LayerX LLM Labsの紹介toCレベルの使いやすさを追求AI-OCRの精度にこだわり
© 2023 LayerX Inc. 7MDM(三井物産デジタル・アセットマネジメント)LayerX LLM Labsの紹介
© 2023 LayerX Inc. 8AI・データ活用支援の実績LayerX LLM Labsの紹介● 決済データの更なる活用に関する協業● 複数企業間の取引記録インフラの事業検討・技術検証● 自動車走行データの分析サービスを共同で開発● LayerXのデータ分析基盤を活用● テキストデータの活用に関する共同研究● 医療データ流通における安心・安全なデータ加工に関する共同研究● LayerXのデータ集計基盤が住民意見収集システムとして採用(秘匿化技術国内初の実用化事例)国土交通省様リクルート様● 不動産情報の更なる利活用に向けた調査・検証業務においてLayerXのデータ活用基盤が採用JCB様つくば市様JMDC様あいおいニッセイ同和損保様
© 2023 LayerX Inc. 9大規模言語モデル(LLM)のチームを設置LayerX LLM Labsの紹介
© 2023 LayerX Inc. 10(手前味噌ながら、、、)LayerXの強みLayerX LLM Labsの紹介「バズワード」的な技術を現実的に評価・改善し、お客様の「ペイン」に集中する1BtoC出身者で構成される、「使いやすい」サービスへのこだわり2
© 2023 LayerX Inc. 11余談: LLMによる文章データの標準化LayerX LLM Labsの紹介従来のDXの難しさ: データのフォーマットが、人・会社によってバラバラで、自動連携できないLLMによって「本当は中身が同じなのに、見た目が違う」 データを標準化エンタープライズ向けブロックチェーンが実現したかったことに近づく(?)
“Beyond PoC” させるLLM活用
© 2023 LayerX Inc. 13LayerXにおける、ブロックチェーンやプライバシーテックなどの「新技術」活用の苦い経験から得られたもの新技術の活用をPoC・実験で終わらせないために“Beyond PoC” させるLLM活用技術だけではなく、問題設定も新しい既存の業務の明確な課題(ペイン)PoCで終わりやすいもの 本番業務に載せやすいもの技術の新しさにつられないようにPoCと受託開発を重ねゼロから作っていく(機動力がなくなる)汎用的なプロダクトに落とし込むサンクコストにより誰も欲しくないものに固執しないように
© 2023 LayerX Inc. 14チューニングにより切り拓けるユースケース“Beyond PoC” させるLLM活用ChatGPT・APIをそのまま使うだけでは、精度が安定せず、本番業務に耐えられることは少ないhttps://thebridge.jp/2023/07/chatgpt-sees-10-percent-mom-declinehttps://business.nikkei.com/atcl/gen/19/00466/070400013/既存ツールで十分なユースケース粘り強い精度改善により実現できるユースケース
© 2023 LayerX Inc. 15② 正解に至るプロセスが 明確な業務かBeyond PoCしやすいユースケース選定の観点“Beyond PoC” させるLLM活用① 正解が明確な業務か● LLMに期待する正しいアウトプットが明確に定義できるか● 答えが定まらないと、精度評価できない● LLMに人間の手順・思考回路を再現させる方が簡単● 「職人芸」「第六感」的な業務は難しい業務効率化系においては、改善サイクルを回すための「精度評価のやりやすさ」が重要
精度評価と改善
© 2023 LayerX Inc. 17単語の部分一致(ROUGE等)評価指標精度評価と改善完全一致 ● シンプルだが、ちょっとした表記揺れも×になってしまう● 比較的直感的に部分正解を評価できるが、類義語などが×に出力が正しいかどうかの採点は、方法もツールも既に色々ある (自作も簡単)LLMによる比較Embedding(ベクトルの類似度)● 柔軟な評価ルールを定義できるが、ここ自体のチューニングが面倒● 単語の違いなどがあっても意味が近ければ評価できる参考: https://speakerdeck.com/nohanaga/azure-machine-learning-prompt-flow-ping-jia-metorikusujie-shuo
© 2023 LayerX Inc. 18精度が出ない原因の分析精度評価と改善採点までは簡単なので、その後にうまくいかない箇所の原因を突き止める方が重要一般的なLLMのユースケースにおける、原因箇所のパターンインプットデータ(ファイル)LLMの処理 アウトプットプロンプト生成①前処理での欠損・毀損②検索での欠損③結果をまとめる際の欠損・毀損④LLM処理での誤り④のLLM部分(特にプロンプト)に目が行きがちだが、実は他に問題があるかも
© 2023 LayerX Inc. 19原因①: 前処理での欠損・毀損精度評価と改善PDFやdocxからテキストを抜き出す際に、重要な情報が抜けたり単語・文章が崩れたりする人間が読む順番と異なる例: 段落の順番が崩れている (縦割りの学術論文等)①②③④① ②③ ④
© 2023 LayerX Inc. 20原因②: 検索での欠損精度評価と改善PDFやdocxからテキストを抜き出す際に、重要な情報が抜けたり単語・文章が崩れたりする間違ったチャンクが取得されている例: インプットのテキストを分割したチャンクの検索で、必要なチャンクが選ばれていないQuery正解に必要なチャンク
© 2023 LayerX Inc. 21原因③: 結果をまとめる際の欠損・毀損精度評価と改善例えばLangchainのmap_reduceやrefineで、チャンクごとの結果を合体する過程で欠損したりする例: map_reduceでmapでは取れた正解がreduceで欠損する出典: https://python.langchain.com/docs/modules/chains/document/map_reducereduceで欠損!mapでは取れている途中の結果を確認すると良い
© 2023 LayerX Inc. 22LLMに限らない、アルゴリズム改善の一般的な話1. パラメタ・アルゴリズムを変えるときは一箇所だけ● 一度に色々変えると、どれの影響なのかわかりづらい2. 問題を切り分ける● 例: LLMに「AとBをせよ」と指示してうまくいかない場合、Aだけの処理、Bだけの処理に分ける3. 対象データ・処理内容を段階的に難しくする● “toy example” を作るチューニングにおける一般的な心がけ精度評価と改善