契約書からの情報抽出を行うLLMのスループットを、バッチ処理を用いて最大40%改善した話

Sansan株式会社技術本部研究開発部齋藤慎⼀朗契約書からの情報抽出を⾏うLLMのスループットを、バッチ処理を⽤いて最⼤40%改善した話⾃社で育てるLLM/VLM/VLA：学習・活⽤の実践知

齋藤慎⼀朗 Sansan株式会社技術本部研究開発部シニアリサーチャー - 業務 - ファインチューニングしたLLMによるプロダクト
改善をリード - 趣味 - Kaggle（2x Master) - ランニング（サブ5.5） - 書籍 - Kaggleではじめる⼤規模⾔語モデル⼊⾨ - Polarsとpandasで学ぶデータ処理アイデアレシピ55 @sinchir0 X(旧Twitter)

- この発表で伝えたいこと - 背景 - Contract Oneとは - Contract Oneに対する研究開発部の取り組み
- Lalamoとは - Lalamoの要件 - 問題：タイムアウトエラーが発⽣している - 改善の進め⽅ - 処理ごとの時間を計測し、ボトルネックを特定する - 改善すべき指標を決める - 改善策を決める - 改善策が有効か検証する > 実装⽅針 > 実験設定 > 実験結果 - 改善策をリリースし、効果を測定する - 学んだことアジェンダ

1. 課題に直結する指標を選ぶことが重要である 2. 技術の仕組みを知っていると、適切な改善策を思いつくことがあるこの発表で伝えたいこと

- Sansan株式会社が提供するサービスの⼀つにContract Oneがある - Contract Oneの機能の⼀つに、契約書を⾼い精度で期⽇までにデータ化する機能がある。 - データ化: 契約書から、契約先名、契約書名、契約締結⽇、契約終了⽇と
いった主要な9項⽬を抽出する。 - ⾼い精度でのデータ化は、⼈の⼊⼒と⾃動化エンジンによる⼊⼒の組み合わせで実現している背景：Contract Oneとは

背景：Contract Oneに対する研究開発部の取り組み - 研究開発部は、データ化の精度・期⽇を守りながら、⾃動化エンジンが⼈の⼊⼒を代替する割合（⾃動化率）を⾼めることによるコスト削減を⾏う

背景：Lalamoとは - Contract One向けにファインチューニングしたLLMを⽤いたエンジンを Lalamoと呼ぶ - 使⽤モデル：tokyotech-llm/Swallow-7b-instruct-v0.1 - 推論エンジン：vLLM

- Contract Oneからリクエストを受けたら、15分以内に結果を返す必要がある背景：Lalamoの要件 15分以内データ化結果 SQS Contract One
ワーカ(vLLM) 処理 S3 k8s データ化リクエストキューを取得契約書データを取得 Lalamo Contract OneとLalamoの処理のシーケンス図

- Lalamoが15分以内に結果を返せないことがある - 15分以内に結果を返せないとタイムアウトエラーとなり、⼈がデータ化する必要が⽣じる - つまり、⾃動化率の低下につながる問題：タイムアウトエラーが発⽣しているタイムアウトエラーの件数

1. 処理時間を計測する 2. 改善すべき指標を決める 3. 改善策を決める 4. 改善策が有効か検証する 1. 実装⽅針
2. 実験設定 3. 実験結果 5. 改善策をリリースし、効果を測定する改善の進め⽅

- 計測ツールであるOpenTelemetryを⽤いて、1契約書あたりの処理時間を計測・可視化 - 結果として、１契約書に対して処理時間が約5秒かかっていることが判明ステップ1：処理時間を計測する OpenTelemetryを用いて可視化した、1契約書あたりのLalamoの処理時間の１例契約書データを取得プロンプトを作成 vLLMによる推論
後処理など

どういった指標を改善すれば良いか？ - タイムアウトエラーは、以下の条件を満たした場合に発⽣する。「キューでの待ち時間」+「実際の推論時間」> 15分 - 「実際の推論時間」は、約5秒である。 - よって、タイムアウトエラーは「キューでの待ち時間」が⻑いことが原因である。 -
「キューでの待ち時間」を短くするためには、1秒あたりに処理できるリクエスト件数（スループット）を改善し、キューの滞留を解消する必要がある。 - ⼀⽅、スループットが改善する前提において、1リクエストを受けてから結果が返るまでの時間（レイテンシ）は、改善・悪化のいずれも許容される。ステップ2：改善すべき指標を決める

- レイテンシ、スループットは必ずしも同時に改善しない閑話休題：レイテンシとスループットの違い指標定義レイテンシ 1リクエストを受けてから結果が返るまでの時間スループット 1秒あたりに処理できるリクエスト件数レイテンシとスループットの定義

- レイテンシは悪化するがスループットは改善する例として、バッチ処理がある。 - バッチ処理は、複数リクエストをまとめて推論することで GPU効率が上がりスループットは改善するが、バッチ内の他リクエストの完了を待つためレイテンシは悪化しうる。閑話休題：レイテンシは悪化するがスループットは改善する例時間バッチ処理なし
バッチ処理ありリクエスト１ |▪| リクエスト２ |▪| リクエスト３ |▪| リクエスト１ |▪▪| リクエスト２ |▪▪| リクエスト３ |▪▪| リクエストごとの処理時間は⻑くなる、つまりレイテンシは悪化する同じ時間でより多くのリクエストを処理できる、つまりスループットは改善するバッチ処理の有無における、複数リクエストの処理に必要な時間の違いのイメージ図 ▪ : 処理に要する時間単位

- 次のような⼿法が考えられる。 - デメリットのうち、費⽤はなるべく増やしたくない。また、⾃動化率は悪化させたくない。⼀⽅、レイテンシの悪化は許容できる。 - よって「バッチ処理を⾏う」を選択する。ステップ3：改善策を決める⼿法メリット
デメリット処理するワーカの台数を増やすスループットが改善する費⽤が増えるモデルを⼩さくするレイテンシ・スループットともに改善するモデルの精度が悪化するため、⾃動化率も悪化するバッチ処理を⾏うスループットが改善するレイテンシが悪化する

リクエスト１ - vLLMには Paged Attention の仕組みが実装されている - Paged Attention はバッチ処理時の無駄を削減し、GPU利⽤効率を⾼める
- よって、今回の事例においても、バッチ処理の導⼊により、GPU利⽤効率が改善することが期待される閑話休題：vLLMはバッチ処理時の無駄を削減する Paged Attentionなし Paged Attentionありトークントークン Paged Attentionの有無によるGPU利⽤効率の違いのイメージ図 GPUメモリの無駄リクエスト２リクエスト３リクエスト４

- ワーカの処理を、1件ずつ→N件（最⼩1・最⼤10）まとめて処理するように変更する。ステップ4-1：改善策が有効か検証する実装⽅針ワーカの処理変更前変更後キューを取得 1件
N件契約書データを取得 1件 N件プロンプトを作成 1件 N件 vLLMによる推論 1件 N件結果をContract Oneに返却 1件 N件バッチ処理による改善が期待される

本番リリース前に、開発環境にて効果があるかどうかの実験を⾏った。 - ⼿法 - バッチ処理なし - バッチ処理あり - 利⽤する契約書データ -
⼀般的な⻑さ（約4,000トークン） - モデルの最⼤⼊⼒⻑に近いもの（約8,000トークン） - シナリオ - 通常時：1秒に1リクエスト - キュー滞留時：100件を⼀括投⼊ - 計測指標 - スループット（req/sec）：⾼いほど良い - 平均レイテンシ（sec/件）：低いほど良いステップ4-2：改善策が有効か検証する実験設定

ステップ4-3：改善策が有効か検証する実験結果スループット - スループット（⾼いほど良い）全シナリオでスループット改善。特にキュー滞留時に最⼤約40%改善。シナリオ契約書バッチ処理なしでのスループット
（req/sec）バッチ処理ありでのスループット（req/sec）改善割合通常時⼀般的な⻑さ 0.324 0.327 +0.9% 通常時最⼤⼊⼒⻑に近いもの 0.188 0.210 +11.8% キュー滞留時⼀般的な⻑さ 0.310 0.443 +42.7% キュー滞留時最⼤⼊⼒⻑に近いもの 0.196 0.240 +22.5%

ステップ4-3：改善策が有効か検証する実験結果平均レイテンシ - 平均レイテンシ（低いほど良い） - 通常時、かつ⼀般的な⻑さの契約書の場合のみレイテンシが悪化した。これは、リクエストが少ない状況においてはバッチ処理の恩恵が⼩さいが、バッチ処理を実現するための処理時間が増えるためと考える。 -
今回は、スループットが改善していれば問題なく、レイテンシの悪化は許容する。シナリオ契約書バッチ処理なしでのレイテンシ（sec/件）バッチ処理ありでのレイテンシ（sec/件）改善割合通常時⼀般的な⻑さ 12.6s 32.3s -156% 通常時最⼤⼊⼒⻑に近いもの 213s 192s +9.9% キュー滞留時⼀般的な⻑さ 163s 114s +29.9% キュー滞留時最⼤⼊⼒⻑に近いもの 258s 211s +18.4%

- バッチ処理を本番環境にリリース - タイムアウトエラーが平均137件/⽇ → 平均50件/⽇に削減 - 削減率：約64% ステップ5：改善策をリリースし、効果を測定する
タイムアウトエラーの件数リリース

1. 課題に直結する指標を選ぶことが重要 - もし、レイテンシを改善しなければいけない、と思い込んでいた場合、コスト、⾃動化率が悪化する⽅法を選択する可能性があった - ⼀⽅、今回はスループットを改善すべきと判断できたため、コスト、⾃動化率を悪化させない⼿法を選択できた 2. 技術の仕組みを知っていると、適切な改善策が思いつく
- vLLMのPaged Attentionはバッチ推論時にGPU利⽤効率が改善する - その特性を活かし、1件ずつの処理からバッチ推論に変更することでスループットが改善し、タイムアウトエラーが削減した学んだこと

Sansan 技術本部募集ポジション紹介 https://media.sansan-engineering.com/

契約書からの情報抽出を行うLLMのスループットを、バッチ処理を用いて最大40%改善した話

契約書からの情報抽出を行うLLMのスループットを、バッチ処理を用いて最大40%改善した話

SansanTech PRO

More Decks by SansanTech

Other Decks in Technology

Featured

Transcript

Sansan株式会社技術本部研究開発部齋藤慎⼀朗契約書からの情報抽出を⾏うLLMのスループットを、バッチ処理を⽤いて最⼤40%改善した話⾃社で育てるLLM/VLM/VLA：学習・活⽤の実践知

齋藤慎⼀朗 Sansan株式会社技術本部研究開発部シニアリサーチャー - 業務 - ファインチューニングしたLLMによるプロダクト

- この発表で伝えたいこと - 背景 - Contract Oneとは - Contract Oneに対する研究開発部の取り組み

1. 課題に直結する指標を選ぶことが重要である 2. 技術の仕組みを知っていると、適切な改善策を思いつくことがあるこの発表で伝えたいこと

- Sansan株式会社が提供するサービスの⼀つにContract Oneがある - Contract Oneの機能の⼀つに、契約書を⾼い精度で期⽇までにデータ化する機能がある。 - データ化: 契約書から、契約先名、契約書名、契約締結⽇、契約終了⽇と

背景：Contract Oneに対する研究開発部の取り組み - 研究開発部は、データ化の精度・期⽇を守りながら、⾃動化エンジンが⼈の⼊⼒を代替する割合（⾃動化率）を⾼めることによるコスト削減を⾏う

背景：Lalamoとは - Contract One向けにファインチューニングしたLLMを⽤いたエンジンを Lalamoと呼ぶ - 使⽤モデル：tokyotech-llm/Swallow-7b-instruct-v0.1 - 推論エンジン：vLLM

- Contract Oneからリクエストを受けたら、15分以内に結果を返す必要がある背景：Lalamoの要件 15分以内データ化結果 SQS Contract One

1. 処理時間を計測する 2. 改善すべき指標を決める 3. 改善策を決める 4. 改善策が有効か検証する 1. 実装⽅針

リクエスト１ - vLLMには Paged Attention の仕組みが実装されている - Paged Attention はバッチ処理時の無駄を削減し、GPU利⽤効率を⾼める

- ワーカの処理を、1件ずつ→N件（最⼩1・最⼤10）まとめて処理するように変更する。ステップ4-1：改善策が有効か検証する実装⽅針ワーカの処理変更前変更後キューを取得 1件

本番リリース前に、開発環境にて効果があるかどうかの実験を⾏った。 - ⼿法 - バッチ処理なし - バッチ処理あり - 利⽤する契約書データ -

ステップ4-3：改善策が有効か検証する実験結果スループット - スループット（⾼いほど良い）全シナリオでスループット改善。特にキュー滞留時に最⼤約40%改善。シナリオ契約書バッチ処理なしでのスループット

- バッチ処理を本番環境にリリース - タイムアウトエラーが平均137件/⽇ → 平均50件/⽇に削減 - 削減率：約64% ステップ5：改善策をリリースし、効果を測定する

Sansan 技術本部募集ポジション紹介 https://media.sansan-engineering.com/