Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
帳票構造化タスクにおけるLLMファインチューニングの性能評価
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
yosukeyoshida
July 29, 2025
Technology
1
390
帳票構造化タスクにおけるLLMファインチューニングの性能評価
Bet AI Day Countdown Event 7 Days LT DAY06: Deep into AI
https://layerx.connpass.com/event/357964/
yosukeyoshida
July 29, 2025
Tweet
Share
Other Decks in Technology
See All in Technology
~Everything as Codeを諦めない~ 後からCDK
mu7889yoon
3
530
ランサムウェア対策としてのpnpm導入のススメ
ishikawa_satoru
0
230
日本の85%が使う公共SaaSは、どう育ったのか
taketakekaho
1
250
GitHub Copilot CLI を使いやすくしよう
tsubakimoto_s
0
110
コミュニティが変えるキャリアの地平線:コロナ禍新卒入社のエンジニアがAWSコミュニティで見つけた成長の羅針盤
kentosuzuki
0
130
ブロックテーマ、WordPress でウェブサイトをつくるということ / 2026.02.07 Gifu WordPress Meetup
torounit
0
210
Amazon Bedrock Knowledge Basesチャンキング解説!
aoinoguchi
0
170
20260208_第66回 コンピュータビジョン勉強会
keiichiito1978
0
200
外部キー制約の知っておいて欲しいこと - RDBMSを正しく使うために必要なこと / FOREIGN KEY Night
soudai
PRO
12
5.6k
【Ubie】AIを活用した広告アセット「爆速」生成事例 | AI_Ops_Community_Vol.2
yoshiki_0316
1
120
顧客との商談議事録をみんなで読んで顧客解像度を上げよう
shibayu36
0
340
1,000 にも届く AWS Organizations 組織のポリシー運用をちゃんとしたい、という話
kazzpapa3
0
190
Featured
See All Featured
Marketing to machines
jonoalderson
1
4.7k
Practical Orchestrator
shlominoach
191
11k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
47
7.9k
The SEO identity crisis: Don't let AI make you average
varn
0
330
Prompt Engineering for Job Search
mfonobong
0
160
Tips & Tricks on How to Get Your First Job In Tech
honzajavorek
0
440
Why Mistakes Are the Best Teachers: Turning Failure into a Pathway for Growth
auna
0
57
Fireside Chat
paigeccino
41
3.8k
Claude Code どこまでも/ Claude Code Everywhere
nwiizo
61
52k
Evolving SEO for Evolving Search Engines
ryanjones
0
130
How to optimise 3,500 product descriptions for ecommerce in one day using ChatGPT
katarinadahlin
PRO
0
3.4k
4 Signs Your Business is Dying
shpigford
187
22k
Transcript
© LayerX Inc. 帳票構造化タスクにおける LLMファインチューニングの性能評価 バクラク事業部 AI・機械学習部 AI-OCRチーム 吉田 陽祐
YOSHIDA, Yosuke DAY06 topic Deep into AI Speaker
© LayerX Inc. • 帳票構造化タスクの概要 • LLMファインチューニングの実験設定 • 実験結果 •
まとめ 今⽇話すこと
© LayerX Inc. タスク概要
© LayerX Inc. タスク概要 • ⼊⼒: OCRによる帳票からの⽂字検出結果 • 出⼒: 細分化された⽇付‧⾦額‧取引先名
27ラベル (JSON) ◦ ⽇付: 5ラベル (発⾏⽇、請求⽇ など) ◦ ⾦額: 10ラベル (請求⾦額、未払⾦額 など) ◦ 取引先名: 12ラベル (発⾏会社名、部署、担当者名 など) ◦ JSON Schemaで定義 タスク概要 帳票から ⽇付‧⾦額‧取引先名 を抽出して構造化
© LayerX Inc. タスク概要 • スキーマ適合率 (Valid JSON) ◦ JSON
Schemaに準拠した出⼒の件数 / 帳票の総数 ◦ プロパティの⽋損は許容し、null埋め 評価指標 評価指標は スキーマ適合率 と 正解率 • 正解率 (Accuracy) ◦ 正解した件数 / 帳票に正解が存在するラベルの総数 ◦ 帳票に正解が存在しないケースとしては領収書に⽀払期限が無い、など ◦ 推論結果がスキーマに適合していない場合はすべてのラベルで不正解
© LayerX Inc. 実 験
© LayerX Inc. 実 験 • 軽量(~8B)、Chat対応 のモデルを選定 ◦ Qwen3-4B
◦ Qwen3-8B ◦ Llama-3-ELYZA-JP-8B ◦ Llama-3.1-Swallow-8B-Instruct-v0.5 • ベースラインとして⼤規模な商⽤モデルである Claude Sonnet 4 による Zero-shot 評価も実施 モデル選定
© LayerX Inc. 実 験 学習設定 QLoRA 4bit量⼦化 でファインチューニング
© LayerX Inc. 実 験 • 実験環境 ◦ NVIDIA RTX
6000 Ada (48GB) • データセット ◦ 社内でアノテーションしたデータから学習⽤に 6166件、評価⽤に 1588件 選定 ▪ 学習⽤データセットからランダムに 2000件 選び、ファインチューニングを3回実施 ◦ OCRの⽂字検出結果は先頭から最⼤ 4096⽂字 を使⽤ • Chat形式と損失計算 ◦ Chat形式で assistant role の応答のみ損失計算 ◦ Qwen3は Function Callling (Tool Use) でそれ以外は通常のChat形式で学習を実施 学習設定
© LayerX Inc. 実 験 学習設定 assistant roleの応答
© LayerX Inc. 結 果
© LayerX Inc. 結 果 • Before: 最も性能が⾼いQwen3-8Bでもスキーマ適合率 17.3%、正解率 7.9%
• After: すべてのモデルでスキーマ適合率は 99.6% 以上 、正解率は平均 76.5% に改善 ファインチューニング前後の性能⽐較
© LayerX Inc. • Qwen3-4B ◦ ⾦額で最も⾼い正解率、総合でも2位を記録したが、精度にややばらつきがみられた ◦ 4Bと⼩型モデルながら⾼性能で、軽量モデルのベースラインとして有⼒ 結
果 ラベルタイプ別の正解率 モデル 金額 日付 取引先名 総合 (※) Qwen3-4B 79.12% 80.55% 72.88% 76.96% (±1.03) Qwen3-8B 78.19% 81.97% 72.34% 76.81% (±1.15) Llama-3-ELYZA-JP-8B 72.69% 81.50% 72.35% 74.90% (±0.21) Llama-3.1-Swallow-8B-Instruct-v0.5 74.70% 83.21% 75.75% 77.40% (±0.44) (※) カッコ内の数字は標準偏差
© LayerX Inc. • Qwen3-8B ◦ Qwen3-4Bと⽐べて明確な精度向上は⾒られず ◦ 同⼀の学習設定が8Bに最適でなかった可能性や、モデルサイズの差が影響しにくいタスク であったことなどが要因と考えられる
結 果 ラベルタイプ別の正解率 モデル 金額 日付 取引先名 総合 (※) Qwen3-4B 79.12% 80.55% 72.88% 76.96% (±1.03) Qwen3-8B 78.19% 81.97% 72.34% 76.81% (±1.15) Llama-3-ELYZA-JP-8B 72.69% 81.50% 72.35% 74.90% (±0.21) Llama-3.1-Swallow-8B-Instruct-v0.5 74.70% 83.21% 75.75% 77.40% (±0.44) (※) カッコ内の数字は標準偏差
© LayerX Inc. 結 果 • Llama-3.1-Swallow-8B-Instruct-v0.5 ◦ ⽇付と取引先名で最も⾼い正解率を記録し総合でもトップ ◦
異なる学習データに対しても正解率のばらつきが⼩さく安定 ラベルタイプ別の正解率 モデル 金額 日付 取引先名 総合 (※) Qwen3-4B 79.12% 80.55% 72.88% 76.96% (±1.03) Qwen3-8B 78.19% 81.97% 72.34% 76.81% (±1.15) Llama-3-ELYZA-JP-8B 72.69% 81.50% 72.35% 74.90% (±0.21) Llama-3.1-Swallow-8B-Instruct-v0.5 74.70% 83.21% 75.75% 77.40% (±0.44) (※) カッコ内の数字は標準偏差
© LayerX Inc. • Claude Sonnet 4 は⾦額や⽇付において最も⾼い正解率となり、総合でもトップ • ⼀⽅で、取引先名の正解率は最下位、
他のモデルと⽐較して10ポイント以上下回る結果 ◦ ⼈名やレシートの店名などの⽇本特有の固有名詞の扱いが苦⼿ 結 果 ラベルタイプ別の正解率 / Claude Sonnet 4 との⽐較 モデル 金額 日付 取引先名 総合 Qwen3-4B 79.12% 80.55% 72.88% 76.96% (±1.03) Qwen3-8B 78.19% 81.97% 72.34% 76.81% (±1.15) Llama-3-ELYZA-JP-8B 72.69% 81.50% 72.35% 74.90% (±0.21) Llama-3.1-Swallow-8B-Instruct-v0.5 74.70% 83.21% 75.75% 77.40% (±0.44) Claude Sonnet 4 (※) 86.45% 87.60% 64.36% 77.74% (※) Claude Sonnet 4のスキーマ適合率は100% (リトライ処理有り)
© LayerX Inc. まとめ
© LayerX Inc. • ドメイン特化タスクにおけるファインチューニングの有効性 ◦ ベースモデルでは困難だった帳票構造化タスクが精度面では実用レベルに到達 ◦ 少量データ(2000件)でも十分な性能向上を果たした まとめ
まとめ • 軽量モデルの可能性 ◦ 8B以下のモデルでもラベルによっては Claude Sonnet 4 を上回る正解率 ◦ 特に Qwen3-4B は他の8Bモデルと同等の正解率