LLMに何を任せ、何を任せないか

© LayerX Inc. LLM に何を任せ、何を任せないか株式会社LayerX バクラク事業部エンジニア蔡安平
| an 2026.03.25 本番提供できる品質へ：SaaSにAI機能を実装するまでのリアル

© LayerX Inc. 2 - 蔡安平 / サイアンペイ
/ Anping Cai / an - LayerX - 2025/05 ⼊社 - バクラク申請‧経費精算の Web エンジニア - 経歴 - 中国北京出⾝、⼤学院から来⽇ - ITコンサル → Salesforce → ITコンサル - エンジニア / PjM / CS - 稀にいる CSS 好き⾃⼰紹介飼い猫のおもち

3 © LayerX Inc. AI 機能の開発に⼀番⼤事なのは？

4 © LayerX Inc. AI 機能の開発に⼀番⼤事なのは？ Harness Engineering Prompt Engineering
Context Engineering コストコントロール Eval Vibes ガードレール Agent Skills 学習のサイクル PoC セキュリティインフラバックテストモニタリング⾃律性スライダー UX Multi-Agent The Bitter Lesson Durable Agent

5 © LayerX Inc. 「すべての経済活動を、デジタル化する。」をミッションに、AI SaaSとAI DXの事業を展開バクラク事業企業活動のインフラとなる業務を効率化するクラウドサービス
Fintech事業ソフトウェアを駆使したアセットマネジメント‧証券事業を合弁会社にて展開 Ai Workforce事業社内のナレッジやノウハウをデータベース化するAIプラットフォーム AI SaaSドメイン AI DXドメイン

7 © LayerX Inc. 申請経費精算事前稟議法⼈カード帳票発⾏
⼊⾦管理勤怠管理⼯数管理勤怠債権債務⼈事労務管理会計システム受領代⾏取引先⽀出管理データ活⽤給与計算年末調整給与明細 new 給与バクラクは、企業間取引の起点となる稟議を標準化し、債権‧債務の⼀元管理が可能に。さらに⼈事労務も統合し、拡張性のあるなめらかなバックオフィス基盤で企業経営の加速を実現します。

8 © LayerX Inc. 申請⾃動作成の本番提供までの試⾏錯誤を⾝近な例で説明してみよう

© LayerX Inc. 9 現⾦カード電⼦マネーオンライン決済もし家計簿アプリに AI
機能を追加するとしたら

© LayerX Inc. 10 コンテキストプロンプト評価 (Eval) もし家計簿アプリに AI
機能を追加するとしたら • 今回の取引：レシート画像、カード決済情報、… • 過去の履歴：過去のカテゴライズの傾向、同じ店舗の記録、… • 「あなたは家計簿の⼊⼒アシスタントです。レシート情報を元に …」 • 構造化出⼒ (Structured Output) • よくある⼊⼒例のデータセット • 様々な観点のスコアラー

11 © LayerX Inc. 上⼿くいきました ( PoC としては )

© LayerX Inc. 12 • ⾦額が先祖返り：過去に同じ店舗のカテゴリやメモを正しく参照できたのに、⾦額まで過去の記録と同じになってしまった • レシートが⽋落：レシート画像から正しく⼊⼒内容を⽣成できたのに、肝⼼のレシートそのものが添付されていなかった
稀に起こる致命的なミス不確実な振る舞いをするのが LLM の性だが、コーポレート業務においては稀なミスでも許容されない

13 © LayerX Inc. プロンプトチューニングも⾏ったが問題が 100% 解決されるわけではなかった

14 © LayerX Inc. これでは本番に出せない ... !

© LayerX Inc. 15 • 曖昧性がある (Ambiguous) 単純なルールベースの処理では対応できない • ⼤量処理が必要
(High volume) ⼈間が⼿作業で⾏うと膨⼤な時間がかかる • ⾮対称的なメリット (Asymmetric upside) ⾃動化による価値が、時折発⽣するエラーのコストを⼤幅に上回る LLM が最も輝ける問題 https://builders.ramp.com/post/how-to-build -agents-users-can-trust

© LayerX Inc. 16 • 曖昧なものと確実なものがある ◦ 曖昧なもの：初めての店舗のカテゴリ、メモ、… ◦ 確実なもの：レシート/決済情報から読み取れる⾦額、
店舗名、⽇付、⽀払⽅法、… • ミスしても許されるものとそうでないものがある ◦ ミスを許容できるもの：カテゴリ、メモ ◦ ミスを許容できないもの：⾦額、⽇付、⽀払⽅法改めて問題の構造を⾒てみよう

© LayerX Inc. 17 ⼊⼒項⽬を「確実性」と「ミス許容度」で分類するパターン A 決定値を使⽤分類開始確実性
ミス許容度履歴流⽤の可否パターン C 空欄にするパターン B LLM⽣成 100%（正解が明確） 0%（判断不可）ある程度推測可能低い⾼い不可可能

© LayerX Inc. 18 A. 決定値を使⽤ B. LLM⽣成 C. 空欄にする
パターンごとの⼊⼒項⽬の例 • ⽀払⽅法 • カードの決済情報 • レシートの OCR 結果 • 同じパターンのカテゴリスタバはいつも⾷費であれば、きっと今回も⾷費 • 複数パターンのカテゴリ何もかも Amazon で買うため、前回のカテゴリをそのまま適⽤できず、商品名などからの推測が必要 • メモ前回は「〇〇さんへのプレゼント」だからと⾔って今回も同じとは限らない • 情報がない場合の店舗名、カテゴリ

© LayerX Inc. 19 ⼊⼒項⽬の特性に応じて使い分けるパターン適用条件結果の安定性処理速度
柔軟性実装難易度 A. 決定値を使用確実性 100%、または過去履歴から流用可能 ◎ ◯ △ ◯ B. LLM生成推測可能でミス許容度が高く、過去履歴の単純コピーでは対応できない △ △ ◎ △ C. 空欄にする確実性 0%、またはミス許容度が低い ◎ ◎ × ◎

© LayerX Inc. 20 コンテキストプロンプト評価 (Eval) 最初のアプローチの問題 •
今回の取引：レシート画像、カード決済情報、… • 過去の履歴：過去のカテゴライズの傾向、同じ店舗の記録、… • 「あなたは家計簿の⼊⼒アシスタントです。レシート情報を元に …」 • 構造化出⼒ (Structured Output) • よくある⼊⼒例のデータセット • 様々な観点のスコアラーハンマーを持つ⼈にはすべてが釘に⾒えてしまう

© LayerX Inc. 24 • LLM は⽬的ではなく⼿段 ◦ しかも⼿段の 1
つにすぎない ◦ それぞれの⼿段に優劣はなく、あるのはトレードオフのみ ◦ 課題を分解し、良いとこ取りできるように適材適所に使い分ける • ⼿段の先にある⽬的がよっぽど⼤事 ◦ どんな課題を解決したかったか？ ◦ どんな顧客価値を提供したかったか？ ◦ どんなユーザー体験を実現したかったか？まとめ

© LayerX Inc. 27 LayerX エンジニア陣が執筆する連載「実録 AIネイティブプロダクト開発」の第2回として、『Software Design
2026年4⽉号』(3/18 発売) に掲載本⽇触れられなかった HITL (Human in the Loop) の設計や、Eval の仕組みも詳しく紹介されておりますので、ぜひお買い求めください！答えは『Software Design』へ

© LayerX Inc. 28 We are hiring! ZOZO x Mercari
x LayerX 企業R&D勉強会〜研究と実⽤化のリアル〜 #価値を届けるRandD 4/24(⾦) 19:00〜 LayerX イベントスペースで開催企業R&Dエンジニア‧研究者向けミートアップ開催！「研究をどうやってプロダクトや事業に届けるか」をテーマに、実務のリアルや評価の悩みまで本⾳で語り合い交流しませんか？ LayerX Open Door アカウント登録が⼀切不要なカジュアル⾯談を公開しています！ ‧私と雑談してみたい ‧質問したいことがある ‧選考に進むか悩んでいるなどなど、お気軽にお申し込みください！

LLMに何を任せ、何を任せないか

LLMに何を任せ、何を任せないか

an

More Decks by an

Other Decks in Technology

Featured

Transcript

© LayerX Inc. LLM に何を任せ、何を任せないか株式会社LayerX バクラク事業部エンジニア蔡安平

© LayerX Inc. 2 - 蔡安平 / サイアンペイ

3 © LayerX Inc. AI 機能の開発に⼀番⼤事なのは？

4 © LayerX Inc. AI 機能の開発に⼀番⼤事なのは？ Harness Engineering Prompt Engineering

5 © LayerX Inc. 「すべての経済活動を、デジタル化する。」をミッションに、AI SaaSとAI DXの事業を展開バクラク事業企業活動のインフラとなる業務を効率化するクラウドサービス

© LayerX Inc.　 6

7 © LayerX Inc. 申請経費精算事前稟議法⼈カード帳票発⾏

8 © LayerX Inc. 申請⾃動作成の本番提供までの試⾏錯誤を⾝近な例で説明してみよう

© LayerX Inc. 9 現⾦カード電⼦マネーオンライン決済もし家計簿アプリに AI

© LayerX Inc. 10 コンテキストプロンプト評価 (Eval) もし家計簿アプリに AI

11 © LayerX Inc. 上⼿くいきました ( PoC としては )

13 © LayerX Inc. プロンプトチューニングも⾏ったが問題が 100% 解決されるわけではなかった

14 © LayerX Inc. これでは本番に出せない ... !

© LayerX Inc. 15 • 曖昧性がある (Ambiguous) 単純なルールベースの処理では対応できない • ⼤量処理が必要

© LayerX Inc. 16 • 曖昧なものと確実なものがある ◦ 曖昧なもの：初めての店舗のカテゴリ、メモ、… ◦ 確実なもの：レシート/決済情報から読み取れる⾦額、

© LayerX Inc. 17 ⼊⼒項⽬を「確実性」と「ミス許容度」で分類するパターン A 決定値を使⽤分類開始確実性

© LayerX Inc. 18 A. 決定値を使⽤ B. LLM⽣成 C. 空欄にする

© LayerX Inc. 19 ⼊⼒項⽬の特性に応じて使い分けるパターン適用条件結果の安定性処理速度

© LayerX Inc. 20 コンテキストプロンプト評価 (Eval) 最初のアプローチの問題 •

21 © LayerX Inc. LLM はすごいが、万能ではなく、得⼿不得⼿がある

22 © LayerX Inc. AI 機能の開発に⼀番⼤事なのは？

23 © LayerX Inc. AI 機能の開発に⼀番⼤事なのは適材適所

© LayerX Inc. 24 • LLM は⽬的ではなく⼿段 ◦ しかも⼿段の 1

25 © LayerX Inc. ちょっと待った！

26 © LayerX Inc. パターン D: ユーザーに聞く (HITL) もあるのでは？

© LayerX Inc. 27 LayerX エンジニア陣が執筆する連載「実録 AIネイティブプロダクト開発」の第2回として、『Software Design

© LayerX Inc. 28 We are hiring! ZOZO x Mercari