Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LLMに何を任せ、何を任せないか
Search
an
March 25, 2026
Technology
7.5k
12
Share
LLMに何を任せ、何を任せないか
2026/03/25
本番提供できる品質へ:SaaSにAI機能を実装するまでのリアル
での発表資料です。
an
March 25, 2026
More Decks by an
See All by an
AIに目を奪われすぎて、周りの困っている人間が見えなくなっていませんか?
cap120
1
1.1k
Other Decks in Technology
See All in Technology
JaSSTに関わることで変わった人生観 #jasstnano
makky_tyuyan
0
180
TSKaigi 2026 - enumよ、さようなら
teamlab
PRO
2
400
TSKaigi 2026 - 型プラグインシステムの実装に使われるテクニック
teamlab
PRO
1
230
基礎から解説!Icebergで紐解くSnowflake×Databricks連携の現在地
cm_yasuhara
0
210
React Compiler導入の効果と運用の工夫
kakehashi
PRO
3
320
Claude Code x Accounting
kawaguti
PRO
0
290
障害対応のRunbookは作った、でも本当に動くの? AWS FIS で EKS の AZ 障害を再現してみた
tk3fftk
0
130
自作エディターをOSSにして分かった、一人に刺さる開発が世界を動かす理由
shinyasaita
1
280
類似画像検索モデルの開発ノウハウ
lycorptech_jp
PRO
1
100
Personal knowledge bases using LLM
lycorptech_jp
PRO
0
310
Pythonでベイズモデリング
soogie
0
170
SDDで⾒える、AIコーディングの"内訳"
lycorptech_jp
PRO
0
330
Featured
See All Featured
Discover your Explorer Soul
emna__ayadi
2
1.1k
A Tale of Four Properties
chriscoyier
163
24k
Technical Leadership for Architectural Decision Making
baasie
3
370
The agentic SEO stack - context over prompts
schlessera
0
780
Rebuilding a faster, lazier Slack
samanthasiow
85
9.5k
Thoughts on Productivity
jonyablonski
76
5.2k
A Soul's Torment
seathinner
6
2.8k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
32
2.9k
Why Your Marketing Sucks and What You Can Do About It - Sophie Logan
marketingsoph
0
150
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
16
2k
Lessons Learnt from Crawling 1000+ Websites
charlesmeaden
PRO
1
1.2k
HU Berlin: Industrial-Strength Natural Language Processing with spaCy and Prodigy
inesmontani
PRO
0
390
Transcript
© LayerX Inc. LLM に何を任せ、何を任せないか 株式会社LayerX バクラク事業部 エンジニア 蔡 安平
| an 2026.03.25 本番提供できる品質へ:SaaSにAI機能を実装するまでのリアル
© LayerX Inc. 2 - 蔡 安平 / サイ アンペイ
/ Anping Cai / an - LayerX - 2025/05 ⼊社 - バクラク申請‧経費精算の Web エンジニア - 経歴 - 中国北京出⾝、⼤学院から来⽇ - ITコンサル → Salesforce → ITコンサル - エンジニア / PjM / CS - 稀にいる CSS 好き ⾃⼰紹介 飼い猫のおもち
3 © LayerX Inc. AI 機能の開発に⼀番⼤事なのは?
4 © LayerX Inc. AI 機能の開発に⼀番⼤事なのは? Harness Engineering Prompt Engineering
Context Engineering コストコントロール Eval Vibes ガードレール Agent Skills 学習のサイクル PoC セキュリティ インフラ バックテスト モニタリング ⾃律性スライダー UX Multi-Agent The Bitter Lesson Durable Agent
5 © LayerX Inc. 「すべての経済活動を、デジタル化する。」をミッションに、AI SaaSとAI DXの事業を展開 バクラク事業 企業活動のインフラとなる業務を 効率化するクラウドサービス
Fintech事業 ソフトウェアを駆使したアセットマネジ メント‧証券事業を合弁会社にて展開 Ai Workforce事業 社内のナレッジやノウハウをデータ ベース化するAIプラットフォーム AI SaaSドメイン AI DXドメイン
© LayerX Inc. 6
7 © LayerX Inc. 申請 経費精算 事前 稟議 法⼈カード 帳票発⾏
⼊⾦管理 勤怠管理 ⼯数管理 勤怠 債権債務 ⼈事労務 管理 会計 システム 受領代⾏ 取 引 先 ⽀出管理 データ活⽤ 給与計算 年末調整 給与明細 new 給与 バクラクは、企業間取引の起点となる稟議を標準化し、債権‧債務の⼀元管理が可能に。 さらに⼈事労務も統合し、拡張性のあるなめらかなバックオフィス基盤で企業経営の加速を実現します。
8 © LayerX Inc. 申請⾃動作成の本番提供までの試⾏錯誤を ⾝近な例で説明してみよう
© LayerX Inc. 9 現⾦ カード 電⼦マネー オンライン決済 もし家計簿アプリに AI
機能を追加するとしたら
© LayerX Inc. 10 コンテキスト プロンプト 評価 (Eval) もし家計簿アプリに AI
機能を追加するとしたら • 今回の取引:レシート画 像、カード決済情報、… • 過去の履歴:過去のカテ ゴライズの傾向、同じ店 舗の記録、… • 「あなたは家計簿の⼊⼒ アシスタントです。レ シート情報を元に …」 • 構造化出⼒ (Structured Output) • よくある⼊⼒例のデータ セット • 様々な観点のスコアラー
11 © LayerX Inc. 上⼿くいきました ( PoC としては )
© LayerX Inc. 12 • ⾦額が先祖返り:過去に同じ店舗のカテゴリやメモを正しく参照できたのに、⾦額ま で過去の記録と同じになってしまった • レシートが⽋落:レシート画像から正しく⼊⼒内容を⽣成できたのに、肝⼼のレシー トそのものが添付されていなかった
稀に起こる致命的なミス 不確実な振る舞いをするのが LLM の性だが、 コーポレート業務においては稀なミスでも許容されない
13 © LayerX Inc. プロンプトチューニングも⾏ったが 問題が 100% 解決されるわけではなかった
14 © LayerX Inc. これでは本番に出せない ... !
© LayerX Inc. 15 • 曖昧性がある (Ambiguous) 単純なルールベースの処理では対応できない • ⼤量処理が必要
(High volume) ⼈間が⼿作業で⾏うと膨⼤な時間がかかる • ⾮対称的なメリット (Asymmetric upside) ⾃動化による価値が、時折発⽣するエラーのコストを ⼤幅に上回る LLM が最も輝ける問題 https://builders.ramp.com/post/how-to-build -agents-users-can-trust
© LayerX Inc. 16 • 曖昧なものと確実なものがある ◦ 曖昧なもの:初めての店舗のカテゴリ、メモ、… ◦ 確実なもの:レシート/決済情報から読み取れる⾦額、
店舗名、⽇付、⽀払⽅法、… • ミスしても許されるものとそうでないものがある ◦ ミスを許容できるもの:カテゴリ、メモ ◦ ミスを許容できないもの:⾦額、⽇付、⽀払⽅法 改めて問題の構造を⾒てみよう
© LayerX Inc. 17 ⼊⼒項⽬を「確実性」と「ミス許容度」で分類する パターン A 決定値を使⽤ 分類開始 確実性
ミス 許容度 履歴流⽤ の可否 パターン C 空欄にする パターン B LLM⽣成 100%(正解が明確) 0%(判断不可) ある程度 推測可能 低い ⾼い 不可 可能
© LayerX Inc. 18 A. 決定値を使⽤ B. LLM⽣成 C. 空欄にする
パターンごとの⼊⼒項⽬の例 • ⽀払⽅法 • カードの決済情報 • レシートの OCR 結果 • 同じパターンのカテゴリ スタバはいつも⾷費であれば、 きっと今回も⾷費 • 複数パターンのカテゴリ 何もかも Amazon で買うため、 前回のカテゴリをそのまま適⽤ できず、商品名などからの推測 が必要 • メモ 前回は「〇〇さんへのプレゼン ト」だからと⾔って今回も同じ とは限らない • 情報がない場合の店舗 名、カテゴリ
© LayerX Inc. 19 ⼊⼒項⽬の特性に応じて使い分ける パターン 適用条件 結果の 安定性 処理速度
柔軟性 実装難易度 A. 決定値を使用 確実性 100%、または過去履歴から流用 可能 ◎ ◯ △ ◯ B. LLM生成 推測可能でミス許容度が高く、過去履歴 の単純コピーでは対応できない △ △ ◎ △ C. 空欄にする 確実性 0%、またはミス許容度が低い ◎ ◎ × ◎
© LayerX Inc. 20 コンテキスト プロンプト 評価 (Eval) 最初のアプローチの問題 •
今回の取引:レシート画 像、カード決済情報、… • 過去の履歴:過去のカテ ゴライズの傾向、同じ店 舗の記録、… • 「あなたは家計簿の⼊⼒ アシスタントです。レ シート情報を元に …」 • 構造化出⼒ (Structured Output) • よくある⼊⼒例のデータ セット • 様々な観点のスコアラー ハンマーを持つ⼈には すべてが釘に⾒えてしまう
21 © LayerX Inc. LLM はすごい が、万能ではなく、得⼿不得⼿がある
22 © LayerX Inc. AI 機能の開発に⼀番⼤事なのは?
23 © LayerX Inc. AI 機能の開発に⼀番⼤事なのは 適材適所
© LayerX Inc. 24 • LLM は⽬的ではなく⼿段 ◦ しかも⼿段の 1
つにすぎない ◦ それぞれの⼿段に優劣はなく、あるのはトレードオフのみ ◦ 課題を分解し、良いとこ取りできるように適材適所に使い分ける • ⼿段の先にある⽬的がよっぽど⼤事 ◦ どんな課題を解決したかったか? ◦ どんな顧客価値を提供したかったか? ◦ どんなユーザー体験を実現したかったか? まとめ
25 © LayerX Inc. ちょっと待った!
26 © LayerX Inc. パターン D: ユーザーに聞く (HITL) もあるのでは?
© LayerX Inc. 27 LayerX エンジニア陣が執筆する連載 「実録 AIネイティブプロダクト開発」 の第2回として、『Software Design
2026年4⽉号』(3/18 発売) に掲載 本⽇触れられなかった HITL (Human in the Loop) の設計や、Eval の仕組みも詳 しく紹介されておりますので、ぜひお買 い求めください! 答えは『Software Design』へ
© LayerX Inc. 28 We are hiring! ZOZO x Mercari
x LayerX 企業R&D勉強会 〜 研究と実⽤化のリアル〜 #価値を届けるRandD 4/24(⾦) 19:00〜 LayerX イベントスペースで開催 企業R&Dエンジニア‧研究者向けミートアップ開催!「研究をどう やってプロダクトや事業に届けるか」をテーマに、実務のリアルや評 価の悩みまで本⾳で語り合い交流しませんか? LayerX Open Door アカウント登録が⼀切不要なカジュアル⾯談を公開しています! ‧私と雑談してみたい ‧質問したいことがある ‧選考に進むか悩んでいる などなど、お気軽にお申し込みください!