Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LLMに何を任せ、何を任せないか
Search
an
March 25, 2026
Technology
7.6k
12
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
LLMに何を任せ、何を任せないか
2026/03/25
本番提供できる品質へ:SaaSにAI機能を実装するまでのリアル
での発表資料です。
an
March 25, 2026
More Decks by an
See All by an
AIに目を奪われすぎて、周りの困っている人間が見えなくなっていませんか?
cap120
1
1.1k
Other Decks in Technology
See All in Technology
製造業のクラウド活用最適解〜AI,DXを加速するデータ基盤の作り方〜
hamadakoji
0
420
Oracle Cloud Infrastructure IaaS 新機能アップデート 2026/3 - 2026/5
oracle4engineer
PRO
1
230
個人最適 から 全体最適 へ AI情報共有会・AIギルド・AI-DLC で進める カンリーの組織展開
rfdnxbro
0
2k
noUncheckedIndexedAccess、3時間、1万円。 / noUncheckedIndexedAccess, 3 Hours, 10,000 JPY.
kaonavi
1
340
「嘘をつくテスト」の失敗例から学ぶ 良いテストコード #frontend_phpcon_do
asumikam
0
590
もりもり新機能を一挙紹介! AgentCoreに入門して、AWS上にAIエージェントを構築しよう
minorun365
PRO
6
870
[モダンアプリ勉強会]今更聞けないGit/GitHub入門
tsukuboshi
0
310
「速く作る」から「正しく作る」へ ─ 生成AI時代の開発フロー改革の ロードマップと実行 ─
starfish719
0
9.3k
新規事業を牽引する技術選定 〜フルスタックTypeScript開発の実践事例〜
nullnull
3
370
AIの性能が向上しても未解決な組織の重大問題は何か?/An Unsolved Organizational Problem in the Age of AI
moriyuya
3
500
TypeScript Compiler APIとPHP-Parserを活用し、TypeScriptとPHPで型を共有する
shuta13
1
370
Agentic Defenseとともにセキュリティエンジニアが輝き続けるには / How Security Engineers Can Keep Excelling with Agentic Defense
yuj1osm
0
140
Featured
See All Featured
Prompt Engineering for Job Search
mfonobong
0
340
Claude Code どこまでも/ Claude Code Everywhere
nwiizo
65
56k
Being A Developer After 40
akosma
91
590k
30 Presentation Tips
portentint
PRO
1
320
Balancing Empowerment & Direction
lara
6
1.1k
Design of three-dimensional binary manipulators for pick-and-place task avoiding obstacles (IECON2024)
konakalab
0
450
The Curious Case for Waylosing
cassininazir
1
380
Statistics for Hackers
jakevdp
799
230k
SEO Brein meetup: CTRL+C is not how to scale international SEO
lindahogenes
1
2.7k
Git: the NoSQL Database
bkeepers
PRO
432
67k
The Cult of Friendly URLs
andyhume
79
6.9k
Building Experiences: Design Systems, User Experience, and Full Site Editing
marktimemedia
0
530
Transcript
© LayerX Inc. LLM に何を任せ、何を任せないか 株式会社LayerX バクラク事業部 エンジニア 蔡 安平
| an 2026.03.25 本番提供できる品質へ:SaaSにAI機能を実装するまでのリアル
© LayerX Inc. 2 - 蔡 安平 / サイ アンペイ
/ Anping Cai / an - LayerX - 2025/05 ⼊社 - バクラク申請‧経費精算の Web エンジニア - 経歴 - 中国北京出⾝、⼤学院から来⽇ - ITコンサル → Salesforce → ITコンサル - エンジニア / PjM / CS - 稀にいる CSS 好き ⾃⼰紹介 飼い猫のおもち
3 © LayerX Inc. AI 機能の開発に⼀番⼤事なのは?
4 © LayerX Inc. AI 機能の開発に⼀番⼤事なのは? Harness Engineering Prompt Engineering
Context Engineering コストコントロール Eval Vibes ガードレール Agent Skills 学習のサイクル PoC セキュリティ インフラ バックテスト モニタリング ⾃律性スライダー UX Multi-Agent The Bitter Lesson Durable Agent
5 © LayerX Inc. 「すべての経済活動を、デジタル化する。」をミッションに、AI SaaSとAI DXの事業を展開 バクラク事業 企業活動のインフラとなる業務を 効率化するクラウドサービス
Fintech事業 ソフトウェアを駆使したアセットマネジ メント‧証券事業を合弁会社にて展開 Ai Workforce事業 社内のナレッジやノウハウをデータ ベース化するAIプラットフォーム AI SaaSドメイン AI DXドメイン
© LayerX Inc. 6
7 © LayerX Inc. 申請 経費精算 事前 稟議 法⼈カード 帳票発⾏
⼊⾦管理 勤怠管理 ⼯数管理 勤怠 債権債務 ⼈事労務 管理 会計 システム 受領代⾏ 取 引 先 ⽀出管理 データ活⽤ 給与計算 年末調整 給与明細 new 給与 バクラクは、企業間取引の起点となる稟議を標準化し、債権‧債務の⼀元管理が可能に。 さらに⼈事労務も統合し、拡張性のあるなめらかなバックオフィス基盤で企業経営の加速を実現します。
8 © LayerX Inc. 申請⾃動作成の本番提供までの試⾏錯誤を ⾝近な例で説明してみよう
© LayerX Inc. 9 現⾦ カード 電⼦マネー オンライン決済 もし家計簿アプリに AI
機能を追加するとしたら
© LayerX Inc. 10 コンテキスト プロンプト 評価 (Eval) もし家計簿アプリに AI
機能を追加するとしたら • 今回の取引:レシート画 像、カード決済情報、… • 過去の履歴:過去のカテ ゴライズの傾向、同じ店 舗の記録、… • 「あなたは家計簿の⼊⼒ アシスタントです。レ シート情報を元に …」 • 構造化出⼒ (Structured Output) • よくある⼊⼒例のデータ セット • 様々な観点のスコアラー
11 © LayerX Inc. 上⼿くいきました ( PoC としては )
© LayerX Inc. 12 • ⾦額が先祖返り:過去に同じ店舗のカテゴリやメモを正しく参照できたのに、⾦額ま で過去の記録と同じになってしまった • レシートが⽋落:レシート画像から正しく⼊⼒内容を⽣成できたのに、肝⼼のレシー トそのものが添付されていなかった
稀に起こる致命的なミス 不確実な振る舞いをするのが LLM の性だが、 コーポレート業務においては稀なミスでも許容されない
13 © LayerX Inc. プロンプトチューニングも⾏ったが 問題が 100% 解決されるわけではなかった
14 © LayerX Inc. これでは本番に出せない ... !
© LayerX Inc. 15 • 曖昧性がある (Ambiguous) 単純なルールベースの処理では対応できない • ⼤量処理が必要
(High volume) ⼈間が⼿作業で⾏うと膨⼤な時間がかかる • ⾮対称的なメリット (Asymmetric upside) ⾃動化による価値が、時折発⽣するエラーのコストを ⼤幅に上回る LLM が最も輝ける問題 https://builders.ramp.com/post/how-to-build -agents-users-can-trust
© LayerX Inc. 16 • 曖昧なものと確実なものがある ◦ 曖昧なもの:初めての店舗のカテゴリ、メモ、… ◦ 確実なもの:レシート/決済情報から読み取れる⾦額、
店舗名、⽇付、⽀払⽅法、… • ミスしても許されるものとそうでないものがある ◦ ミスを許容できるもの:カテゴリ、メモ ◦ ミスを許容できないもの:⾦額、⽇付、⽀払⽅法 改めて問題の構造を⾒てみよう
© LayerX Inc. 17 ⼊⼒項⽬を「確実性」と「ミス許容度」で分類する パターン A 決定値を使⽤ 分類開始 確実性
ミス 許容度 履歴流⽤ の可否 パターン C 空欄にする パターン B LLM⽣成 100%(正解が明確) 0%(判断不可) ある程度 推測可能 低い ⾼い 不可 可能
© LayerX Inc. 18 A. 決定値を使⽤ B. LLM⽣成 C. 空欄にする
パターンごとの⼊⼒項⽬の例 • ⽀払⽅法 • カードの決済情報 • レシートの OCR 結果 • 同じパターンのカテゴリ スタバはいつも⾷費であれば、 きっと今回も⾷費 • 複数パターンのカテゴリ 何もかも Amazon で買うため、 前回のカテゴリをそのまま適⽤ できず、商品名などからの推測 が必要 • メモ 前回は「〇〇さんへのプレゼン ト」だからと⾔って今回も同じ とは限らない • 情報がない場合の店舗 名、カテゴリ
© LayerX Inc. 19 ⼊⼒項⽬の特性に応じて使い分ける パターン 適用条件 結果の 安定性 処理速度
柔軟性 実装難易度 A. 決定値を使用 確実性 100%、または過去履歴から流用 可能 ◎ ◯ △ ◯ B. LLM生成 推測可能でミス許容度が高く、過去履歴 の単純コピーでは対応できない △ △ ◎ △ C. 空欄にする 確実性 0%、またはミス許容度が低い ◎ ◎ × ◎
© LayerX Inc. 20 コンテキスト プロンプト 評価 (Eval) 最初のアプローチの問題 •
今回の取引:レシート画 像、カード決済情報、… • 過去の履歴:過去のカテ ゴライズの傾向、同じ店 舗の記録、… • 「あなたは家計簿の⼊⼒ アシスタントです。レ シート情報を元に …」 • 構造化出⼒ (Structured Output) • よくある⼊⼒例のデータ セット • 様々な観点のスコアラー ハンマーを持つ⼈には すべてが釘に⾒えてしまう
21 © LayerX Inc. LLM はすごい が、万能ではなく、得⼿不得⼿がある
22 © LayerX Inc. AI 機能の開発に⼀番⼤事なのは?
23 © LayerX Inc. AI 機能の開発に⼀番⼤事なのは 適材適所
© LayerX Inc. 24 • LLM は⽬的ではなく⼿段 ◦ しかも⼿段の 1
つにすぎない ◦ それぞれの⼿段に優劣はなく、あるのはトレードオフのみ ◦ 課題を分解し、良いとこ取りできるように適材適所に使い分ける • ⼿段の先にある⽬的がよっぽど⼤事 ◦ どんな課題を解決したかったか? ◦ どんな顧客価値を提供したかったか? ◦ どんなユーザー体験を実現したかったか? まとめ
25 © LayerX Inc. ちょっと待った!
26 © LayerX Inc. パターン D: ユーザーに聞く (HITL) もあるのでは?
© LayerX Inc. 27 LayerX エンジニア陣が執筆する連載 「実録 AIネイティブプロダクト開発」 の第2回として、『Software Design
2026年4⽉号』(3/18 発売) に掲載 本⽇触れられなかった HITL (Human in the Loop) の設計や、Eval の仕組みも詳 しく紹介されておりますので、ぜひお買 い求めください! 答えは『Software Design』へ
© LayerX Inc. 28 We are hiring! ZOZO x Mercari
x LayerX 企業R&D勉強会 〜 研究と実⽤化のリアル〜 #価値を届けるRandD 4/24(⾦) 19:00〜 LayerX イベントスペースで開催 企業R&Dエンジニア‧研究者向けミートアップ開催!「研究をどう やってプロダクトや事業に届けるか」をテーマに、実務のリアルや評 価の悩みまで本⾳で語り合い交流しませんか? LayerX Open Door アカウント登録が⼀切不要なカジュアル⾯談を公開しています! ‧私と雑談してみたい ‧質問したいことがある ‧選考に進むか悩んでいる などなど、お気軽にお申し込みください!