Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LLMに何を任せ、何を任せないか
Search
an
March 25, 2026
Technology
3
1k
LLMに何を任せ、何を任せないか
2026/03/25
本番提供できる品質へ:SaaSにAI機能を実装するまでのリアル
での発表資料です。
an
March 25, 2026
Tweet
Share
More Decks by an
See All by an
AIに目を奪われすぎて、周りの困っている人間が見えなくなっていませんか?
cap120
1
1k
Other Decks in Technology
See All in Technology
脳が溶けた話 / Melted Brain
keisuke69
1
770
Kiro Meetup #7 Kiro アップデート (2025/12/15〜2026/3/20)
katzueno
2
230
夢の無限スパゲッティ製造機 #phperkaigi
o0h
PRO
0
340
20260321_エンベディングってなに?RAGってなに?エンベディングの説明とGemini Embedding 2 の紹介
tsho
0
150
君はジョシュアツリーを知っているか?名前をつけて事象を正しく認識しよう / Do you know Joshua Tree?
ykanoh
3
110
ReactのdangerouslySetInnerHTMLは“dangerously”だから危険 / Security.any #09 卒業したいセキュリティLT
flatt_security
0
470
Windows ファイル共有(SMB)を再確認する
murachiakira
PRO
0
230
"作る"から"使われる"へ:Backstage 活用の現在地
sbtechnight
0
240
Bill One 開発エンジニア 紹介資料
sansan33
PRO
5
18k
Phase08_クイックウィン実装
overflowinc
0
1.5k
テストプロセスにおけるAI活用 :人間とAIの共存
hacomono
PRO
0
140
データマネジメント戦略Night - 4社のリアルを語る会
kubell_hr
0
120
Featured
See All Featured
Jamie Indigo - Trashchat’s Guide to Black Boxes: Technical SEO Tactics for LLMs
techseoconnect
PRO
0
89
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.9k
SEOcharity - Dark patterns in SEO and UX: How to avoid them and build a more ethical web
sarafernandez
0
150
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
11
860
Have SEOs Ruined the Internet? - User Awareness of SEO in 2025
akashhashmi
0
300
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
199
73k
Test your architecture with Archunit
thirion
1
2.2k
Navigating the moral maze — ethical principles for Al-driven product design
skipperchong
2
300
Lessons Learnt from Crawling 1000+ Websites
charlesmeaden
PRO
1
1.2k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
12
1.1k
Design of three-dimensional binary manipulators for pick-and-place task avoiding obstacles (IECON2024)
konakalab
0
380
Jess Joyce - The Pitfalls of Following Frameworks
techseoconnect
PRO
1
110
Transcript
© LayerX Inc. LLM に何を任せ、何を任せないか 株式会社LayerX バクラク事業部 エンジニア 蔡 安平
| an 2026.03.25 本番提供できる品質へ:SaaSにAI機能を実装するまでのリアル
© LayerX Inc. 2 - 蔡 安平 / サイ アンペイ
/ Anping Cai / an - LayerX - 2025/05 ⼊社 - バクラク申請‧経費精算の Web エンジニア - 経歴 - 中国北京出⾝、⼤学院から来⽇ - ITコンサル → Salesforce → ITコンサル - エンジニア / PjM / CS - 稀にいる CSS 好き ⾃⼰紹介 飼い猫のおもち
3 © LayerX Inc. AI 機能の開発に⼀番⼤事なのは?
4 © LayerX Inc. AI 機能の開発に⼀番⼤事なのは? Harness Engineering Prompt Engineering
Context Engineering コストコントロール Eval Vibes ガードレール Agent Skills 学習のサイクル PoC セキュリティ インフラ バックテスト モニタリング ⾃律性スライダー UX Multi-Agent The Bitter Lesson Durable Agent
5 © LayerX Inc. 「すべての経済活動を、デジタル化する。」をミッションに、AI SaaSとAI DXの事業を展開 バクラク事業 企業活動のインフラとなる業務を 効率化するクラウドサービス
Fintech事業 ソフトウェアを駆使したアセットマネジ メント‧証券事業を合弁会社にて展開 Ai Workforce事業 社内のナレッジやノウハウをデータ ベース化するAIプラットフォーム AI SaaSドメイン AI DXドメイン
© LayerX Inc. 6
7 © LayerX Inc. 申請 経費精算 事前 稟議 法⼈カード 帳票発⾏
⼊⾦管理 勤怠管理 ⼯数管理 勤怠 債権債務 ⼈事労務 管理 会計 システム 受領代⾏ 取 引 先 ⽀出管理 データ活⽤ 給与計算 年末調整 給与明細 new 給与 バクラクは、企業間取引の起点となる稟議を標準化し、債権‧債務の⼀元管理が可能に。 さらに⼈事労務も統合し、拡張性のあるなめらかなバックオフィス基盤で企業経営の加速を実現します。
8 © LayerX Inc. 申請⾃動作成の本番提供までの試⾏錯誤を ⾝近な例で説明してみよう
© LayerX Inc. 9 現⾦ カード 電⼦マネー オンライン決済 もし家計簿アプリに AI
機能を追加するとしたら
© LayerX Inc. 10 コンテキスト プロンプト 評価 (Eval) もし家計簿アプリに AI
機能を追加するとしたら • 今回の取引:レシート画 像、カード決済情報、… • 過去の履歴:過去のカテ ゴライズの傾向、同じ店 舗の記録、… • 「あなたは家計簿の⼊⼒ アシスタントです。レ シート情報を元に …」 • 構造化出⼒ (Structured Output) • よくある⼊⼒例のデータ セット • 様々な観点のスコアラー
11 © LayerX Inc. 上⼿くいきました ( PoC としては )
© LayerX Inc. 12 • ⾦額が先祖返り:過去に同じ店舗のカテゴリやメモを正しく参照できたのに、⾦額ま で過去の記録と同じになってしまった • レシートが⽋落:レシート画像から正しく⼊⼒内容を⽣成できたのに、肝⼼のレシー トそのものが添付されていなかった
稀に起こる致命的なミス 不確実な振る舞いをするのが LLM の性だが、 コーポレート業務においては稀なミスでも許容されない
13 © LayerX Inc. プロンプトチューニングも⾏ったが 問題が 100% 解決されるわけではなかった
14 © LayerX Inc. これでは本番に出せない ... !
© LayerX Inc. 15 • 曖昧性がある (Ambiguous) 単純なルールベースの処理では対応できない • ⼤量処理が必要
(High volume) ⼈間が⼿作業で⾏うと膨⼤な時間がかかる • ⾮対称的なメリット (Asymmetric upside) ⾃動化による価値が、時折発⽣するエラーのコストを ⼤幅に上回る LLM が最も輝ける問題 https://builders.ramp.com/post/how-to-build -agents-users-can-trust
© LayerX Inc. 16 • 曖昧なものと確実なものがある ◦ 曖昧なもの:初めての店舗のカテゴリ、メモ、… ◦ 確実なもの:レシート/決済情報から読み取れる⾦額、
店舗名、⽇付、⽀払⽅法、… • ミスしても許されるものとそうでないものがある ◦ ミスを許容できるもの:カテゴリ、メモ ◦ ミスを許容できないもの:⾦額、⽇付、⽀払⽅法 改めて問題の構造を⾒てみよう
© LayerX Inc. 17 ⼊⼒項⽬を「確実性」と「ミス許容度」で分類する パターン A 決定値を使⽤ 分類開始 確実性
ミス 許容度 履歴流⽤ の可否 パターン C 空欄にする パターン B LLM⽣成 100%(正解が明確) 0%(判断不可) ある程度 推測可能 低い ⾼い 不可 可能
© LayerX Inc. 18 A. 決定値を使⽤ B. LLM⽣成 C. 空欄にする
パターンごとの⼊⼒項⽬の例 • ⽀払⽅法 • カードの決済情報 • レシートの OCR 結果 • 同じパターンのカテゴリ スタバはいつも⾷費であれば、 きっと今回も⾷費 • 複数パターンのカテゴリ 何もかも Amazon で買うため、 前回のカテゴリをそのまま適⽤ できず、商品名などからの推測 が必要 • メモ 前回は「〇〇さんへのプレゼン ト」だからと⾔って今回も同じ とは限らない • 情報がない場合の店舗 名、カテゴリ
© LayerX Inc. 19 ⼊⼒項⽬の特性に応じて使い分ける パターン 適用条件 結果の 安定性 処理速度
柔軟性 実装難易度 A. 決定値を使用 確実性 100%、または過去履歴から流用 可能 ◎ ◯ △ ◯ B. LLM生成 推測可能でミス許容度が高く、過去履歴 の単純コピーでは対応できない △ △ ◎ △ C. 空欄にする 確実性 0%、またはミス許容度が低い ◎ ◎ × ◎
© LayerX Inc. 20 コンテキスト プロンプト 評価 (Eval) 最初のアプローチの問題 •
今回の取引:レシート画 像、カード決済情報、… • 過去の履歴:過去のカテ ゴライズの傾向、同じ店 舗の記録、… • 「あなたは家計簿の⼊⼒ アシスタントです。レ シート情報を元に …」 • 構造化出⼒ (Structured Output) • よくある⼊⼒例のデータ セット • 様々な観点のスコアラー ハンマーを持つ⼈には すべてが釘に⾒えてしまう
21 © LayerX Inc. LLM はすごい が、万能ではなく、得⼿不得⼿がある
22 © LayerX Inc. AI 機能の開発に⼀番⼤事なのは?
23 © LayerX Inc. AI 機能の開発に⼀番⼤事なのは 適材適所
© LayerX Inc. 24 • LLM は⽬的ではなく⼿段 ◦ しかも⼿段の 1
つにすぎない ◦ それぞれの⼿段に優劣はなく、あるのはトレードオフのみ ◦ 課題を分解し、良いとこ取りできるように適材適所に使い分ける • ⼿段の先にある⽬的がよっぽど⼤事 ◦ どんな課題を解決したかったか? ◦ どんな顧客価値を提供したかったか? ◦ どんなユーザー体験を実現したかったか? まとめ
25 © LayerX Inc. ちょっと待った!
26 © LayerX Inc. パターン D: ユーザーに聞く (HITL) もあるのでは?
© LayerX Inc. 27 LayerX エンジニア陣が執筆する連載 「実録 AIネイティブプロダクト開発」 の第2回として、『Software Design
2026年4⽉号』(3/18 発売) に掲載 本⽇触れられなかった HITL (Human in the Loop) の設計や、Eval の仕組みも詳 しく紹介されておりますので、ぜひお買 い求めください! 答えは『Software Design』へ
© LayerX Inc. 28 We are hiring! ZOZO x Mercari
x LayerX 企業R&D勉強会 〜 研究と実⽤化のリアル〜 #価値を届けるRandD 4/24(⾦) 19:00〜 LayerX イベントスペースで開催 企業R&Dエンジニア‧研究者向けミートアップ開催!「研究をどう やってプロダクトや事業に届けるか」をテーマに、実務のリアルや評 価の悩みまで本⾳で語り合い交流しませんか? LayerX Open Door アカウント登録が⼀切不要なカジュアル⾯談を公開しています! ‧私と雑談してみたい ‧質問したいことがある ‧選考に進むか悩んでいる などなど、お気軽にお申し込みください!