生成AI時代におけるAI・機械学習技術を用いたプロダクト開発の深化と進化 #BetAIDay

© LayerX Inc. ⽣成AI時代における AI‧機械学習技術を⽤いたプロダクト開発の深化と進化バクラク事業 AI・機械学習部部長　松村
優也 MATSUMURA, Yuya バクラク事業 AI・機械学習部 Tech Lead　島越直⼈ SHIMAKOSHI, Naoto 7Bets on AI — Session 7 © LayerX Inc.

© LayerX Inc. Speaker バクラク事業 AI‧機械学習部部⻑京都⼤学⼤学院にて情報検索‧情報推薦の研究に従事し、AI‧機械学習の世界に。 2018年に新卒でウォンテッドリー株式会社に⼊社。推薦
システムチームの⽴ち上げに携わった後、テックリード、プロダクトマネージャー、エンジニアリングマネージャーを兼任。退職後、AI領域の技術顧問に就任。 2022年9⽉にLayerXに⼊社。バクラクを横断したAI‧機械学習技術を活⽤したプロダクト開発に携わる。その他の活動として、⼤学の⾮常勤講師、オライリー‧ ジャパン『推薦システム実践⼊⾨』を共著で執筆など。松村優也 MATSUMURA, Yuya

© LayerX Inc. たとえば、出張予定をカレンダーに登録すると出張に伴う諸業務が完了する世界が⾒えている LayerX / バクラクは “業務の完全⾃動運転”を⽬指す業務の完全⾃動運転の実現にむけて出張予定が
カレンダーに登録トリガーバクラク AIエージェント出張内容をもとに事前の出張申請を作成社内規定に沿った交通⼿段や宿泊施設を⼿配出張期間中の経費精算など事後の申請を作成ユーザー確認承認業務の遂⾏

© LayerX Inc. 多くの企業が共通して持つ発⽣頻度の⾼いユースケースを満たす、汎⽤的な機能を開発して提供するのがこれまでの⼀般的なSaaS 会社ごとに多様な個別性が⾼く発⽣頻度の低いユースケースを満たすための機能は、開発リソースやシステム的な制約などの理由で開発できずシステムに合わせる形で業務を変更いただいた
り、運⽤でカバーいただくしかないというのが現状であり、業務の完全⾃動運転に向けた壁となっている従来のSaaSの限界業務の完全⾃動運転の実現にむけて SaaS Use Case Use Case Use Case SaaS Use Case Use Case SaaS Use Case Use Case Use Case Use Case Use Case

© LayerX Inc. “⾃律性”や“知性”により、⼈間が判断して実施している多様なユースケースを⾃動化出来る可能性業務の完全⾃動運転の実現の鍵となるLLM‧AI エージェント業務の完全⾃動運転の実現にむけてメール‧カレンダー外部サービス社内規定など業務知識
ツールルールユーザー AIエージェントが業務を遂行トリガー利⽤チェックデータ取得‧登録確認承認

© LayerX Inc. AIエージェントが⾃律的に動き知性を発揮することのできる環境を作ることで、主要なユースケースの隙間を埋め合わせていく。これまでは諦めていた個社ごとの業務フローをAI エージェントが代わりに実施する、パーソナライゼーションされた業務の⾃動運転を実現する。 AIエージェントの⼒で
SaaSの限界を超えていく業務の完全⾃動運転の実現にむけて SaaS Use Case Use Case Use Case SaaS Use Case SaaS Use Case Use Case Agent Platform Use Case Use Case Use Case Use Case Use Case

© LayerX Inc. パーソナライズド AI-OCR *特許出願中従来のAI-OCRでは難しかった、ユースケースに合わせて値を読み取ることが可能に。お客様ごとの運⽤に合わせてAIが学習します。
複数の値を同時に読み込み AIが推薦 STEP.1 お客様の選択を学習していき運⽤に最適化していく STEP.2 パーソナライゼーションされた業務の⾃動運転の実例①

© LayerX Inc. ホテルの領収書で読み取りたいのはチェックアウト⽇ or 決済⽇ CASE.1 請求書で読み取りたいのは税抜請求⾦額
or 税込請求⾦額 CASE.2 運⽤⽅法や業務の⽂脈など、顧客ごとのユースケースによって読み取りたい値が変わるという課題を解決パーソナライゼーションされた業務の⾃動運転の実例①

© LayerX Inc. AIエージェントの⾃律性や知性をもとに個社ごとの多様な運⽤をカバーする学習したレビュールールをもとにAIが申請内容をリアルタイムレビューパーソナライゼーションされた業務の⾃動運転の実例② レビュールール過去の申請データ
社内規定等レビュー AI 交通費の経費精算時には「訪問先」と「訪問⽬的」を「内容‧メモ」に⼊⼒する必要がある

© LayerX Inc. 丸投げではなく、シンプルな課題群へと分解することがポイント “LLM / AIエージェントでポン” ですべての課題を解決するのは困難鍵となるAgentic
Workﬂow 請求書仕訳N⾏仕訳の作成請求書仕訳N⾏表抽出⾏から仕訳を作成ユーザにフォールバック仕訳に使⽤する⾏抽出例) 請求書の明細表から複数仕訳を作成するタスク

© LayerX Inc. ⾃律性と決定性を兼ね揃えたAgentic Workflowが鍵となる鍵となるAgentic Workflow 事前定義された決定的なAI Workflow、ドメイン特化した⾼性能toolなどをエージェントが利⽤可能 [1]
What's next for AI agentic workflows ft. Andrew Ng of AI Fund

© LayerX Inc. ひとつひとつの tool の性能が90%でも、３つ連なるだけで最終的な性能は73%にまで落ちる不確実な処理が連なるからこそ、toolの性能が重要に鍵となるAgentic Workﬂow 表抽出
仕訳に使用する行抽出行から仕訳作成 90% 90% 90% ✖ ✖ 🟰 73% 仕訳N行

© LayerX Inc. ⾃律性と決定性を兼ね揃えたAgentic Workflowが鍵となる鍵となるAgentic Workflow [1] What's next
for AI agentic workflows ft. Andrew Ng of AI Fund 事前定義された決定的なAI Workflow、ドメイン特化した⾼性能toolなどをエージェントが利⽤可能このtool群をいかに開発するのかを後半パートでご紹介

© LayerX Inc. Speaker バクラク事業 AI‧機械学習部 Tech Lead 京都⼤学⼤学院にて睡眠医療への機械学習応⽤研究に従事した後、2019年にDeNAに新卒⼊社。
DeNAでは、タクシーアプリの機械学習システムの開発やライブストリーミングサービス、オークションサービスの推薦基盤の開発に携わる。 LayerXには2023年4⽉に⼊社し、AI-OCRなどの機械学習機能開発全般を担当。Kaggle Grandmaster。島越直⼈ SHIMAKOSHI, Naoto

© LayerX Inc. 単純なAPIや関数呼び出しのみならず、機械学習モデルや事前に課題を分解した決定的なAI Workflow、⼈間による介⼊などもすべてToolとして捉える Agentic WorkflowにおけるTool Toolの技術選定 ML
Model API Orchestrator (Leader Agent) Human Private API OSS LLM API LLM API AI Workflow AI Agent

© LayerX Inc. 識別モデルのような既存の機械学習モデル良いToolを実現するにはその技術選定が重要になる Toolの技術選定⼩不確実性請求書から仕訳を作成
⽂字抽出表抽出仕訳に使⽤する⾏抽出仕訳予測マスタ紐付け⼈間にフォールバック決定的に振る舞うAPI OSSの⽣成AIを事後学習したモデルフロンティア⽣成AI API ⼤どのToolを選択するかあるタスクを実現するための⼿段は多数存在するが、その技術選定が腕の⾒せ所

© LayerX Inc. 識別モデルと⽣成モデル※の性質の違いを理解して使うことが重要識別モデルと⽣成モデルの違い条件付き確率識別モデル固定次元のラベル、スカラー値事例) クラス分類、時系列予測、ランキング
1. 出⼒空間がクラスなど低次元 2. ⼀般的に計算効率が良い 3. 関連情報を特徴量として加える同時確率 (LLMはNTPタスクで⽣成分布を獲得) ⽣成モデル (LLM) 可変⻑のテキスト列事例) 翻訳、要約、コード⽣成 1. 出⼒空間が語彙サイズなど⾼次元 2. ⼀般的に計算効率が悪い 3. 関連情報をContextとして加える学習対象 ※Diﬀusion型のLLMや画像⽣成モデルもありますが、本発表ではDecoderモデルのLLMに絞って説明出⼒特徴

© LayerX Inc. 追加のインフラコストはかかるが、検討する価値がある OSSのSmall Language Modelへの注⽬が⾼まる精度[1] 扱いやすさ[2] •
Agentic Workﬂowでタスクを分解していくと多くの場合構造化データ抽出に落ち着く • 10B以下のサイズのSLMで10k~100kのデータサイズで⼀般的な構造化データ抽出なら事後学習データとしては⼗分な精度が出ることが多い • 定期的な学習により、新しいフォーマット‧要件にも適応可能 • テキストとしてではなくパラメータとしてメモリを保持するため、複雑なプロンプトエンジニアリングやコンテキストエンジニアリングの運⽤から解放される識別モデルと⽣成モデルの違い [1] Small Language Models are the Future of Agentic AI [2] AI-native Memory: A Pathway from LLMs Towards AGI 1 2 1 2

© LayerX Inc. バクラクの実データを⽤いた⽐較実験により、モデルごとの特徴を確認する帳票データから構造化データを抽出するタスクで⽐較実験訓練データ OCRによる帳票からの⽂字検出結果を利⽤訓練データは識別モデルが約7000サンプル、⽣成モデルが約2000サンプル
識別モデルと⽣成モデルの違い評価データ細分化された27ラベル (1588サンプル) • ⽇付: 5 (発⾏⽇、請求⽇など) • ⾦額: 10 (請求⾦額、未払⾦額など) • 取引先名: 12 (発⾏会社名、部署、担当者名など) モデル • 従来の識別モデル (RoBERTa, ModernBERT) • OSSの⽣成モデル (Qwen3-4B/8B) • APIで提供されている⽣成モデル (GPT4.1, Claude)

© LayerX Inc. ⽂書から⾦額を抽出したいと考えた場合識別モデルと⽣成モデルの違い • 事前定義されたラベルを元の⽂字列に付与していく • 事前定義したラベル以外の出⼒をすることがないため、コントローラブル
• 元の⽂字列を改変することはない • 逆に事前定義したもの以外は出⼒できない • 事前定義された語彙の中から抽出したいフォーマットに合わせて出⼒ • 推論時に定義するとあらゆるラベルを抽出できる • 正しいフォーマットで出⼒できるかも精度に影響してくる • 元の⽂字列が改変される可能性がある totalAmount “...合計⾦額（税込） ¥12,000 請求書発⾏⽇ ...“ other other “...合計⾦額（税込） ¥12,000 請求書発⾏⽇ ...“ { “totalAmount”: { “rawText”: “¥12,000”, “processedValue”: 12,000, } … } 出⼒空間識別モデル⽣成モデル 1 2 3 4 1 2 3 4

© LayerX Inc. 識別モデル⽣成モデル⼀般的に識別モデルの⽅がパラメータ効率やレイテンシが良い計算効率識別モデルと⽣成モデルの違い • 従来のRoBERTaやDeBERTaといった
Encoderモデルは~350Mパラメータほど • データを⼀度に⼊⼒して⼀度に出⼒するため推論が⾼速になりやすい • フロンティアモデルのモデルサイズは公開されていないが、同等の精度を持つ DeepSeek-R1やQwen3で数100Bパラメータ • ⼀⽂字ずつ⽂字を⽣成するためループを回す分だけ推論に時間がかかる • 最近ではKVキャッシュ技術の進展や蒸留などによる⼩規模モデルでの精度向上などにより効率が良くなってきている 1 2 1 2 3

© LayerX Inc. • RoBERTaのレイテンシは中央値で⽣成モデルより100倍ほど⾼速。 • 事後学習したQwenと⽣成モデル APIのレイテンシに⼤差はないが、 APIは期待したフォーマットを⼀度で出せずリトライの影響でレイテンシが伸びる傾向がある。識別モデルと⽣成モデルのレイテンシ⽐較
識別モデルと⽣成モデルの違い ※RoBERTaとQwenはA100 GPU環境(a2-highgpu-1g)で直列に推論した結果

© LayerX Inc. • 精度は事後学習したQwen4Bモデルが⼀番⾼い。 • ⼀般的に良く使われるコストの低いGPT4.1-miniなどはRoBERTaよりも精度が20ptほど劣る。 • ⾦額や⽇付といった⼀般的な項⽬については、LLMの精度が優勢になることも。識別モデルと⽣成モデルの精度⽐較
識別モデルと⽣成モデルの違い

© LayerX Inc. • 27ラベルという階層構造もある複雑なスキーマの予測でも約2000サンプルほどで正しいフォーマットを出⼒できるようになる。 • 少数データの訓練で前述のようにフロンティア⽣成AIモデルに匹敵する精度を獲得。 • NVIDIA
RTX 6000 Ada (48GB)を⽤いた学習で8,9hourほどで訓練可能。 OSSのSmall Language Modelの事後学習効果識別モデルと⽣成モデルの違い

© LayerX Inc. パーソナライズドAI-OCRと同じ設定で⽐較実験ランキングタスクで⽐較実験訓練データバクラクユーザの過去の⼊⼒履歴を利⽤ • 識別モデル：特徴量エンジニアリング
+ 学習 • ⽣成モデル：過去のユーザ⼊⼒値とテキストペアを与えてIn-Context Learning 識別モデルと⽣成モデルの違い評価データ⽇付‧⾦額‧取引先名の 3ラベル (1588サンプル) 最終的にユーザが⼊⼒した値を推薦できているかを評価モデル • パーソナライズドAI-OCR (識別モデル) • APIで提供されている⽣成モデル (GPT4.1, Claude) A社 C B社

© LayerX Inc. 識別モデル⽣成モデル複数の候補を並び替えるというタスクを考えた場合識別モデルと⽣成モデルの違い • 各候補に対してランキングスコアを付与する
• スコアの理論的な解釈性があるので扱いやすい • 何かしらの基準で内部的に並び替えられた⽂字列が⽣成される • ⽣成されるのは⽂字列なので追加でIDへのマッピングが必要出⼒空間 1 2 1 2

© LayerX Inc. 特徴量エンジニアリング VS コンテキストエンジニアリング履歴情報など関連情報の取り扱い⽅識別モデルと⽣成モデルの違い • モデルが認識できる形に落とし込むため
⼀般的に省メモリに関連情報を取り込める • ⻑期の情報も取り込みやすい • 状況に応じて特徴量を動的に変えたりすることができないためある程度汎⽤的な⽤途に限られる • 数値情報の特徴を扱いやすい • Promptの⼀部に⾃然⾔語で組み込むため⼀般的に推論コストが⾼くなる • 動的にコンテキストを切り替えることで多様な状況に対応できる • 時系列予測など、この特徴に⽐例して欲しいといった挙動をさせにくい平均値最⼩値最⼤値 Embedding化 Model 数値データ化 DB Model Promptに追加 DB ~~~~~~~~~ 過去の例:\n {{ examples }} ~~~~~~~~~ 識別モデル⽣成モデル 1 2 3 4 1 2 3

© LayerX Inc. • 単純にContextに過去の選択結果を⼊れるだけのコンテキストエンジニアリングでは、⼀貫してパーソナライズドAI-OCRの⽅が精度が⾼い結果になった。 • 過去データを構造化して保持している場合、特徴量エンジニアリングの⽅が追加の特徴を与えやすい⾯も精度向上に寄与。識別モデルと⽣成モデルの精度⽐較
識別モデルと⽣成モデルの違い

© LayerX Inc. タスクプランニング能⼒などAgentic WorkﬂowでのOrchestrator能⼒ • 今回検証していないo3などの推論モデルを利⽤して、Toolの実⾏計画を⽴てることができる。データがないコールドスタートの状態で精度を発揮できる • まずフロンティア⽣成AIのAPIを⽤いたプロトタイプで市場の反応を⾒ることができる。
動的な⼊⼒や柔軟なフォーマットでタスクをこなすことができる • 申請理由などの⾃由⼊⼒欄に対してのレビュー機能 • ⼀部のお客様でしか必要とされないような反復的ではない項⽬の抽出とはいえ、⽣成モデルのAPIが優れているところ⽣成モデルAPIの活かしどころ

© LayerX Inc. 候補抽出モデルを作るためのデータが存在しないプロダクトのログとしてあるのは最終的にユーザが⼊⼒した⽇付‧⾦額‧取引先名のみどのような⽇付なのかの「意味」まで含めてのラベルが欲しいが、アノテーションが貯まるのを待つと開発リードタイムが⼤きくなるアノテーションの⽅針も精度を確認しないと定まりにくい
パーソナライズドAI-OCRの課題バクラクにおける機械学習プロダクト開発の例 1 2 3

© LayerX Inc. フロンティア⽣成モデルAPIで疑似アノテーションすることで開発⾼速化単純にLLM APIに置き換えてしまうと⼤幅なレイテンシ悪化になりリクエスト数も多いためコストもかかってしまう。まずフロンティア⽣成モデルのAPIを⽤いて疑似的にアノテーションを⾏ったデータで開発を⾏い、問題設定として正しいかを早期に確認することで
開発サイクルを⾼速化。パーソナライズドAI-OCRの開発⽅針バクラクにおける機械学習プロダクト開発の例 1 2

© LayerX Inc. AI申請レビューの課題バクラクにおける機械学習プロダクト開発の例動的な⼊⼒内容‧ルールへの対応、⾃然⾔語の応答や即時性が必要レビュー対象は内容‧メモ欄に記⼊されるような⾃然⾔語や添付ファイルなどの⾮構造化データの内容。なるべくリアルタイムにレビュー結果を返却したい。レビュー結果がNGの場合は
理由をユーザーにフィードバックできるようにしたい。どのような申請ルールになっているかはお客様によって様々。 1 2 3 4

© LayerX Inc. ⼊⼒の多様性やデータ量の観点からLLM API、汎⽤的なルールの⾼精度化にAI Workﬂowを採⽤⼊⼒がルールによって動的に変わるため汎⽤的に学習するのが困難。幅広いユースケースをカバーでき、フィードバックも返すことができるLLM
APIを採⽤。⼊⼒token数が多くないのでリアルタイム性も問題ない。頻度⾼く利⽤されるようなルールは AI Workﬂow化することで決定的にすることで⾼精度化。後々のためにより⾃律的に差し戻しデータなどから学習‧適応できるようにデータを蓄積 AI申請レビューの開発⽅針バクラクにおける機械学習プロダクト開発の例 1 2 3 4

© LayerX Inc. 過去データが存在せず、表の構造も動的に変わるため構造化が困難表のどの内容に対してどのような仕訳が切られていたか過去データが存在せず事前検証が困難。請求書に記載されている表はカラム名や表組みが動的に変化。元の表のどの部分から仕訳が切られたのか分からないと結果のレビューが困難⽣成AIモデルを⽤いると表の⾏数がずれるなどの
絶対に間違えて欲しくない部分でのハルシネーションが発⽣する。 AI明細仕訳※の課題バクラクにおける機械学習プロダクト開発の例 ※ ※開発中の名称です 1 2 3 4

© LayerX Inc. まずLLM APIでMVPを作成し需要調査、⼀部をユーザにフォールバックして精度を担保データがないためまずはLLM APIを⽤いて仕訳推論APIを作成してユーザヒアリング。表抽出部分は識別モデルを使うことで位置情報を取得できるようにし、どの⾏からどのような仕訳が作成されたかを分かるように。
⾏数といった間違えたくない要素はユーザにフォールバック。仕訳の作成部分は動的な⼊⼒に対応できるように初期はLLM API。ただし、レイテンシやコスト、精度を改善するために後々識別モデルに切り替えられるようなデータを蓄積できるようにしておく。 AI明細仕訳※の開発⽅針バクラクにおける機械学習プロダクト開発の例 ※ ※開発中の名称です 1 3 2 4

© LayerX Inc. まとめ業務の完全⾃動運転に向けて Toolの技術選定の重要性業務の完全⾃動運転に向けて精度の⾼いToolを揃える • 識別モデルと⽣成モデルの特性を理解し適材適所で使い分ける
• プロダクト開発をする時は⽣成モデルで解けるタスクであればまず⽣成モデルのAPIを⽤いてMVP作成 • ⾼頻度に呼ばれるようになった時に識別モデルやOSSの⽣成モデルに切り替えられるようにログを溜める仕組みも重要 • AIエージェントの⾃律性と知性により⼈間が判断して実施している多様なユースケースを⾃動化 • 従来のSaaSでは対応できないような個社ごとの業務フローを AIエージェントが代わりに実施 • ⾃律性と決定性を兼ね備えた Agentic Workﬂowが鍵となる 1 2 1 2 3 3

生成AI時代におけるAI・機械学習技術を用いたプロダクト開発の深化と進化 #BetAIDay

生成AI時代におけるAI・機械学習技術を用いたプロダクト開発の深化と進化 #BetAIDay

More Decks by LayerX

Other Decks in Technology

Featured

Transcript