Slide 1

Slide 1 text

© LayerX Inc. AI Agentの精度改善に⾒るML開発との共通点 2026/01/27 ML/DSバックグラウンドだからこそ⾯⽩い。AIエージェントをプロダクトに実装する、泥臭い裏側と挑戦。 Naoto Shimakoshi (@nt_4o54)

Slide 2

Slide 2 text

© LayerX Inc. 2 バクラク事業部 AI-OCRグループ Tech Lead/ 機械学習エンジニア 経歴 ● 2019/04 京都⼤学⼤学院 ⼯学研究科 修⼠課程修了 ● 新卒では、事業会社でタクシー配⾞アプリに関する機械学 習システムの構築や、ライブストリーミングサービスにお ける推薦システム構築に携わる ● 現在 ○ 株式会社LayerX AI-OCRグループ Tech Lead ○ バクラク事業部において、AI-OCRの改善や 新規機械学習システムの構築を担当。 現在はAgent系の新規機能開発に携わる。 ○ Kaggle Competitions Grandmaster ⾃⼰紹介 島越 直⼈(Naoto Shimakoshi) @nt_4o54

Slide 3

Slide 3 text

⽬次 Agenda ● Agent時代における役割の変化 ● バクラクにおけるML機能とAgent機能 ● 精度改善における共通点 ● 精度改善における違い ● まとめ

Slide 4

Slide 4 text

Agent時代における役割の変化

Slide 5

Slide 5 text

5 © LayerX Inc. 機械学習エンジニアの役割 機械学習エンジニアの役割の変化 ⼀部のリソースを所有している企業や(まだ)LLMが得意でないドメインの会社を除いて LLM APIを⽤いたシステム開発は直近避けられない 従来の機械学習エンジニア これからの機械学習エンジニア 賢いモデルを作る モデルを賢く使う ● 少数のモデルを学習させて運⽤ ● 学習させたいコンテキストを定義し て、内部パラメータを学習 ● ラベル定義、アノテーション 再学習パイプライン整備 etc ● 複数のモデルやAPI、ロジックを運⽤ ● 適応させたいコンテキストに合わせて 外部パラメータを適応 ● モデルのOrchestration、全体設計 プロンプト管理 etc

Slide 6

Slide 6 text

6 © LayerX Inc. 機械学習エンジニアの役割 従来のスキルは不要になるのか BERTが出てきた時にTF-IDFやWord2Vecといった技術が完全に不要になっただろうか? 従来の知識があるからこそ適材適所で役割を使い分けることができる 従来培ってきたメタ的なスキルや知識は今後も活かされる部分 No 精度改善タスクにおいて活かされる部分と拡張される部分について今⽇はご紹介

Slide 7

Slide 7 text

バクラクにおけるML機能とAgent機能

Slide 8

Slide 8 text

© LayerX Inc. 8 バックオフィスから全社の⽣産性を⾼める バクラクとは

Slide 9

Slide 9 text

© LayerX Inc.  9 「バクラク」の事業領域 Coming Soon AIエージェント HCM領域 (人的資本管理) 稟議・ワークフロー 領域 BSM / ARM領域 (債務・債権管理) Payment 領域 Coming Soon (※)2025年11⽉時点

Slide 10

Slide 10 text

© LayerX Inc. 10 ユーザーに合わせて⾃動学習する次世代のAI-OCR 単純に情報抽出するだけではなく、お客様の運⽤に合わせてパーソナライズすることを実現 パーソナライズドAI-OCR 従来の機械学習機能の事例 A社 C社 B社 複数の値を同時に項⽬抽出  お客様の選択を学習していき、運⽤に最適化していく 1 2

Slide 11

Slide 11 text

© LayerX Inc. 11 請求書の明細から表を抽出し、LLMによって仕訳を過去の修正データやマスタデータから補完する 表抽出 + ⼈⼿のチェック + LLM + ルールベースでの名寄せによる仕訳の補完のワークフローを構築 AI明細仕訳 Agent機能の事例

Slide 12

Slide 12 text

精度改善における共通点

Slide 13

Slide 13 text

13 © LayerX Inc. Feature EngineeringとContext Engineering Context EngineeringはFeature Engineeringそのもの どちらもモデルの気持ちになって「コンテキスト」を理解させるという点では変わらない Feature Engineering (パーソナライズドAI-OCR) Context Engineering (AI明細仕訳) ⽬的 コンテキストを理解できるように 識別モデルが理解できる形で 特徴量を作成して⼊⼒する コンテキストを理解できるように ⽣成モデルが理解できる形で ⾃然⾔語‧システムを組み⽴てて⼊⼒する 具体例 過去にユーザがその取引先で 発⾏⽇を使った回数に加⼯して⼊⼒ 過去に同じ明細に対して どのような仕訳を切っていたかを Markdown形式で⼊⼒ 従来の機械学習エンジニアの仮説構築⼒、検証⼒、分析⼒が武器になる部分

Slide 14

Slide 14 text

© LayerX Inc. 14 AIシステムを⼀つのブラックボックスと考えた時に改善を回すサイクルは変わらない 評価と改善のプロセスは不変 評価フローの違い ● 特徴量の追加 ● コンテキスト収集⽅法の修正 ● 論⽂などで⼿法の探索 ● 評価指標設計 ● 仮説構築 ● 過学習検知 ● モデルの気持ちになる ● まずE2Eで動くものを最速で作成 ● データセット作成

Slide 15

Slide 15 text

15 © LayerX Inc. タスク分解の共通点 タスク分解の考え⽅⾃体は基本的に同じ 候補抽出モデルでやっているような汎⽤的な部分はSystem Promptに落とし込む Rerankのようなパーソナライズの部分はFBデータを元に適宜⼊れ替えるような仕組みを作る System Prompt {{ few_shot_example}} {{ specific_insight}} 汎⽤的なモデルに対応 パーソナライズモデルに対応

Slide 16

Slide 16 text

16 © LayerX Inc. タスク分解の共通点 例1: パーソナライズドAI-OCR ⾊々な役割を持たせないように学習しやすい形でモデルを分離する 汎⽤的なモデルに対応 パーソナライズモデルに対応 プロダクトやお客様毎の ドメインに依存せず 書類だけを⾒て判断できるような 項⽬抽出に特化させて学習 プロダクトやお客様毎の ドメインに合わせて 項⽬抽出した値を 並び替えることに特化させて学習 過去事例から特徴量を作成

Slide 17

Slide 17 text

17 © LayerX Inc. タスク分解の共通点 例2: AI明細仕訳 汎⽤的な部分とお客様毎に変わる部分に分けてチューニングを⾏う System Prompt {{ few_shot_example}} {{ specific_insight}} 汎⽤的なモデルに対応 パーソナライズモデルに対応 ドメインエキスパートに聞きながら 「⼀般的に」どのようなことを考えながら 仕訳を切っているかを 仮説を⽴てながら⾔語化して⼊⼒ 細かく仕訳を切りたいのか ある程度粗く仕訳を切りたいのかなど お客様毎に変わる部分を 吸収できるように過去事例を⼊⼒ 過去事例からの インサイトを抽出してから⼊⼒ 特徴量エンジニアリングと同じ

Slide 18

Slide 18 text

精度改善における違い

Slide 19

Slide 19 text

19 © LayerX Inc. データセット作成における違い LLM APIは検証においても時間と⾦銭コストがかかる 従来の検証サイクル ● ⼤規模なデータ(~1M)で オフラインで定量評価 ● オフラインで 精度が担保できたらデプロイ ● オンラインでのモニタリング Agentの検証サイクル ● ⼩規模なデータ(~1k)で オフライン評価 ● AIによる評価で評価にも不確実性 ● 検証速度重視で早期に 体験を含めて設計することが重要 ● 検証データの質が重要 ⼩規模なデータセットでしか検証できないからこそ、機械学習エンジニアのデータセット構築⼒は重要

Slide 20

Slide 20 text

20 © LayerX Inc. システム開発における違い フィードバックループを回す仕組みの構築がより重要 データセットから漏れてしまったケースを救うために間違った時でも改善できる仕組みが重要 ユーザの保存結果と 予測結果を突合できる形で保存 同じ取引先での 過去の事例を加⼯して Promptに⼊⼒ 例:AI明細仕訳の場合

Slide 21

Slide 21 text

21 © LayerX Inc. システム開発における違い Software Engineering能⼒やPdM能⼒の重要性が⾼まる できることが増えている分、Contextの収集やタスク分解を⾏っていくと システムとしての設計難易度が従来より格段に上がる Model Selection 複数の特化モデルの使い分け 従来の識別モデルの利⽤ ルールベースロジックの利⽤ RAG & Tools 検索APIなどのツールや DBなどとの接続設計 Human-in-the-Loopの設計 Data Infrastructure 検証⽤に再現性を担保するログ設計 フィードバックループを 回すためのDB設計 機械学習スキルが必要

Slide 22

Slide 22 text

まとめ

Slide 23

Slide 23 text

23 © LayerX Inc. まとめ 従来の経験を活かしつつ積極的に新しい領域に⾶び込んでいく Unlearning ● 従来の評価プロセスに囚われすぎずに、体験を含めてまず作ることが重要 ● LLMは思ったよりなんでもできる、斜に構えずにまずは動かす Relearning ● 精度改善の考え⽅のフレームワークは従来と同じで、Howが異なるだけ ○ むしろできることが広がって、従来じゃ実現できないようなモデルの適応も可能になる ● 従来の機械学習エンジニアとしてのメタ的なスキルや引き出しを活かして ⾼精度なAgentを実現するためにSoftware EngineeringやPdMの領域へ染み出していく!

Slide 24

Slide 24 text

© LayerX Inc. 24 Agentをコアにした新しい体験を作る仲間を募集しています! まとめ ● LayerXでは、開発⽣産性向上や社内業務効率化にAgentを⽤いることはもちろんのこと プロダクトにAgentを組み込み、社会全体の⽣産性向上を⽬指しています。 ● ⼀緒に使われるAgentをプロダクトに組み込むことに興味のある⽅お待ちしております! LayerX 採⽤