AI Agentの精度改善に見るML開発との共通点 / commonalities in accuracy improvements in agentic era

by shimacos

Embed

Start on current slide

Slide 1

Slide 1 text

Slide 2

Slide 2 text

© LayerX Inc. 2 バクラク事業部 AI-OCRグループ Tech Lead/ 機械学習エンジニア経歴 ● 2019/04 京都⼤学⼤学院⼯学研究科修⼠課程修了 ● 新卒では、事業会社でタクシー配⾞アプリに関する機械学習システムの構築や、ライブストリーミングサービスにおける推薦システム構築に携わる ● 現在 ○ 株式会社LayerX AI-OCRグループ Tech Lead ○ バクラク事業部において、AI-OCRの改善や新規機械学習システムの構築を担当。現在はAgent系の新規機能開発に携わる。 ○ Kaggle Competitions Grandmaster ⾃⼰紹介島越直⼈（Naoto Shimakoshi) @nt_4o54

Slide 3

Slide 3 text

⽬次 Agenda ● Agent時代における役割の変化 ● バクラクにおけるML機能とAgent機能 ● 精度改善における共通点 ● 精度改善における違い ● まとめ

Slide 4

Slide 4 text

Agent時代における役割の変化

Slide 5

Slide 5 text

5 © LayerX Inc. 機械学習エンジニアの役割機械学習エンジニアの役割の変化⼀部のリソースを所有している企業や(まだ)LLMが得意でないドメインの会社を除いて LLM APIを⽤いたシステム開発は直近避けられない従来の機械学習エンジニアこれからの機械学習エンジニア賢いモデルを作るモデルを賢く使う ● 少数のモデルを学習させて運⽤ ● 学習させたいコンテキストを定義して、内部パラメータを学習 ● ラベル定義、アノテーション再学習パイプライン整備 etc ● 複数のモデルやAPI、ロジックを運⽤ ● 適応させたいコンテキストに合わせて外部パラメータを適応 ● モデルのOrchestration、全体設計プロンプト管理 etc

Slide 6

Slide 6 text

6 © LayerX Inc. 機械学習エンジニアの役割従来のスキルは不要になるのか BERTが出てきた時にTF-IDFやWord2Vecといった技術が完全に不要になっただろうか？従来の知識があるからこそ適材適所で役割を使い分けることができる従来培ってきたメタ的なスキルや知識は今後も活かされる部分 No 精度改善タスクにおいて活かされる部分と拡張される部分について今⽇はご紹介

Slide 7

Slide 7 text

バクラクにおけるML機能とAgent機能

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

精度改善における共通点

Slide 13

Slide 13 text

13 © LayerX Inc. Feature EngineeringとContext Engineering Context EngineeringはFeature Engineeringそのものどちらもモデルの気持ちになって「コンテキスト」を理解させるという点では変わらない Feature Engineering (パーソナライズドAI-OCR) Context Engineering (AI明細仕訳) ⽬的コンテキストを理解できるように識別モデルが理解できる形で特徴量を作成して⼊⼒するコンテキストを理解できるように⽣成モデルが理解できる形で⾃然⾔語‧システムを組み⽴てて⼊⼒する具体例過去にユーザがその取引先で発⾏⽇を使った回数に加⼯して⼊⼒過去に同じ明細に対してどのような仕訳を切っていたかを Markdown形式で⼊⼒従来の機械学習エンジニアの仮説構築⼒、検証⼒、分析⼒が武器になる部分

Slide 14

Slide 14 text

Slide 15

Slide 15 text

15 © LayerX Inc. タスク分解の共通点タスク分解の考え⽅⾃体は基本的に同じ候補抽出モデルでやっているような汎⽤的な部分はSystem Promptに落とし込む Rerankのようなパーソナライズの部分はFBデータを元に適宜⼊れ替えるような仕組みを作る System Prompt {{ few_shot_example}} {{ speciﬁc_insight}} 汎⽤的なモデルに対応パーソナライズモデルに対応

Slide 16

Slide 16 text

16 © LayerX Inc. タスク分解の共通点例1: パーソナライズドAI-OCR ⾊々な役割を持たせないように学習しやすい形でモデルを分離する汎⽤的なモデルに対応パーソナライズモデルに対応プロダクトやお客様毎のドメインに依存せず書類だけを⾒て判断できるような項⽬抽出に特化させて学習プロダクトやお客様毎のドメインに合わせて項⽬抽出した値を並び替えることに特化させて学習過去事例から特徴量を作成

Slide 17

Slide 17 text

17 © LayerX Inc. タスク分解の共通点例2: AI明細仕訳汎⽤的な部分とお客様毎に変わる部分に分けてチューニングを⾏う System Prompt {{ few_shot_example}} {{ speciﬁc_insight}} 汎⽤的なモデルに対応パーソナライズモデルに対応ドメインエキスパートに聞きながら「⼀般的に」どのようなことを考えながら仕訳を切っているかを仮説を⽴てながら⾔語化して⼊⼒細かく仕訳を切りたいのかある程度粗く仕訳を切りたいのかなどお客様毎に変わる部分を吸収できるように過去事例を⼊⼒過去事例からのインサイトを抽出してから⼊⼒特徴量エンジニアリングと同じ

Slide 18

Slide 18 text

精度改善における違い

Slide 19

Slide 19 text

19 © LayerX Inc. データセット作成における違い LLM APIは検証においても時間と⾦銭コストがかかる従来の検証サイクル ● ⼤規模なデータ(~1M)でオフラインで定量評価 ● オフラインで精度が担保できたらデプロイ ● オンラインでのモニタリング Agentの検証サイクル ● ⼩規模なデータ(~1k)でオフライン評価 ● AIによる評価で評価にも不確実性 ● 検証速度重視で早期に体験を含めて設計することが重要 ● 検証データの質が重要⼩規模なデータセットでしか検証できないからこそ、機械学習エンジニアのデータセット構築⼒は重要

Slide 20

Slide 20 text

20 © LayerX Inc. システム開発における違いフィードバックループを回す仕組みの構築がより重要データセットから漏れてしまったケースを救うために間違った時でも改善できる仕組みが重要ユーザの保存結果と予測結果を突合できる形で保存同じ取引先での過去の事例を加⼯して Promptに⼊⼒例：AI明細仕訳の場合

Slide 21

Slide 21 text

21 © LayerX Inc. システム開発における違い Software Engineering能⼒やPdM能⼒の重要性が⾼まるできることが増えている分、Contextの収集やタスク分解を⾏っていくとシステムとしての設計難易度が従来より格段に上がる Model Selection 複数の特化モデルの使い分け従来の識別モデルの利⽤ルールベースロジックの利⽤ RAG & Tools 検索APIなどのツールや DBなどとの接続設計 Human-in-the-Loopの設計 Data Infrastructure 検証⽤に再現性を担保するログ設計フィードバックループを回すためのDB設計機械学習スキルが必要

Slide 22

Slide 22 text

まとめ

Slide 23

Slide 23 text

23 © LayerX Inc. まとめ従来の経験を活かしつつ積極的に新しい領域に⾶び込んでいく Unlearning ● 従来の評価プロセスに囚われすぎずに、体験を含めてまず作ることが重要 ● LLMは思ったよりなんでもできる、斜に構えずにまずは動かす Relearning ● 精度改善の考え⽅のフレームワークは従来と同じで、Howが異なるだけ ○ むしろできることが広がって、従来じゃ実現できないようなモデルの適応も可能になる ● 従来の機械学習エンジニアとしてのメタ的なスキルや引き出しを活かして⾼精度なAgentを実現するためにSoftware EngineeringやPdMの領域へ染み出していく！