Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
バクラクのアノテーション基盤の伸びしろを考えてみた
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
sbrf248
April 18, 2024
Technology
240
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
バクラクのアノテーション基盤の伸びしろを考えてみた
sbrf248
April 18, 2024
More Decks by sbrf248
See All by sbrf248
LLMでAI-OCR、実際どうなの? / llm_ai_ocr_layerx_bet_ai_day_lt
sbrf248
1
10k
自社開発SaaSバクラクのAI技術とそれに向き合うエンジニアのやりがい / layerx-ai-engineer-dataconference20240601
sbrf248
0
380
Other Decks in Technology
See All in Technology
自律型AIエージェントは何を破壊するのか
kojira
0
150
RAG を使わないという選択肢
tatsutaka
1
180
生成 AI × MCP で切り拓く次世代 SRE!自律型運用への挑戦と開発者体験の進化
_awache
0
190
AI-DLCを活用した高品質・安全なAI駆動開発実践 / AI Driven Development with AI-DLC
yoshidashingo
0
170
あなたの AI ワークスペースに、 専門コーダーを連れてくる - Amazon Quick Desktop 最新情報
kawaji_scratch
1
130
ACE-Step-1.5で見る 音楽生成AIのしくみと“破綻だけ直す”Retake機能の開発【zennfes spring 2026 登壇資料】
personabb
1
110
やさしいA2A入門
minorun365
PRO
11
1.7k
2026TECHFRESH畢業分享會 - Lightning Talk - E起 See See : 電商推薦讀心術? 數據說了算
line_developers_tw
PRO
0
760
On-behalf-of Token exchange with AgentCore Identity
hironobuiga
2
140
AGENTS.mdとSkillsで始めるAIエージェント活用
sonoda_mj
2
190
Claude Codeをどのように キャッチアップしているか
oikon48
0
430
AAIFに入ってみた ~内から見えるコミュニティ動向~
sato4
0
150
Featured
See All Featured
Fashionably flexible responsive web design (full day workshop)
malarkey
408
66k
30 Presentation Tips
portentint
PRO
1
320
Navigating Algorithm Shifts & AI Overviews - #SMXNext
aleyda
1
1.3k
Between Models and Reality
mayunak
4
330
Practical Orchestrator
shlominoach
191
11k
Technical Leadership for Architectural Decision Making
baasie
3
400
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.5k
How to Talk to Developers About Accessibility
jct
2
230
Dominate Local Search Results - an insider guide to GBP, reviews, and Local SEO
greggifford
PRO
0
190
Taking LLMs out of the black box: A practical guide to human-in-the-loop distillation
inesmontani
PRO
3
2.3k
AI Search: Implications for SEO and How to Move Forward - #ShenzhenSEOConference
aleyda
1
1.3k
Utilizing Notion as your number one productivity tool
mfonobong
4
320
Transcript
© LayerX Inc. バクラクのアノテーション基盤の伸びしろを考えてみた 2024/04/18 めぐろLT #14 「データ分析よろず会」 株式会社LayerX Shun
Ito (@sbrf248)
© LayerX Inc. 2 バクラク事業部 機械学習チーム 機械学習エンジニア 伊藤 駿 (Shun
Ito) 自己紹介 経歴 • 2020/04 〜 2023/12 株式会社エブリー ◦ データサイエンティスト ◦ データチームマネージャー • 2024/01〜 株式会社LayerX ◦ 機械学習エンジニア ◦ AI-OCR機能の開発
© LayerX Inc. 3 「すべての経済活動を、デジタル化する。」をミッションに掲げ、 法人支出管理サービス「バクラク」や企業内業務のデジタル化を支援するサービスを提供しています。 事業紹介 バクラク事業 企業活動のインフラとなる法人支出 管理(BSM)SaaSを開発・提供
Fintech事業 ソフトウェアを駆使したアセットマネジメ ント・証券事業を合弁会社にて展開 AI・LLM事業 文書処理を中心とした、LLMの活用による プロセスのリデザイン
© LayerX Inc. 4 バクラクシリーズラインナップ 仕訳・支払処理効率化 法人カードの発行・管理 稟議・支払申請・経費精算 帳票保存・ストレージ *
経費精算のSlack連携は申請内容の通知のみ AIが領収書を5秒でデータ化 スマホアプリとSlack連携あり 領収書の重複申請などミス防止機能 AIが請求書を5秒でデータ化 仕訳・振込データを自動作成 稟議から会計までスムーズに連携 年会費無料で何枚でも発行可 インボイス制度・電帳法対応 すべての決済で1%以上の還元 AIが書類を5秒でデータ化 あらゆる書類の電子保管に対応 電子取引・スキャナ保存に完全対応 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 帳票発行 帳票の一括作成も個別作成も自由自在 帳票の作成・稟議・送付・保存を一本化 レイアウトや項目のカスタマイズも可能 ・ ・ ・
AI-OCR機能とアノテーション基盤
© LayerX Inc. 6 • バクラクにアップロードされた帳票ファイルから、項目ごとの値を機械学習で自動抽出 • 機械学習モデルの学習・評価のために、項目ごとのアノテーションデータ(座標・値)が必要 AI-OCR機能について AI-OCR機能とアノテーション基盤
帳票ファイル (画像・PDF) 帳票に記載の 項目ごとの値 500,000 2021/02/28 株式会社テンプレ 支払期日 支払金額 取引先名
© LayerX Inc. 7 • 内製ツールを使った社内アノテーション を進めている • 読み取り項目ごとに、座標の指定と 正解ラベルの値が入力できる
• 手入力削減のための工夫 ◦ AI-OCRモデルによる事前 アノテーション ◦ 座標内の文字列抽出 ◦ etc. バクラクのアノテーション基盤 AI-OCR機能とアノテーション基盤
アノテーションの伸びしろ
© LayerX Inc. 9 アノテーションの改善は、大きく2つの観点から考えられる 1. 品質管理と効率化 ◦ どうやって速く正確にアノテーションするか ◦
主にクラウドソーシング活用の文脈で研究されている 2. サンプリング ◦ どのデータをアノテーションするか ◦ 今回はこちらについて話します 現状のアノテーション基盤をさらに改善するには アノテーション改善の方向性
© LayerX Inc. 10 学習に効果的なデータをサンプリングして重点的にアノテーションしたい • そのための一連の手法は能動学習 (Active Learning) と呼ばれる
“効果的な”データを見つけるための2つの観点 • 不確実性サンプリング ◦ 機械学習モデルにとって予測が難しいデータを重点的にサンプリング • 多様性サンプリング ◦ 選ばれたデータの特性が互いに異なるようにサンプリング 『Human-in-the-Loop機械学習』 という書籍が体系的にまとめられていて参考になります https://www.kyoritsu-pub.co.jp/book/b10039888.html アノテーションにおけるサンプリングとは サンプリング
© LayerX Inc. 11 機械学習モデルにとって予測が難しいデータを重点的にサンプリング 不確実性サンプリング サンプリング 不確実性サンプリングの例(最小確信度サンプリング) 0.8 0.1
0.1 Class1 Class2 Class3 データ1に対する 予測結果 0.2 0.7 0.1 データ2に対する 予測結果 0.3 0.4 0.3 データ3に対する 予測結果 最大スコア 0.8 0.7 0.4 不確実性 小 大 • ラベルの無いデータから、機械学習モデルの決定境界近くに存在するデータを重視する 重点的にサンプリング
© LayerX Inc. 12 選ばれたデータの特性が互いに異なるようにサンプリング 多様性サンプリング サンプリング 多様性サンプリングの例(クラスタベースのサンプリング) • ラベルの無いデータにクラスタリングを適用し、クラスタごとに中心や外れ値を選ぶ
クラスタごとにサンプリング
© LayerX Inc. 13 課題: バクラクをご利用いただくお客様が増えるにつれて、アップロードされる帳票の枚数・種類も増加して いるため、より効果的なアノテーションが必要 不確実性サンプリングに注目した改善 • 新しい書類フォーマットへの対応
◦ 例えば請求書だけでも、事業規模や業界によってフォーマットは全く異なる ◦ 新しいお客様の帳票が学習データに無いフォーマットの場合、すぐには予測が難しい ◦ 不確実性サンプリングで難しい帳票をアノテーションし、いつの間にか読めない帳票が読める ようになる体験を素早く届ける バクラクのアノテーション基盤における改善案 バクラクにおける改善
© LayerX Inc. 14 課題: バクラクをご利用いただくお客様が増えるにつれて、アップロードされる帳票の枚数・種類も増加して いるため、より効果的なアノテーションが必要 多様性サンプリングに注目した改善 • 学習データの量・質のバランス改善
◦ お客様に長く使っていただくほど、会社ごとに特有の帳票も多くアップロードされていく ◦ 似たような帳票が増えると、データサイズの増加に対して情報量があまり多くならない ◦ 多様性サンプリングで似た帳票に偏らない、量・質ともに適切な学習データを作ることで、 学習・モデル更新のサイクルを高速に回せる バクラクのアノテーション基盤における改善案 バクラクにおける改善
最後に
© LayerX Inc. 16 今回紹介したテーマ含め、お客様にバクラクな体験を届けるためやりたいことがまだまだたくさんあります! 少しでも興味を持っていただけた方は、懇親会やカジュアル面談で是非お話ししましょう!! • 機械学習エンジニア • MLOpsエンジニア
• ソフトウェアエンジニア • etc. 一緒に働く仲間を募集しています! 最後に カジュアル面談 採用情報