Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
バクラクのアノテーション基盤の伸びしろを考えてみた
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
sbrf248
April 18, 2024
Technology
240
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
バクラクのアノテーション基盤の伸びしろを考えてみた
sbrf248
April 18, 2024
More Decks by sbrf248
See All by sbrf248
LLMでAI-OCR、実際どうなの? / llm_ai_ocr_layerx_bet_ai_day_lt
sbrf248
1
10k
自社開発SaaSバクラクのAI技術とそれに向き合うエンジニアのやりがい / layerx-ai-engineer-dataconference20240601
sbrf248
0
380
Other Decks in Technology
See All in Technology
FDE という解 ― 暗黙知と明示知をつなぐ、伴走型エンジニアリング ―
otanet
0
130
「エンジニア進化論」2028年の開発完全自動化、エンジニアはどう進化するか
cyberagentdevelopers
PRO
4
4.5k
失敗を経て、Harness Engineering で 大切にしたいことを考える / Learning from Failure: What Matters in Harness Engineering
bitkey
PRO
1
300
小さくはじめるSLI/SLO ~育てながら組織に定着させる実践知~ / Starting Small with SLI/SLOs: Building Adoption Through Continuous Growth
nari_ex
4
1.7k
やさしいA2A入門
minorun365
PRO
11
1.7k
社内 AI エージェント Synapse と セマンティックレイヤーの育て方
hiroakis
2
1.7k
Building applications in the Gemini API family.
line_developers_tw
PRO
0
2.9k
チームで進めるAI駆動アジャイル×ウォーターフォール
kumaiu
0
150
Android の公式 Skill / Android skills
yanzm
0
120
2026TECHFRESH畢業分享會 - 原生還是跨平台? App 開發踩坑實錄
line_developers_tw
PRO
0
780
AIの性能が向上しても未解決な組織の重大問題は何か?/An Unsolved Organizational Problem in the Age of AI
moriyuya
3
610
protovalidate-es を導入してみた
bengo4com
0
170
Featured
See All Featured
How to Talk to Developers About Accessibility
jct
2
230
What's in a price? How to price your products and services
michaelherold
247
13k
jQuery: Nuts, Bolts and Bling
dougneiner
66
8.5k
Collaborative Software Design: How to facilitate domain modelling decisions
baasie
1
250
From π to Pie charts
rasagy
0
210
Redefining SEO in the New Era of Traffic Generation
szymonslowik
1
330
A Modern Web Designer's Workflow
chriscoyier
698
190k
AI Search: Where Are We & What Can We Do About It?
aleyda
0
7.6k
Art, The Web, and Tiny UX
lynnandtonic
304
22k
Building Experiences: Design Systems, User Experience, and Full Site Editing
marktimemedia
0
530
Building a Modern Day E-commerce SEO Strategy
aleyda
45
9.1k
Leo the Paperboy
mayatellez
7
1.8k
Transcript
© LayerX Inc. バクラクのアノテーション基盤の伸びしろを考えてみた 2024/04/18 めぐろLT #14 「データ分析よろず会」 株式会社LayerX Shun
Ito (@sbrf248)
© LayerX Inc. 2 バクラク事業部 機械学習チーム 機械学習エンジニア 伊藤 駿 (Shun
Ito) 自己紹介 経歴 • 2020/04 〜 2023/12 株式会社エブリー ◦ データサイエンティスト ◦ データチームマネージャー • 2024/01〜 株式会社LayerX ◦ 機械学習エンジニア ◦ AI-OCR機能の開発
© LayerX Inc. 3 「すべての経済活動を、デジタル化する。」をミッションに掲げ、 法人支出管理サービス「バクラク」や企業内業務のデジタル化を支援するサービスを提供しています。 事業紹介 バクラク事業 企業活動のインフラとなる法人支出 管理(BSM)SaaSを開発・提供
Fintech事業 ソフトウェアを駆使したアセットマネジメ ント・証券事業を合弁会社にて展開 AI・LLM事業 文書処理を中心とした、LLMの活用による プロセスのリデザイン
© LayerX Inc. 4 バクラクシリーズラインナップ 仕訳・支払処理効率化 法人カードの発行・管理 稟議・支払申請・経費精算 帳票保存・ストレージ *
経費精算のSlack連携は申請内容の通知のみ AIが領収書を5秒でデータ化 スマホアプリとSlack連携あり 領収書の重複申請などミス防止機能 AIが請求書を5秒でデータ化 仕訳・振込データを自動作成 稟議から会計までスムーズに連携 年会費無料で何枚でも発行可 インボイス制度・電帳法対応 すべての決済で1%以上の還元 AIが書類を5秒でデータ化 あらゆる書類の電子保管に対応 電子取引・スキャナ保存に完全対応 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 帳票発行 帳票の一括作成も個別作成も自由自在 帳票の作成・稟議・送付・保存を一本化 レイアウトや項目のカスタマイズも可能 ・ ・ ・
AI-OCR機能とアノテーション基盤
© LayerX Inc. 6 • バクラクにアップロードされた帳票ファイルから、項目ごとの値を機械学習で自動抽出 • 機械学習モデルの学習・評価のために、項目ごとのアノテーションデータ(座標・値)が必要 AI-OCR機能について AI-OCR機能とアノテーション基盤
帳票ファイル (画像・PDF) 帳票に記載の 項目ごとの値 500,000 2021/02/28 株式会社テンプレ 支払期日 支払金額 取引先名
© LayerX Inc. 7 • 内製ツールを使った社内アノテーション を進めている • 読み取り項目ごとに、座標の指定と 正解ラベルの値が入力できる
• 手入力削減のための工夫 ◦ AI-OCRモデルによる事前 アノテーション ◦ 座標内の文字列抽出 ◦ etc. バクラクのアノテーション基盤 AI-OCR機能とアノテーション基盤
アノテーションの伸びしろ
© LayerX Inc. 9 アノテーションの改善は、大きく2つの観点から考えられる 1. 品質管理と効率化 ◦ どうやって速く正確にアノテーションするか ◦
主にクラウドソーシング活用の文脈で研究されている 2. サンプリング ◦ どのデータをアノテーションするか ◦ 今回はこちらについて話します 現状のアノテーション基盤をさらに改善するには アノテーション改善の方向性
© LayerX Inc. 10 学習に効果的なデータをサンプリングして重点的にアノテーションしたい • そのための一連の手法は能動学習 (Active Learning) と呼ばれる
“効果的な”データを見つけるための2つの観点 • 不確実性サンプリング ◦ 機械学習モデルにとって予測が難しいデータを重点的にサンプリング • 多様性サンプリング ◦ 選ばれたデータの特性が互いに異なるようにサンプリング 『Human-in-the-Loop機械学習』 という書籍が体系的にまとめられていて参考になります https://www.kyoritsu-pub.co.jp/book/b10039888.html アノテーションにおけるサンプリングとは サンプリング
© LayerX Inc. 11 機械学習モデルにとって予測が難しいデータを重点的にサンプリング 不確実性サンプリング サンプリング 不確実性サンプリングの例(最小確信度サンプリング) 0.8 0.1
0.1 Class1 Class2 Class3 データ1に対する 予測結果 0.2 0.7 0.1 データ2に対する 予測結果 0.3 0.4 0.3 データ3に対する 予測結果 最大スコア 0.8 0.7 0.4 不確実性 小 大 • ラベルの無いデータから、機械学習モデルの決定境界近くに存在するデータを重視する 重点的にサンプリング
© LayerX Inc. 12 選ばれたデータの特性が互いに異なるようにサンプリング 多様性サンプリング サンプリング 多様性サンプリングの例(クラスタベースのサンプリング) • ラベルの無いデータにクラスタリングを適用し、クラスタごとに中心や外れ値を選ぶ
クラスタごとにサンプリング
© LayerX Inc. 13 課題: バクラクをご利用いただくお客様が増えるにつれて、アップロードされる帳票の枚数・種類も増加して いるため、より効果的なアノテーションが必要 不確実性サンプリングに注目した改善 • 新しい書類フォーマットへの対応
◦ 例えば請求書だけでも、事業規模や業界によってフォーマットは全く異なる ◦ 新しいお客様の帳票が学習データに無いフォーマットの場合、すぐには予測が難しい ◦ 不確実性サンプリングで難しい帳票をアノテーションし、いつの間にか読めない帳票が読める ようになる体験を素早く届ける バクラクのアノテーション基盤における改善案 バクラクにおける改善
© LayerX Inc. 14 課題: バクラクをご利用いただくお客様が増えるにつれて、アップロードされる帳票の枚数・種類も増加して いるため、より効果的なアノテーションが必要 多様性サンプリングに注目した改善 • 学習データの量・質のバランス改善
◦ お客様に長く使っていただくほど、会社ごとに特有の帳票も多くアップロードされていく ◦ 似たような帳票が増えると、データサイズの増加に対して情報量があまり多くならない ◦ 多様性サンプリングで似た帳票に偏らない、量・質ともに適切な学習データを作ることで、 学習・モデル更新のサイクルを高速に回せる バクラクのアノテーション基盤における改善案 バクラクにおける改善
最後に
© LayerX Inc. 16 今回紹介したテーマ含め、お客様にバクラクな体験を届けるためやりたいことがまだまだたくさんあります! 少しでも興味を持っていただけた方は、懇親会やカジュアル面談で是非お話ししましょう!! • 機械学習エンジニア • MLOpsエンジニア
• ソフトウェアエンジニア • etc. 一緒に働く仲間を募集しています! 最後に カジュアル面談 採用情報