Slide 1

Slide 1 text

FiftyOneを用いたOCRモデルの比較 Comparing OCR Models using FiftyOne

Slide 2

Slide 2 text

● 2017-2022: PhD in Behavioral and Computational Neuroscience 
 ○ PhD: 行動/計算神経科学 
 ● 2021-2023: Data Scientist at GEICO 
 ○ GEICOでデータサイエンティスト 
 ● 2023-Present: Money Forward (AI Development Division) 
 ○ マネーフォワード -> AI 開発部 
 
 X: @siudanners 
 In: linkedin.com/in/siudanny 
 ダニー シュー Danny Siu

Slide 3

Slide 3 text

AI開発部がAI-OCRサービスを構築中 AI Development Division is building an AI-OCR service

Slide 4

Slide 4 text

目標:請求書からフィールドを抽出する Goal: Extract fields from invoices ● Optical Character Recognition (OCR)
 ● OCR is easy if we have one layout
 ● We can simply crop the same text area and read the text for each image
 
 
 { "小計": 23,450,000, "消費税": 2,345,000, "合計": 25,795,000 } ● 光学式文字認識 (OCR)
 ● レイアウトが統一されていれば、 OCRは簡単
 ● 同じテキストエリアを切り抜いて、テキストを読み 取るだけ 
 
 


Slide 5

Slide 5 text

● レイアウトがたくさんあると、モデルが学習 しにくい
 ● お客様に提供するために、AI-OCRモデル を社内で構築中
 
 ● If there are a lot of layouts, it is hard for the model to learn
 ● We are building in-house AI-OCR models to serve our customers
 実際はデータセットには何百種類ものレイアウトが存在する However, there are hundreds of unique layouts in our dataset

Slide 6

Slide 6 text

モデルを構築するには、 データを理解する必要がある To build a model we need to understand our data

Slide 7

Slide 7 text

● オープンソース版をEKSに展開
 ● 10万件以上の請求書のレンダリング を容易に処理可能
 
 
 FiftyOneは画像を拡大縮小して視覚化するツール FiftyOne is a tool to visualize images at scale ● Deployed open source version on EKS
 ● Can easily handle rendering 100k+ invoices


Slide 8

Slide 8 text

様々なメタデータでフィルタリングできる
 ● プロダクト
 ● 日時
 ● 画像の向き
 ● モデル性能
 We can filter on many metadata
 ● Product
 ● Date
 ● Orientation
 ● Model performance
 FiftyOneは迅速かつ柔軟 FiftyOne is fast and flexible

Slide 9

Slide 9 text

● バウンディング・ボックス を重ね合わせ、モデルの 予測値を比較することが できる。
 
 ● We can overlay bounding boxes and compare model predictions
 FiftyOneでは、OCRモデルの結果を比較することができます FiftyOne allows us to compare OCR model results

Slide 10

Slide 10 text

● 2次元埋め込み空間では、 似たような文書を検索する ことができる
 
 ● In the 2D embedding space we can search for similar looking documents
 FiftyOneでは画像の埋め込みが可能 FiftyOne allows image embeddings

Slide 11

Slide 11 text

● 特定のテキストを含む文書を検索 できる
 
 ● We can search for documents with specific texts
 FiftyOneではテキスト検索が可能 FiftyOne allows text search

Slide 12

Slide 12 text

No content