190731 Amazon Textract(OCR)の信頼スコアを徹底調査してみた! 鴛海 直輝さん
by
RPACommunity
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
Amazon Textract(OCR)の 信頼スコアを徹底調査してみた! アジアクエスト株式会社 鴛海直輝(おしうみなおき)
Slide 2
Slide 2 text
自己紹介 鴛海 直輝(おしうみ なおき) ■本読む ■ストリートダンスする ■ Laravelでwebアプリ作る 2019年4月に新卒で入社し、 UiPathを用いていろいろ経験中 今日はRPALT初登壇!!
Slide 3
Slide 3 text
目次 1. Amazon Textractとは 2. 信頼スコアはどれほど信頼できるのか 3. まとめ
Slide 4
Slide 4 text
1. Amazon Textractとは
Slide 5
Slide 5 text
1. Amazon Textractとは 【概要】 AmazonのOCRサービス 2019年5月に一般公開された 【特徴】 ・クラウド上で動く ・APIも使える ・値段が安い!(従量課金制) ・AIでフォームや表を読み取ることができる ・信頼スコアが分かる ・手書きは対応していない ・まだ日本語対応されていない
Slide 6
Slide 6 text
とにかく安い! API 料金 Detect Document API (文字を読み取る) 約0.16円 / ページ Analyze Document API (文字とフォームを読み取る) 約1.62円 / ページ Analyze Document API (文字と表を読み取る) 約5.39 円 / ページ Analyze Document API (文字とフォームと表を読み取る) 約7.01円 / ページ ※100万ページまでの料金
Slide 7
Slide 7 text
「信頼スコア」とは ■OCRで読み取ったテキストの正確性を表す ■0~100の間の数字 Amazon Textract テキスト :kasutera 信頼スコア:96.8 ※画像です
Slide 8
Slide 8 text
信頼スコアで目視確認が楽になる!? 【今】 OCRで紙資料を 読み取る RPAで処理する 目視で確認する 信頼スコアが特定の値を下回ったら警告を出すようにす れば、目視確認が楽になる OK
Slide 9
Slide 9 text
信頼スコアで目視確認が楽になる!? 【これから】 OCRで紙資料を 読み取る RPAで処理する 目視で確認する 信頼スコアが特定の値を下回ったら警告を出すようにす れば、目視確認が楽になる OK 特定の点数以下 の場合のみ
Slide 10
Slide 10 text
2. 信頼スコアは信頼できるのか
Slide 11
Slide 11 text
信頼スコアの検証方法 Amazon Textract テキスト :kasutera 信頼スコア:96.8 ※画像です 正確
Slide 12
Slide 12 text
Amazon Textractの信頼スコア Amazon Textract テキスト :Customer IO 信頼スコア:82.6 ※画像です 不正確
Slide 13
Slide 13 text
信頼スコアの検証方法 画像を読み込ませる ①単語が正確な場合 ②単語が不正確な場合 2つに分類して信頼スコアを記録 【レスポンス】 ・単語 ・信頼スコア
Slide 14
Slide 14 text
単語が正確な場合の検証結果 ①90点以上が約80%を占める 単語が正確な場合の信頼スコア ②50~70点台が約15%を占める 【特徴】 ■文字サイズが小さい ■英数字1文字
Slide 15
Slide 15 text
単語が不正確な場合の検証結果 ①80点以上が約79%を占める 単語が不正確な場合の信頼スコア 【特徴】 ■1文字だけ間違っている Customer IO
Slide 16
Slide 16 text
単語が不正確な場合の検証結果 ①80点以上が約79%を占める 単語が不正確な場合の信頼スコア
Slide 17
Slide 17 text
3. まとめ
Slide 18
Slide 18 text
信頼スコアの傾向 【単語が正確な場合】 ①90点以上が8割 ②50~70点台が約15%を占める 【単語が不正確な場合】 ③80点以上が約79%を占める 【②の特徴】 ■文字サイズが小さい ■英数字1文字 【③の特徴】 ■1文字だけ間違っている Customer IO
Slide 19
Slide 19 text
信頼スコアは工夫すれば使える 英数字1文字のところは 信頼スコアを使用しない RPAツール側で Customer IOと読み取っても 正常に処理するよう工夫する
Slide 20
Slide 20 text
信頼スコアは工夫すれば使える RPAツール側で Customer IOと読み取っても 正常に処理するよう工夫する
Slide 21
Slide 21 text
OCRの世話をする必要がなくなる! 【これから】 OCRで紙資料を 読み取る RPAで処理する 目視で確認する 信頼スコアが特定の値を下回ったら警告を出すようにす れば、目視確認が楽になる OK 特定の点数以下 の場合のみ