AmazonTextractの信頼スコアはどれくらい信頼できるのか

Amazon Textract（OCR）の信頼スコアを徹底調査してみた！アジアクエスト株式会社鴛海直輝(おしうみなおき)

自己紹介鴛海直輝（おしうみなおき） ▪本読む ▪ストリートダンスする ▪ Laravelでwebアプリ作る 2019年4月に新卒で入社し、 UiPathを用いていろいろ経験中
今日はRPALT初登壇！！

目次 1. Amazon Textractとは 2. 信頼スコアはどれほど信頼できるのか 3. まとめ

1. Amazon Textractとは

1. Amazon Textractとは【概要】 AmazonのOCRサービス 2019年5月に一般公開された【特徴】・クラウド上で動く・APIも使える・値段が安い！(従量課金制)
・AIでフォームや表を読み取ることができる・信頼スコアが分かる・手書きは対応していない・まだ日本語対応されていない

とにかく安い！ API 料金 Detect Document API (文字を読み取る) 約0.16円 / ページ
Analyze Document API (文字とフォームを読み取る) 約1.62円 / ページ Analyze Document API (文字と表を読み取る) 約5.39 円 / ページ Analyze Document API (文字とフォームと表を読み取る) 約7.01円 / ページ ※100万ページまでの料金

「信頼スコア」とは ▪OCRで読み取ったテキストの正確性を表す ▪0~100の間の数字 Amazon Textract テキスト：kasutera 信頼スコア：96.8 ※画像です

信頼スコアで目視確認が楽になる!? 【今】 OCRで紙資料を読み取る RPAで処理する目視で確認する信頼スコアが特定の値を下回ったら警告を出すようにすれば、目視確認が楽になる OK

信頼スコアで目視確認が楽になる!? 【これから】 OCRで紙資料を読み取る RPAで処理する目視で確認する信頼スコアが特定の値を下回ったら警告を出すようにすれば、目視確認が楽になる OK 特定の点数以下
の場合のみ

2. 信頼スコアは信頼できるのか

信頼スコアの検証方法 Amazon Textract テキスト：kasutera 信頼スコア：96.8 ※画像です正確

Amazon Textractの信頼スコア Amazon Textract テキスト：Customer IO 信頼スコア：82.6 ※画像です不正確

信頼スコアの検証方法画像を読み込ませる ①単語が正確な場合 ②単語が不正確な場合 2つに分類して信頼スコアを記録【レスポンス】・単語・信頼スコア

単語が正確な場合の検証結果 ①90点以上が約80%を占める単語が正確な場合の信頼スコア ②50~70点台が約15%を占める【特徴】 ▪文字サイズが小さい ▪英数字1文字

単語が不正確な場合の検証結果 ①80点以上が約79%を占める単語が不正確な場合の信頼スコア【特徴】 ▪1文字だけ間違っている Customer IO

単語が不正確な場合の検証結果 ①80点以上が約79%を占める単語が不正確な場合の信頼スコア

3. まとめ

信頼スコアの傾向【単語が正確な場合】 ①90点以上が8割 ②50~70点台が約15%を占める【単語が不正確な場合】 ③80点以上が約79%を占める【②の特徴】 ▪文字サイズが小さい ▪英数字1文字【③の特徴】
▪1文字だけ間違っている Customer IO

信頼スコアは工夫すれば使える英数字1文字のところは信頼スコアを使用しない RPAツール側で Customer IOと読み取っても正常に処理するよう工夫する

信頼スコアは工夫すれば使える RPAツール側で Customer IOと読み取っても正常に処理するよう工夫する

OCRの世話をする必要がなくなる！【これから】 OCRで紙資料を読み取る RPAで処理する目視で確認する信頼スコアが特定の値を下回ったら警告を出すようにすれば、目視確認が楽になる OK 特定の点数以下
の場合のみ

AmazonTextractの信頼スコアはどれくらい信頼できるのか

AmazonTextractの信頼スコアはどれくらい信頼できるのか

n-oshiumi

More Decks by n-oshiumi

Other Decks in Technology

Featured

Transcript

Amazon Textract（OCR）の信頼スコアを徹底調査してみた！アジアクエスト株式会社鴛海直輝(おしうみなおき)

自己紹介鴛海直輝（おしうみなおき） ▪本読む ▪ストリートダンスする ▪ Laravelでwebアプリ作る 2019年4月に新卒で入社し、 UiPathを用いていろいろ経験中

目次 1. Amazon Textractとは 2. 信頼スコアはどれほど信頼できるのか 3. まとめ

1. Amazon Textractとは

1. Amazon Textractとは【概要】 AmazonのOCRサービス 2019年5月に一般公開された【特徴】・クラウド上で動く・APIも使える・値段が安い！(従量課金制)

とにかく安い！ API 料金 Detect Document API (文字を読み取る) 約0.16円 / ページ

「信頼スコア」とは ▪OCRで読み取ったテキストの正確性を表す ▪0~100の間の数字 Amazon Textract テキスト：kasutera 信頼スコア：96.8 ※画像です

信頼スコアで目視確認が楽になる!? 【今】 OCRで紙資料を読み取る RPAで処理する目視で確認する信頼スコアが特定の値を下回ったら警告を出すようにすれば、目視確認が楽になる OK

信頼スコアで目視確認が楽になる!? 【これから】 OCRで紙資料を読み取る RPAで処理する目視で確認する信頼スコアが特定の値を下回ったら警告を出すようにすれば、目視確認が楽になる OK 特定の点数以下

2. 信頼スコアは信頼できるのか

信頼スコアの検証方法 Amazon Textract テキスト：kasutera 信頼スコア：96.8 ※画像です正確

Amazon Textractの信頼スコア Amazon Textract テキスト：Customer IO 信頼スコア：82.6 ※画像です不正確

信頼スコアの検証方法画像を読み込ませる ①単語が正確な場合 ②単語が不正確な場合 2つに分類して信頼スコアを記録【レスポンス】・単語・信頼スコア

単語が正確な場合の検証結果 ①90点以上が約80%を占める単語が正確な場合の信頼スコア ②50~70点台が約15%を占める【特徴】 ▪文字サイズが小さい ▪英数字1文字

単語が不正確な場合の検証結果 ①80点以上が約79%を占める単語が不正確な場合の信頼スコア【特徴】 ▪1文字だけ間違っている Customer IO

単語が不正確な場合の検証結果 ①80点以上が約79%を占める単語が不正確な場合の信頼スコア

3. まとめ

信頼スコアの傾向【単語が正確な場合】 ①90点以上が8割 ②50~70点台が約15%を占める【単語が不正確な場合】 ③80点以上が約79%を占める【②の特徴】 ▪文字サイズが小さい ▪英数字1文字【③の特徴】

信頼スコアは工夫すれば使える英数字1文字のところは信頼スコアを使用しない RPAツール側で Customer IOと読み取っても正常に処理するよう工夫する

信頼スコアは工夫すれば使える RPAツール側で Customer IOと読み取っても正常に処理するよう工夫する

OCRの世話をする必要がなくなる！【これから】 OCRで紙資料を読み取る RPAで処理する目視で確認する信頼スコアが特定の値を下回ったら警告を出すようにすれば、目視確認が楽になる OK 特定の点数以下