Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
190731 Amazon Textract(OCR)の信頼スコアを徹底調査してみた! 鴛海 ...
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
RPACommunity
September 29, 2019
Technology
1.2k
0
Share
190731 Amazon Textract(OCR)の信頼スコアを徹底調査してみた! 鴛海 直輝さん
190731 Amazon Textract(OCR)の信頼スコアを徹底調査してみた! 鴛海 直輝さん
RPACommunity
September 29, 2019
More Decks by RPACommunity
See All by RPACommunity
201023 Automation Anywhere「A2019」を触ってみた Ayy
rpabank
0
1.1k
201023 DX Suiteを触ってみた Ayy
rpabank
0
1.1k
201023 RPA超初心者がWinActorにチャレンジしてみた ユーコさん
rpabank
0
660
201023 PowerPlatform はじめの一歩 みさみささん
rpabank
0
660
201023 アシロボで実際に沼ってみた たまいさん
rpabank
0
720
201018 RPAの本質とトレンド Mitz
rpabank
0
550
201006 僕がいまRPAで伝えたいことのすべて いろはまるさん
rpabank
0
500
201006 UiPath MVP 2019-2020 はなっち!さん
rpabank
0
480
201006 今からでも間に合う!UiPathトーク一気に振り返り たまいさん
rpabank
0
440
Other Decks in Technology
See All in Technology
セキュリティ対策、何からはじめる? CloudNative環境の脅威モデリングと リスク評価実践入門 #cloudnativekaigi
varu3
5
950
みんなの考えた最強のデータ基盤アーキテクチャ'26前期〜前夜祭〜ルーキーズ_資料_遠藤な
endonanana
0
350
AI-Assisted Contributions and Maintainer Load - PyCon US 2026
pauloxnet
1
150
AI全盛の今だからこそ、あえてもう一度振り返るAPIの基礎
smt7174
1
110
マンション備え付けのネットワークとLTE回線を組み合わせた ネットワークの安定化の考案
harutiro
1
130
Gaussian Splattingの表現力を拡張する — 高周波再構成とインタラクションへのアプローチ —
gpuunite_official
0
180
開発サイクルのボーダーレス化に伴う組織変革から学んだこと / Organizational Transformation Amid the Borderless Development Cycle
mii3king
0
110
"うちにはまだ早い"は本当? ─ 小さく始めるPlatform Engineering入門
harukasakihara
6
610
クラウドからエッジまで ~ 1,700台を支える監視設計~
optfit
0
100
SLI/SLO、「完全に理解した」から「チョットデキル」へ
maruloop
5
540
AWSアップデートから考える継続的な運用改善
toru_kubota
2
270
20260515 ⾃分のアカウントとプライバシーを守る認証と認可の話〜利⽤者向け〜
oidfj
0
630
Featured
See All Featured
AI: The stuff that nobody shows you
jnunemaker
PRO
7
640
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
Deep Space Network (abreviated)
tonyrice
0
140
The Hidden Cost of Media on the Web [PixelPalooza 2025]
tammyeverts
2
300
Google's AI Overviews - The New Search
badams
0
1k
Exploring anti-patterns in Rails
aemeredith
3
350
Test your architecture with Archunit
thirion
1
2.2k
Kristin Tynski - Automating Marketing Tasks With AI
techseoconnect
PRO
0
240
Unsuck your backbone
ammeep
672
58k
Tell your own story through comics
letsgokoyo
1
920
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
35
2.4k
Amusing Abliteration
ianozsvald
1
170
Transcript
Amazon Textract(OCR)の 信頼スコアを徹底調査してみた! アジアクエスト株式会社 鴛海直輝(おしうみなおき)
自己紹介 鴛海 直輝(おしうみ なおき) ▪本読む ▪ストリートダンスする ▪ Laravelでwebアプリ作る 2019年4月に新卒で入社し、 UiPathを用いていろいろ経験中
今日はRPALT初登壇!!
目次 1. Amazon Textractとは 2. 信頼スコアはどれほど信頼できるのか 3. まとめ
1. Amazon Textractとは
1. Amazon Textractとは 【概要】 AmazonのOCRサービス 2019年5月に一般公開された 【特徴】 ・クラウド上で動く ・APIも使える ・値段が安い!(従量課金制)
・AIでフォームや表を読み取ることができる ・信頼スコアが分かる ・手書きは対応していない ・まだ日本語対応されていない
とにかく安い! API 料金 Detect Document API (文字を読み取る) 約0.16円 / ページ
Analyze Document API (文字とフォームを読み取る) 約1.62円 / ページ Analyze Document API (文字と表を読み取る) 約5.39 円 / ページ Analyze Document API (文字とフォームと表を読み取る) 約7.01円 / ページ ※100万ページまでの料金
「信頼スコア」とは ▪OCRで読み取ったテキストの正確性を表す ▪0~100の間の数字 Amazon Textract テキスト :kasutera 信頼スコア:96.8 ※画像です
信頼スコアで目視確認が楽になる!? 【今】 OCRで紙資料を 読み取る RPAで処理する 目視で確認する 信頼スコアが特定の値を下回ったら警告を出すようにす れば、目視確認が楽になる OK
信頼スコアで目視確認が楽になる!? 【これから】 OCRで紙資料を 読み取る RPAで処理する 目視で確認する 信頼スコアが特定の値を下回ったら警告を出すようにす れば、目視確認が楽になる OK 特定の点数以下
の場合のみ
2. 信頼スコアは信頼できるのか
信頼スコアの検証方法 Amazon Textract テキスト :kasutera 信頼スコア:96.8 ※画像です 正確
Amazon Textractの信頼スコア Amazon Textract テキスト :Customer IO 信頼スコア:82.6 ※画像です 不正確
信頼スコアの検証方法 画像を読み込ませる ①単語が正確な場合 ②単語が不正確な場合 2つに分類して信頼スコアを記録 【レスポンス】 ・単語 ・信頼スコア
単語が正確な場合の検証結果 ①90点以上が約80%を占める 単語が正確な場合の信頼スコア ②50~70点台が約15%を占める 【特徴】 ▪文字サイズが小さい ▪英数字1文字
単語が不正確な場合の検証結果 ①80点以上が約79%を占める 単語が不正確な場合の信頼スコア 【特徴】 ▪1文字だけ間違っている Customer IO
単語が不正確な場合の検証結果 ①80点以上が約79%を占める 単語が不正確な場合の信頼スコア
3. まとめ
信頼スコアの傾向 【単語が正確な場合】 ①90点以上が8割 ②50~70点台が約15%を占める 【単語が不正確な場合】 ③80点以上が約79%を占める 【②の特徴】 ▪文字サイズが小さい ▪英数字1文字 【③の特徴】
▪1文字だけ間違っている Customer IO
信頼スコアは工夫すれば使える 英数字1文字のところは 信頼スコアを使用しない RPAツール側で Customer IOと読み取っても 正常に処理するよう工夫する
信頼スコアは工夫すれば使える RPAツール側で Customer IOと読み取っても 正常に処理するよう工夫する
OCRの世話をする必要がなくなる! 【これから】 OCRで紙資料を 読み取る RPAで処理する 目視で確認する 信頼スコアが特定の値を下回ったら警告を出すようにす れば、目視確認が楽になる OK 特定の点数以下
の場合のみ