Slide 1

Slide 1 text

AI-OCR は × 2019/10/29 RPA勉強&LT会! RPALT⼥⼦部 vol.4 株式会社アジラ 引間 明⼦ Akiko Hikima どうやって精度を計測しているか

Slide 2

Slide 2 text

#RPALT Introduction ⽣命保険会社の汎⽤機(COBOL)開発、 @cosmeサロン(当時ispot)のweb・app開発、 クラウド (Salesforce)開発、LeapMindを経て、 2019/06からAsillaにJoin。 Asillaではアプリケーション事業部にて、 「やさしい」AI-OCR JijillaのPMをやってます。 実は、AgritechがやりたくてAsillaにJoinしまし た。Drone⾶ばしたい! 引間 明⼦ Akiko Hikima Presented by @aki8h3

Slide 3

Slide 3 text

#RPALT Whatʼs asilla? 画像認識技術を中⼼とした ソリューションを開発・提供する AIスタートアップ企業。 【第⼀回⼈⼯知能EXPO】株式会社アジラの⾏動認識技術デモ 2017年6⽉ 第⼀回⼈⼯知能EXPOに 「⾏動認識技術」を出展 2018年10⽉ ⼿書き⽂字OCRを 「AIビジネス展2018」 にて発表 2019年度、 経産省の【J-Startup】 に選定していただきました。 特許番号 6525181 ⾏動推定装置 特許番号 6525180 対象数特定装置 特許番号 6525179 ⾏動推定装置(背景) ⼿書き・活字に対応の AI-OCR【ジジラ】SaaS版を 2019年7⽉リリース。 ⾏動認識技術に関する特許を取得し、 画像認識技術に関する特許も出願準備中 Presented by 各種⼿書き帳票・活字帳票を読み取り、 テキスト化する⽂字認識ソリューション

Slide 4

Slide 4 text

#RPALT Presented by アジラは アジアのゴジラに なりたい!

Slide 5

Slide 5 text

#RPALT Presented by アジラが開発した ⽂字認識サービス 字々ラ!?ジジラ!!

Slide 6

Slide 6 text

#RPALT Presented by 体感として、 公開している精度(この場合は90%とします)を 感じない 導⼊後に出るAI-OCRへの不満 お悩み

Slide 7

Slide 7 text

#RPALT Presented by そもそも精度ってどうやって計測するの?? 導⼊後に出るAI-OCRへの不満 お悩み

Slide 8

Slide 8 text

#RPALT Presented by 1. CER(Character Error Rate) 精度はどうやって計測するの? ⽂字を1⽂字ずつ⽐較して計算する 2. WER(Words Error Rate) 単語の単位で⽐較して計算する CERとWER、2つの主流な計測⼿法があります

Slide 9

Slide 9 text

#RPALT Presented by CER=wrong character/total character (不正解⽂字数/合計⽂字数) 合計⽂字数に対する、不正解⽂字数の割合で 算出します (認識)精度=1-CER 精度はどうやって計測するの? CER(Character Error Rate)=⽂字誤り率

Slide 10

Slide 10 text

#RPALT Presented by 精度はどうやって計測するの? を ”いんご” と認識した場合 (認識)精度=1-(1/3) ※ 1-(不正解⽂字数/合計⽂字数) の認識精度は、66.67% 例)

Slide 11

Slide 11 text

#RPALT Presented by 1. りんご ・・・ 1-(3/3) = 100% 2. りんこ ・・・ 1-(1/3) = 66.67% 3. りん ・・・ 1-(1/3) = 66.67% 4. レノんご ・・・ 1-(2/4) = 50% 5. いりんご ・・・ 1-(1/4) = 75% 精度はどうやって計測するの? 例) 認識結果 精度

Slide 12

Slide 12 text

#RPALT Presented by 精度はどうやって計測するの? サービス全体の精度=n⼈×n種類の帳票の 1-CER n⼈が⼿書き n種類の帳票の ⽂字数 1-(不正解⽂字数 -合計⽂字数)

Slide 13

Slide 13 text

#RPALT Presented by 精度はどうやって計測するの? 精度とは、あくまで精度計測⽤の帳票で計測した数値であるため、 ⾃社で同等の数値が出るとは限らない 精度計測⽤の帳票 ⾃社の帳票 数字多め? 表あり? ⽂字⼩さめ? 全⾓⽂字多め? 表なし ⽂字⼤きめ? 条件も全然違う

Slide 14

Slide 14 text

#RPALT Presented by 10件中9件が正解 10件全ての⽂字が9割の確率で認識出来る 精度はどうやって計測するの? 1枚の帳票に認識対象の項⽬が10件あった場合 ここに開発者側とユーザー側の認識の差がある 精度90%とは?

Slide 15

Slide 15 text

#RPALT Presented by 精度はどうやって計測するの? 帳票を スキャンして ジジって 確認 AI-OCRの⼀般的な運⽤フロー

Slide 16

Slide 16 text

#RPALT Presented by 精度はどうやって計測するの? 精度90%と聞いていたので、 9/10件は確認しなくて良いと思っていたのに… 結局全部確認しなくちゃいけないの!!??

Slide 17

Slide 17 text

#RPALT Presented by 精度はどうやって計測するの? 全部確認が必要ですが、 全部でもない!! と⾔うのが本当のところ どゆこと!!??

Slide 18

Slide 18 text

#RPALT Presented by 精度はどうやって計測するの? AI-OCRはたくさんのデータで学習をして、 たくさんのデータでテストをしています 苦⼿な点を明確にルール化 しやすい!

Slide 19

Slide 19 text

#RPALT Presented by 精度はどうやって計測するの? 例えば 君の場合 なぜか郵便記号「〒」が 認識出来ない カタカタの「テ」と 認識してしまう 似た⽂字の誤認識問題は あるある!

Slide 20

Slide 20 text

#RPALT Presented by 精度はどうやって計測するの? この場合 君は毎回「テ」と認識します そのため、住所で、後続が数字の場合は「テ」を「〒」へ置換する と⾔うルールが出来ます ルール化出来れば、補正辞書が使えます AI-OCRベンダーに⾔えば、おそらく後処理で対応してくれます ボクらも 精度上げたい

Slide 21

Slide 21 text

#RPALT Presented by たくさんのデータがあるからこそ、苦⼿な点が明確になっている 使えば使うほど、苦⼿な点を把握出来るので 確認にかかる時間は少なくなります 精度はどうやって計測するの? ⼤変なのは 把握するまで!!??

Slide 22

Slide 22 text

#RPALT Presented by 各社のAI-OCRサービスは、絶対強みと弱みがあります 精度に惑わされず、⾃社の帳票に合わせて、 きちんとベンダー選定をすることが⼤事です 精度はどうやって計測するの? 強みと弱み!!??

Slide 23

Slide 23 text

#RPALT Presented by 私はしばしば数字に惑わされる。 ⾃分⾃⾝に当てはめる場合はなおさらだ。 ディズレイリの⾔葉「嘘には三種類ある:嘘、 まっかな嘘、そして統計」が正当性と説得⼒を もって通⽤してしまうんだ。 マーク・トウェイン トム・ソーヤーの冒険の 著者だぞう!!

Slide 24

Slide 24 text

#RPALT Presented by 出典元: ASIA FUTURE https://www.asia-future.com/statistics

Slide 25

Slide 25 text

#RPALT Presented by Plese join slack for Jijilla!! ジジラくんへの質問

Slide 26

Slide 26 text

#RPALT ちなみに Powered by いらすとや ではない ジジラくん募集中です!! Presented by 誰かデザインして!

Slide 27

Slide 27 text

No content