Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AI-OCRはどうやって精度を計測しているか

4f1820553d3671ade380904a131711b9?s=47 hikiaki
October 29, 2019

 AI-OCRはどうやって精度を計測しているか

4f1820553d3671ade380904a131711b9?s=128

hikiaki

October 29, 2019
Tweet

Transcript

  1. AI-OCR は × 2019/10/29 RPA勉強&LT会! RPALT⼥⼦部 vol.4 株式会社アジラ 引間 明⼦

    Akiko Hikima どうやって精度を計測しているか
  2. #RPALT Introduction ⽣命保険会社の汎⽤機(COBOL)開発、 @cosmeサロン(当時ispot)のweb・app開発、 クラウド (Salesforce)開発、LeapMindを経て、 2019/06からAsillaにJoin。 Asillaではアプリケーション事業部にて、 「やさしい」AI-OCR JijillaのPMをやってます。

    実は、AgritechがやりたくてAsillaにJoinしまし た。Drone⾶ばしたい! 引間 明⼦ Akiko Hikima Presented by @aki8h3
  3. #RPALT Whatʼs asilla? 画像認識技術を中⼼とした ソリューションを開発・提供する AIスタートアップ企業。 【第⼀回⼈⼯知能EXPO】株式会社アジラの⾏動認識技術デモ 2017年6⽉ 第⼀回⼈⼯知能EXPOに 「⾏動認識技術」を出展

    2018年10⽉ ⼿書き⽂字OCRを 「AIビジネス展2018」 にて発表 2019年度、 経産省の【J-Startup】 に選定していただきました。 特許番号 6525181 ⾏動推定装置 特許番号 6525180 対象数特定装置 特許番号 6525179 ⾏動推定装置(背景) ⼿書き・活字に対応の AI-OCR【ジジラ】SaaS版を 2019年7⽉リリース。 ⾏動認識技術に関する特許を取得し、 画像認識技術に関する特許も出願準備中 Presented by 各種⼿書き帳票・活字帳票を読み取り、 テキスト化する⽂字認識ソリューション
  4. #RPALT Presented by アジラは アジアのゴジラに なりたい!

  5. #RPALT Presented by アジラが開発した ⽂字認識サービス 字々ラ!?ジジラ!!

  6. #RPALT Presented by 体感として、 公開している精度(この場合は90%とします)を 感じない 導⼊後に出るAI-OCRへの不満 お悩み

  7. #RPALT Presented by そもそも精度ってどうやって計測するの?? 導⼊後に出るAI-OCRへの不満 お悩み

  8. #RPALT Presented by 1. CER(Character Error Rate) 精度はどうやって計測するの? ⽂字を1⽂字ずつ⽐較して計算する 2.

    WER(Words Error Rate) 単語の単位で⽐較して計算する CERとWER、2つの主流な計測⼿法があります
  9. #RPALT Presented by CER=wrong character/total character (不正解⽂字数/合計⽂字数) 合計⽂字数に対する、不正解⽂字数の割合で 算出します (認識)精度=1-CER

    精度はどうやって計測するの? CER(Character Error Rate)=⽂字誤り率
  10. #RPALT Presented by 精度はどうやって計測するの? を ”いんご” と認識した場合 (認識)精度=1-(1/3) ※ 1-(不正解⽂字数/合計⽂字数)

    の認識精度は、66.67% 例)
  11. #RPALT Presented by 1. りんご ・・・ 1-(3/3) = 100% 2.

    りんこ ・・・ 1-(1/3) = 66.67% 3. りん ・・・ 1-(1/3) = 66.67% 4. レノんご ・・・ 1-(2/4) = 50% 5. いりんご ・・・ 1-(1/4) = 75% 精度はどうやって計測するの? 例) 認識結果 精度
  12. #RPALT Presented by 精度はどうやって計測するの? サービス全体の精度=n⼈×n種類の帳票の 1-CER n⼈が⼿書き n種類の帳票の ⽂字数 1-(不正解⽂字数

    -合計⽂字数)
  13. #RPALT Presented by 精度はどうやって計測するの? 精度とは、あくまで精度計測⽤の帳票で計測した数値であるため、 ⾃社で同等の数値が出るとは限らない 精度計測⽤の帳票 ⾃社の帳票 数字多め? 表あり?

    ⽂字⼩さめ? 全⾓⽂字多め? 表なし ⽂字⼤きめ? 条件も全然違う
  14. #RPALT Presented by 10件中9件が正解 10件全ての⽂字が9割の確率で認識出来る 精度はどうやって計測するの? 1枚の帳票に認識対象の項⽬が10件あった場合 ここに開発者側とユーザー側の認識の差がある 精度90%とは?

  15. #RPALT Presented by 精度はどうやって計測するの? 帳票を スキャンして ジジって 確認 AI-OCRの⼀般的な運⽤フロー

  16. #RPALT Presented by 精度はどうやって計測するの? 精度90%と聞いていたので、 9/10件は確認しなくて良いと思っていたのに… 結局全部確認しなくちゃいけないの!!??

  17. #RPALT Presented by 精度はどうやって計測するの? 全部確認が必要ですが、 全部でもない!! と⾔うのが本当のところ どゆこと!!??

  18. #RPALT Presented by 精度はどうやって計測するの? AI-OCRはたくさんのデータで学習をして、 たくさんのデータでテストをしています 苦⼿な点を明確にルール化 しやすい!

  19. #RPALT Presented by 精度はどうやって計測するの? 例えば 君の場合 なぜか郵便記号「〒」が 認識出来ない カタカタの「テ」と 認識してしまう

    似た⽂字の誤認識問題は あるある!
  20. #RPALT Presented by 精度はどうやって計測するの? この場合 君は毎回「テ」と認識します そのため、住所で、後続が数字の場合は「テ」を「〒」へ置換する と⾔うルールが出来ます ルール化出来れば、補正辞書が使えます AI-OCRベンダーに⾔えば、おそらく後処理で対応してくれます

    ボクらも 精度上げたい
  21. #RPALT Presented by たくさんのデータがあるからこそ、苦⼿な点が明確になっている 使えば使うほど、苦⼿な点を把握出来るので 確認にかかる時間は少なくなります 精度はどうやって計測するの? ⼤変なのは 把握するまで!!??

  22. #RPALT Presented by 各社のAI-OCRサービスは、絶対強みと弱みがあります 精度に惑わされず、⾃社の帳票に合わせて、 きちんとベンダー選定をすることが⼤事です 精度はどうやって計測するの? 強みと弱み!!??

  23. #RPALT Presented by 私はしばしば数字に惑わされる。 ⾃分⾃⾝に当てはめる場合はなおさらだ。 ディズレイリの⾔葉「嘘には三種類ある:嘘、 まっかな嘘、そして統計」が正当性と説得⼒を もって通⽤してしまうんだ。 マーク・トウェイン トム・ソーヤーの冒険の

    著者だぞう!!
  24. #RPALT Presented by 出典元: ASIA FUTURE https://www.asia-future.com/statistics

  25. #RPALT Presented by Plese join slack for Jijilla!! ジジラくんへの質問

  26. #RPALT ちなみに Powered by いらすとや ではない ジジラくん募集中です!! Presented by 誰かデザインして!

  27. None