ドライブレコーダーの映像で Scene Text Recognitionする

Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved ドライブレコーダーの映像で
Scene Text Recognitionする次世代モビリティ事業部モビリティ研究開発グループ⾼橋⽂彦 2019.07.16 Data Driven Developer Meetup #6

2 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved
• 名前：⾼橋⽂彦 • 略歴 • 2015年3⽉京都⼤学⼤学院修了 • 2015年4⽉ヤフー株式会社⼊社 • 2018年8⽉ JapanTaxi株式会社⼊社 • 領域 • ⾃然⾔語処理、画像処理 • 過去の主な仕事 • 配⾞アプリのお迎え時間予測 • ECサイトの検索精度改善 • その他：PM、論⽂書いたり • 趣味 • ボードゲーム、IoTガジェット

700万DL超⽇本No1タクシーアプリアプリマップ上で指定したピン位置にタクシーを⼿配。全国47都道府県で約7万台と、全国のタクシー⾞両1/3がアプリで呼べる。 Google Mapsや⾳声AIなど様々な注⽂チャネル、決済、経費精算に対応。 *App Annie調べタクシー配⾞/ライドシェアアプリ内における、⽇本国内累計ダウンロード数/⽉間平均アクティブユーザー数(iOS/Google Play合算値)調査期間：2017年10⽉1⽇〜2018年9⽉30⽇外部注⽂チャネル地図・経路検索 Google Maps iphone map 経費精算 Concur MoneyForward 海外 KakaoT TaxiGo my route iphone siri Alexa/echo spot mydaiz LINE clova Yahoo!乗換案内外部注⽂チャネル⾳声AI NAVITIME タクシー配⾞アプリ『JapanTaxi』

タクシーの配⾞プラットフォームタクシー向けハードウェアメーカータクシーデータビジネス

1⽇のタクシー動態の様⼦

センシングカーとしてのタクシー⾞両

点群データ収集の実証実験

データ活⽤による産業・社会課題の解決機械学習などのデータ処理 ˔ タクシー産業 ˔ ⾃動運転 ˔ 交通インフラメンテナンス ˔ 交通計画 ˔ 地図情報 ˔ 都市計画 ˔ 環境 ˔ 気象タクシー運⾏で⽣成されるデータデータ駆動社会

ガソリンスタンド料⾦の⾃動認識

127 130 127 135 128 125 131

Scene Text Recognition

ガソリンスタンド料⾦認識は難しい ‒ 解像度の低さ -

ガソリンスタンド料⾦認識は難しい ‒ 前後⽂脈がない ‒ 単語は前後の⽂字から推測できるが、数字は推測できない

課題：学習データを収集するのが⼤変 100.0% 6.9% 2.7% 地図を利⽤しても3%程度しか学習データが集まらない Detection アノテーション Recognition アノテーション Sampling with location Sampled images Detected images Recognized images 地図とGPSの情報を使って写っている可能性の⾼い画像を抽出

課題：学習データを収集するのが⼤変 100.0% 2.6% 0.2% 全体の0.2%程度しか学習データが集まらない Random Sampling ⾃動 Detection Recognition アノテーション Detected images Recognized images

研究⽬的：限られた学習データでScene Text Recognition

⼀般的なSean Text Recognitionのモデル CNN Layers Bi-LSTM Layers Recognition Layer --1222--22-- 122 • CTC(Connectionist Temporal Classification)で⽂字列を予測 • ⾳声認識でも使われる系列予測の⼿法 [An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition, Baoguang Shi et al., IEEE Trans. Pattern Anal. Mach. Intell. 2017] CNN-RNN Model (baseline)

CTC(Connectionist Temporal Classification)とは • ⼊⼒と出⼒の系列⻑が違う場合に⽤いられる損失関数 • ⾔語処理ではEndoer-decoderモデルが使われることが多いが、 CTCは信号処理のような⼊⼒の切れ⽬が曖昧なもので使われることが多い • blank(空⽩⽂字)を導⼊して、正解⽂字列を順番に⽣成する確率を求める x ---111--22-22-- 122 ----112222--22- 122

関連研究：Multi-task Learning [An Overview of Multi-Task Learning in Deep Neural Networks, Sebastian Ruder, 2017] 関連する複数のタスクを同時に学習させることで、予測精度を向上させる

アプローチのアイディア数字が写っていない画像が⼤量にある → 数字が写っている or 写っていないのclassificationも学習させる → モデルに数字の形を学習させられるはず数字が写っている数字が写っていない

Multi-task Learning of Scene Text Recognition CNN Layers Bi-LSTM Layers Recognition Layer 122 • Classificationは数字が写っている場合1.0、写ってない場合0.0 • RecognitionとClassificationの両⽅のlossからBack Propagation 1.0 数字が写っている画像の学習 Classification Layer

Multi-task Learning of Scene Text Recognition CNN Layers Bi-LSTM Layers Recognition Layer • ClassificationのlossからのみBack Propagation • ClassificationのLoss functionはMean Squared Error 0.0 数字が写っていない画像の学習 Classification Layer

その他Tips：擬似画像でPre-training → 実画像へtransfer Learning

その他Tips：出⼒系列をbeam searchしてコントロール • 推定する系列のn-bestをbeam searchで求める • モデルの外側から出⼒をコントロールできる 250 050 2050 桁数が多い 0から始まる⾼すぎる⾦額

設定 • training set と validation setは2:8になるように時間軸で分割 • データ数に偏りがあるため、Classificationのサンプルごとの重みを画像枚数の割合で設定 • 数字あり(Labeled)：U/(U+L) • 数字なし（Unlabeled）：L/(U+L) 擬似画像数字あり画像 5,280,000 数字なし画像 2,640,000 実画像数字あり画像 402 数字なし画像 2,274

精度評価結果 Text Recognition Classification Accuracy Normalized Edit Distance Precision Recall Single-task Model 0.3088 0.3725 - - Multi-task Model 0.6324 0.1618 0.8824 0.5217 • Multi-task Modelの⽅がRecognitionのAccuracyが⾼い • 実⽤では… • 画像サイズの⼤きさ画像と精度に相関があり、⾞両が近づけば⾼い精度で認識可能 • フレーム間補完を⾏う

学習データ量と精度の関係 0.000 0.100 0.200 0.300 0.400 0.500 0.600 0.700 0.0% 20.0% 40.0% 60.0% 80.0% 100.0% Multi-task Model Single-task Model • Multi-taskは少量のデータでも⽴ち上がりが早く、すでに鈍りが⾒えている • Single-taskは学習データを増やすと精度が線形に向上

学習データ量と精度の関係の予想画像はイメージです

背景：ドライブレコーダーの動画からガソリンスタンドの料⾦を⾃動認識課題：学習データを取集するのが⼤変結論： • 数字じゃない形（データが⼤量）も学習することで少ないデータで精度が向上 • 学習データが少ない時にもMulti-task Learningは有効 • 実⽤上、数字が書かれているかどうかの判定は必要なので、１つのモデルに詰め込めたのは⼀⽯⼆⿃だった

We are hiring!! • 機械学習/アルゴリズム開発エンジニア • ⾃動運転エンジニア • データアナリスト/BIアナリスト • データエンジニア

〒102-0094 東京都千代⽥区紀尾井町3-12 3-12 Kioicho Chiyoda-ku, Tokyo 102-0094 Japan TEL 03-6265-6265
FAX 03-3239-8115 www.japantaxi.co.jp ⽂章·画像等の内容の無断転載及び複製等の⾏為はご遠慮ください。 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved

ドライブレコーダーの映像で Scene Text Recognitionする

ドライブレコーダーの映像で Scene Text Recognitionする

More Decks by fumihiko takahashi

Other Decks in Programming

Featured

Transcript