Slide 1

Slide 1 text

Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning 次世代モビリティ事業部 モビリティ研究開発グループ ⾼橋 ⽂彦 2019.07.13 CCSE2019

Slide 2

Slide 2 text

2 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved • 名前:⾼橋⽂彦 • 略歴 • 2015年4⽉ ヤフー株式会社 ⼊社 • 2018年8⽉ JapanTaxi株式会社 ⼊社 • 領域 • 画像処理、⾃然⾔語処理 • 過去の主な仕事 • 配⾞アプリのお迎え時間予測 • ECサイトの検索精度改善 • その他:PM、論⽂書いたり • 趣味 • ボードゲーム、IoTガジェット

Slide 3

Slide 3 text

3 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 研究の背景

Slide 4

Slide 4 text

4 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved タクシーの 配⾞プラットフォーム タクシー向け ハードウェアメーカー タクシーデータ ビジネス

Slide 5

Slide 5 text

5 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved

Slide 6

Slide 6 text

6 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 1⽇のタクシー動態の様⼦

Slide 7

Slide 7 text

7 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved センシングカーとしてのタクシー⾞両

Slide 8

Slide 8 text

8 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved データ活⽤による産業・社会課題の解決 機械学習などのデータ処理 ˔ タクシー産業 ˔ ⾃動運転 ˔ 交通インフラ メンテナンス ˔ 交通計画 ˔ 地図情報 ˔ 都市計画 ˔ 環境 ˔ 気象 タクシー運⾏で ⽣成されるデータ データ駆動社会

Slide 9

Slide 9 text

9 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved ガソリンスタンド料⾦の⾃動認識

Slide 10

Slide 10 text

10 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved ガソリンスタンド料⾦の⾃動認識

Slide 11

Slide 11 text

11 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved Scene Text Recognition

Slide 12

Slide 12 text

12 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved ガソリンスタンド料⾦認識は難しい ‒ 解像度の低さ -

Slide 13

Slide 13 text

13 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved ガソリンスタンド料⾦認識は難しい ‒ 前後⽂脈がない ‒ 単語は前後の⽂字から推測できるが、数字は推測できない

Slide 14

Slide 14 text

14 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 課題:学習データを収集するのが⼤変 100.0% 6.9% 2.7% 地図を利⽤しても3%程度しか学習データが集まらない Detection アノテーション Recognition アノテーション Sampling with location Sampled images Detected images Recognized images 地図とGPSの情報を使って 写っている可能性の⾼い画像を抽出

Slide 15

Slide 15 text

15 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 課題:学習データを収集するのが⼤変 100.0% 2.6% 0.2% 全体の0.2%程度しか学習データが集まらない Random Sampling ⾃動 Detection Recognition アノテーション Detected images Recognized images

Slide 16

Slide 16 text

16 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 研究⽬的: 限られた学習データでScene Text Recognition

Slide 17

Slide 17 text

17 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 研究のアプローチ

Slide 18

Slide 18 text

18 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved ⼀般的なSean Text Recognitionのモデル CNN Layers Bi-LSTM Layers Recognition Layer --1222--22-- 122 • CTC(Connectionist Temporal Classification)で⽂字列を予測 • ⾳声認識でも使われる系列予測の⼿法 [An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition, Baoguang Shi et al., IEEE Trans. Pattern Anal. Mach. Intell. 2017] CNN-RNN Model (baseline)

Slide 19

Slide 19 text

19 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 関連研究:Multi-task Learning [An Overview of Multi-Task Learning in Deep Neural Networks, Sebastian Ruder, 2017] 関連する複数のタスクを同時に学習させることで、予測精度を向上させる

Slide 20

Slide 20 text

20 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved アプローチのアイディア 数字が写っていない画像が⼤量にある → 数字が 写っている or 写っていない のclassificationも学習させる → モデルに数字の形を学習させられるはず 数字が写っている 数字が写っていない

Slide 21

Slide 21 text

21 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved Multi-task Learning of Scene Text Recognition CNN Layers Bi-LSTM Layers Recognition Layer 122 • Classificationは数字が写っている場合1.0、写ってない場合0.0 • RecognitionとClassificationの両⽅のlossからBack Propagation 1.0 数字が写っている画像の学習 Classification Layer

Slide 22

Slide 22 text

22 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved Multi-task Learning of Scene Text Recognition CNN Layers Bi-LSTM Layers Recognition Layer • ClassificationのlossからのみBack Propagation • ClassificationのLoss functionはMean Squared Error 0.0 数字が写っていない画像の学習 Classification Layer

Slide 23

Slide 23 text

23 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved その他Tips: 擬似画像でPre-training -> 実画像へtransfer Learning

Slide 24

Slide 24 text

24 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 実験

Slide 25

Slide 25 text

25 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 設定 • training set と validation setは2:8になるように時間軸で分割 • データ数に偏りがあるため、Classificationのサンプルごとの重みを画 像枚数の割合で設定 • 数字あり(Labeled):U/(U+L) • 数字なし(Unlabeled):L/(U+L) 擬似画像 数字あり画像 5,280,000 数字なし画像 2,640,000 実画像 数字あり画像 402 数字なし画像 2,274

Slide 26

Slide 26 text

26 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 精度評価結果 Text Recognition Classification Accuracy Normalized Edit Distance Precision Recall Single-task Model 0.3088 0.3725 - - Multi-task Model 0.6324 0.1618 0.8824 0.5217 • Multi-task Modelの⽅がRecognitionのAccuracyが⾼い • 実⽤では… • 画像サイズの⼤きさ画像と精度に相関があり、⾞両が近づけば⾼い 精度で認識可能 • フレーム間補完を⾏う

Slide 27

Slide 27 text

27 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 学習データ量と精度の関係 0.000 0.100 0.200 0.300 0.400 0.500 0.600 0.700 0.0% 20.0% 40.0% 60.0% 80.0% 100.0% Multi-task Model Single-task Model • Multi-taskは少量のデータでも⽴ち上が りが早く、すでに鈍りが⾒えている • Single-taskは学習データを増やすと精度 が線形に向上

Slide 28

Slide 28 text

28 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 学習データ量と精度の関係の予想 画像はイメージです

Slide 29

Slide 29 text

29 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved まとめ

Slide 30

Slide 30 text

30 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved 背景:ドライブレコーダーの動画からガソリンスタンドの料⾦を⾃動認識 課題:学習データを取集するのが⼤変 結論: • 数字じゃない形(データが⼤量)も学習することで少ないデータで精度が向上 • 学習データが少ない時にもMulti-task Learningは有効 • 実⽤上、数字が書かれているかどうかの判定は必要なので、1つのモデルに詰め 込めたのは⼀⽯⼆⿃だった

Slide 31

Slide 31 text

〒102-0094 東京都千代⽥区紀尾井町3-12 3-12 Kioicho Chiyoda-ku, Tokyo 102-0094 Japan TEL 03-6265-6265 FAX 03-3239-8115 www.japantaxi.co.jp ⽂章·画像等の内容の無断転載及び複製等の⾏為はご遠慮ください。 Proprietary and Confidential ©2017 JapanTaxi, Inc. All Rights Reserved