$30 off During Our Annual Pro Sale. View Details »

JSAI Cup 2018に惨敗!! Random Erasing & Mixupやってみた / Try Random Erasing & Mixup

moonlight-aska
August 26, 2018
650

JSAI Cup 2018に惨敗!! Random Erasing & Mixupやってみた / Try Random Erasing & Mixup

2018年8月26日開催の「大江橋Pythonの会#2」のLT資料です.

moonlight-aska

August 26, 2018
Tweet

Transcript

  1. JSAI Cup2018に惨敗!! Random Erasing & Mixupやってみた 2018/8/26 Moonlight明日香 大江橋Pythonの会 #2

    LT
  2. 自己紹介 ➢鶴田 彰 ➢外資系メーカー勤務 ➢昔は, ・パターン認識(音声, 文字, etc) ・ユーザ適応(レコメンド, etc)

    なども・・・ 最近は, 週末プログラマとして また機械学習に再チャレンジ中! Facebook :moonlight.aska Twitter :@moonlight_aska Blog :みらいテックラボ http://mirai-tec.hatenablog.com
  3. JSAI Cup 2018とは? テーマ:画像認識 クックパッド様の提供する画像データを使用して, 食材の分類の 画像認識アルゴリズムの作成に挑戦 データと評価関数 55種類の食材カテゴリの1つに分類 [学習データ]

    [テストデータ] ・11,995枚 ・3,995枚 [評価関数] Accuracy = :集合Aの要素数 :サンプル数 :i番目の真値 ෝ :i番目の予測値 ( = ෡ = 1,2,… , )
  4. データの確認(1) 55カテゴリ 分類 果菜類 トマト カボチャ キューリ ナス ピーマン ・・・

    葉菜類 ハクサイ キャベツ コマツナ ミズナ レタス ・・・ 茎菜類 アスパラ ネギ タマネギ ニンニク 根菜類 ダイコン ゴボウ ニンジン レンコン ショウガ イモ類 ジャガイ モ サトイモ サツマイモ ナガイモ : 菌茸類 エノキ エリンギ マイタケ マッシュルーム シイタケ シメジ 果物 アボカド バナナ クリ リンゴ レモン その他 エビ タコ タマゴ
  5. データの確認(2) データの一例 注) クックパッド様に画像の使用許諾取得済

  6. JSAI Cupでやったこと 実装制限 ◆ API(Google Cloud Vision等)の利用は禁止. ◆ ImageNetなどによる学習済モデルの利用は 禁止.

    ◆ 2つ以上の異なるモデルを用いてアンサンブ ル学習させるのは禁止. 画像認識で性能upする方法 ◆ 前処理(高解像度, 正規化, ほか) ◆ Data Augmentation ◆ 転移学習(Fine Tuning) ◆ Ensemble学習(複数モデル, 複数入力) ◆ モデル構造の改良 ◆ ハイパーパラメータの調整 : ◼ 公知モデルの使用 ◼ データオーギュメンテーション ◼ 複数入力によるアンサンブル (Test Time Augmentation)
  7. コンテストの結果 ・ ・ ・ 応募(3/16) 9位(95.0%) 締切(3/29) 14位 ↓ 最終

    19位(93.2%) 惨 敗!! Top 98.3%
  8. 記事をもとに振り返り http://tech.nikkeibp.co.jp/atcl/nxt/column/18/00323/061600003/?P=1

  9. 入賞者の手法(1) Data Augmentation 1. Random Erasing Data Augmentation (2017/8) 2.

    mixup : Beyond Empirical Risk Minimization (2017/10) 0.7 * dog + 0.3 * cat
  10. 入賞者の手法(2) 2018年度人工知能学会データ解析コンペティション発表資料より 半教師あり学習 1. Mean teachers are better role models

    (2017/3) 生徒, 教師は互いに別々のノイズが付与さ れたデータをもとに予測を行い, 生徒はラベルと教師の予測との一致をもと に学習を行い, 教師は, エポック終了後に生徒の学習結果 をマージするらしい.
  11. 入賞者の手法(3) 半教師あり学習 2. Pseudo-labelling 2018年度人工知能学会データ解析コンペティション発表資料より

  12. Random Erasing Data Augmentation やってみた!!

  13. Random Erasing Data Augmentationとは? 画像の一部を矩形領域でマスクしても, 犬とわかる!! 過学習を防ぐのに効果あり!!

  14. アルゴリズム https://arxiv.org/abs/1708.04896 p : Random Erasingを使用する確率 Sl, Sh : マスク領域の最小/最大比率

    r1, r2 : マスク領域のアスペクト比の最大/最小値
  15. 画像生成結果 入力画像 生成画像

  16. Mixupもやってみた!!

  17. Mixupとは? X = λX1 + (1 – λ)X2 y =

    λy1 + (1 – λ)y2 2つの訓練サンプルのペア(X1 , y1 ), (X2 , y2 )を 混合して新たな訓練サンプルを作成 但し, λ∈[0, 1]はベータ分布Be(α, α)からのサンプリング ラベルy1 , y2 も混合するところが特徴的 0.7 * dog + 0.3 * cat
  18. ベータ分布

  19. 画像生成結果 α = 0.5

  20. 効果は? 金魚分類タスク(22種類の分類)でやってみたが… ⇒ ほとんど効果みられず. 考えられること: 学習/評価データが少ない為か!? 学習データ:880 (約40サンプル/種類) 評価データ: 87

    (約4サンプル/種類)
  21. 最後に, 金魚分類タスクとは? 金魚AI(愛)育成プロジェクト ・金魚の見分け難しい ・体調わかるようになりたい http://mirai-tec.hatenablog.com/entry/2018/07/30/235036 ▪金魚データの収集 ▪金魚22種類の分類

  22. Thank You!