Kaggle Carvanaコンペでの取り組み

Carvana 3rd Place Solution @lyakaap

ΞδΣϯμ ⾃⼰紹介コンペ概要⾃分の⼿法の紹介他の上位者の解法
振り返って 1

ࣗݾ঺հ ⻑野⾼専 → 筑波⼤に編⼊（現在B4）コンピュータービジョン系の研究室所属 like :
寿司、ラーメン、⿇雀 2

Carvanaίϯϖͷ֓ཁ 正式名称：Carvana Image Masking Challenge ⾞画像の背景切り抜きの精度を競う 3

Carvanaίϯϖͷ֓ཁ ⾊々な⾞の16視点画像背景はほぼ均⼀評価指標はDice係数 : !|#∩%| #
&|%| train: 約5000枚, test: 約100000枚 4 16 view 教師データ

Ϟσϧͷબ୒ɾߏங セグメンテーション系のコンペではとりあえず U-Net1 Dilated Convolutionも結構いい感じそこでU-NetとDilated Convolutionを組み合わせた
5 1U-Net: Convolutional Networks for Biomedical Image Segmentation [Olaf Ronneberger, et al. 2015]

U-Net U字型で左右対称全結合層を持たないスキップ結合を持つ 6

Dilated Convolutionͱ͸ 間隔を空けて畳み込むConvolution Dilation rate（膨張率）に応じてスキップする幅が変わる（膨張率=1で通常のConvolution）パラメーター数を増やさずに受容野を広げることが出来る
7

Dilated Convolutionͷੵ૚ Multi-Scale Context Aggregation by Dilated Convolutions [Fisher
Yu, et al. 2015] 様々な膨張率のDilated Convolutionを積層させることを提案 8 Conv

U-NetͷͲͷҐஔʹ഑ஔ͢Δ͔ “Bottleneck” (図中⾚枠)の部分を置き換える 9

10 U-Net + Dilated Convolution

ਫ਼౓ݕূ(U-Net + DC) Bottle Neckの部分を変えたものを3パターン実験（層数は全て同⼀）全て通常のConvolutionを使ったバージョン Dilated
Convolutionを積層させたバージョン Dilated Convolutionを並列に適⽤させたバージョン 11 ௨ৗόʔδϣϯ ੵ૚όʔδϣϯ ฒྻόʔδϣϯ 0.9905 0.9918 0.9916 input: 256x256px

Pseudo Labeling 半教師付き学習の⼀種テストデータを疑似の訓練データとして使う⽅法正則化の効果 12

Pseudo Labeling ͷղઆਤ 13 訓練済みモデル Test Data ༧ଌ Pseudo
Labeled Data Train Data モデル ܇࿅ 1 2

Pseudo LabelingͷޮՌ スコア及び汎化性能の向上に⼤きく貢献（Private LB：34 → 6位） Pseudo
Labelの正確さはスコアに影響 Pseudo Labelをどんどん良いものにチェンジここまで精度に効いた理由テストデータの量が多い精度が出やすいタスクだった 14 Public LB Private LB Pseudo Label ͳ͠ 0.99703 0.99687 Pseudo Label ͋Γ 0.99717 0.99719

Ξϯαϯϒϧ 5fold @1536 x 1024px + 6fold @1920 x
1280px fold間で変えたもの：各種seed（initializer, データの更新の順番） Pseudo Labelのサンプリングレート TTA(Test Time Augmentation) 訓練時に使⽤した⽔平⽅向の反転のみ 15

ςετը૾ʹର͢Δ༧ଌͷධՁ 予測の精度が低いテスト画像を特定正解が分からないのにどうやって精度が低いか判断する？異なるモデル間での予測結果のばらつきを⾒る 16

ςετը૾ʹର͢Δ༧ଌͷධՁ 17 ⼀番安定してる⼀番ばらついてる

ޙॲཧ CRF(条件付き確率場)でマスクの後処理予測が難しいデータ※にのみ適⽤ 18 ※ばらつきが⼤きかったテスト画像上位100枚を「難しいデータ」とした後処理後未処理の予測結果 είΞ͸ѱԽɾɾɾ

ͳ্ͥख͘ߦ͔ͳ͔͔ͬͨ 19 CRFがアグレッシブすぎるそもそも予測マスクが酷いことになっているケースはごく少数後処理の前後で変わらなかった部分後処理により背景とみなされた部分後処理により⾞とみなされた部分

݁ہɾɾɾ コンペ終了までに適切な後処理の⽅法が浮かばず⽴ちはだかる0.9973の壁 20

࠷ऴείΞ 21 ※ 0.000001の差：画像⼀枚あたり2.5ピクセル (画像⼀枚で全3682560ピクセル)

ଞͷ্Ґऀͷղ๏ʢ5th place, @Kyleʣ ⾊々な解像度で学習させたモデルでのアンサンブル 1280x1280, 1600x1280, 1918x1280, and
2010x1340 22 後処理：予測マスクの⾞領域を検出→⾞領域内を修正「修正するorしない」を⾞領域の境界からの距離で判断

ଞͷ্Ґऀͷղ๏ʢ11th place, @JandJʣ 23 3ステップで学習 Stage 1:層数の浅いシンプルなU-Netで雑に予測
Stage 2: Stage 1の予測結果を使って境界付近を 256x256のパッチに切り抜く Stage 3: より深いU-NetでパッチごとにRefine

൓ল఺ 予測精度の低いPseudo labelデータを学習に含めてしまった CVで別視点・同⼀⾞種の画像を別foldに分割してしまった締め切り20分前に予測結果を提出しようとしたら間に合わなかった 24

·ͱΊ Carvanaコンペは⼆値分類のセグメンテーションのコンペ U-NetとDilated Convolutionを組み合わせた後処理が上⼿く⾏かず Pseudo
Labeling・アンサンブルでスコア向上 25 Ϟσϧͷίʔυஔ͖৔ : https://github.com/lyakaap/Kaggle-Carvana-3rd-Place-Solution

26 おまけ

ઃఆ͍Ζ͍Ζ Optimizer: RMSprop (learning rate=0.0002) Batchsize: 1 (物理的に1が限界だった)
Data Augmentation: ⽔平⽅向の反転のみ Loss Function: dice loss1 + binary cross entropy 27 1 dice loss = 1.0 – ダイス係数

ଞʹࢼͨ͜͠ͱ Model: Tiramisu (U-Net + Dense Net), Normal U-Net
Upsampling: Pixel Shuffler, Transposed Convolution Regularization: Batch Normalization/Renormalization, Dropout, Weight Decay Activation: ELU, LeakyReLU, PReLU, RReLU Optimizer: momentumSGD, Adadelta, Adam Data Augmentation: Rotate, Shift, HSV Shift 28

Kaggle Carvanaコンペでの取り組み

Kaggle Carvanaコンペでの取り組み

lyakaap

More Decks by lyakaap

Other Decks in Technology

Featured

Transcript

Carvana 3rd Place Solution @lyakaap

ΞδΣϯμ ⾃⼰紹介コンペ概要⾃分の⼿法の紹介他の上位者の解法

ࣗݾ঺հ ⻑野⾼専 → 筑波⼤に編⼊（現在B4）コンピュータービジョン系の研究室所属 like :

Carvanaίϯϖͷ֓ཁ 正式名称：Carvana Image Masking Challenge ⾞画像の背景切り抜きの精度を競う 3

Carvanaίϯϖͷ֓ཁ ⾊々な⾞の16視点画像背景はほぼ均⼀評価指標はDice係数 : !|#∩%| #

Ϟσϧͷબ୒ɾߏங セグメンテーション系のコンペではとりあえず U-Net1 Dilated Convolutionも結構いい感じそこでU-NetとDilated Convolutionを組み合わせた

U-Net U字型で左右対称全結合層を持たないスキップ結合を持つ 6

Dilated Convolutionͱ͸ 間隔を空けて畳み込むConvolution Dilation rate（膨張率）に応じてスキップする幅が変わる（膨張率=1で通常のConvolution）パラメーター数を増やさずに受容野を広げることが出来る

Dilated Convolutionͷੵ૚ Multi-Scale Context Aggregation by Dilated Convolutions [Fisher

U-NetͷͲͷҐஔʹ഑ஔ͢Δ͔ “Bottleneck” (図中⾚枠)の部分を置き換える 9

10 U-Net + Dilated Convolution

ਫ਼౓ݕূ(U-Net + DC) Bottle Neckの部分を変えたものを3パターン実験（層数は全て同⼀）全て通常のConvolutionを使ったバージョン Dilated

Pseudo Labeling 半教師付き学習の⼀種テストデータを疑似の訓練データとして使う⽅法正則化の効果 12

Pseudo Labeling ͷղઆਤ 13 訓練済みモデル Test Data ༧ଌ Pseudo

Pseudo LabelingͷޮՌ スコア及び汎化性能の向上に⼤きく貢献（Private LB：34 → 6位） Pseudo

Ξϯαϯϒϧ 5fold @1536 x 1024px + 6fold @1920 x

ςετը૾ʹର͢Δ༧ଌͷධՁ 予測の精度が低いテスト画像を特定正解が分からないのにどうやって精度が低いか判断する？異なるモデル間での予測結果のばらつきを⾒る 16

ςετը૾ʹର͢Δ༧ଌͷධՁ 17 ⼀番安定してる⼀番ばらついてる

ޙॲཧ CRF(条件付き確率場)でマスクの後処理予測が難しいデータ※にのみ適⽤ 18 ※ばらつきが⼤きかったテスト画像上位100枚を「難しいデータ」とした後処理後未処理の予測結果 είΞ͸ѱԽɾɾɾ

ͳ্ͥख͘ߦ͔ͳ͔͔ͬͨ 19 CRFがアグレッシブすぎるそもそも予測マスクが酷いことになっているケースはごく少数後処理の前後で変わらなかった部分後処理により背景とみなされた部分後処理により⾞とみなされた部分

݁ہɾɾɾ コンペ終了までに適切な後処理の⽅法が浮かばず⽴ちはだかる0.9973の壁 20

࠷ऴείΞ 21 ※ 0.000001の差：画像⼀枚あたり2.5ピクセル (画像⼀枚で全3682560ピクセル)

ଞͷ্Ґऀͷղ๏ʢ5th place, @Kyleʣ ⾊々な解像度で学習させたモデルでのアンサンブル 1280x1280, 1600x1280, 1918x1280, and

ଞͷ্Ґऀͷղ๏ʢ11th place, @JandJʣ 23 3ステップで学習 Stage 1:層数の浅いシンプルなU-Netで雑に予測

൓ল఺ 予測精度の低いPseudo labelデータを学習に含めてしまった CVで別視点・同⼀⾞種の画像を別foldに分割してしまった締め切り20分前に予測結果を提出しようとしたら間に合わなかった 24

·ͱΊ Carvanaコンペは⼆値分類のセグメンテーションのコンペ U-NetとDilated Convolutionを組み合わせた後処理が上⼿く⾏かず Pseudo

26 おまけ

ઃఆ͍Ζ͍Ζ Optimizer: RMSprop (learning rate=0.0002) Batchsize: 1 (物理的に1が限界だった)

ଞʹࢼͨ͜͠ͱ Model: Tiramisu (U-Net + Dense Net), Normal U-Net