データ分析コンテストの技術と最近の進展

4742812a011db89b01a52af6722640b8?s=47 @smly
October 20, 2017

 データ分析コンテストの技術と最近の進展

第14回ステアラボ人工知能セミナー https://stair.connpass.com/event/68515/ の発表資料です.
共有用のショートカットURL: https://goo.gl/MgFmJk

4742812a011db89b01a52af6722640b8?s=128

@smly

October 20, 2017
Tweet

Transcript

  1. σʔλ෼ੳίϯςετͷٕज़ͱ ࠷ۙͷਐల ,PIFJ0[BLJ !TNMZ  3FDSVJU5FDIOPMPHJFT "EWBODFE5FDIOPMPHZ-BC "5- ୈճεςΞϥϘਓ޻஌ೳηϛφʔ!ઍ༿޻ۀେֶ

  2. ࣗݾ঺հ ϦΫϧʔτςΫϊϩδʔζ"5-ͷ4S4PGUXBSF&OHJOFFSͰ͢ɽ ˝,BHHMFΦϑΟεͰͷू߹ࣸਅ αϯϑϥϯγεί ɾ,BHHMFSྺ೥ (SBOENBTUFS )JHIFTUSBOLUI 
 ɾ,BHHMF 5PQpOJTIFTY

    1SJ[FY 
 ɾ"$.,%% ,%%$VQTUQSJ[FXJOOFS
 ɾ5PQ$PEFS.BSBUIPO.BUDI 8*/4 ˝ϦΫϧʔτςΫϊϩδʔζ"5- ޿ඌ
  3. ࠓ೔ͷ࿩ w ίϯςετͱ-FBEFSCPBSEͷϝΧχζϜ   w ϝλֶश 4UBDLJOH /FUqJY#MFOEJOH FUDʜ

       w ਂ૚ֶश $MBTTJpDBUJPO 4FHNFOUBUJPO  
  4. ࠓ೔ͷ࿩ w ίϯςετͱ-FBEFSCPBSEͷϝΧχζϜ   w ϝλֶश 4UBDLJOH /FUqJY#MFOEJOH FUDʜ

       w ਂ૚ֶश $MBTTJpDBUJPO 4FHNFOUBUJPO  
  5. σʔλ෼ੳίϯςετͷϓϥοτϑΥʔϜ ,BHHMF͸ίϯςετͷ࠷΋େ͖ͳϓϥοτϑΥʔϜ݉ίϛϡχςΟ w ສਓҎ্ͷొ࿥Ϣʔβʔ ΞΫςΟϒ͸ສਓҎ্  w ༷ʑͳ෼໺ͷاۀ΍ஂମ͕ίϯςετΛ։࠵͍ͯ͠Δ ීஈΞΫηεͰ͖ͳ͍༷ʑͳۀքͷσʔλ΍໰୊ઃఆʹ৮Εɼ
 σʔλ෼ੳͷܦݧΛੵΉ͜ͱ͕ग़དྷΔɽ

    保険 製造 不不動産 政府 サービス 防衛 研究 ※ USSOCOM は TopCoder Marathon Match: Urban3D Challenge ⾦金金融 医療
  6. ࢀՃऀͷଟ༷ੑ ػցֶशϥΠϒϥϦͷ։ൃऀ΍ݚڀऀ΋ࢀՃ͍ͯ͠Δɽ 9(#PPTU 3(' -JC'. -BTBHOF ,FSBT .9/FUͳͲͳͲʜ ίϯςετͰར༻ͨ͠ΞϧΰϦζϜ΍޻෉͕࿦จͱͯ͠ެ։͞ΕΔ͜ ͱ΋௝͘͠ͳ͍<8BOH:BOH`>

  7. λεΫͷଟ༷ੑ Ԡ༻Λҙࣝͨ͠λεΫઃܭ͕ଟ͘ɺࢀߟʹͳΔɽ ظ଴஋Λݟੵ΋ΔͨΊͷܦݧ͕ੵΊΔɽ ˝ྫ:FMQ3FTUBVSBOU1IPUP$MBTTJpDBUJPO ⼊入⼒力力:お店に関する複数の画像 屋外席あり アルコールあり ランチ可 ディナー可 お店に対応する


    ラベルを複数選択する 出⼒力力:お店に関する複数のラベル ※ 写真1枚ずつにラベルが付いていない.
 複数画像を単⼀一のベクトルで表現するなど⼯工夫が必要 Multi-instances, Multi-labeling 値段が⾼高い ビュッフェ形式
  8. Ұൠతͳίϯςετͷߏ଄ 訓練データ テストデータ 「Validation」 テストデータ 「Holdout」 訓練ラベル 提出ファイル (予測結果) ܇࿅σʔλ

    ςετσʔλ͕༩͑ΒΕΔɽ ςετσʔλ͸ߋʹʮ7BMJEBUJPOʯʮ)PMEPVUʯͷ̎छʹ෼͔Ε͍ͯΔɽ ༧ଌ݁ՌΛαʔόʔʹΞοϓϩʔυ͢Δͱɼαʔόʔ͕ଈ࠲ʹ
 ʮ7BMJEBUJPOʯͷධՁΛܭࢉͯ͠࢑ఆॱҐද 1VCMJD-# ʹ൓өɽ ࢀՃऀ͸܇࿅σʔλͱϥϕϧ͔ΒɺςετσʔλͷϥϕϧΛ༧ଌ ίϯςετऴྃޙʹఏग़ࡁΈͷϑΝΠϧʹ͓͚Δʮ)PMEPVUʯͰͷ
 ධՁ݁Ռʹ΋ͱ͍ͮͯ࠷ऴॱҐද 1SJWBUF-# ͕ެ։͞ΕΔɻ
  9. Ұൠతͳίϯςετͷߏ଄ ܇࿅σʔλ ςετσʔλ͕༩͑ΒΕΔɽ ςετσʔλ͸ߋʹʮ7BMJEBUJPOʯʮ)PMEPVUʯͷ̎छʹ෼͔Ε͍ͯΔɽ 訓練データ テストデータ 「Validation」 テストデータ 「Holdout」 訓練ラベル

    提出ファイル (予測結果) ᶃ༧ଌ݁Ռ ༧ଌ݁ՌΛαʔόʔʹΞοϓϩʔυ͢Δͱɼαʔόʔ͕ଈ࠲ʹ
 ʮ7BMJEBUJPOʯͷධՁΛܭࢉͯ͠࢑ఆॱҐද 1VCMJD-# ʹ൓өɽ ࢀՃऀ͸܇࿅σʔλͱϥϕϧ͔ΒɺςετσʔλͷϥϕϧΛ༧ଌ ίϯςετऴྃޙʹఏग़ࡁΈͷϑΝΠϧʹ͓͚Δʮ)PMEPVUʯͰͷ
 ධՁ݁Ռʹ΋ͱ͍ͮͯ࠷ऴॱҐද 1SJWBUF-# ͕ެ։͞ΕΔɽ
  10. Ұൠతͳίϯςετͷߏ଄ 訓練データ テストデータ 「Validation」 テストデータ 「Holdout」 訓練ラベル 提出ファイル (予測結果) ᶄ1VCMJD-#4DPSF

    ܇࿅σʔλ ςετσʔλ͕༩͑ΒΕΔɽ ςετσʔλ͸ߋʹʮ7BMJEBUJPOʯʮ)PMEPVUʯͷ̎छʹ෼͔Ε͍ͯΔɽ ༧ଌ݁ՌΛαʔόʔʹΞοϓϩʔυ͢Δͱɼαʔόʔ͕ଈ࠲ʹ
 ʮ7BMJEBUJPOʯͷධՁΛܭࢉͯ͠࢑ఆॱҐද 1VCMJD-# ʹ൓өɽ ࢀՃऀ͸܇࿅σʔλͱϥϕϧ͔ΒɺςετσʔλͷϥϕϧΛ༧ଌ ίϯςετऴྃޙʹఏग़ࡁΈͷϑΝΠϧʹ͓͚Δʮ)PMEPVUʯͰͷ
 ධՁ݁Ռʹ΋ͱ͍ͮͯ࠷ऴॱҐද 1SJWBUF-# ͕ެ։͞ΕΔɽ
  11. Ұൠతͳίϯςετͷߏ଄ 訓練データ テストデータ 「Validation」 テストデータ 「Holdout」 訓練ラベル 提出ファイル (予測結果) ᶅ1SJWBUF-#4DPSF

    ܇࿅σʔλ ςετσʔλ͕༩͑ΒΕΔɽ ςετσʔλ͸ߋʹʮ7BMJEBUJPOʯʮ)PMEPVUʯͷ̎छʹ෼͔Ε͍ͯΔɽ ༧ଌ݁ՌΛαʔόʔʹΞοϓϩʔυ͢Δͱɼαʔόʔ͕ଈ࠲ʹ
 ʮ7BMJEBUJPOʯͷධՁΛܭࢉͯ͠࢑ఆॱҐද 1VCMJD-# ʹ൓өɽ ࢀՃऀ͸܇࿅σʔλͱϥϕϧ͔ΒɺςετσʔλͷϥϕϧΛ༧ଌ ίϯςετऴྃޙʹఏग़ࡁΈͷϑΝΠϧʹ͓͚Δʮ)PMEPVUʯͰͷ
 ධՁ݁Ռʹ΋ͱ͍ͮͯ࠷ऴॱҐද 1SJWBUF-# ͕ܾ·Δɽ
  12. ༧ଌ݁ՌΛ౤ߘ͢Δ サーバーに予測結果をアップロードする

  13. Validation set でスコアが評価され、
 Public LB に即座に反映される

  14. աֶश 0WFSpUUJOH ʹ஫ҙ 1VCMJD-#Ͱදࣔ͞ΕΔ਺ࣈ͸͋͘·Ͱ΋ʮ7BMJEBUJPOʯ্ͷධՁɽ ͜ͷ਺ࣈ͚ͩΛཔΓʹνϡʔχϯά͗͢͠Δͱɼ σʔλͷࣄྫ਺΍σʔληοτͷಛੑʹΑͬͯ͸աֶशΛҾ͖ى͜͢ɽ 訓練データ テストデータ 「Validation」 テストデータ

    「Holdout」 訓練ラベル 提出ファイル (予測結果) ৚͕݅ἧ͑͹ʮσʔλΛҰ੾ݟΔ͜ͱແ͘ʯ ػցతʹ1VCMJD-#ͷείΞ͚ͩΛ্͛Δ͜ͱ͕༰қʹͰ͖Δɽ ˠఢରతϕϯνϚʔΫ ᶄ1VCMJD-#4DPSF
  15. ఢରతϕϯνϚʔΫ<#MVN)BSEU`> ୯७Խͨ͠/ݸͷςετࣄྫͷೋ஋෼ྨ໰୊Λߟ͑Δɿ 正解 予測 1 予測 2 ࣍ϕΫτϧΛ౰ͯΔɽධՁࢦඪ͸Τϥʔ཰ͱ͢Δɽ y 2

    {0, 1}N sH(yi) yi 2 {0, 1}N ͋Δ༧ଌ ͷ1VCMJD-#είΞΛ ͱ͢Δɽ N 1 0 0 1 0 0 0 1 y = 1 1 1 0 0 1 1 1 y1 = 1 0 1 1 1 1 0 0 y2 = Public LB
 Score 1 Public LB
 Score 2 sH(y1) = 0.75 sH(y2) = 0.25 Val Hol
  16. ఢରతϕϯνϚʔΫ<#MVN)BSEU`> Algorithm (Boosting Attack): 正解 1 0 0 1 0

    0 0 1 y = 0 0 1 0 0 0 0 1 1 1 1 0 1 0 1 1 0 1 0 1 0 1 0 0 1 0 0 1 0 0 0 1 1 0 0 1 0 1 1 1 0 0 0 0 1 1 1 0 ランダムに予測のベクトルを作成する Val Hol 1 0 1 1 1 1 0 0 1 0 0 1 0 1 1 1 0 0 0 1 0 1 1 0 0 0 1 1 0 0 1 1 0 0 1 0 0 0 1 1 1 1 0 1 0 0 0 0
  17. ఢରతϕϯνϚʔΫ<#MVN)BSEU`> 正解 1 0 0 1 0 0 0 1

    y = 1 0 1 1 1 1 0 0 1 0 0 1 0 1 1 1 0 0 0 1 0 1 1 0 1 0 0 1 0 0 0 1 1 0 0 1 0 1 1 1 1 1 0 1 0 0 0 0 㱺 majority
 voting 1 0 0 1 0 1 1 1 Public LB
 Score sH(ˆ y) = 0.0 Val Hol Algorithm (Boosting Attack): ランダムな予測のベクトルから Public LB スコアの良いベクトル sH (yi) < 0.5 だけを選ぶ
  18. ఢରతϕϯνϚʔΫ<#MVN)BSEU`> 正解 1 0 0 1 0 0 0 1

    y = 1 0 1 1 1 1 0 0 1 0 0 1 0 1 1 1 0 0 0 1 0 1 1 0 1 0 0 1 0 0 0 1 1 0 0 1 0 1 1 1 1 1 0 1 0 0 0 0 㱺 majority
 voting 1 0 0 1 0 1 1 1 Public LB
 Score sH(ˆ y) = 0.0 Val Hol Private LB Score が
 良くなる保証は
 何もない !! Algorithm (Boosting Attack): ランダムに予測のベクトルから Public LB スコアの良いベクトル sH (yi) < 0.5 だけを選ぶ
  19. ఢରతϕϯνϚʔΫ<#MVN)BSEU`> ࠷ऴతͳॱҐΛܾఆ͢Δ1SJWBUF-#είΞ͸վળ͠ͳ͍ɻ 1VCMJDͷධՁʹ࢖ΘΕΔσʔλʹPWFSpU͍ͯ͠Δɻ エラー率 (低いほど良い) 予測結果の提出回数 最終順位の評価対象である Holdout (Final) は改善しない

  20. #PPTUJOHBUUBDL͸-#είΞͷܻ਺ʹґଘ #PPTUJOHBUUBDLͰಘΒΕΔ1VCMJD-#TDPSFͷ
 6QQFSCPVOEΛূ໌͢Δ͜ͱ͕Ͱ͖Δɽ -#είΞͷখ਺஋ͷਫ਼౓Ћͱ
 7BMJEBUJPOηοτͷαΠζOͷؒʹҎԼͷ৚͕݅͋Δɽ Λେ͖͘ʢදܻࣔ਺Λখ͘͞ʣɼΛେ͖͘͢Δ͜ͱͰ ఢରతͳϕϯνϚʔΫʹର͢Δ଱ੑΛ࣋ͨͤΔ͜ͱ͕ग़དྷΔɽ k=投稿回数,n=テストセットの事例例数 Error rate

     1 2 ⌦( r k n) ↵  1 p n ↵ n
  21. ৴པੑͷ͋ΔॱҐද ,BHHMFͷϝΧχζϜͱҟͳΔϑΟʔυόοΫͷ༩͑ํʹΑͬͯɼ ৴༻Ͱ͖ΔॱҐදΛఏڙ͢Δݚڀ΋͋Δɽ <#MVN)BSEU` )BSEU`> ࠷ۙͷ,BHHMFͰ͸ςετηοτͷαΠζ͕খ͍͞৔߹ɼ ίϯςετظؒத͚ͩදܻࣔ਺ΛݮΒ͍ͯ͠Δ͜ͱ͕͋Δ

  22. νʔτରࡦϚϧνεςʔδͳධՁ ༩͑ΒΕͨσʔλʹಛԽ͗ͨ͢͠ϞσϧΛ࡞Βͤͳ͍ɽ
 ϓϩάϥϜͷఏग़ظݶΛઃ͚ͯมߋෆՄͱͨ͠ޙͰIPMEPVUσʔλΛ ެ։͢Δܗࣜɽ 訓練データ テストデータ 「Validation」 テストデータ 「Holdout」 訓練ラベル

    ① 予測結果の提出 ③ 予測結果の提出 ② ソースコード提出
 提出後はモデル変更更禁⽌止 テスト事例例に特化した
 ルールやモデルを ⽤用意させない ࣌ܥྻ༧ଌͷΑ͏ͳςετσʔλΛ࢖Θͤͨ͘ͳ͍৔߹ɺ
 ςετࣄྫ͕গͳ͘Ξϊςʔγϣϯ͕༰қͰ͋Δ৔߹ͳͲʹద͍ͯ͠Δɽ 1st ステージ 2nd ステージ ⼈人⼿手でラベル付けて if ⽂文 10000 ⾏行行の解答は欲しくない
  23. ࠓ೔ͷ࿩ ஫ʣ ͜͜Ͱ͸OFVSPTDJFODF΍ڧԽֶशʹ͓͚Δಔ୩ΒͷNFUBMFBSOJOHͰ͸ͳ͘ɼ
 ݹయతͳؼೲֶशͷจ຺ʹ͓͚ΔNFUBMFBSOJOHΛࢦ͠·͢ɽ w ίϯςετͱ-FBEFSCPBSEͷϝΧχζϜ   w ϝλֶश

    4UBDLJOH /FUqJY#MFOEJOH FUDʜ    w ਂ૚ֶश $MBTTJpDBUJPO 4FHNFOUBUJPO  
  24. ग़ൃ఺Ϟσϧͷग़ྗΛಛ௃ྔͱͯ͠࢖͏ Ϟσϧͷग़ྗ݁ՌΛಛ௃ྔͱͯ͠࢖͏͜ͱΛߟ͑Δɽ Text 特徴量量 Numerical 特徴量量 Categorical 特徴量量 Prediction Prediction

    Logistic Regression Gradient Boosting ߴ࣍ϕΫτϧ͸ϩδεςΟοΫճؼͰʜ 
  25. ग़ൃ఺Ϟσϧͷग़ྗΛಛ௃ྔͱͯ͠࢖͏ Ϟσϧͷग़ྗ݁ՌΛಛ௃ྔͱͯ͠࢖͏͜ͱΛߟ͑Δɽ ܇࿅ࣄྫʹରͯ͠աֶशΛىͯ͜͠͠·͏ɽ
 લஈͷϞσϧ͕গ͠Ͱ΋܇࿅σʔλʹରͯ͠ա৒ͳࣝผڥքΛ࡞͍ͬͯ ΔͳΒ͹ɺͦͷ݁ՌΛ࣍ஈͷϞσϧ͕ߋʹա৒ʹֶशͯ͠͠·͏ɽ 㱺̍ͭ̍ͭͷࣄྫʹରԠ͢ΔϥϕϧΛ௚઀࢖Θͳ͍Α͏஫ҙΛ෷͏ Text 特徴量量 Numerical 特徴量量

    Categorical 特徴量量 Logistic Regression Prediction Gradient Boosting Prediction աֶशͯ͠͠·͍·͢
  26. 訓練事例例の
 特徴量量 ͓͞Β͍L෼ׂަࠩ֬ೝͰϞσϧΛධՁ Logistic Regression Prediction Part 1 Part 2

    Part 3 Part 4 Part 5 train test test ܇࿅ࣄྫΛL෼ׂ͢Δɽͭͷ෦෼Λʮ࢒ΓͷLͷ෦෼Ͱ༧ଌʯ͢Δɽ ࢒Γͷ1BSU   Λ࢖ͬͯ
 1BSUͷ໨ඪม਺Λ༧ଌ͢Δɽ
  27. 訓練事例例の
 特徴量量 ͓͞Β͍L෼ׂަࠩ֬ೝͰϞσϧΛධՁ Part 1 Part 2 Part 3 Part

    4 Part 5 train test test Logistic Regression Prediction ࢒Γͷ1BSU   Λ࢖ͬͯ
 1BSUͷ໨ඪม਺Λ༧ଌ͢Δɽ ܇࿅ࣄྫΛL෼ׂ͢Δɽͭͷ෦෼Λʮ࢒ΓͷLͷ෦෼Ͱ༧ଌʯ͢Δɽ
  28. 訓練事例例の
 特徴量量 ͓͞Β͍L෼ׂަࠩ֬ೝͰϞσϧΛධՁ LݸͷධՁͷฏۉΛͱΓɺ෼ׂʹภΓͷͳ͍ධՁͷݟੵ΋ΓΛಘΔɽ Logistic Regression Prediction Part 1 Part

    2 Part 3 Part 4 Part 5 Logistic Regression Prediction Logistic Regression Prediction Logistic Regression Prediction Logistic Regression Prediction -PH-PTT -PH-PTT -PH-PTT -PH-PTT -PH-PTT ฏۉͷ-PH-PTT test test test test test
  29. 訓練事例例の
 特徴量量 L෼ׂަࠩ֬ೝͷ༧ଌΛಛ௃ྔͱ͢Δ Logistic Regression Prediction Part 1 Part 2

    Part 3 Part 4 Part 5 Logistic Regression Prediction Logistic Regression Prediction Logistic Regression Prediction Logistic Regression Prediction この Prediction をメタ特徴量量として使う Ͱ͖ͨϝλಛ௃ྔ͸ݸʑͷࣄྫʹରԠ͢ΔϥϕϧΛ௚઀࢖͍ͬͯͳ͍ɽ
 ʢաֶशΛى͜͞ͳ͍ͱظ଴Ͱ͖Δʣ
  30. ςετࣄྫͷϝλಛ௃ྔ ςετࣄྫʹ͍ͭͯ΋ಉ༷ʹϝλಛ௃ྔΛ༻ҙ͢Δɽ 訓練事例例の
 特徴量量 Logistic Regression Prediction Part 1 Part

    2 Part 3 Part 4 Part 5 Logistic Regression Prediction Logistic Regression Prediction Logistic Regression Prediction Logistic Regression Prediction Logistic Regression Prediction train test テスト事例例の
 特徴量量
  31. ςετࣄྫͷϝλಛ௃ྔʢ޻෉ʣ ֤෼ׂͰ࡞੒ͨ͠Ϟσϧͷ1SFEJDUJPOͷฏۉΛ࢖͏͜ͱ΋Ͱ͖Δɽ 訓練事例例の
 特徴量量 Logistic Regression Prediction Part 1 Part

    2 Part 3 Part 4 Part 5 Logistic Regression Prediction Logistic Regression Prediction Logistic Regression Prediction Logistic Regression Prediction テスト事例例の
 特徴量量 Prediction test NN モデルや early stopping など 収束判断が必要なモデルで有⽤用 Averaging
  32. 4UBDLJOH 4UBDLFE(FOFSBMJ[BUJPO ༷ʑͳϞσϧͰ࡞੒ͨ͠ϝλಛ௃ྔΛूΊɼಛ௃ྔηοτΛߏ੒͢Δɽ Prediction Prediction Prediction Prediction Prediction Prediction Prediction

    Prediction Prediction Prediction Prediction Prediction Prediction Prediction Prediction Prediction Prediction Prediction Model 1 Model 2 Model p ……… X =
  33. 4UBDLJOH 4UBDLFE(FOFSBMJ[BUJPO ϝλಛ௃ྔΛ࢖͍ϞσϧΛֶश͠ɼςετࣄྫͷ໨ඪม਺Λ༧ଌ͢Δɽ 訓練事例例の
 メタ特徴量量セット テスト事例例の
 メタ特徴量量セット Logistic Regression train

    test Prediction
  34. 4UBDLJOH 4UBDLFE(FOFSBMJ[BUJPO ϝλಛ௃ྔ͔Βߋʹϝλͳಛ௃ྔΛ࡞੒͠ɼଟ૚Խ͢Δ͜ͱ΋Ͱ͖Δɽ 訓練事例例の
 メタ特徴量量 テスト事例例の
 メタ特徴量量 Logistic Regression Prediction

    Part 1 Part 2 Part 3 Part 4 Part 5 Logistic Regression Logistic Regression Logistic Regression Logistic Regression Logistic Regression Prediction Prediction Prediction Prediction Prediction Prediction test test test test test test
  35. 4UBDLJOHΛ࢖͏࣌ͷ஫ҙ఺ w 4UBDLJOHʹ࢖͏ϞσϧͷEJWFSTJUZΛ૿΍͢ͱޮՌతɽ w (SBEJFOUCPPTUJOH΍/FVSBMOFUXPSLϞσϧͷଞʹ΋ -PHJTUJDSFHSFTTJPO΍L/FBSFTU/FJHICPSͳͲ΋ࢼ͢ w ҟͳΔಛ௃ྔηοτɺҟͳΔύϥϝʔλɺҟͳΔࣄྫू߹ͳͲͳ Ͳʜ w

    1VCMJD-#ʹPWFSpU͠ͳ͍Α͏ؾΛ͚ͭΔɽ w ಛʹςετࣄྫ͕গͳ͍৔߹͸ަࠩ֬ೝ $7 ͷείΞΛ৴͡Δ w ํ๏ʹ໰୊͕ͳ͚Ε͹$7TDPSFͱ1VCMJD-#͸ઢܗͷؔ܎ʹ ͳΔɽͳΒͳ͚Ε͹ݪҼ͕Ͳ͜ʹ͋Δͷ͔ߟ͑Δɽ
  36. ໨ඪม਺Λ࢖ͬͨಛ௃ྔͷΤϯίʔσΟϯά 4UBDLJOHʹؔ࿈͢Δ࿩୊ͱͯ͠ɼ໨ඪม਺Λ࢖ͬͨಛ௃ྔͷΤϯίʔ σΟϯάํ๏͕͋Δɽ4UBDLJOHͱಉ༷ʹ̍ͭ̍ͭͷࣄྫʹରԠ͢Δ ϥϕϧΛʢ෼ׂͷதͰʣ௚઀࢖Θͳ͍Α͏஫ҙΛ෷͏ɽ ෼ׂ*% ΧςΰϦΧϧม਺ ໨ඪม਺ Τϯίʔυ 1 エコノミー

    3 (1+4) / 2 = 2.5 1 ビジネス 10 (9 + 8) / 2 = 8.5 1 ビジネス 11 (9 + 8) / 2 = 8.5 1 エコノミー 4 (1+4) / 2 = 2.5 2 エコノミー 1 (3+4) / 2 = 3.5 2 エコノミー 4 (3+4) / 2 = 3.5 2 ビジネス 9 (10+11) / 2 = 10.5 2 ビジネス 8 (10+11) / 2 = 10.5 ෼ׂҎ֎ͷ෦෼͔Β
 ΧςΰϦΧϧม਺͕ಉ஋Ͱ͋Δࣄྫͷ
 ໨ඪม਺ͷฏۉͰΤϯίʔυ
  37. /FUqJY#MFOEJOH<5ÖTDIFS+BISFS> ಛघͳࣄྫɿ1VCMJD-#ͷείΞΛώϯτͱͯ͠Ξϯαϯϒϧ͢Δख๏ ৆ۚ. ໿ສԁ ͷ/FUqJY1SJ[Fʹ͓͚Δ༏উऀͷख๏ɽ
 ʮΞϯαϯϒϧΛ-FBEFSCPBSEείΞΛ࢖ͬͨઢܗճؼʹؼணͤͨ͞ʯ

  38. /FUqJY#MFOEJOH<5ÖTDIFS+BISFS> ໰୊ɿ3.4&ΛධՁࢦඪͱͨ͠༧ଌ໰୊ͷΞϯαϯϒϧΛߟ͑Δɻ ΰʔϧ͸ݸʑͷϞσϧͷग़ྗ͢Δ༧ଌ஋ͷઢܗճؼʹΑΓ
 ਅͷ஋ʹ͍ۙϕΫτϧΛಘΔ͜ͱɽ yi 2 RN y 2 RN

    /YQߦྻ
 /ςετࣄྫɼQݸͷϞσϧͷ༧ଌΛ݁߹ͨ͠ߦྻ ਅͷ஋ʢະ؍ଌʣ yi 2 RN
  39. /FUqJY#MFOEJOH<5ÖTDIFS+BISFS> /YQߦྻ
 /ςετࣄྫɼQݸͷϞσϧͷ༧ଌΛ݁߹ͨ͠ߦྻ ਅͷ஋ʢະ؍ଌʣ ΋͠Z͕ط஌Ͱ͋Ε͹ɼਖ਼نํఔࣜΛ༻͍ͯಘΒΕΔ࠷খೋ৐๏ͷ ղʹΑͬͯճؼ܎਺Ќ͕ܭࢉͰ͖Δɽ ΰʔϧ͸ݸʑͷϞσϧͷग़ྗ͢Δ༧ଌ஋ͷઢܗճؼʹΑΓ
 ਅͷ஋ʹ͍ۙϕΫτϧΛಘΔ͜ͱɽ yi 2

    RN y 2 RN 線形回帰で真の値に近づける
  40. /FUqJY#MFOEJOH<5ÖTDIFS+BISFS> ΋͠Z͕ط஌Ͱ͋Ε͹ɼਖ਼نํఔࣜΛ༻͍ͯಘΒΕΔ࠷খೋ৐๏ͷ ղʹΑͬͯճؼ܎਺Ќ͕ܭࢉͰ͖Δɽ ϞσϧKͷ༧ଌͱZͷ಺ੵ ϞσϧKͷ༧ଌͱZͷ಺ੵ ۙࣅͰ͖Δ ʢ͢΂ͯͱ༧ଌͨ͠
 ͱ͖ͷ-#TDPSFʣ ਖ਼֬ʹܭࢉͰ͖Δ -#TDPSFͰۙࣅͰ͖Δ


    ʢ.4&ʹ/Λֻ͚Δʣ ͢΂ͯܭࢉՄೳઢܗճؼ͕ՄೳͱͳΔ˙
  41. ࠓ೔ͷ࿩ w ίϯςετͱ-FBEFSCPBSEͷϝΧχζϜ   w ϝλֶश 4UBDLJOH /FUqJY#MFOEJOH FUDʜ

       w ਂ૚ֶश $MBTTJpDBUJPO 4FHNFOUBUJPO   ը૾ͷ෼ྨλεΫͷίϯςετͰΑ͘࢖ΘΕΔجຊతͳٕज़ɼ ը૾ͷ4FHNFOUBUJPOλεΫͷίϯςετͰޮՌతͰ͋ͬͨ τϦοΩʔͳํ๏ͷ۩ମྫΛ঺հ
  42. ࠷ۙͷσʔλ෼ੳίϯςετͷ܏޲ w ίϯςετ্Ґʹਂ૚ֶशΛ࢖ͬͨղ๏͕૿͍͑ͯΔɽ w ͨͩ͠୯ʹ4P5"Λ࢖͑͹উͯΔͱ͍͏࿩ʹ͸ͳΒͳ͍ɽجຊతͳ͜ ͱ͸͢΂ͯͰ͖Δ͜ͱΛલఏͱͯ͠ɼσʔλλεΫධՁࢦඪʹద߹͢ Δख๏΍ಛผͳΞΠσΟΞΛબ୒͢Δ͜ͱ͕ܾΊखʹͳΔ͜ͱ͕ଟ͍ɽ ▲霧のかかった衛星画像が含まれるデータセットに
 対し霧を除去する⼿手法 [He+

    ’09] で正規化して学習 ▲ Squeeze-and-Excitation [Hu+ '17] を応⽤用した SE-ResNeXT での実験結果や実装の共有 http://blog.kaggle.com/2017/10/17/planet-understanding-the-amazon-from-space-1st-place-winners-interview/
  43. 画像のセグメンテーション (具体例例を紹介) 画像の分類類タスク (基礎的な技術を紹介)

  44. ը૾ͷΫϥε෼ྨϞσϧ $POWPMVUJPOΛ༻͍ͨ/FVSBMOFUXPSL // Ϟσϧ͕ఆ൪ͷख๏ɽ 7(( 3FT/FU %FOTF/FUͳͲ༷ʑͳόϦΤʔγϣϯ͕ఏҊ͞Εͯ ͍Δɽ େ͖ͳ//Ϟσϧ͸ͦΕ͚ͩදݱྗ΋ߴ͘ɼϞσϧύϥϝʔλ͸਺ඦສͷ
 ϨϕϧͰେ͖͘ͳΔɽύϥϝʔλͷ਺ΑΓֶशσʔληοτͷ΄͏͕খ͍͞ͱ


    ؆୯ʹPWFSpUͯ͠͠·͏͜ͱ͕஌ΒΕ͍ͯΔɽ
  45. 5SBOTGFS-FBSOJOH pOFUVOJOH 画像出典: http://cs231n.stanford.edu/slides/2017/cs231n_2017_lecture7.pdf ֶशσʔλ͕খ͍͞ͳΒผͷେن໛σʔληοτͰֶशࡁΈϞσϧ QSF USBJOFENPEFM ͷಛ௃ύλʔϯΛྲྀ༻͢Δɻ ղ͘ର৅ͷσʔληοτ͕খن໛Ͱ͋Ε͹ޮՌతͳํ๏ʢ˞ͨͩ͠ಉ༷ ͷಛ௃ύλʔϯΛ༗͢Δʣ

    ύλʔϯ͕ࣦΘΕͯ
 ͠·Θͳ͍Α͏ʹɺ
 ϨΠϠʔ͝ͱʹֶश཰ Λม͑ΔͳͲඍௐ੔ ここを置き換えて
 クラス数を合わせる パラメータを固定 初期化して学習 パラメータを固定 σʔληοτ͕େ͖ ͍ͳΒॳظԽ͢Δ
 ϨΠϠʔΛ૿΍͢ ֶशࡁΈͷϞσϧ͸ ༷ʑͳ։ൃऀ͕ެ։ ͍ͯ͠Δɻ
  46. 5SBOTGFS-FBSOJOH pOFUVOJOH 画像出典: http://cs231n.stanford.edu/slides/2017/cs231n_2017_lecture7.pdf ֶशσʔλ͕খ͍͞ͳΒผͷେن໛σʔληοτͰֶशࡁΈϞσϧ QSF USBJOFENPEFM ͷಛ௃ύλʔϯΛྲྀ༻͢Δɻ ղ͘ର৅ͷσʔληοτ͕খن໛Ͱ͋Ε͹ޮՌతͳํ๏ʢ˞ͨͩ͠ಉ༷ ͷಛ௃ύλʔϯΛ༗͢Δʣ

    ύλʔϯ͕ࣦΘΕͯ
 ͠·Θͳ͍Α͏ʹɺ
 ϨΠϠʔ͝ͱʹֶश཰ Λม͑ΔͳͲඍௐ੔ ここを置き換えて
 クラス数を合わせる パラメータを固定 初期化して学習 パラメータを固定 σʔληοτ͕େ͖ ͍ͳΒॳظԽ͢Δ
 ϨΠϠʔΛ૿΍͢ ֶशࡁΈͷϞσϧ͸ ༷ʑͳ։ൃऀ͕ެ։ ͍ͯ͠Δɻ エッジなど既に獲得できているパターンが失われないように
 ⼩小さな学習率を設定する
  47. %BUB"VHNFOUBUJPO 0WFSpUUJOHΛආ͚ΔͨΊͷผͷํ๏ͱͯ͠ɺೖྗը૾ʹਓ޻తͳ
 มܗΛ΄Ͳͯ͜͠܇࿅σʔληοτΛେ͖͘͢Δͱ͍͏ํ๏͕
 Ұൠతʹ࢖ΘΕ͍ͯΔɽ 画像出典:http://ultraist.hatenablog.com/entry/2015/03/20/121031 データサイズが膨⼤大になるので、バッチ作成時に CPU で
 ランダムをいれながら変形することが効率的 (Real-time

    Data Augmentation)。 今は特に “Real-time” と書かなくても “Real-time” であることが多い。 ・画像から⼀一部を切り取り ・⽔水平⽅方向の flip ・回転 ・拡⼤大・縮⼩小 ・etc…
  48. 5FTU5JNF"VHNFOUBUJPO 55" ܇࿅σʔλΛ֦ு͢Δ͚ͩͰͳ͘ɺςετը૾΋֦ு͢Δ͜ͱ͕Ͱ͖Δɻ
 ςετࣄྫΛ֦ுͯ͠ಘͨ༧ଌ݁ՌͷฏۉΛ࢖͏ɻ テスト画像を増幅する
 それぞれの予測結果を計算する 元が同じ画像の予測結果の
 平均を答えとする Ξϯαϯϒϧʹ͍ۙൃ૝ͳͷͰɺΞϯαϯϒϧͱվળ෦෼Λ৯͍߹͏͔ ΋͠Εͳ͍ɻͨͩ͠ܦݧతʹ͸Ξϯαϯϒϧͱ྆ํ΍ͬͨ΄͏͕ྑ͍ɻ

  49. 1TFVEP-BCFMJOH 4FMGUSBJOJOH ൒ڭࢣ͋ΓֶशͷҰͭɻ,BHHMFͰ͸1TFVEPMBCFMJOHͱΑ͘ݺ͹Εͯ ͍Δɻʮ༧ଌͨ͠ςετσʔλͷҰ෦ʯΛֶशσʔλͱͯ͠௥Ճ͢Δɻ ΍Γ͗͢ΔͱʮϥϕϧϊΠζΛ૿෯ͯ͠͠·͏ʯͨΊɺ
 )JHIDPOpEFODFͳࣄྫ͔ΒҰ෦͚ͩΛར༻͢Δͷ͕Ұൠతͳํ਑ɻ すーど Algorithm (Pseudo-Labeling): 

    ϥϕϧ͋Γσʔλ͔ΒΛֶश  ϥϕϧͳ͠ࣄྫΛͰ༧ଌ  Λϥϕϧ͋Γσʔλʹ௥Ճɽ
 ͜Ε͸Ұ౓ʹ෦෼ू߹Λ௥Ճͯ͠΋ྑ͍ɽ  ͘Γฦ͠ f x 2 Xu (Xl, yl) ( x, f ( x )) f
  50. 画像のセグメンテーション (具体例例を紹介) 画像の分類類タスク (基礎的な技術を紹介)

  51. 4FNBOUJD4FHNFOUBUJPOϞσϧ ը૾͔ΒϐΫηϧ୯ҐͰͷ෼ྨΛߦ͏Ϟσϧɻ'VMMZ$POOFDUFE -BZFSΛ࣋ͨͳ͍'VMMZ$POWPMVUJPOBM/FUXPSL '$/ ͰϞσϧΛ ߏ੒͢Δ͜ͱ͕Ұൠతɻ ఆ൪ͱͯ͠4FH/FU<#BESJOBSBZBOBO `>ɺ6/FU<3POOFCFSHFS `> ͕͋Δɻ྆ऀ͸CZQBTTͷํ๏͕ҟͳΔ͕ɺ΄΅ಉ͡΋ͷɻ


    ηάϝϯςʔγϣϯ͸গྔͷϥϕϧσʔλͰ΋&OEUPFOEͳ'$/ʹΑͬ ͯ༏Εͨ݁Ռ͕ಘΒΕΔ͜ͱ͕஌ΒΕ͍ͯΔɻ
  52. 4FHNFOUBUJPOΛಓ۩ͱͯ͠࢖͏ /0""3JHIU8IBMF$MBTTJpDBUJPO ˞೥લͷ4FH/FU࿦จҎલ 
 ˠΫϥε෼ྨɻΫδϥ಄෦ݕग़$//ˠΫδϥ෼ྨ$// 4UBUF'BSN%JTUSBDUFE%SJWFS%FUFDUJPO  
 ଟΫϥε෼ྨɻ
 ӡసखݕग़'$/

    4FH/FU ˠةݥӡస෼ྨ$// /0""4FB-JPO$PVOUJOH  
 τυͷ਺্͑͛ɻ
 τυݕग़'$/ 6/FU ˠ
 ਺্͑͛3JEHF3FHSFTTJPO Input Target Prediction 画像出典:https://twitter.com/toshi_k_datasci/status/760795285807247360 https://www.kaggle.com/c/noaa-fisheries-steller-sea-lion-population-count/discussion/35422
  53. $SB[Z %BUB"VHNFOUBUJPO ͋ΒΏΔࢼߦࡨޡͰޮՌݕূΛߦ͍ɺ
 ࠷ߴͷϞσϧΛ௥ٻ͢Δɻ
 ࣌ʹ͸ΫϨΠδʔͳ͜ͱ΋ࢼ͢ɻ 標札を⾃自動で貼り付けて学習データを拡張 標札・⾃自転⾞車車を追加して拡張する 出典:https://deepsystems.ai/en/works/deeplearning/road-scene-recognition 空 道路路

    ⾞車車 標識 ΞΠσΟΞͱͯ͠໘ന͍ͷͰ঺հ
  54. 4QBDF/FU$IBMMFOHF എܠɿӴ੕ը૾͔Β஍ਤ࡞੒ʢݐ෺ͷݕग़ʣͷࣗಈԽΛߦ͏
 λεΫɿ4FNBOUJD*OTUBODF4FHNFOUBUJPO
 ධՁࢦඪɿݐ෺ϙϦΰϯͷඃ෴཰Ҏ্Λ51ͱͨ͠'TDPSF ⼊入⼒力力 出⼒力力 建物ごとの評価 被覆率 50% 以上を

    TP:
 (A ∩ B) / (A ∪ B) > 0.5 Ground truth Prediction
  55. ʮখ͞ͳݐ෺ʯͷ'BMTF1PTJUJWF 少しのエラーで被覆率が 0.5 を切るので困難 6/FUͰ4FHNFOUBUJPOͯ͠࿈݁੒෼ΛΠϯελϯεͱͨ͠ɻ
 σʔλͱ༧ଌ݁ՌΛ͠͹Β͘؍࡯͍ͯ͠Δͱɺ
 ʮখ͞ͳݐ෺ʯͷ'1ʹΑͬͯ1SFDJTJPO͕ۃ୺ʹѱ͍ɻ

  56. খ͍͞ΦϒδΣΫτΛ੾ΓࣺͯΔ F-Score を最⼤大とする PR トレードオフを⾒見見つける しきい値で FP が⼤大きく減る ʮখ͍͞ΦϒδΣΫτΛ੾ΓࣺͯΔʯώϡʔϦεςΟΫεΛ࣮૷ɻ ໘ੵΛ͖͍͠஋ͱͯ͠SFDBMMQSFDJTJPOͷτϨʔυΦϑΛௐ੔͢Δɻ

    ᮢ஋͸WBMJEBUJPOTFU͔Βܾఆ͢Δɻ しきい値 F-スコア Precision Recall FP TP Recall Precision F-score ˠ'TDPSF΄Ͳͷେ͖ͳվળ 難しい事例例がなくなるので
 Precision は上がる TP が減るので
 Recall は下がる
  57. ֎෦ϦιʔεΛ࢖ͬͨվળ 0QFO4USFFU.BQ 04. ͔Β౎ࢢશମͷϙϦΰϯΛऔΓग़͢ɻ
 Ӵ੕ը૾DIBOOFMT 04.DIBOOFMTͷ߹ܭDIBOOFMTΛ 6/FUͷೖྗͱ͢Δɻݐ෺ͷܗ͸ॅ୐۠ըͱ޻ۀ۠ըͰҟͳΔͷͰ ༗༻Ͱ͋Δͱظ଴Ͱ͖Δɻ ˠ'TDPSF΄Ͳͷେ͖ͳվળ このチャンネルを

    U-Net の⼊入⼒力力に追加
  58. Ξϯαϯϒϧ খ͍͞ΦϒδΣΫτʹର͢Δᮢ஋ʹΑΔվળ͕େ͖͘ɺ
 ୯ମͷϞσϧͰҐ૬౰ͷείΞɻ
 Ճ͑ͯ04.ͱΞϯαϯϒϧͰҐͱͷࠩΛ·Ͱ޿͛ͨɻ +OSM Ensemble RGB+M
 x0.39
 scale RGB+M


    x1.0
 scale 2nd place 3rd place 4th place ηάϝϯςʔγϣϯϞσϧ͸ඇৗʹύϥϝʔλ͕ෆ҆ఆͳͷͰɺ
 ܦݧతʹ΋Ξϯαϯϒϧ΍#BHHJOH͕ޮՌతͰ͋Δ͜ͱ͕ଟ͍ɻ
  59. ݁Ռ෼ੳ ਂ૚ֶश Ґ WTΤοδݕग़ϕʔεͷΞϧΰϦζϜ Ґ Ґ  *P6είΞͷ෼෍Λൺֱɽ 切り出した
 オブジェクトの数

    オブジェクトの IoU スコア (⾼高いほど良い) IoU が全体的に 10% ほど⾼高い.個々の Instance の形を正確に切り出せている. 画像出典:https://medium.com/the-downlinq/2nd-spacenet-competition-winners-code-release-c7473eea7c11
  60. ؔ࿈ݚڀ ίϯςετऴྃ௚લʹ0/&3" ϑϥϯεࠃཱߤۭӉ஦ݚڀॴ ͷ
 ݚڀһ͔Βಉ͡ΞΠσΟΞΛݩʹͨ͠࿦จ͕ग़ͨɻ'VTF/FUΛ࢖͏ ͷͰࢲͷํ๏ΑΓϞσϧύϥϝʔλ͕গͳֶ͘शޮ཰͕ྑͦ͞͏ɻ 出典: http://www.onera.fr/en/staff/bertrand-le-saux 'VTF/FU )B[JSCBT

    ` ͸FMFNFOUXJTF
 TVNNBUJPOͰ࣮૷͞ΕΔ'VTJPO-BZFSΛ
 1PPMJOHͷલʹૠೖͯ͠ෳ਺ͷCSBODIʹ͓͚Δ
 GFBUVSFNBQΛ߹੒͢Δํ๏ɻ
  61. ࠷ޙͷεϥΠυɿίϝϯτ ࠓ೔ͷൃදͰ͸ɼ
 ʮίϯςετͱ-FBEFSCPBSEͷϝΧχζϜʯɼ
 ίϯςετͰ޿͘࢖ΘΕΔʮϝλֶशʯʮਂ૚ֶशʯͷ঺հΛͨ͠ɽ σʔλ෼ੳίϯςετʹ͸՝୊΋͋Δ͕ɼ
 ओ࠵αΠυ΋ѱ͍ͱ͜Ζ͸վળ͠ਐԽ͠ଓ͚͍ͯΔɽ ίϯςετ͸༷ʑͳΞϧΰϦζϜ΍࠷৽ͷݚڀͷSFQSPEVDJCJMJUZΛ ௐ΂ɼֶͿͨΊͷͱͯ΋ྑ͍෣୆ɽੋඇࢀՃָͯ͠͠ΜͰ΄͍͠ɽ

  62. ෇࿥ɿࢀߟจݙ  1. [Blum & Hardt '15] "The Ladder: A

    Reliable Leaderboard for Machine Learning Competitions", In Proc. of the ICML '15. https://arxiv.org/abs/ 1502.04585 2. [Hardt '17] "Climbing a shaky ladder: Better adaptive risk estimation", https://arxiv.org/abs/1706.02733 3. [Töscher & Jahrer '09] "The BigChaos Solution to the Netflix Grand Prize", http://www.netflixprize.com/assets/GrandPrize2009_BPC_BigChaos.pdf 4. [Wang & Yang '17] "Diabetic Retinopathy Detection via Deep Convolutional Networks for Discriminative Localization and Visual Explanation", https:// arxiv.org/abs/1703.10757, 5. [Audebert+ '17] "Joint Learning from Earth Observation and OpenStreetMap Data to Get Faster Better Semantic Maps" In Proc. of EARTHVISION 2017 IEEE/ISPRS CVPR Workshop, https://arxiv.org/abs/1705.06057 6. [Hazirbas+ '16] "FuseNet: incorporating depth into semantic segmentation via fusion-based CNN architecture", In Proc of Asian Conference on Computer Vision 2016.
  63. ෇࿥ɿࢀߟจݙ  7. [Hu+ ’17] “Squeeze-and-Excitation Networks”, In Proc. of

    the CVPR ’17. https://arxiv.org/abs/1709.01507 8. [He+ ’09] “Single Image Haze Removal”, In Proc. of the CVPR ’09. http://kaiminghe.com/cvpr09/