Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Kaggle入門 Part1

Kaggle入門 Part1

More Decks by NearMeの技術発表資料です

Other Decks in Technology

Transcript

  1. 0
    Kaggle入門 Part1
    2022-11-11 第20回NearMe技術勉強会
    Takuma Kakinoue

    View full-size slide

  2. 1
    Kaggleとは
    ● 2010年に米国でスタートしたデータ分析コンペのプラットフォーム
    ○ スローガンは「Making Data Science a Sport」であり、コンスタントに10前後の
    コンペが開催されている
    ● 1回のコンペ期間は3ヶ月ほどで、評価指標に基づいてリアルタイムで順位付けされる
    ○ コンペはソロでもチームでも参加できる
    ○ 最終順位が,上位10%でBronzeメダル,5%でSilverメダル,Top12位以内でGoldメダル
    ○ Bronze2つでExpert,Gold1つSilver2つでMaster,Gold5つ(ソロ1つ以上)でGrandmaster
    ● コンペの種類
    ○ テーブルデータ,画像処理,言語処理,音声処理
    ○ 数理最適化コンペ(毎年年末に開催)
    ○ 強化学習コンペ

    View full-size slide

  3. 2
    今回挑戦するコンテスト
    ● Spaceship Titanic(https://www.kaggle.com/competitions/spaceship-titanic/overview)
    ○ チュートリアル的なコンテスト(有名なチュートリアルコンテストTitanicのVersion2)
    ○ 期限はなく,常時開催されている
    ○ 約2200チーム(計2400人ほど)が参加している(2022年11月時点)
    ● コンテストの概要
    ○ 事故が起きた宇宙船に乗っていた乗客単位のデータ(年齢,目的地,座席,etc)から、
    その乗客が別次元にとばされたかどうかを分類するテーブルデータ形式の2値分類
    ● コンテストのポイント
    ○ 欠損値埋め
    ○ 説明変数の選択
    ○ アルゴリズムの選択
    ○ ハイパーパラメータチューニング
    今回のコード ➡ https://github.com/kakky-hacker/kaggle-code/blob/main/spaceship-titanic/main.ipynb

    View full-size slide

  4. 3
    データの前処理
    ● 欠損値埋め
    ○ 平均:年齢などの比較的均等に散らばっているデータ
    ○ 中央値:年収などの偏りがあるデータ
    ○ 前後の値:時系列などの順序があるデータ
    ● カテゴリ変数の変換
    ○ ワンホットエンコーディング
    ○ ラベルエンコーディング
    ○ カウントエンコーディング
    ○ ターゲットエンコーディング
    ● 説明変数の選択
    ○ 重要度が低い説明変数は削除した方が精度が上がる場合がある

    View full-size slide

  5. 4
    検証方法
    ● 検証が大事な理由
    ○ 学習不足にはならない程度に学習しながらも,過学習を防ぐ範囲で学習を止める,チュー
    ニングするため
    ● 検証方法
    ○ ホールドアウト法
    ■ データを学習データと検証データに一定比率で分割する
    ○ クロスバリデーション
    ■ データ全体をいくつかのブロックに分割して,内1つを検証データ,それ以外を学習デー
    タとすることを全てのブロックが検証データに使われるまで繰り返す
    ○ ジャックナイフ法
    ■ クロスバリデーションにおいて,データの行数とブロックの数が等しくなるようにすること
    (各ブロックに含まれるデータ数=1となる)

    View full-size slide

  6. 5
    ハイパーパラメータチューニング
    ● Optunaの導入(https://www.preferred.jp/ja/projects/optuna/)
    ○ PFNが開発したオープンソースのハイパーパラメータ自動最適化フレームワーク
    ○ チューニングするパラメータと評価指標を決めると,その評価指標を
    最大化(最小化)するパラメータを求める
    ○ Kaggleでは,少しの精度の差で順位が変わってくるので役立つかも

    View full-size slide

  7. 6
    参考文献
    ● Kaggle データ分析入門,篠田裕之,翔泳社,2020
    ● 機械学習デザインパターン,オライリージャパン,2021

    View full-size slide