Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Kaggle入門 Part1

Kaggle入門 Part1

More Decks by NearMeの技術発表資料です

Other Decks in Technology

Transcript

  1. 1 Kaggleとは • 2010年に米国でスタートしたデータ分析コンペのプラットフォーム ◦ スローガンは「Making Data Science a Sport」であり、コンスタントに10前後の

    コンペが開催されている • 1回のコンペ期間は3ヶ月ほどで、評価指標に基づいてリアルタイムで順位付けされる ◦ コンペはソロでもチームでも参加できる ◦ 最終順位が,上位10%でBronzeメダル,5%でSilverメダル,Top12位以内でGoldメダル ◦ Bronze2つでExpert,Gold1つSilver2つでMaster,Gold5つ(ソロ1つ以上)でGrandmaster • コンペの種類 ◦ テーブルデータ,画像処理,言語処理,音声処理 ◦ 数理最適化コンペ(毎年年末に開催) ◦ 強化学習コンペ
  2. 2 今回挑戦するコンテスト • Spaceship Titanic(https://www.kaggle.com/competitions/spaceship-titanic/overview) ◦ チュートリアル的なコンテスト(有名なチュートリアルコンテストTitanicのVersion2) ◦ 期限はなく,常時開催されている ◦

    約2200チーム(計2400人ほど)が参加している(2022年11月時点) • コンテストの概要 ◦ 事故が起きた宇宙船に乗っていた乗客単位のデータ(年齢,目的地,座席,etc)から、 その乗客が別次元にとばされたかどうかを分類するテーブルデータ形式の2値分類 • コンテストのポイント ◦ 欠損値埋め ◦ 説明変数の選択 ◦ アルゴリズムの選択 ◦ ハイパーパラメータチューニング 今回のコード ➡ https://github.com/kakky-hacker/kaggle-code/blob/main/spaceship-titanic/main.ipynb
  3. 3 データの前処理 • 欠損値埋め ◦ 平均:年齢などの比較的均等に散らばっているデータ ◦ 中央値:年収などの偏りがあるデータ ◦ 前後の値:時系列などの順序があるデータ

    • カテゴリ変数の変換 ◦ ワンホットエンコーディング ◦ ラベルエンコーディング ◦ カウントエンコーディング ◦ ターゲットエンコーディング • 説明変数の選択 ◦ 重要度が低い説明変数は削除した方が精度が上がる場合がある
  4. 4 検証方法 • 検証が大事な理由 ◦ 学習不足にはならない程度に学習しながらも,過学習を防ぐ範囲で学習を止める,チュー ニングするため • 検証方法 ◦

    ホールドアウト法 ▪ データを学習データと検証データに一定比率で分割する ◦ クロスバリデーション ▪ データ全体をいくつかのブロックに分割して,内1つを検証データ,それ以外を学習デー タとすることを全てのブロックが検証データに使われるまで繰り返す ◦ ジャックナイフ法 ▪ クロスバリデーションにおいて,データの行数とブロックの数が等しくなるようにすること (各ブロックに含まれるデータ数=1となる)