Save 37% off PRO during our Black Friday Sale! »

Kaggleの魅力と取り組み方 / Attractiveness and Approach of Kaggle

B1cc148711c6a37a5c922b6e72a4ad52?s=47 u++
September 29, 2021

Kaggleの魅力と取り組み方 / Attractiveness and Approach of Kaggle

Kaggle Masterが語る【9/29ワークショップ】初心者のためのKaggle入門
https://widshiroshima.connpass.com/event/223319/

B1cc148711c6a37a5c922b6e72a4ad52?s=128

u++

September 29, 2021
Tweet

Transcript

  1. Kaggleの魅力と取り組み方 WiDS Hiroshima ワークショップ「Kaggle入門」 2021年9月29日 石原、松本

  2. 本発表の概要 • Kaggleの魅力・体験談 ◦ WiDS Datathon 2020 体験談(14位 / 951チーム1479人参加)

    ◦ 担当:松本 • Kaggleへの取り組み方 ◦ 新しいコンペに参加するとき何を考えているか ◦ 担当:石原 => ゴール:Kaggleデータソン「広島フード×需要予測」参加のモチベーションを高めても らう
  3. 自己紹介 • 石原祥太郎(日本経済新聞社) ◦ Kaggleでは「PetFinder.my Adoption Prediction」優勝、「WiDS Datathon 2020」14位など ◦

    共著に『PythonではじめるKaggleスタートブック』(講談社)、訳書に『 Kaggle Grandmasterに学ぶ 機 械学習 実践アプローチ』(マイナビ出版) ◦ 国際ニュースメディア協会「 30 Under 30 Awards」でアジア太平洋部門の最優秀賞( 2020年) • 松本麻見(オムロンヘルスケア株式会社) ◦ Kaggleコンペ「WiDS Datathon 2020」に石原氏と参加し14位など ◦ 医療機器メーカーの R&D部門に勤務し、新規サービス・アルゴリズム開発に従事 ◦ 最近はリーガルテック系ベンチャーへ参画し、法務専門家向け AIサービスの製品開発を担当
  4. Kaggle挑戦のきっかけ • 業務でデータ解析を始めたけど、自分の実力ってどんなもの? • 解析手法のストックを増やしたい! • 解析のことを話せる仲間が欲しい!

  5. 挑戦したKaggleコンペ • LANL Earthquake Prediction(ほぼ初挑戦): ◦ 地震信号から地震発生のタイミングを予測 ◦ PublicデータとPrivateデータの分布に大きく乖離があり、その対処が解法の鍵に •

    WiDS Datathon 2020:14th ◦ 集中治療室患者のバイタルデータを使用して生存を予測 ◦ シンプルなコンペで、丁寧な前処理・アンサンブルするモデルの多様性が鍵に
  6. Kaggleの魅力 • 解析スキルの習得 ◦ 取り組みの中での試行錯誤 ◦ 上位陣の解法 ◦ 参加者同士のディスカッション •

    コーディング力の向上 ◦ 他参加者のNotebook(ソースコード) ◦ チームメンバーとの共同作業 • 自分の技術スキルの評価指標 • 仲間が増える!
  7. これからKaggleに挑戦する方へ • コンペは長期戦。 まずは自分のペースで楽しみながら始めるのがおすすめです◎ • 参加するコンペ選びは非常に大事。   初めての方はテーブルデータコンペが参加しやすいです • Kaggleをきっかけに、ぜひ女性にもデータサイエンスに興味を持って欲しい ◦

    場所や時間を選ばない業務が多く、ライフステージに合った働き方がしやすい ◦ コミュニケーション力・プレゼン力が活きる
  8. 2021年に参加した機械学習コンテスト(石原) • Kaggle「CommonLit Readability Prize」25位 • Nishika「判例の個人情報の自動マスキング」7位 • Solafune「夜間光データから土地価格を予測」6位 •

    「ACM WSDM Workshop on Web Tourism (WSDM Webtour'21)」6位 • 「SIGIR eCom'21 Data Challenge Purchase Intent Prediction」3位 • 「NLP若手の会 (YANS) 第16回シンポジウム ハッカソン」2位 • 「AI王 〜クイズAI日本一決定戦〜」5位
  9. • 取り組む問題に興味が持てるか? ◦ 「ドメイン知識」があると、コンペで有利に働くことも ◦ 今回のデータソンは、広島・食・需要予測などに縁がある人に特にオススメ? • 順位以外で得られるものがあるか? ◦ 楽しい、勉強になる、知り合いが増える、など

    ◦ 最近はコンペ解法をまとめた論文を書く機会も ▪ WSDM Webtour'21 や eCom'21 Data Challenge 参加する上で意識している点
  10. ドメイン知識が有利に働いた例① • 優勝したKaggle「PetFinder」コンペ ◦ ペットショップの犬や猫の引き取り手が見つかる速度を、写 真・説明文・品種などの情報から予測 • 予測に効果的な特徴量を与えられたデータからど のように取り出すかが鍵に💡 ◦

    実際に猫カフェにも行ってアイディアを獲得 ◦ 複数の写真から特徴量を抽出 ◦ 写真の魅力度を計算 ◦ 名前の文字列長(呼びやすさ) https://speakerdeck.com/upura/kaggle-petfinder-2nd-place-solution https://www.kaggle.com/c/petfinder-adoption-prediction/discussion/88773
  11. ドメイン知識が有利に働いた例② • Booking.com が課題を提供した「WSDM Webtour'21」コンペ ◦ 実際の宿泊予約に基づくデータセットが与えられ、ユーザの次の目的地を予測する課題 • 例「東京→神奈川→愛知→京都→奈良」という旅程を考える ◦

    🤔「東京出発ではなく奈良出発のパターンもあるのでは?」 ◦ 🤔「愛知までで止まるパターンもあるのでは?」 ◦ データセットを水増しすることで、性能向上に貢献 ◦ 優勝チームも同様の取り組みをしていた https://developer.nvidia.com/blog/how-to-build-a-winning-deep-learning-powered-recommender-system-part-3/
  12. 今回のデータソンに参加するなら? • データセットを眺めながら、方針を決める • 過去の類似のコンペも参考に ◦ 課題はテーブル形式のデータセットを用いた時系列要素ありの需要予測 ◦ 昨年Kaggleでウォルマートが開催した「 M5

    Forecasting - Accuracy」 ◦ 6年前にも「Rossmann Store Sales」が開催されており、頻出の題材
  13. まとめ • Kaggleの魅力・体験談 ◦ WiDS Datathon 2020 体験談(14位 / 951チーム1479人参加)

    ◦ 担当:松本 • Kaggleへの取り組み方 ◦ 新しいコンペに参加するとき何を考えているか ◦ 担当:石原 => ゴール:Kaggleデータソン「広島フード×需要予測」参加のモチベーションを高めても らう
  14. ここに松本さんパート • なぜKaggleに挑戦しようと思った? • 挑戦したコンペ ◦ チームを組むきっかけとなった「 LANL Earthquake Prediction」の話もした方が良いかもです

    ◦ WiDS Datathon 2020 をどこまで具体的に話すと良いかは悩み中(記憶もおぼろげ) • Kaggleで得られたこと • 新規参加者へのメッセージ ◦ もし女性向けに特に何かあれば是非