Kaggleのことをそもそも知らないという方に向けて、 ・Kaggleとはそもそも何なのか? ・何が楽しいのか? ・どんな意味があるのか? について話しました。
(非エンジニアも参加する社内LTで使った資料を、社内向けの項目を削除してアップロードしています)
結局、Kagglerは何を必死にやっているのか?鈴木 天音 @SakuEji
View Slide
自己紹介鈴木天音(すずき あまね)● Twitter: @SakuEji● Kaggle Master(Kaggle歴2年弱)● 最近ブログがプチバズするようになって嬉しい
「Kagglerと一緒になにかできるかも?」と思ってもらうこのLTのゴール
Kaggleってなに?
Kaggleってなに?データ分析の世界大会です学会企業世界中のデータサイエンティストたち出題参加
何を競っているの?与えられたお題を、どれだけ正確に予測できるかです画像+名前性別年齢説明健康状態動画の有無︙どれだけ早く引き取り手が現れる?
予測精度でランキングが付きます
参加者はどれくらい?問題の面白さと取り組み易さによって200人〜10000人くらいですTitanic11000人Home Credit7200人iMet500人Jigsaw3000人画像は人数少なめ(計算資源が必要)自然言語処理は数千人テーブルデータはたくさん!< < <
上位にはメダルや賞金が与えられます参加人数によりますが、だいたいのイメージはこれくらいトップ 3トップ 10上位 5 %上位 10 %
何度も上位を取るとランクが上がりますMasterとかGrandmasterとか言ってるのはこれ本人確認Novice60000人Contributor50000人Expert4500人Master1200人Grandmaster150人うち1枚はチームを組まず取る必要あり!「Kaggleやってます」がそのままプラスに働くのはこのへんのイメージ
で、結局何が楽しいの?個人的には2種類あると思っています世界と戦って実力を磨くネットゲーム的な楽しさ普段扱ったことのないデータに触れ知的好奇心をくすぐられる楽しさ
Kaggleの出題事例
クレジットカードの貸し倒れ予測(信用スコア)
天体の光り方から現象を予測
美術品のタグ付け(文化・モチーフ)
犬の画像を生成
仕事にもいいことがあるよ!● 幅広いタスクに対して素早く一定の成果を出せる○ 日頃からいろいろなデータに触れているのでビビらない○ 仮説検証のサイクルを高速で回すスキルが身についている○ Kaggleで書いたコードを業務で再利用できる● 解こうとしている課題が筋が良いか、なんとなく分かる○ 「それはAIでもきついです><」○ 「こういう問題に落としたら解けるかも!」○ 「モデル改善するよりも他にやることあると思います」
Kagglerだからって得意とは限らないこと● 作ったモデルを保守運用していくこと○ Kaggleで鍛えられるのは探索的な分析+モデリングの部分○ 運用のスペシャリストと組んで動くのがスムーズ○ もちろんKagglerの中でもこちらのスキルを伸ばしている人はいる● きれいなコードを書くこと○ Kaggleから入った人はチーム開発経験が少ないことも○ Kaggleのコードをレビューする文化はあまりない
FAQ
Q.予め必要な知識は?A.Pythonが読み書きできるとスムーズその他は追々で大丈夫だと思います
Q.超ハイスペックなPCがいるんじゃないの?A.ガチ勢はクラウド計算環境を借りてますが、最初はみなさんの持ってるPCで大丈夫です
Q.Kaggleできるからって実際の業務ができるとは限らないよね?A.データサイエンスのコアスキルのひとつを担保してると思って欲しいです
おわりに
Kaggleやってみたいんだけど!1. いますぐKaggleアカウントを作りましょう○ https://www.kaggle.com/2. Slackコミュニティ kaggler-ja に入りましょう○ 初心者質問用のチャンネル #beginners-help もあるので気軽にどうぞ!○ http://kaggler-ja.herokuapp.com/
Kaggleじゃなくても、Kagglerと一緒になにかやりましょう!