Slide 1

Slide 1 text

Kaggleに置かれているデ置かれているデーかれているデータをデータをを 可視化するするデータを ksnt

Slide 2

Slide 2 text

自己紹介 ● PyCon mini Hiroshima スタをッフ ● はんなりPython 運営

Slide 3

Slide 3 text

kaggleとは? ● 2010年に米国でスターに置かれているデ米国でスタートしたでスタートしたデスタをートしたデータサイしたデータサイエンデータをサイエンスコン ペティションサイトしたデータサイ ● 2020年に米国でスター5月時点で登録者数ベーでスタートしたデ登録者数ベースでベースでスタートしたデ10万人以上 のデータサイエンデータをサイエンティストしたデータサイが参加参加 ● 実際のデータ・課題のデータサイエンデータを・課題に対して、課題に対して、様々に置かれているデ対して、様々なデして、様々なデータサ様々なデータサイエなデータをサイエン ティストしたデータサイが参加オンライン上でスタートしたデ意見をかわしながらをかわしなが参加らそのデータサイエン結 果が即時に採点さが参加即時に置かれているデ採点で登録者数ベーされ競い合うことがでい合うことができるうことが参加でスタートしたデきるデータを

Slide 4

Slide 4 text

Compete, Data, Notebooks, Communities ● Compete – 開催されているコンされているデータをコンペが参加表示 ● Data – データをが参加たデータサイエンくさん置かれているデーかれているデータを ● Notebooks – ノートしたデータサイブックがたくさん置かが参加たデータサイエンくさん置かれているデーかれて いるデータを ● Communities - ディスカッションが参加行われていわれてい るデータを

Slide 5

Slide 5 text

コンペのデータサイエン種類 ● Predictコンペ ▪ もっともスタをンダードなコンペなコンペ ▪ データををDLしてきて任意のデータサイエン環境で分析 でスタートしたデ分析 or Kaggle上でスタートしたデ分析 ▪ 複雑なアンサンブルなアンサンブルモデルが参加上位にくることもあに置かれているデくるデータをこともあり上位にくることもあソリューションは実務に活用しづらいに置かれているデ活用しづらいものにしづらいものデータサイエンに置かれているデな るデータをこともあるデータを(らしい) ● Codeコンペ ▪ Kaggleのデータサイエンオンライン環境で分析 でスタートしたデ分析するデータをことが参加条件 ▪ 処理時間の制限があったのデータサイエン制限があったりしてが参加あったデータサイエンりして過度に複雑な処理なに置かれているデ複雑なアンサンブルな処理などは制限があったりしてされるデータを ● 最適化するコンペ ▪ 最適解をいかに早く見をいかに置かれているデ早く見つけるかをく見をかわしながらつけるデータをかを競い合うことがでう ▪ 「サンタをコンペ」 ● Simulationコンペ ▪ ゲームなどにおいて高などに置かれているデおいて高得点で登録者数ベーを取得するデータをたデータサイエンめのデータサイエン自動で動くプログラでスタートしたデ動で動くプログラくプログラムなどにおいて高を作成するするデータを ● 可視化するコンペ

Slide 6

Slide 6 text

Los Angeles Traffic Collision Data ● Libraries folium (Lealet.jsのデータサイエンPythonラッパー) ● Data https://www.kaggle.com/cityofLA/los-angeles-traffic-c ollision-data ● Notebook https://www.kaggle.com/ksn0215/introduction-to- geospatial-analysis-with-leaflet

Slide 7

Slide 7 text

Data Science for Good: Center for Policing Equity How do you measure justice? ● Libraries plotly ● Data https://www.kaggle.com/center-for-policing-equity/data-science-for- good ● Notebook https://www.kaggle.com/ksn0215/measurement-of-justice-in-boston

Slide 8

Slide 8 text

Global Terrorism Database More than 180,000 terrorist attacks worldwide, 1970-2017 ● Libraries plotly/Dash ● Data https://www.kaggle.com/START-UMD/gtd ● Video https://drive.google.com/file/d/1428V6qrFP- JvWYHYe7kc6V54apw0Yvde/view

Slide 9

Slide 9 text

まとめ ● KaggleのデータサイエンページからデータをからデータををDLしてきて可視化するし てみるデータをととても勉強になるに置かれているデなるデータを ● 場合うことができるに置かれているデよってはメダルが参加もらえるデータをかも ● Kaggleのデータサイエンデータをは実データをに置かれているデ比べると使いやすべるデータをと使いやすいいやすい ものデータサイエンが参加多い印象なのでよい印象なのでよい練習なのデータサイエンでスタートしたデよい練習になるに置かれているデなるデータを

Slide 10

Slide 10 text

おまけ - おすすめ書籍

Slide 11

Slide 11 text

Let’s get started!