Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Kaggleに置かれているデータを 可視化する

43ba5a2227c580ce2290544d81c6261c?s=47 ksnt
December 09, 2020

Kaggleに置かれているデータを 可視化する

43ba5a2227c580ce2290544d81c6261c?s=128

ksnt

December 09, 2020
Tweet

Transcript

  1. Kaggleに置かれているデ置かれているデーかれているデータをデータをを 可視化するするデータを ksnt

  2. 自己紹介 • PyCon mini Hiroshima スタをッフ • はんなりPython 運営

  3. kaggleとは? • 2010年に米国でスターに置かれているデ米国でスタートしたでスタートしたデスタをートしたデータサイしたデータサイエンデータをサイエンスコン ペティションサイトしたデータサイ • 2020年に米国でスター5月時点で登録者数ベーでスタートしたデ登録者数ベースでベースでスタートしたデ10万人以上 のデータサイエンデータをサイエンティストしたデータサイが参加参加 • 実際のデータ・課題のデータサイエンデータを・課題に対して、課題に対して、様々に置かれているデ対して、様々なデして、様々なデータサ様々なデータサイエなデータをサイエン ティストしたデータサイが参加オンライン上でスタートしたデ意見をかわしながらをかわしなが参加らそのデータサイエン結

    果が即時に採点さが参加即時に置かれているデ採点で登録者数ベーされ競い合うことがでい合うことができるうことが参加でスタートしたデきるデータを
  4. Compete, Data, Notebooks, Communities • Compete – 開催されているコンされているデータをコンペが参加表示 • Data

    – データをが参加たデータサイエンくさん置かれているデーかれているデータを • Notebooks – ノートしたデータサイブックがたくさん置かが参加たデータサイエンくさん置かれているデーかれて いるデータを • Communities - ディスカッションが参加行われていわれてい るデータを
  5. コンペのデータサイエン種類 • Predictコンペ ▪ もっともスタをンダードなコンペなコンペ ▪ データををDLしてきて任意のデータサイエン環境で分析 でスタートしたデ分析 or Kaggle上でスタートしたデ分析

    ▪ 複雑なアンサンブルなアンサンブルモデルが参加上位にくることもあに置かれているデくるデータをこともあり上位にくることもあソリューションは実務に活用しづらいに置かれているデ活用しづらいものにしづらいものデータサイエンに置かれているデな るデータをこともあるデータを(らしい) • Codeコンペ ▪ Kaggleのデータサイエンオンライン環境で分析 でスタートしたデ分析するデータをことが参加条件 ▪ 処理時間の制限があったのデータサイエン制限があったりしてが参加あったデータサイエンりして過度に複雑な処理なに置かれているデ複雑なアンサンブルな処理などは制限があったりしてされるデータを • 最適化するコンペ ▪ 最適解をいかに早く見をいかに置かれているデ早く見つけるかをく見をかわしながらつけるデータをかを競い合うことがでう ▪ 「サンタをコンペ」 • Simulationコンペ ▪ ゲームなどにおいて高などに置かれているデおいて高得点で登録者数ベーを取得するデータをたデータサイエンめのデータサイエン自動で動くプログラでスタートしたデ動で動くプログラくプログラムなどにおいて高を作成するするデータを • 可視化するコンペ
  6. Los Angeles Traffic Collision Data • Libraries folium (Lealet.jsのデータサイエンPythonラッパー) •

    Data https://www.kaggle.com/cityofLA/los-angeles-traffic-c ollision-data • Notebook https://www.kaggle.com/ksn0215/introduction-to- geospatial-analysis-with-leaflet
  7. Data Science for Good: Center for Policing Equity How do

    you measure justice? • Libraries plotly • Data https://www.kaggle.com/center-for-policing-equity/data-science-for- good • Notebook https://www.kaggle.com/ksn0215/measurement-of-justice-in-boston
  8. Global Terrorism Database More than 180,000 terrorist attacks worldwide, 1970-2017

    • Libraries plotly/Dash • Data https://www.kaggle.com/START-UMD/gtd • Video https://drive.google.com/file/d/1428V6qrFP- JvWYHYe7kc6V54apw0Yvde/view
  9. まとめ • KaggleのデータサイエンページからデータをからデータををDLしてきて可視化するし てみるデータをととても勉強になるに置かれているデなるデータを • 場合うことができるに置かれているデよってはメダルが参加もらえるデータをかも • Kaggleのデータサイエンデータをは実データをに置かれているデ比べると使いやすべるデータをと使いやすいいやすい ものデータサイエンが参加多い印象なのでよい印象なのでよい練習なのデータサイエンでスタートしたデよい練習になるに置かれているデなるデータを

  10. おまけ - おすすめ書籍

  11. Let’s get started!