Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Kaggleに置かれているデータを 可視化する

ksnt
December 09, 2020

Kaggleに置かれているデータを 可視化する

ksnt

December 09, 2020
Tweet

More Decks by ksnt

Other Decks in Programming

Transcript

  1. Kaggleに置かれているデ置かれているデーかれているデータをデータをを
    可視化するするデータを
    ksnt

    View Slide

  2. 自己紹介

    PyCon mini Hiroshima スタをッフ

    はんなりPython 運営

    View Slide

  3. kaggleとは?

    2010年に米国でスターに置かれているデ米国でスタートしたでスタートしたデスタをートしたデータサイしたデータサイエンデータをサイエンスコン
    ペティションサイトしたデータサイ

    2020年に米国でスター5月時点で登録者数ベーでスタートしたデ登録者数ベースでベースでスタートしたデ10万人以上
    のデータサイエンデータをサイエンティストしたデータサイが参加参加

    実際のデータ・課題のデータサイエンデータを・課題に対して、課題に対して、様々に置かれているデ対して、様々なデして、様々なデータサ様々なデータサイエなデータをサイエン
    ティストしたデータサイが参加オンライン上でスタートしたデ意見をかわしながらをかわしなが参加らそのデータサイエン結
    果が即時に採点さが参加即時に置かれているデ採点で登録者数ベーされ競い合うことがでい合うことができるうことが参加でスタートしたデきるデータを

    View Slide

  4. Compete, Data, Notebooks,
    Communities

    Compete – 開催されているコンされているデータをコンペが参加表示

    Data – データをが参加たデータサイエンくさん置かれているデーかれているデータを

    Notebooks – ノートしたデータサイブックがたくさん置かが参加たデータサイエンくさん置かれているデーかれて
    いるデータを

    Communities - ディスカッションが参加行われていわれてい
    るデータを

    View Slide

  5. コンペのデータサイエン種類

    Predictコンペ
    ▪ もっともスタをンダードなコンペなコンペ
    ▪ データををDLしてきて任意のデータサイエン環境で分析 でスタートしたデ分析 or Kaggle上でスタートしたデ分析
    ▪ 複雑なアンサンブルなアンサンブルモデルが参加上位にくることもあに置かれているデくるデータをこともあり上位にくることもあソリューションは実務に活用しづらいに置かれているデ活用しづらいものにしづらいものデータサイエンに置かれているデな
    るデータをこともあるデータを(らしい)

    Codeコンペ
    ▪ Kaggleのデータサイエンオンライン環境で分析 でスタートしたデ分析するデータをことが参加条件
    ▪ 処理時間の制限があったのデータサイエン制限があったりしてが参加あったデータサイエンりして過度に複雑な処理なに置かれているデ複雑なアンサンブルな処理などは制限があったりしてされるデータを

    最適化するコンペ
    ▪ 最適解をいかに早く見をいかに置かれているデ早く見つけるかをく見をかわしながらつけるデータをかを競い合うことがでう
    ▪ 「サンタをコンペ」

    Simulationコンペ
    ▪ ゲームなどにおいて高などに置かれているデおいて高得点で登録者数ベーを取得するデータをたデータサイエンめのデータサイエン自動で動くプログラでスタートしたデ動で動くプログラくプログラムなどにおいて高を作成するするデータを

    可視化するコンペ

    View Slide

  6. Los Angeles Traffic Collision Data

    Libraries
    folium (Lealet.jsのデータサイエンPythonラッパー)

    Data
    https://www.kaggle.com/cityofLA/los-angeles-traffic-c
    ollision-data

    Notebook
    https://www.kaggle.com/ksn0215/introduction-to-
    geospatial-analysis-with-leaflet

    View Slide

  7. Data Science for Good: Center for Policing Equity
    How do you measure justice?

    Libraries
    plotly

    Data
    https://www.kaggle.com/center-for-policing-equity/data-science-for-
    good

    Notebook
    https://www.kaggle.com/ksn0215/measurement-of-justice-in-boston

    View Slide

  8. Global Terrorism Database
    More than 180,000 terrorist attacks worldwide, 1970-2017

    Libraries
    plotly/Dash

    Data
    https://www.kaggle.com/START-UMD/gtd

    Video
    https://drive.google.com/file/d/1428V6qrFP-
    JvWYHYe7kc6V54apw0Yvde/view

    View Slide

  9. まとめ

    KaggleのデータサイエンページからデータをからデータををDLしてきて可視化するし
    てみるデータをととても勉強になるに置かれているデなるデータを

    場合うことができるに置かれているデよってはメダルが参加もらえるデータをかも

    Kaggleのデータサイエンデータをは実データをに置かれているデ比べると使いやすべるデータをと使いやすいいやすい
    ものデータサイエンが参加多い印象なのでよい印象なのでよい練習なのデータサイエンでスタートしたデよい練習になるに置かれているデなるデータを

    View Slide

  10. おまけ - おすすめ書籍

    View Slide

  11. Let’s get started!

    View Slide