$30 off During Our Annual Pro Sale. View Details »

PyLadiesCaravan in 愛媛(Python入門データ分析編)

kanan
August 06, 2022

PyLadiesCaravan in 愛媛(Python入門データ分析編)

kanan

August 06, 2022
Tweet

More Decks by kanan

Other Decks in Technology

Transcript

  1. 大人のためのPython入門
    PyLadies Caravan in Ehime
    データ分析編

    View Slide

  2. ■自己紹介■
    ▶ PyLadies Caravan STAFF
    ▶ お仕事は分析屋さん
    ▶ お酒が好き、あと焼き鳥も好き
    ▶ 今年の趣味は海と山のダブルコンボ
    かなん  @Addition_quince
    福岡出身/東京在住

    View Slide

  3. ※ 今日やること ※
    ■Pythonってどんな言語?
    ■jupyter notebookを使ってみよう
    ■データ分析のことはじめ
      +データの読み込み
      +データの形式を把握
      +要約統計量の算出
      +データの可視化

    View Slide

  4. Jupyter Notebookを使って
      データ分析をやってみよう!

    View Slide

  5. 今回はJupyter Notebookを使用します
    Jupyter Notebookとは、
    ブラウザ形式のテキストエディタ。
    ノートブックと呼ばれる形式でプログラムを作成でき、
    実行結果を確認しながら作業を進めるためのツールです。
    <実行画面>
    結果表示
    処理記載

    View Slide

  6. データ分析で大事なこと
    データ分析っていうと、
    多変量解析とか機械学習とかってすぐやりたくなる
    でもとても大事なのはデータを理解すること。
    そのデータがどんな姿をしているのかを
    数値化とグラフ化で泥臭く地道に
    解き明かす過程がデータ分析の大半を占めたりする

    View Slide

  7. (参考)describe:要約統計量
    count :件数
    mean :平均
    std :標準偏差
    min :最小値
    25% :25%点(第1四分位数)
    50% :50%点(第2四分位数、中央値)
    75% :75%点(第3四分位数)
    max :最大値

    View Slide

  8. (参考)平均と中央値(50%点)
    ・平均は少数の外れ値(異常値)に大きな影響を受ける統計量!!
    ・平均は全体の中心を表す統計量としてよく利用されるけど、
     外れ値を含んだデータでは、外れ値に影響を受けやすいので
     注意が必要。
    ユーザー スマホゲーム月課金額
    A 200円
    B 50円
    C 300円
    D 250円
    E 600円
    F 5,000円
    平均 :1,067円
    中央値: 275円

    View Slide

  9. (参考)パーセンタイル値
    10g 50g 180g
    85g 200g 800g 1,000g 2,000g 5,000g
    重さ
    25%値 50%値 75%値
    パーセンタイル値とは、データを昇順に並べた時の位置を表します。
    ※百分位で位置を表す場合にパーセンタイル値となる。
     データを昇順に並べ等分した時の位置を分位数(quantile)という。
     よく使われるのは4等分する四分位数(quartile)である。
    【四分位数】
    25%値:全データの25%が入る値 第1四分位点(Q1)
    50%値:全データの50%が入る値 第2四分位点(中央値)(Q2)
    75%値:全データの75%が入る値 第3四分位点(Q3)
    30g
    中央値:190.0g/平均値:935.5g

    View Slide

  10. (参考)箱ひげ図
    Ω
    25%の
    データ
    25%の
    データ
    25%の
    データ
    25%の
    データ
    最大値
    第3四分位
    75%点
    中央値
    50%点
    第1四分位
    25%点
    最小値

    View Slide

  11. 10g 50g 180g
    85g 200g 800g 1,000g 2,000g 5,000g
    重さ
    25% 50% 75%
    30g
    おさらい
    代表値
    count 10
    mean 935.5
    std 1,482.2
    min 10
    25% 50
    50% 190
    75% 1,000
    max 5,000
    ヒストグラム 箱ひげ図
    min max
    mean

    View Slide

  12. 本日のLET'S TRY

    View Slide

  13. sample_data.csv
    項目名 数値/カテゴリ 内容
    No 数値 通し番号
    地方 カテゴリ 8地方名(漢字)
    chihou カテゴリ 8地方名(アルファベット)
    都道府県 カテゴリ 都道府県(漢字)
    todouhuken カテゴリ 都道府県(アルファベット)
    area_km2 数値 面積(単位:㎢)
    population_k 数値 人口(単位:千人)
    female_k 数値 女性人口(単位:千人)
    ramen_shop 数値 ラーメン店舗数(単位:軒)
    sake_l 数値 総アルコール消費量(単位:㍑)
    sake_l_person 数値 20歳以上1人あたりアルコール消費量(単位:㍑)
    mcdnald_shop 数値 マクドナルド店舗数(単位:軒)
    yakitori_shop 数値 焼き鳥屋店舗数(単位:軒)
    name_sato 数値 苗字が「佐藤」さんの人数(単位:人)
    source_ml 数値 2人以上の世帯の年間ソース消費量(単位: ml)
    mikan_g 数値 2人以上の世帯の年間みかん消費量(単位: g)
    orange_g 数値 2人以上の世帯の年間オレンジ消費量(単位: g)

    View Slide

  14. challenge
    問題1:
    name_satoは、佐藤さんの人数です。その都道府県にどのくらい佐藤さんの
    割合が多いのかを確認してみよう。
    ※注意:都道府県の人口(population_k)は千人単位です。
    問題2:
    佐藤さん比率が多ければ多いほど、ラーメン店の数は多くなるのか検証し
    みよう!
    問題3:
    自分の出身(もしくは縁のある)都道府県について、データから得られる知見
    を探してみましょう。

    View Slide

  15. はじめようPython Life★

    View Slide