Slide 1

Slide 1 text

大人のためのPython入門 PyLadies Caravan in Ehime データ分析編

Slide 2

Slide 2 text

■自己紹介■ ▶ PyLadies Caravan STAFF ▶ お仕事は分析屋さん ▶ お酒が好き、あと焼き鳥も好き ▶ 今年の趣味は海と山のダブルコンボ かなん  @Addition_quince 福岡出身/東京在住

Slide 3

Slide 3 text

※ 今日やること ※ ■Pythonってどんな言語? ■jupyter notebookを使ってみよう ■データ分析のことはじめ   +データの読み込み   +データの形式を把握   +要約統計量の算出   +データの可視化

Slide 4

Slide 4 text

Jupyter Notebookを使って   データ分析をやってみよう!

Slide 5

Slide 5 text

今回はJupyter Notebookを使用します Jupyter Notebookとは、 ブラウザ形式のテキストエディタ。 ノートブックと呼ばれる形式でプログラムを作成でき、 実行結果を確認しながら作業を進めるためのツールです。 <実行画面> 結果表示 処理記載

Slide 6

Slide 6 text

データ分析で大事なこと データ分析っていうと、 多変量解析とか機械学習とかってすぐやりたくなる でもとても大事なのはデータを理解すること。 そのデータがどんな姿をしているのかを 数値化とグラフ化で泥臭く地道に 解き明かす過程がデータ分析の大半を占めたりする

Slide 7

Slide 7 text

(参考)describe:要約統計量 count :件数 mean :平均 std :標準偏差 min :最小値 25% :25%点(第1四分位数) 50% :50%点(第2四分位数、中央値) 75% :75%点(第3四分位数) max :最大値

Slide 8

Slide 8 text

(参考)平均と中央値(50%点) ・平均は少数の外れ値(異常値)に大きな影響を受ける統計量!! ・平均は全体の中心を表す統計量としてよく利用されるけど、  外れ値を含んだデータでは、外れ値に影響を受けやすいので  注意が必要。 ユーザー スマホゲーム月課金額 A 200円 B 50円 C 300円 D 250円 E 600円 F 5,000円 平均 :1,067円 中央値: 275円

Slide 9

Slide 9 text

(参考)パーセンタイル値 10g 50g 180g 85g 200g 800g 1,000g 2,000g 5,000g 重さ 25%値 50%値 75%値 パーセンタイル値とは、データを昇順に並べた時の位置を表します。 ※百分位で位置を表す場合にパーセンタイル値となる。  データを昇順に並べ等分した時の位置を分位数(quantile)という。  よく使われるのは4等分する四分位数(quartile)である。 【四分位数】 25%値:全データの25%が入る値 第1四分位点(Q1) 50%値:全データの50%が入る値 第2四分位点(中央値)(Q2) 75%値:全データの75%が入る値 第3四分位点(Q3) 30g 中央値:190.0g/平均値:935.5g

Slide 10

Slide 10 text

(参考)箱ひげ図 Ω 25%の データ 25%の データ 25%の データ 25%の データ 最大値 第3四分位 75%点 中央値 50%点 第1四分位 25%点 最小値

Slide 11

Slide 11 text

10g 50g 180g 85g 200g 800g 1,000g 2,000g 5,000g 重さ 25% 50% 75% 30g おさらい 代表値 count 10 mean 935.5 std 1,482.2 min 10 25% 50 50% 190 75% 1,000 max 5,000 ヒストグラム 箱ひげ図 min max mean

Slide 12

Slide 12 text

本日のLET'S TRY

Slide 13

Slide 13 text

sample_data.csv 項目名 数値/カテゴリ 内容 No 数値 通し番号 地方 カテゴリ 8地方名(漢字) chihou カテゴリ 8地方名(アルファベット) 都道府県 カテゴリ 都道府県(漢字) todouhuken カテゴリ 都道府県(アルファベット) area_km2 数値 面積(単位:㎢) population_k 数値 人口(単位:千人) female_k 数値 女性人口(単位:千人) ramen_shop 数値 ラーメン店舗数(単位:軒) sake_l 数値 総アルコール消費量(単位:㍑) sake_l_person 数値 20歳以上1人あたりアルコール消費量(単位:㍑) mcdnald_shop 数値 マクドナルド店舗数(単位:軒) yakitori_shop 数値 焼き鳥屋店舗数(単位:軒) name_sato 数値 苗字が「佐藤」さんの人数(単位:人) source_ml 数値 2人以上の世帯の年間ソース消費量(単位: ml) mikan_g 数値 2人以上の世帯の年間みかん消費量(単位: g) orange_g 数値 2人以上の世帯の年間オレンジ消費量(単位: g)

Slide 14

Slide 14 text

challenge 問題1: name_satoは、佐藤さんの人数です。その都道府県にどのくらい佐藤さんの 割合が多いのかを確認してみよう。 ※注意:都道府県の人口(population_k)は千人単位です。 問題2: 佐藤さん比率が多ければ多いほど、ラーメン店の数は多くなるのか検証し みよう! 問題3: 自分の出身(もしくは縁のある)都道府県について、データから得られる知見 を探してみましょう。

Slide 15

Slide 15 text

はじめようPython Life★