Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Speaker Deck
PRO
Sign in
Sign up for free
PyLadiesCaravan in 愛媛(Python入門データ分析編)
kanan
August 06, 2022
Technology
0
51
PyLadiesCaravan in 愛媛(Python入門データ分析編)
kanan
August 06, 2022
Tweet
Share
More Decks by kanan
See All by kanan
Python入門_PyLadiesTokyo2021/08/29
kanan
0
170
コトハジメ的Python入門_WiDS広島
kanan
0
62
予測モデルがポンコツになった日_PyLadiesTokyo10May2020-LT
kanan
0
250
Python入門(PyLadies Caravan in Hokkaido)
kanan
3
190
【PyLadies Caravan】大人のためのPython入門 in 愛媛
kanan
0
300
Python入門(PyLadies Caravan in Aichi)
kanan
0
240
PyCon2019体験記-case:KANAN-
kanan
1
570
大人のためのPython入門in京都.pdf
kanan
0
210
Pythonistaに憧れた分析屋の奮闘記
kanan
0
980
Other Decks in Technology
See All in Technology
COSCUP x KCD Taiwan 2020 - 那些年我們在開源社群的日子 - Cloud Native Taiwan
pohsien
0
120
DevelopersIO 2022 俺のTerraform Pipeline
takakuni
0
430
VS Code Meetup #21 - もう一度知りたい基礎編 - ファイル操作、コーディングの基本編
74th
0
190
Amazon Comprehendで始める感情分析
46ta
0
180
年700万円損するサーバレスの 認可システムをご紹介します!!
higuuu
3
330
eBPF-based Container Networking
johnlin
2
1.1k
テクニカルライティングの検定を受けてみた話 / "My Story About Taking the Technical Writing Exam
line_developers
PRO
1
210
ふりかえりの技術 / retrospectives
soudai
3
160
GCCP Creator @ COSCUP 2022
line_developers_tw
PRO
0
1.4k
合同IT企業説明会から学ぶエンジニア向けの広報戦略
nagutabby
1
220
ロボットの実行すらメンドクサイ!?
kou12092
0
170
LINSTOR — это как Kubernetes, но для блочных устройств
flant
0
1.1k
Featured
See All Featured
Three Pipe Problems
jasonvnalue
89
8.7k
From Idea to $5000 a Month in 5 Months
shpigford
373
44k
Keith and Marios Guide to Fast Websites
keithpitt
404
21k
Art, The Web, and Tiny UX
lynnandtonic
280
18k
How to train your dragon (web standard)
notwaldorf
60
3.9k
Embracing the Ebb and Flow
colly
73
3.4k
Designing Experiences People Love
moore
130
22k
Writing Fast Ruby
sferik
612
57k
How STYLIGHT went responsive
nonsquared
85
4k
Clear Off the Table
cherdarchuk
79
290k
Support Driven Design
roundedbygravity
87
8.6k
Unsuck your backbone
ammeep
659
55k
Transcript
大人のためのPython入門 PyLadies Caravan in Ehime データ分析編
▪自己紹介▪ ▶ PyLadies Caravan STAFF ▶ お仕事は分析屋さん ▶ お酒が好き、あと焼き鳥も好き ▶
今年の趣味は海と山のダブルコンボ かなん @Addition_quince 福岡出身/東京在住
※ 今日やること ※ ▪Pythonってどんな言語? ▪jupyter notebookを使ってみよう ▪データ分析のことはじめ +データの読み込み +データの形式を把握 +要約統計量の算出
+データの可視化
Jupyter Notebookを使って データ分析をやってみよう!
今回はJupyter Notebookを使用します Jupyter Notebookとは、 ブラウザ形式のテキストエディタ。 ノートブックと呼ばれる形式でプログラムを作成でき、 実行結果を確認しながら作業を進めるためのツールです。 <実行画面> 結果表示 処理記載
データ分析で大事なこと データ分析っていうと、 多変量解析とか機械学習とかってすぐやりたくなる でもとても大事なのはデータを理解すること。 そのデータがどんな姿をしているのかを 数値化とグラフ化で泥臭く地道に 解き明かす過程がデータ分析の大半を占めたりする
(参考)describe:要約統計量 count :件数 mean :平均 std :標準偏差 min :最小値 25%
:25%点(第1四分位数) 50% :50%点(第2四分位数、中央値) 75% :75%点(第3四分位数) max :最大値
(参考)平均と中央値(50%点) ・平均は少数の外れ値(異常値)に大きな影響を受ける統計量!! ・平均は全体の中心を表す統計量としてよく利用されるけど、 外れ値を含んだデータでは、外れ値に影響を受けやすいので 注意が必要。 ユーザー スマホゲーム月課金額 A 200円 B
50円 C 300円 D 250円 E 600円 F 5,000円 平均 :1,067円 中央値: 275円
(参考)パーセンタイル値 10g 50g 180g 85g 200g 800g 1,000g 2,000g 5,000g
重さ 25%値 50%値 75%値 パーセンタイル値とは、データを昇順に並べた時の位置を表します。 ※百分位で位置を表す場合にパーセンタイル値となる。 データを昇順に並べ等分した時の位置を分位数(quantile)という。 よく使われるのは4等分する四分位数(quartile)である。 【四分位数】 25%値:全データの25%が入る値 第1四分位点(Q1) 50%値:全データの50%が入る値 第2四分位点(中央値)(Q2) 75%値:全データの75%が入る値 第3四分位点(Q3) 30g 中央値:190.0g/平均値:935.5g
(参考)箱ひげ図 Ω 25%の データ 25%の データ 25%の データ 25%の データ
最大値 第3四分位 75%点 中央値 50%点 第1四分位 25%点 最小値
10g 50g 180g 85g 200g 800g 1,000g 2,000g 5,000g 重さ
25% 50% 75% 30g おさらい 代表値 count 10 mean 935.5 std 1,482.2 min 10 25% 50 50% 190 75% 1,000 max 5,000 ヒストグラム 箱ひげ図 min max mean
本日のLET'S TRY
sample_data.csv 項目名 数値/カテゴリ 内容 No 数値 通し番号 地方 カテゴリ 8地方名(漢字)
chihou カテゴリ 8地方名(アルファベット) 都道府県 カテゴリ 都道府県(漢字) todouhuken カテゴリ 都道府県(アルファベット) area_km2 数値 面積(単位:㎢) population_k 数値 人口(単位:千人) female_k 数値 女性人口(単位:千人) ramen_shop 数値 ラーメン店舗数(単位:軒) sake_l 数値 総アルコール消費量(単位:㍑) sake_l_person 数値 20歳以上1人あたりアルコール消費量(単位:㍑) mcdnald_shop 数値 マクドナルド店舗数(単位:軒) yakitori_shop 数値 焼き鳥屋店舗数(単位:軒) name_sato 数値 苗字が「佐藤」さんの人数(単位:人) source_ml 数値 2人以上の世帯の年間ソース消費量(単位: ml) mikan_g 数値 2人以上の世帯の年間みかん消費量(単位: g) orange_g 数値 2人以上の世帯の年間オレンジ消費量(単位: g)
challenge 問題1: name_satoは、佐藤さんの人数です。その都道府県にどのくらい佐藤さんの 割合が多いのかを確認してみよう。 ※注意:都道府県の人口(population_k)は千人単位です。 問題2: 佐藤さん比率が多ければ多いほど、ラーメン店の数は多くなるのか検証し みよう! 問題3: 自分の出身(もしくは縁のある)都道府県について、データから得られる知見
を探してみましょう。
はじめようPython Life★