Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
PyLadiesCaravan in 愛媛(Python入門データ分析編)
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
kanan
August 06, 2022
Technology
370
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
PyLadiesCaravan in 愛媛(Python入門データ分析編)
kanan
August 06, 2022
More Decks by kanan
See All by kanan
Pythonデータ分析コトハジメinFukuoka
kanan
0
130
Pythonデータ分析コトハジメin静岡
kanan
0
130
Python超入門データ分析編-PyLadiesCaravan広島2nd-
kanan
0
140
PyLadiesCaravan_in_苫小牧
kanan
0
150
Python超入門_データ分析編in青森
kanan
0
220
Pythonデータ分析コトハジメin愛知3rd
kanan
1
170
PyLadiesCaravan in 大阪
kanan
0
320
PyLadiesCaravan in 名古屋Returns
kanan
0
210
Python入門_PyLadiesTokyo2021/08/29
kanan
0
420
Other Decks in Technology
See All in Technology
Agentic ERPをどう設計するか ー 受発注エージェントを動かす、現場の知見と設計思想ー
recerqainc
1
1.9k
探して_入れて_作って_使う_Agent_Skills___LT.pdf
peintangos
2
180
【5分でわかる】セーフィー エンジニア向け会社紹介
safie_recruit
0
50k
OCI Oracle AI Database Services新機能アップデート(2026/03-2026/05)
oracle4engineer
PRO
0
290
美味しいスイスチーズを作ろう🧀🐭
taigamikami
1
260
チームで実践する AI-DLC 思考の軌跡を残すチェックポイント設計
belongadmin
0
2.9k
「気づいたら仕事が終わっている」バクラクAIエージェント本番運用の裏側 / layerx-bakuraku-aie2026
yuya4
19
11k
データ基盤をDataformで整えた話 〜 開発環境を添えて 〜
takapy
0
130
BigQuery の Cross-cloud Lakehouse への歩み
phaya72
2
600
あなたの AI ワークスペースに、 専門コーダーを連れてくる - Amazon Quick Desktop 最新情報
kawaji_scratch
1
110
Ruby::Boxでできること、Refinementsでできること
joker1007
3
400
非定型業務をAI slackbotで自動化する ~ 社内要望を自動壁打ちするbotを作った ~/automating-ad-hoc-work-with-ai-slackbot
shibayu36
0
170
Featured
See All Featured
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
11
940
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1.4k
Java REST API Framework Comparison - PWX 2021
mraible
34
9.3k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
6k
Building Adaptive Systems
keathley
44
3k
GraphQLとの向き合い方2022年版
quramy
50
15k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
55k
Fireside Chat
paigeccino
42
3.9k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
141
35k
Mind Mapping
helmedeiros
PRO
1
240
Why Our Code Smells
bkeepers
PRO
340
58k
Stewardship and Sustainability of Urban and Community Forests
pwiseman
0
220
Transcript
大人のためのPython入門 PyLadies Caravan in Ehime データ分析編
▪自己紹介▪ ▶ PyLadies Caravan STAFF ▶ お仕事は分析屋さん ▶ お酒が好き、あと焼き鳥も好き ▶
今年の趣味は海と山のダブルコンボ かなん @Addition_quince 福岡出身/東京在住
※ 今日やること ※ ▪Pythonってどんな言語? ▪jupyter notebookを使ってみよう ▪データ分析のことはじめ +データの読み込み +データの形式を把握 +要約統計量の算出
+データの可視化
Jupyter Notebookを使って データ分析をやってみよう!
今回はJupyter Notebookを使用します Jupyter Notebookとは、 ブラウザ形式のテキストエディタ。 ノートブックと呼ばれる形式でプログラムを作成でき、 実行結果を確認しながら作業を進めるためのツールです。 <実行画面> 結果表示 処理記載
データ分析で大事なこと データ分析っていうと、 多変量解析とか機械学習とかってすぐやりたくなる でもとても大事なのはデータを理解すること。 そのデータがどんな姿をしているのかを 数値化とグラフ化で泥臭く地道に 解き明かす過程がデータ分析の大半を占めたりする
(参考)describe:要約統計量 count :件数 mean :平均 std :標準偏差 min :最小値 25%
:25%点(第1四分位数) 50% :50%点(第2四分位数、中央値) 75% :75%点(第3四分位数) max :最大値
(参考)平均と中央値(50%点) ・平均は少数の外れ値(異常値)に大きな影響を受ける統計量!! ・平均は全体の中心を表す統計量としてよく利用されるけど、 外れ値を含んだデータでは、外れ値に影響を受けやすいので 注意が必要。 ユーザー スマホゲーム月課金額 A 200円 B
50円 C 300円 D 250円 E 600円 F 5,000円 平均 :1,067円 中央値: 275円
(参考)パーセンタイル値 10g 50g 180g 85g 200g 800g 1,000g 2,000g 5,000g
重さ 25%値 50%値 75%値 パーセンタイル値とは、データを昇順に並べた時の位置を表します。 ※百分位で位置を表す場合にパーセンタイル値となる。 データを昇順に並べ等分した時の位置を分位数(quantile)という。 よく使われるのは4等分する四分位数(quartile)である。 【四分位数】 25%値:全データの25%が入る値 第1四分位点(Q1) 50%値:全データの50%が入る値 第2四分位点(中央値)(Q2) 75%値:全データの75%が入る値 第3四分位点(Q3) 30g 中央値:190.0g/平均値:935.5g
(参考)箱ひげ図 Ω 25%の データ 25%の データ 25%の データ 25%の データ
最大値 第3四分位 75%点 中央値 50%点 第1四分位 25%点 最小値
10g 50g 180g 85g 200g 800g 1,000g 2,000g 5,000g 重さ
25% 50% 75% 30g おさらい 代表値 count 10 mean 935.5 std 1,482.2 min 10 25% 50 50% 190 75% 1,000 max 5,000 ヒストグラム 箱ひげ図 min max mean
本日のLET'S TRY
sample_data.csv 項目名 数値/カテゴリ 内容 No 数値 通し番号 地方 カテゴリ 8地方名(漢字)
chihou カテゴリ 8地方名(アルファベット) 都道府県 カテゴリ 都道府県(漢字) todouhuken カテゴリ 都道府県(アルファベット) area_km2 数値 面積(単位:㎢) population_k 数値 人口(単位:千人) female_k 数値 女性人口(単位:千人) ramen_shop 数値 ラーメン店舗数(単位:軒) sake_l 数値 総アルコール消費量(単位:㍑) sake_l_person 数値 20歳以上1人あたりアルコール消費量(単位:㍑) mcdnald_shop 数値 マクドナルド店舗数(単位:軒) yakitori_shop 数値 焼き鳥屋店舗数(単位:軒) name_sato 数値 苗字が「佐藤」さんの人数(単位:人) source_ml 数値 2人以上の世帯の年間ソース消費量(単位: ml) mikan_g 数値 2人以上の世帯の年間みかん消費量(単位: g) orange_g 数値 2人以上の世帯の年間オレンジ消費量(単位: g)
challenge 問題1: name_satoは、佐藤さんの人数です。その都道府県にどのくらい佐藤さんの 割合が多いのかを確認してみよう。 ※注意:都道府県の人口(population_k)は千人単位です。 問題2: 佐藤さん比率が多ければ多いほど、ラーメン店の数は多くなるのか検証し みよう! 問題3: 自分の出身(もしくは縁のある)都道府県について、データから得られる知見
を探してみましょう。
はじめようPython Life★