Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Rで学ぶデータハンドリング入門/Introduction_to_Data_Handling_w...
Search
florets1
September 14, 2025
Business
0
110
Rで学ぶデータハンドリング入門/Introduction_to_Data_Handling_with_R
florets1
September 14, 2025
Tweet
Share
More Decks by florets1
See All by florets1
人工知能はクロスジョインでできている/AI_Is_Built_on_Cross_Joins
florets1
0
68
仮説の取扱説明書/User_Guide_to_a_Hypothesis
florets1
4
410
複式簿記から純資産を排除する/eliminate_net_assets_from_double-entry_bookkeeping
florets1
1
420
カイ二乗検定は何をやっているのか/What_Does_the_Chi-Square_Test_Do
florets1
7
2.4k
直積は便利/direct_product_is_useful
florets1
3
430
butterfly_effect/butterfly_effect_in-house
florets1
1
250
データハンドリング/data_handling
florets1
2
250
カイ二乗検定との遭遇/The_path_to_encountering_the_chi-square_test
florets1
1
310
率の平均を求めてはいけない/Do_Not_Average_Rates
florets1
11
16k
Other Decks in Business
See All in Business
【Progmat】デジタル資産の基礎知識(ST・SC動向俯瞰|2025年秋)
progmat
0
580
ログラス会社紹介資料 新卒採用 ビジネス職[経営幹部候補]/ Loglass Company Deck
loglass2019
1
12k
202510_採用ピッチ資料
10inc_matsushita
0
160
自らを強いエンジニアにするための3つの習慣 2025/ Fitter happier more productive
shinyorke
PRO
0
200
【DearOne】Dear Newest Member
hrm
2
13k
Sales Marker Culture book
salesmarker
PRO
44
77k
機能より人で伸ばす - 個人開発アプリ収益化までの道 -
yutonakano
0
150
ログラス会社紹介資料 / Loglass Company Deck
loglass2019
11
460k
merpay-overview_en
mercari_inc
1
24k
【pmconf2025】大企業でPdMとして貢献するために、5社で学んだ組織適応と価値創造の手法
wekkyyyy
2
610
【Agile Japan2025 発表資料】AI時代におけるアジャイルチームの価値
agile_effect
0
230
業務設計のいろは
shunsuke_takeuchi
PRO
1
420
Featured
See All Featured
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
11
940
Rails Girls Zürich Keynote
gr2m
95
14k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
36
6.1k
The Illustrated Children's Guide to Kubernetes
chrisshort
51
51k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.1k
The Cult of Friendly URLs
andyhume
79
6.7k
Reflections from 52 weeks, 52 projects
jeffersonlam
355
21k
Unsuck your backbone
ammeep
671
58k
Optimising Largest Contentful Paint
csswizardry
37
3.5k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
658
61k
Navigating Team Friction
lara
190
15k
Being A Developer After 40
akosma
91
590k
Transcript
1 2025.09.20 Tokyo.R #119 Rで学ぶデータハンドリング入門 - 雑然データから整然データへ -
2 今日のテーマ • Rでのデータ操作例(tidyverse) • データ分析に役立つデータ整理術 整然データ(tidy data)という考え方
3 例:応募者の選考データ 雑然データ.csv 整然データ.csv
4 雑然データ.csv • 一行に一人の応募者 • 変数「選考段階」の値である一次、二次が列として存在 一見わかりやすく感じる
5 整然データ.csv • 応募者NOと選考段階でユニーク
6 整然データは扱いやすい(1) データを読み込む
7 整然データは扱いやすい(2) 一次・二次ごとの合否を簡単に集計できる!
8 整然データは扱いやすい(3) 通過人数だけを抽出
9 整然データは扱いやすい(4) 選考段階で並べ替え
10 整然データは扱いやすい(5) 上の行の件数を取得
11 整然データは扱いやすい(6) 選考段階が三次、四次と増えてもコードはそのまま!
12 雑然データは扱いにくい(1) 選考段階ごとにコード追加が必要
13 雑然データは扱いにくい(2) 選考段階ごとにコード追加が必要
14 雑然データは扱いにくい(3) 選考段階ごとにコード追加が必要
15 雑然データは扱いにくい(4) 選考段階が増えるたびにコード追加が必要
16 雑然データを整然データに変換 雑然データ.csv pivot_longer
17 変換できたら後は同じ
18 整然データの定義 1.各変数は列に 2.各観測は行に 3.各観測単位は1テーブルに 4.各値はセルに
19 定義の確認(雑然データ.csv) • 1つの変数(選考段階)が複数の列(一次、二次)に割れている→NG • 1つの行に複数の観測(一次の結果、二次の結果)が入っている→NG
20 定義の確認(整然データ.csv) • 変数=列 • 観測=行 整然データの定義を満たしている
21 定義の確認(各観測は1テーブルに) 1.ひとつのテーブルに種類の違う観測が入っては ならない 2.同じ種類の観測が複数のテーブルにまたがって はならない
22 定義の確認(各観測は1テーブルに) ひとつのテーブルに種類の違う観測が入ってはならない • 応募者名は「応募者」という単位の観測 • 選考段階や合否結果は「選考」という単位の観測 本来は「応募者」テーブルと「選考」テーブルに分けるべき
23 定義の確認(各観測は1テーブルに) ひとつのテーブルに種類の違う観測が入ってはならない • 応募者テーブル:応募者NOをキーとして応募者の情報をまとめる • 選考テーブル:応募者NOと選考段階をキーにして合否を記録する 分ける 選考 応募者
選考データに応募者の情報 観測単位が違うものは別のテーブルにしておくことで、矛盾を防ぎ、管理が楽になる
24 定義の確認(各観測は1テーブルに) なぜテーブルを分けるのか • 応募者名を選考テーブルの各行に書いてしまう と誤って違う名前が入る可能性がある。 • 応募者の名前変更があった場合に全ての行を 修正しなければならない。
25 定義の確認(各観測は1テーブルに) 1月応募.csv 2月応募.csv 3月応募.csv つなげる 同じ種類の観測が複数のテーブルにまたがってはならない
26 定義の確認(各値はセルに) 悪い例 • 「面接者」カラムに「伊藤、山本」のように複数の名前 • 分析するとき、「誰が面接したのか」を集計するのが難しい
27 定義の確認(各値はセルに) よい例 • 「選考」テーブルと「面接者」テーブルに分ける • 「面接者」テーブルは一行に一面接者 分ける 面接者 選考
まとめ • 雑然データは処理が大変 • 整然データにすればコードが単純に、データ分析が楽に なる 「雑然データだから苦労しているのかも」と考えてみよう 28