Slide 1

Slide 1 text

Workshop for R 〜Rを使ってデータ解析をやってみよう!〜

Slide 2

Slide 2 text

名前:平山優花 所属:専修大学人間科学部心理学科4年 関心:医療、福祉、予防、公衆衛生    心理学、データを用いた意思決定 ... etc 自己紹介

Slide 3

Slide 3 text

目次 1. アナリティクス概要 2.「R」入門 3. データ分析入門 4. データ分析実践 今回は参加者がR経験者であったことから、1. ~ 2. を省略し 3. ~ 4. に焦点を当てます!

Slide 4

Slide 4 text

2. データ分析入門 - 1 ① Rの基本的な操作とデータ型を理解しよう! - データのインポートとエクスポート - データフレームと行列の基本的な操作 ② データの前処理をやってみよう! - 機械処理がしやすいデータって何? - データの整形 - データの操作 ④ データのクリーニングをやってみよう! - 欠損値の処理 - 異常値の処理 - 外れ値の処理 - データのスケーリングと正規化 ⑤ データの可視化をやってみよう! - 基本的なグラフの描画方法 - 散布図行列、ヒストグラム

Slide 5

Slide 5 text

3. データ分析入門 - 2 ④ 基本的なデータ分析の手法を使ってデータを分析してみよう! - t 検定 - カイ二乗検定 - 適合度の検定 - 独立性の検定 - 回帰分析 - クロスセッションデータを用いる場合 - 時系列データを用いる場合 - 「はい」「いいえ」のデータを用いる場合

Slide 6

Slide 6 text

なぜ、データ分析を学ぶの?? >> 組織や個人がより良い意思決定を  するため。

Slide 7

Slide 7 text

データの前処理をやってみよう! 名前 算数 国語 理科 社会 生徒A 100 80 60 40 生徒B 100 100 100 20 表1. 名前 教科 点数 生徒A 算数 100 生徒A 国語 80 生徒A 理科 60 生徒A 社会 40 生徒B 算数 100 生徒B 国語 100 生徒B 理科 100 生徒B 社会 20 表2. Q. どちらの表が見やすいですか? Q. どちらが優れたデータ形式でしょうか?

Slide 8

Slide 8 text

データの前処理をやってみよう! ① 機械処理がしやすいデータって何? - 機械処理がしやすいデータとは? >> tidy data…「tidyな(整然)」データ Hadley Wickham氏の定義: tidy dataとは以下の条件を満たすデータのことである。 - 1.1つの列が1つの変数を表す - 2. 1つの行が1つの観測を表す - 3. 1つのテーブルが1つのデータセットだけを表す

Slide 9

Slide 9 text

データの前処理をやってみよう! Hadley Wickhamの定義: tidy dataとは以下の条件を満たすデータのことである。 - 1.1つの列が1つの変数を表す - 2. 1つの行が1つの観測を表す - 3. 1つのテーブルが1つのデータセットだけを表す

Slide 10

Slide 10 text

データの前処理をやってみよう! ② 関数を使って、実際にデータを整形してみよう! 使う関数: pivot_longer() ... 横→縦 pivot_wider() … 縦→横

Slide 11

Slide 11 text

データの前処理をやってみよう! pivot_longer(データ, cols = c ( 変形する対象の列1, 変形する対象の列2, …), names_to = “キーの列の名前”, values_to = “値の列の名前” ) pivot_longer()の基本的な記述形式:

Slide 12

Slide 12 text

データの前処理をやってみよう! pivot_longer()を使って、表1のデータセットの整形をやってみよう! 表1をデータフレームとして作成するには?: score_messy <- data.frame( 名前 = c ( “生徒A”, “生徒B”), 算数 = c ( 100, 100), 国語 = c ( 80, 100), 理科 = c ( 60, 100), 社会 = c ( 40, 20) )

Slide 13

Slide 13 text

やってみよう!

Slide 14

Slide 14 text

データの前処理をやってみよう! ③mpgデータセットを用いて、データ絞り込みや並べ替えをやってみよう! mpg データセットとは?... - 1999年と2008年に製造された車両の燃費についてのデータセット - 各車両のメーカー、シリンダ数、車種などの情報が含まれています 操作 コード 列の絞り込み select(カラム名1, カラム名2,...) 行の絞り込み filter(条件1, 条件2,...) 列の並べ替え relocate(列1, 列2…) 行の並べ替え arrange(列1, 列2,....) 列の追加 例)mutate(cyl_6 = if_else(cyl >= 6,"6以上","6未満"))

Slide 15

Slide 15 text

やってみよう!

Slide 16

Slide 16 text

データの可視化をやってみよう! displデータのヒストグラムでの可視化 displデータの密度プロットでの可視化

Slide 17

Slide 17 text

やってみよう!

Slide 18

Slide 18 text

データの可視化をやってみよう! 散布図に近似直線を追加

Slide 19

Slide 19 text

やってみよう!

Slide 20

Slide 20 text

データの可視化をやってみよう! 特定のデータを比較してみよう!

Slide 21

Slide 21 text

やってみよう! 今日はここまで...!

Slide 22

Slide 22 text

4. データ分析実践 Web上のオープンデータを用いて、データ分析を実践してみよう! - インターネット上にはオープンソースのデータベースが色々ある ... 例) PISA e-STAT WHO World Bank OECD

Slide 23

Slide 23 text

参加していただき、 ありがとうございました!

Slide 24

Slide 24 text

1. 何を明らかにしたいのか?(大きな目的) 例:植物の多様性はどのような環境条件に影響されるのか? 2. そのために何を調べるのか?(研究の目的) 例:特定の地点の植物種数と環境条件の関係を調べる - 1.の目的と合致しているか? 3. 検証したい仮説は何か? 例:日当たりが良いほうが植物種が多い - 仮説の根拠は? - データがどうなったら仮説が支持されるのか? データ分析プロジェクトの流れの 1例

Slide 25

Slide 25 text

4. どのようにデータをとるか決める(現実的な範囲で) ・自分たちでデータを取る - ちょっと大変だけど楽しい - 計画したとおりのデータが得られる - 例:日当たりが良い30地点と悪い30地点の種数を調べる - 日当たりが良い/悪いはどう定義するか? - 植物種はどのように同定するか? 5. 誰かが調べたデータを調べる - 良いデータを見つければ大量のデータが得られる - 調べたいことにぴったりのデータがあるとは限らない - データの読み込みが意外と大変(csvじゃなかったりする)

Slide 26

Slide 26 text

やってみよう!

Slide 27

Slide 27 text

参加していただき、 ありがとうございました!