Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Tokoy.R #99 パーマーステーションのペンギンたち #1 palmerpenguins

bob3bob3
June 03, 2022

Tokoy.R #99 パーマーステーションのペンギンたち #1 palmerpenguins

Rのpalmerpenguinsパッケージの紹介。
https://allisonhorst.github.io/palmerpenguins/

bob3bob3

June 03, 2022
Tweet

More Decks by bob3bob3

Other Decks in Science

Transcript

  1. アデリーペンギン Wikipediaより引用 
 • くちばしの根元から先端近くまで羽毛でおおわ れているのも特徴で、くちばしが短いように見え るが、口を開けると目の前まで開く。これは南極 の厳しい寒さに適応した結果羽毛が無い部分が 少なくなったと考えられる。 


    • また、他のペンギンに比べて尾羽が長いが、こ れはヒゲペンギン、ジェンツーペンギンにも共通 する特徴である。ペンギンの分類ではこの3種類 をまとめてアデリーペンギン属(Pygoscelis属)と して扱う。
 • Suicaのペンギンのモデル。 
 Jerzy Strzelecki(CC BY 3.0)
  2. 2つのデータセット penguins_raw 生のデータ
 • 17変数
 • studyName: 研究名(越冬隊ごと?) 
 •

    Sample Number: 標本番号(連番) 
 • Species: ペンギンの種(学名付き) 
 • Region: 調査した地域 
 • Island: 調査した島 
 • Stage: 発育段階 
 • Individual ID: 個体ID 
 • Clutch Completion: 巣の完成度 
 • Date Egg: 巣に1個以上の卵が確認された日? 
 • Culmen Length (mm): くちばしの長さ 
 • Culmen Depth (mm): くちばしの高さ 
 • Flipper Length (mm): 翼の長さ 
 • Body Mass (g): 体重 
 • Sex: 性別
 • Delta 15 N (o/oo): 窒素同位体比(δ15N) 
 • Delta 13 C (o/oo): 炭素同位体比(δ13C) 
 • Comments: コメント 
 penguins 使いやすく加工されたデータ 
 • 8変数
 • species: ペンギンの種 
 • island: 調査した島 
 • bill_length_mm: くちばしの長さ 
 • bill_depth_mm: くちばしの高さ 
 • flipper_length_mm: 翼の長さ 
 • body_mass_g: 体重 
 • sex: 性別
 • year: 調査した年 
 Artwork by @allison_horst
  3. サマリーを確認 library(summarytools) penguins_raw |> dfSummary() |> view() • 欠測値(NA)がある。
 •

    値がすべて同じ列がある。
 • 同じ個体IDが3回出現している。

  4. 変数間の関係の概要 penguins_raw |> dplyr::select( #余分な変数を除外 !c( `Sample Number`, Region, Stage,

    `Individual ID`, Comments ) ) |> GGally::ggpairs( aes(colour = Species), title = "Palmer Penguins Raw" )
  5. 変数間の関係の概要 penguins_raw |> dplyr::select( #余分な変数を除外 !c( `Sample Number`, Region, Stage,

    `Individual ID`, Comments ) ) |> GGally::ggpairs( aes(colour = Species), title = "Palmer Penguins Raw" ) Date Egg x studyName と Species x Island が気になる。
  6. 研究名ごとの期間 penguins_raw |> group_by(studyName) |> summarise(Start = min(`Date Egg`), End

    = max(`Date Egg`)) # studyName Start End # <chr> <date> <date> #1 PAL0708 2007-11-09 2007-12-03 #2 PAL0809 2008-11-02 2008-11-25 #3 PAL0910 2009-11-09 2009-12-01
  7. 調査した島と生息するペンギンの種 penguins_raw |> xtabs(~ Species + Island, data = _)

    # Island #Species Biscoe Dream Torgersen # Adelie Penguin (Pygoscelis adeliae) 44 56 52 # Chinstrap penguin (Pygoscelis antarctica) 0 68 0 # Gentoo penguin (Pygoscelis papua) 124 0 0
  8. 「オスの方がメスよりわずかに大きい」? penguins_raw |> drop_na(Sex) |> ggplot(aes(x = Sex, y =

    `Body Mass (g)`)) + geom_violin(aes(colour=Sex, fill = Sex)) + geom_boxplot(width = 0.3) + geom_jitter(width = 0.15, height = 0) + facet_wrap(vars(Species)) + labs( title = "性別と体重", x = "性別", y = "体重 (g)", colour = "性別", fill = "性別" ) + theme(text = element_text(size = 18))
  9. to be continued... 今後の予定: 1. データセットの紹介(今回) 2. データクリーニング ◦ penguins_rawからpenguinsへ

    3. 可視化例 4. 分析例 ◦ シンプソンのパラドクス ◦ 次元縮約 ◦ クラスタリング ◦ 判別モデル ◦ などなど いらすとやにはアデリーペン ギンがいなかった…… タイトルの「パーマーステーションのペ ンギンたち」は『ウォーターシップダウ ンのウサギたち』をもじったつもり。