Rの基礎9 基本的な統計と検定

Rの基礎 9 基本的な統計と検定 2020/8/15 Ver. 1.0

基本統計量ベクトルの平均・分散・標準偏差などは関数で簡単に求まる mean sd var max min quantile sum median
平均値標準偏差分散最大値最小値 4分位値合計中央値

summary関数基本統計量はsummary関数で表示できるデータがあれば、とりあえずsummary関数の引数にしてみる

確率分布と乱数 Rでは、確率分布に従った乱数を簡単に得ることができる＊乱数: ランダムな数のこと。乱数シミュレーションなどで利用できる runif rnorm rbinom rpois 一様分布正規分布
二項分布ポアソン分布

確率分布のグラフ histやggplot2のgeom_densityを用いる＊平均0、標準偏差1の正規乱数200000個を生成し、ヒストグラムや確率密度関数にしたもの

相関係数相関係数も相関行列もcor関数で得られる

直線回帰直線回帰はlm関数で計算できる • Rでは、Y~Xという表現で2数の関係を示す • Yが従属変数、Xが説明変数となる • Interceptは切片、説明変数の数字は傾きとなる切片傾き

直線回帰の詳しい情報回帰の結果をsummary関数の引数に取る切片と傾き切片と傾きの検定結果＊検定では傾きや切片が有意にゼロから離れていることを示す

重回帰分析重回帰もlm関数で計算できる • 説明変数を+でつなぐだけ • ＋を＊に変えると、交互作用を計算できる

平均の差の検定: t検定 t検定は、t.test関数で実行できる t.test(1つ目の集団, 2つ目の集団)で計算できるこれがp値 Welchは等分散でないときのt検定の拡張

平均の差の検定: ウィルコクソンの順位和検定ウィルコクソンはt検定のノンパラメトリック*版 wilcox.test(1つ目の集団, 2つ目の集団)で計算できる＊ノンパラメトリック: 集団が正規分布しないときに使用する検定手法。検出力が低い

分散分析 aov関数で計算できる aov(差を知りたいデータ~カテゴリデータ)で計算できる＊線形回帰のlmをaovに変えただけ。summaryで情報が得られるのも同じ。＋を使えば多元にできるし、＊を使えば交互作用を調べられる

カテゴリデータ: factor（因子）カテゴリを示すときに因子を多用する • データフレームを読み込むと文字列は因子に変換＊される • 数字に名前がついたもの • 同じ名前のものが同じカテゴリとして扱われる＊stringAsFactors
= Tがデフォルトなので、read.table関数で読み込むと変換が起きる

多重比較: Tukeyの方法総当りの比較にはTukeyの方法を用いる TukeyHSD(aovの結果)で計算できる＊他にScheffeやDunnett、Kruskal-Wallis、holm、Bonferroniの方法などがある

検出力の計算検定の検出力はpowerから始まる関数で行う power.t.test, power.prop.test, power.anova.testなどがあるこれが検出力

例数の計算例数もpowerから始まる関数で計算できるこれが例数

まとめ • Rには統計に関する手法・パッケージが豊富にある • カテゴリデータの扱いに因子を用いる • 「R 統計手法」で検索すれば、だいたい手法が見つかる

Rの基礎9 基本的な統計と検定

Rの基礎9 基本的な統計と検定

xjorv

More Decks by xjorv

Other Decks in Education

Featured

Transcript