Slide 15
Slide 15 text
データの加⼯:外れ値処理
労働時間(working_hours)に0時間という値が⼊っているのが気になる.
今回は賃⾦を説明したいので,働いているか否かは区別したい.
仮説
⽴て
収集 加⼯ モデル 推定 解釈
# 労働時間を元に,働いているかどうかを⽰すダミー変数”working_dummy”を作成する #
# 労働時間が0時間より⻑ければ1をとり,0時間ならば0をとるダミー変数#
df$working_dummy <- ifelse(df$working_hours>0, 1, 0)
・ダミー変数とは,質的な変化(今回だと働いているかどうかの2択)を分析する時に使⽤する変数です.
0と1をとるので,ダミー変数のパラメータはその変化分を⽰します.
・ifelseの括弧の中はこんな仕組みです.
ifelse(条件式, 条件式を満たす場合にとる値, 条件式を満たさない場合に取る値)
15