Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LDM_因子分析スライド

Tanimura
July 23, 2014

 LDM_因子分析スライド

Livesense Digital Marketing ブログ公開用スライド
http://marketing.livesense.co.jp/

Tanimura

July 23, 2014
Tweet

Other Decks in Technology

Transcript

  1. Copyri ght(C) 2013 Li vesense Inc. Al l Ri ghts

    Reserved. 1 因子分析 2104/7/10 谷村 Analytics勉強会 第2回
  2. Copyri ght(C) 2013 Li vesense Inc. Al l Ri ghts

    Reserved. 2 目次 1. 因子分析でやろうとしてること ① 解こうとしている問題 ② 利用場面 ③ 主成分分析との違い 2. 概念的な理解 ① 式の確認 ② 因子分析の仮定 ③ ざっくりした手順 3. 具体的な解法 ① 因子数の決定 ② 因子負荷の推定 ③ 質的因子分析 ④ 回転 ⑤ 因子スコアの推定
  3. Copyri ght(C) 2013 Li vesense Inc. Al l Ri ghts

    Reserved. 3 解こうとしている問題(1) 因子分析の目的は、複数の変数の背後にある、かくれた 要因を明 らかにすること。 観測可能な変数の背後に、潜在的な要因(因子)があるものと考え て、その影響の程度を調べる
  4. Copyri ght(C) 2013 Li vesense Inc. Al l Ri ghts

    Reserved. 4 解こうとしている問題(2) 英語 現代文 古典 数学 物理 地学 文系能力 理系能力 e e e e e e 観測できるのは点数だけ 観測された点数の裏には、 もっとふわっとした概念的 なものがあるのでは? とはいえ、共通の因子だけでは 説明しきれない何かがそれぞれ の観測値に影響してるはず
  5. Copyri ght(C) 2013 Li vesense Inc. Al l Ri ghts

    Reserved. 5 解こうとしている問題(3) 式で書くと (田中さんの英語の点数) = 文系能力が英語のテストに与える影響 × 田中さんの文系能力値 + 理系能力が英語のテストに与える影響 × 田中さんの理系能力値 + 田中さんの英語の点数の独自要因(海外留学経験とか) こんな感じの式で潜在変数から観測されたデータを 説明しようとするのが因子分析
  6. Copyri ght(C) 2013 Li vesense Inc. Al l Ri ghts

    Reserved. 6 利用場面 – アンケートなどの調査データからの仮説立て – SD法と組み合わせて使われることが多い (参考)SD法 http://lbm.ab.a.u-tokyo.ac.jp/~omori/sd_assess.html SD(Semantic Differential)法は,C. Osgoodが開発した事象の一般的な意味次元 を量るための測定法で,心理学的 な実験でよく用いられる. 「好き-嫌い」などの反対語の対からなる 評価尺度を複数用いて対象の評価を行う. 各 評価尺度対に対して5段階や7段階の 両極性の尺度で複数の被験者に回答させ,各評価尺度段階 を得点とするリ ケルト尺度(Likert scale)を用いて数値化して,因子分析により 評価次元を抽出するのが一般的である.
  7. Copyri ght(C) 2013 Li vesense Inc. Al l Ri ghts

    Reserved. 7 主成分分析との違い ☆矢印の向きが逆 主成分分析:次元を減らしながら情報量を減らさない変数を作る 因子分析:元のデータをその裏にある要因で説明する 英語 現代文 古典 数学 物理 地学 文系能力 理系能力 英語 現代文 古典 数学 物理 地学 文系能力 理系能力 e e e e e e 主成分分析 因子分析
  8. Copyri ght(C) 2013 Li vesense Inc. Al l Ri ghts

    Reserved. 8 主成分分析との違い(2) 項目 主成分分析 因子分析 解の導出 一意に求まる 不定 独自因子 なし あり 回転 なし 直交回転/斜交回転 主成分/因子間の相関 相関なし(独立) 相関を許す 出所 数理統計学 心理学
  9. Copyri ght(C) 2013 Li vesense Inc. Al l Ri ghts

    Reserved. 9 式の確認(1) 観測変数がp個、観測対象がn個のとき、 i番目の観測対象のj番目の観測変数の標準化データZij j = 1 j = 2 j = 3 j = 4 j = 5 j = 6 英語 現代文 古典 数学 物理 地学 i = 1 佐藤 31 31 33 59 63 52 i = 2 鈴木 72 77 60 50 51 68 i = 3 高橋 34 27 47 34 33 20 i = 4 田中 44 44 54 43 35 48 i = 5 渡辺 58 57 54 45 61 63 i = 6 伊藤 35 38 34 18 31 27 i = 7 山本 62 67 80 77 76 71 i = 8 中村 40 45 50 56 48 39 i = 9 小林 41 51 44 47 48 55 i = 10 齋藤 58 57 49 60 60 70 観測変数:p(=6)個 観 測 対 象 :n(= 10 ) 個 Z73
  10. Copyri ght(C) 2013 Li vesense Inc. Al l Ri ghts

    Reserved. 10 式の確認 データZijを以下で表現するのが因子分析モデル Zij … i番目の観測対象のj番目の観測変数の標準化データ fik … i番目の観測対象のm個の『共通因子』 ajk … k番目の共通因子から、j番目の観測変数への 影響の強さを表す『因子負荷』 uij … i番目の観測対象のj番目の観測変数の『独自因子』 dj … 観測変数jが独自因子jから受ける影響の程度である『独自係数』 (田中さん(i)の英語(j)の点数) = 文系能力(因子1)が英語のテスト(j)に与える影響 × 田中さん(i)の文系能力値(因子1) + 理系能力(因子2)が英語のテスト(j)に与える影響 × 田中さん(i)の理系能力値(因子2) + 田中さんの英語の点数の独自要因(海外留学経験とか)
  11. Copyri ght(C) 2013 Li vesense Inc. Al l Ri ghts

    Reserved. 11 因子分析モデルの仮定 【仮定1】共通因子と独自因子の平均は0,分散は1 計算の利便性のために平均と分散を固定。因子負荷や独自係数の大きさを互い に比較することが可能になる。 【仮定2】共通因子と独自因子は互いに無相関 共通因子では説明できないふるまいを説明するのが独自因子なので 【仮定3】独自因子は互いに無相関 相関があるとすると、独自因子に共通の変動があることになり、それは本来共通 因子で説明されるべきものなので
  12. Copyri ght(C) 2013 Li vesense Inc. Al l Ri ghts

    Reserved. 12 式の確認 ここで、共通因子(f)間、独自因子(d)間、共通因子、独自因子間が全て無相関 とするとzの分散は V(z)は標準化されてるので1 ここで変数zのうち共通因子によって説明できる割合として 「共通性」が定義される
  13. Copyri ght(C) 2013 Li vesense Inc. Al l Ri ghts

    Reserved. 13 式の確認 途中略ベクトルで表現すると 行列にすると(略)
  14. Copyri ght(C) 2013 Li vesense Inc. Al l Ri ghts

    Reserved. 14 因子分析のざっくりした手順 因子数を決める データの相関行列を求める 因子負荷(初期解)を求める 因子にお名前をつける 因子スコアを求める 回転 因子分析は、主成分分析のように一意な解を求めることができない。 なぜなら、データ数よりも設定した変数の方が多いから。 そこで、各ステップで、この不定な解を何らかの仮定を置いて解いていくが、使う手法 により異なる解が得られることになる。
  15. Copyri ght(C) 2013 Li vesense Inc. Al l Ri ghts

    Reserved. 15 因子数の決定方法 業務知識と勘と経験 スクリーテスト SMC MAPテスト VSS基準 カイ2乗値、AIC,BIC RMSEA ガットマン・カイザー基準 並行分析 最強? お手軽で納得感あり ちょっとむずかしい 最尤推定法から得られる 適合度。例をみているとス クリーテスト等より因子数 が多く出る傾向がありそう 複数手法でのテスト結果を比較検討する必要あり
  16. Copyri ght(C) 2013 Li vesense Inc. Al l Ri ghts

    Reserved. 16 スクリーテスト 観測変数の相関行列の固有値を縦軸に、固有値の番号を横軸にとって書い たグラフ(スクリープロット)から、急激に固有値が小さくなる1つ前の固有値 を採用する。 要は、主成分分析の主成分数を因子数として採用することと同じ 因子数 → 3 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 固有値 固有値
  17. Copyri ght(C) 2013 Li vesense Inc. Al l Ri ghts

    Reserved. 17 ガットマン・カイザー基準 観測変数の相関行列の固有値が1以上の固有値の数を因子数とする。 せめて元の変数1個分の情報量は持たせたいという気持ちからくる基準。 要は、主成分分析の主成分数を因子数として採用することと同じ
  18. Copyri ght(C) 2013 Li vesense Inc. Al l Ri ghts

    Reserved. 18 並行分析 データから描いたスクリープロットと、 データと同じサイズのランダムデータから求まるスクリープロットを比較 せめてランダム以上の情報はもっててほしいという気持ちの表れ? 因子数 → 5 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 固有値 ランダム
  19. Copyri ght(C) 2013 Li vesense Inc. Al l Ri ghts

    Reserved. 19 因子負荷の推定 変数の裏に理論的な確率分布の存在を仮定し、実際に観測されたデータを得 る確率が最大となるような母数の値を推定値とする方法。 因子スコアと独自因子が正規分布に従うとして、zが観測される確率(尤度)が 最も高くなる因子負荷を求める 最尤推定法 分布の仮定を置かずに、データの相関行列と因子分析モデルによって求まる 相関行列の差の2乗和が最小になるような因子負荷を求める。 主因子法、反復主因子法 因子負荷と独自係数について、初期分布を与えて事前確率を求め、尤度との 積により事後分布を求める(MCMC) ベイズ的推定法
  20. Copyri ght(C) 2013 Li vesense Inc. Al l Ri ghts

    Reserved. 20 最尤推定法 共通因子スコアベクトルと、独自因子スコアベクトルに(多変量)正規分布を 仮定する。 fi ~ Nm(0,I)、ui ~ Np(0,I) つまり、共通因子が無相関であるとして解を求める。 このとき、Ziの確率分布p(zi|Σ)も正規分布に従う Σは分散共分散行列でAA’+DD p(zi|Σ)は対数尤度をとることで、A、Dとzの関数として表現されるので、 EMアルゴリズム等を使って、 p(zi|Σ)が最大となるA、Dを見つける
  21. Copyri ght(C) 2013 Li vesense Inc. Al l Ri ghts

    Reserved. 21 主因子法・反復主因子法 R≃ AA’+DDから R-DD=AA’として 左辺は対称行列で非対角成分は標本相関係数、対角成分は1-di^2 対称行列のスペクトル分解を考えて、 R-DDの固有値、固有ベクトルを求めることで、 A=√λ1w1 + √ λ2w2 ・・・を得る 但し、Dは未知なので、適当に初期値を与えて、求まったBの対角要素でR- DDの対角要素で置き換えて、再び固有値計算、求まったBの対角要素 で・・・を収束するまで繰り返す MCMCの説明は略
  22. Copyri ght(C) 2013 Li vesense Inc. Al l Ri ghts

    Reserved. 22 回転 以上から、Aの解がとりあえず求まるが求まる(初期解) 。が、 Aは求まったが、Fが不定なので、Aの値はFAが変化しない範囲でいくらでも 変化させることができる。 ここで出てくる概念が「回転」 では、どんなAだと嬉しいか → 解釈しやすいこと → 変数(j)が出来るだけ一つの因子で説明される状況だと嬉しい → 因子負荷をグラフ上にプロットしたときに点がなるべく 軸上に分布するようにしたい
  23. Copyri ght(C) 2013 Li vesense Inc. Al l Ri ghts

    Reserved. 23 回転 これだと、ひとつの変数に対 して、二つの因子の因子負荷 が同じように寄与してて解釈 が面倒 軸を回転させることで、片方 の因子負荷だけが大きくなる ようにする 軸の直交性を保ったまま回転するのが「直交回転」 軸の直交性すら無視して回転するのが「斜交回転」
  24. Copyri ght(C) 2013 Li vesense Inc. Al l Ri ghts

    Reserved. 24 回転 直交回転の場合 2次元の場合、回転を表す行列が cosθ –sinθ sinθ cosθ で表現できる。これからイメージできる通り、 T’T = I から Z = FIA’ + UD Z = (FT)(AT) ’ + UD 回転後の因子負荷量がFT、因子スコアが(AT)’
  25. Copyri ght(C) 2013 Li vesense Inc. Al l Ri ghts

    Reserved. 25 回転 では、どれだけ回転させればよいか・・・ オーソマックス基準を最大化する bは回転後の因子負荷 なるべく全体的にbに偏りが出るように(第1項)、 ただし、同一の観測対象に負荷が偏らないように(第2項) 選ぶwの値で回転法の呼び方が異なり、 W=1とするバリマックス法が一般的
  26. Copyri ght(C) 2013 Li vesense Inc. Al l Ri ghts

    Reserved. 26 回転 斜交回転の場合 T’T の対角成分が1となる ※2次元だと確かにそうなった Z = FIA’ + UD Z = (FT)(A(T’)-1)’ + UD 回転後の因子負荷量がFT、因子スコアが(A(T’)-1)’ もはやこれで因子スコアは無相関ではない 手法としては、オーソマックス基準と同じようなオブリミン基準を設定するコー ティミン回転、コバリミン回転もあるが、バリマックス回転の結果の各要素をk 乗した行列を目標値として回転を試みるプロマックス回転が一般的(らしい)
  27. Copyri ght(C) 2013 Li vesense Inc. Al l Ri ghts

    Reserved. 27 因子に名前をつける 想像力 センス 知識 経験
  28. Copyri ght(C) 2013 Li vesense Inc. Al l Ri ghts

    Reserved. 28 因子スコアを求める Z=FA+UDの中で独自性が十分に小さく、それをないものとしてZ=FAをとく Aは正方行列ではないので、A(A’A) -1 を右からかけて F= ZA(A’A) -1 を求める Harmanの方法 Fを観測値Wからの推定値としてF=ZWとしたうえで、真の値Fとの差の2乗を最 小化する(最小二乗法)。真のFは不明だが、うまいこと最小二乗法からFの推 定値が出せて F= ZR-1AからFが求まる Thurstoneの方法(回帰) Z=FA+UDを移行してU=(Z-FA)D-1として、これを誤差ととらえることでこの2乗和を 最小化する問題をとく。 F=ZD-2A(AD-2A) -1 Bartlettの方法
  29. Copyri ght(C) 2013 Li vesense Inc. Al l Ri ghts

    Reserved. 29 参考にした書籍 以下、学習に使用した書籍です。 本スライドもこの書籍を参考に作成しました。 ▪豊田秀樹,因子分析入門―Rで学ぶ最新データ解析,東京図書