Upgrade to Pro — share decks privately, control downloads, hide ads and more …

統計手法の紹介 #TechLunch

統計手法の紹介 #TechLunch

2012/02/08(水) @ Livesense TechLunch
発表者:福田 絵里

E60aa4f80303f3f386898546ddb3686a?s=128

Livesense Inc.
PRO

April 23, 2014
Tweet

Transcript

  1. 統計手法の紹介 古典統計学~近代統計学~ベイズ統計学

  2. Table of contents • 記述統計学 (古典統計学) • 1次元データ • 2次元データ

    • 推計統計学 (近代統計学) • 確率変数、確率分布、大数の法則 • 推定、仮説検定 • ベイズ統計学
  3. 記述統計学 1次元データ 記述方法→グラフ、要約値 • グラフ 度数分布表 ヒストグラム ローレンツ曲線

  4. 記述統計学 1次元データ • 要約値 •平均値 ・算術平均 → 通常の平均    (1+3+5+4)/4 ・幾何平均 →

    ex)投資、年間利回り平均 2√(1.2*1.3) ・調和平均 → 平均時速 行きは時速25km, 帰りは時速15kmで往復した時の平均時速 •分位点 ・第一分位点 : 上位75% ・第二分位点(メディアン) : 上位50% ・第三分位点 : 上位25%)
  5. 記述統計学 1次元データ • 要約値 偏差 : 分布の散らばり具合を示す ・分散、標準偏差   平均 観測値

    ・変動係数 (= 標準偏差 / 平均) 分布の平均が著しく異なる場合に利用    利用例: ある地域の間の所得格差が変化しているか ・標準得点        利用例: A君の国語の点数と数学の点数を比較 平均 標準偏差 観測値 観測値 ・偏差値得点    標準得点 * 10 + 50
  6. 記述統計学 2次元データ • グラフ 散布図 クロス表

  7. 記述統計学 2次元データ •ピアソンの積率相関係数 ※相関関係(AとBは関係 ある)と、因果関係(Aなら ばBである)は別のもの ・みかけ上の相関 ex)飲食店数と金融機関店舗数の相関 ・偏相関係数 ex)昼間人口の影響を除いた、飲食店数と金融機関店舗数の相関 •順位相関係数

    ex) 好きな花の人気順は、男女で似ているか •自己相関係数 ex) 今日の最高気温と明日の最高気温には相関があるか?
  8. 記述統計学 2次元データ •回帰方程式 ex) 年齢から血圧を予測 する方程式の導出 •決定係数 (=(相関係数)2)  回帰方程式から予測される値は、どれくらい信頼性があるか ※2次元以上のデータに対しても適用可能(重回帰)

  9. 推計統計学 確率 •確率変数:x 1 ,x 2 ,...,x n なるn個の値をとる変数Xに対して、X=x i なる確

    率p i が与えられているときのX  ex) サイコロを振って出る目 •確率分布 : p i の分布 対数正規分布 ex)所得、貯蓄額 正規分布 ex)生物・人体測定値 ガンマ分布 ex)システムの耐久年数 二項分布 ex)大量生産の不良品個数 ポアソン分布 ex)航空機事件件数 超幾何分布 ex)魚の資源調査 乱数さい 連続型分布 離散型分布
  10. 推計統計学 大数の法則 •ベルヌーイ試行:事象が生起する確率が常に一定の試行  ex) コイン投げ •大数の法則 P(0.4≦r/10≦0.6) = 0.65625 P(0.4≦r/30≦0.6) =

    0.79951 P(0.4≦r/50≦0.6) = 0.88108 P(0.4≦r/100≦0.6) = 0.96780 ex) 規定打席数は3.1 公式の成績として残されるために必要な、1試合あたりの打席数 1シーズンは130試合→1シーズン 3.1×130=403打席 P(|r/n-0.5|≦0.1) → 1 (n → ∞) 1年間の真の実力
  11. 推計統計学 推定 •大阪は東京よりどれ位暑いか? → 差の母平均の95%信頼区間 を求める 1988年8月の最高気温 日付 1 2 3

    ... 15 東京 32.1 26.2 27.5 ... 29.3 大阪 35.4 34.6 31.1 ... 32.2 差(東京-大阪) -3.3, -8.4, …, -2.9 -(標本の平均)±(自由度14のt分布の上側確率2.5%のパーセ ント点)×√母分散の不偏推定量/√標本数  = -2.68±1.27         [-3.95, -1.41]
  12. 推計統計学 仮説検定≒有意性の検定 •コインを20回投げた時に、14回表が出たならば、「コインに歪みが ない」という仮設は支持できるか? 「歪みがない」 → p=1/2 母集団分布 : コイン 仮にこの仮説が正しいならば、表の回数Xについて、

      P(X≧14) = 0.0577 ≒ 5.8% 有意水準 1%の時、仮説は棄却されない → コインに歪みがない (有意水準 10% の時、仮説は棄却される → コインに歪みがある)
  13. ベイズ統計学 •客観説の立場   誰が計算しても同一の値であり、客観的に決定される •主観説の立場   研究者が、ある確率を主観的に与えて分析を行う   以下の分析が可能になる。     ・まだ起こっていないか、ほとんど起こっていない事象     ・実験ごとに統計的規則が変わってしまうような事象    ベイズの定理を用いて展開する

     数学的に高度 
  14. ベイズ統計学 基本発想 「私は病気であるかないかどちらかであるが、私の症状を考えると、 私が病気である確率は0.7である。」 「病気であるかないかどちらかなのだから、そもそも確率というのはあ りえない」 データも見通しも予想もすべて確率の演算で一貫する

  15. 次回 : 「予測モデル 予測モデル」って何?