Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
統計手法の紹介 #TechLunch
Search
Livesense Inc.
PRO
April 23, 2014
Technology
0
73
統計手法の紹介 #TechLunch
2012/02/08(水) @ Livesense TechLunch
発表者:福田 絵里
Livesense Inc.
PRO
April 23, 2014
Tweet
Share
More Decks by Livesense Inc.
See All by Livesense Inc.
27新卒_Webエンジニア職採用_会社説明資料
livesense
PRO
0
55
株式会社リブセンス・転職会議 採用候補者様向け資料
livesense
PRO
0
13
株式会社リブセンス 会社説明資料(報道関係者様向け)
livesense
PRO
0
1.4k
データ基盤の負債解消のためのリプレイス
livesense
PRO
0
390
26新卒_総合職採用_会社説明資料
livesense
PRO
0
8.8k
株式会社リブセンス会社紹介資料 / Invent the next common.
livesense
PRO
1
27k
26新卒_Webエンジニア職採用_会社説明資料
livesense
PRO
1
12k
中途セールス職_会社説明資料
livesense
PRO
0
250
EM候補者向け転職会議説明資料
livesense
PRO
0
120
Other Decks in Technology
See All in Technology
Should Our Project Join the CNCF? (Japanese Recap)
whywaita
PRO
0
260
Delegating the chores of authenticating users to Keycloak
ahus1
0
130
AI導入の理想と現実~コストと浸透〜
oprstchn
0
120
AWS Summit Japan 2025 Community Stage - App workflow automation by AWS Step Functions
matsuihidetoshi
1
300
2年でここまで成長!AWSで育てたAI Slack botの軌跡
iwamot
PRO
4
800
解析の定理証明実践@Lean 4
dec9ue
1
180
LangChain Interrupt & LangChain Ambassadors meetingレポート
os1ma
2
130
プロダクトエンジニアリング組織への歩み、その現在地 / Our journey to becoming a product engineering organization
hiro_torii
0
130
250627 関西Ruby会議08 前夜祭 RejectKaigi「DJ on Ruby Ver.0.1」
msykd
PRO
2
340
整頓のジレンマとの戦い〜Tidy First?で振り返る事業とキャリアの歩み〜/Fighting the tidiness dilemma〜Business and Career Milestones Reflected on in Tidy First?〜
bitkey
0
100
強化されたAmazon Location Serviceによる新機能と開発者体験
dayjournal
3
230
SpringBoot x TestContainerで実現するポータブル自動結合テスト
demaecan
0
110
Featured
See All Featured
Testing 201, or: Great Expectations
jmmastey
42
7.5k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
20
1.3k
Practical Orchestrator
shlominoach
188
11k
BBQ
matthewcrist
89
9.7k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
44
2.4k
Unsuck your backbone
ammeep
671
58k
Git: the NoSQL Database
bkeepers
PRO
430
65k
Java REST API Framework Comparison - PWX 2021
mraible
31
8.7k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
31
1.2k
Done Done
chrislema
184
16k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
29
1.8k
It's Worth the Effort
3n
185
28k
Transcript
統計手法の紹介 古典統計学~近代統計学~ベイズ統計学
Table of contents • 記述統計学 (古典統計学) • 1次元データ • 2次元データ
• 推計統計学 (近代統計学) • 確率変数、確率分布、大数の法則 • 推定、仮説検定 • ベイズ統計学
記述統計学 1次元データ 記述方法→グラフ、要約値 • グラフ 度数分布表 ヒストグラム ローレンツ曲線
記述統計学 1次元データ • 要約値 •平均値 ・算術平均 → 通常の平均 (1+3+5+4)/4 ・幾何平均 →
ex)投資、年間利回り平均 2√(1.2*1.3) ・調和平均 → 平均時速 行きは時速25km, 帰りは時速15kmで往復した時の平均時速 •分位点 ・第一分位点 : 上位75% ・第二分位点(メディアン) : 上位50% ・第三分位点 : 上位25%)
記述統計学 1次元データ • 要約値 偏差 : 分布の散らばり具合を示す ・分散、標準偏差 平均 観測値
・変動係数 (= 標準偏差 / 平均) 分布の平均が著しく異なる場合に利用 利用例: ある地域の間の所得格差が変化しているか ・標準得点 利用例: A君の国語の点数と数学の点数を比較 平均 標準偏差 観測値 観測値 ・偏差値得点 標準得点 * 10 + 50
記述統計学 2次元データ • グラフ 散布図 クロス表
記述統計学 2次元データ •ピアソンの積率相関係数 ※相関関係(AとBは関係 ある)と、因果関係(Aなら ばBである)は別のもの ・みかけ上の相関 ex)飲食店数と金融機関店舗数の相関 ・偏相関係数 ex)昼間人口の影響を除いた、飲食店数と金融機関店舗数の相関 •順位相関係数
ex) 好きな花の人気順は、男女で似ているか •自己相関係数 ex) 今日の最高気温と明日の最高気温には相関があるか?
記述統計学 2次元データ •回帰方程式 ex) 年齢から血圧を予測 する方程式の導出 •決定係数 (=(相関係数)2) 回帰方程式から予測される値は、どれくらい信頼性があるか ※2次元以上のデータに対しても適用可能(重回帰)
推計統計学 確率 •確率変数:x 1 ,x 2 ,...,x n なるn個の値をとる変数Xに対して、X=x i なる確
率p i が与えられているときのX ex) サイコロを振って出る目 •確率分布 : p i の分布 対数正規分布 ex)所得、貯蓄額 正規分布 ex)生物・人体測定値 ガンマ分布 ex)システムの耐久年数 二項分布 ex)大量生産の不良品個数 ポアソン分布 ex)航空機事件件数 超幾何分布 ex)魚の資源調査 乱数さい 連続型分布 離散型分布
推計統計学 大数の法則 •ベルヌーイ試行:事象が生起する確率が常に一定の試行 ex) コイン投げ •大数の法則 P(0.4≦r/10≦0.6) = 0.65625 P(0.4≦r/30≦0.6) =
0.79951 P(0.4≦r/50≦0.6) = 0.88108 P(0.4≦r/100≦0.6) = 0.96780 ex) 規定打席数は3.1 公式の成績として残されるために必要な、1試合あたりの打席数 1シーズンは130試合→1シーズン 3.1×130=403打席 P(|r/n-0.5|≦0.1) → 1 (n → ∞) 1年間の真の実力
推計統計学 推定 •大阪は東京よりどれ位暑いか? → 差の母平均の95%信頼区間 を求める 1988年8月の最高気温 日付 1 2 3
... 15 東京 32.1 26.2 27.5 ... 29.3 大阪 35.4 34.6 31.1 ... 32.2 差(東京-大阪) -3.3, -8.4, …, -2.9 -(標本の平均)±(自由度14のt分布の上側確率2.5%のパーセ ント点)×√母分散の不偏推定量/√標本数 = -2.68±1.27 [-3.95, -1.41]
推計統計学 仮説検定≒有意性の検定 •コインを20回投げた時に、14回表が出たならば、「コインに歪みが ない」という仮設は支持できるか? 「歪みがない」 → p=1/2 母集団分布 : コイン 仮にこの仮説が正しいならば、表の回数Xについて、
P(X≧14) = 0.0577 ≒ 5.8% 有意水準 1%の時、仮説は棄却されない → コインに歪みがない (有意水準 10% の時、仮説は棄却される → コインに歪みがある)
ベイズ統計学 •客観説の立場 誰が計算しても同一の値であり、客観的に決定される •主観説の立場 研究者が、ある確率を主観的に与えて分析を行う 以下の分析が可能になる。 ・まだ起こっていないか、ほとんど起こっていない事象 ・実験ごとに統計的規則が変わってしまうような事象 ベイズの定理を用いて展開する
数学的に高度
ベイズ統計学 基本発想 「私は病気であるかないかどちらかであるが、私の症状を考えると、 私が病気である確率は0.7である。」 「病気であるかないかどちらかなのだから、そもそも確率というのはあ りえない」 データも見通しも予想もすべて確率の演算で一貫する
次回 : 「予測モデル 予測モデル」って何?