Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
統計手法の紹介 #TechLunch
Search
Livesense Inc.
PRO
April 23, 2014
Technology
0
62
統計手法の紹介 #TechLunch
2012/02/08(水) @ Livesense TechLunch
発表者:福田 絵里
Livesense Inc.
PRO
April 23, 2014
Tweet
Share
More Decks by Livesense Inc.
See All by Livesense Inc.
EM候補者向け転職会議説明資料
livesense
PRO
0
4
コロナで失われたノベルティ作成ノウハウを復活させた話
livesense
PRO
0
72
株式会社リブセンス 会社説明資料(報道関係者様向け)
livesense
PRO
0
350
転職会議でGPT-3を活用した企業口コミ要約機能をリリースした話
livesense
PRO
0
1k
株式会社リブセンス マッハバイト_プレイブック
livesense
PRO
0
400
Tech Award 2021 選出方法
livesense
PRO
0
1k
株式会社リブセンス エンジニアリング組織を支える風土と制度
livesense
PRO
0
520
株式会社リブセンス・マッハバイト 採用候補者様向け資料
livesense
PRO
0
210
株式会社リブセンス・転職会議 採用候補者様向け資料
livesense
PRO
0
2k
Other Decks in Technology
See All in Technology
2024/4/26 コンピュータ歴史博物館解説告知
toshi_atsumi
0
190
Algyan イベント振り返り
linyixian
0
180
The CloudCompare project by Dr. Daniel Girardeau-Montaut
kentaitakura
0
500
自動生成を活用した、運用保守コストを抑える Error/Alert/Runbook の一元集約管理 / Centralized management of Error/Alert/Runbook to minimize operational costs using automated code generation
biwashi
9
2.1k
インシデントレスポンスのライフサイクルを廻すポイントってなに / Pinpoints of Incidentresponse Lifecycle for Operation
sakaitakeshi
1
300
クラウドサインにおけるプロダクトマネージャーの役割と開発プロセス / 20240410_cloudsign-PdM
bengo4com
1
680
オーナーシップを持つ領域を明確にする
konifar
10
2k
入社後初めてのタスクでk8sアップグレードした話.pdf
kkato1
1
380
SPI原点回帰論:事業課題とFour Keysの結節点を見出す実践的ソフトウェアプロセス改善 / DevOpsDays Tokyo 2024
visional_engineering_and_design
4
1.5k
OpenTelemetry を使ったトレースエグザンプラーの活用 / otel-trace-exemplar
k6s4i53rx
2
630
The AI Revolution Will Not Be Monopolized: How open-source beats economies of scale, even for LLMs (QCon London)
inesmontani
PRO
1
150
Databricks:『生成AI World Cup』のご案内
databricksjapan
2
140
Featured
See All Featured
Practical Orchestrator
shlominoach
181
9.7k
Documentation Writing (for coders)
carmenintech
59
3.9k
Faster Mobile Websites
deanohume
297
30k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
19
1.9k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
243
20k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
34
8.8k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
76
41k
Agile that works and the tools we love
rasmusluckow
324
20k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
119
38k
Ruby is Unlike a Banana
tanoku
96
10k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
1
3.4k
No one is an island. Learnings from fostering a developers community.
thoeni
14
2.1k
Transcript
統計手法の紹介 古典統計学~近代統計学~ベイズ統計学
Table of contents • 記述統計学 (古典統計学) • 1次元データ • 2次元データ
• 推計統計学 (近代統計学) • 確率変数、確率分布、大数の法則 • 推定、仮説検定 • ベイズ統計学
記述統計学 1次元データ 記述方法→グラフ、要約値 • グラフ 度数分布表 ヒストグラム ローレンツ曲線
記述統計学 1次元データ • 要約値 •平均値 ・算術平均 → 通常の平均 (1+3+5+4)/4 ・幾何平均 →
ex)投資、年間利回り平均 2√(1.2*1.3) ・調和平均 → 平均時速 行きは時速25km, 帰りは時速15kmで往復した時の平均時速 •分位点 ・第一分位点 : 上位75% ・第二分位点(メディアン) : 上位50% ・第三分位点 : 上位25%)
記述統計学 1次元データ • 要約値 偏差 : 分布の散らばり具合を示す ・分散、標準偏差 平均 観測値
・変動係数 (= 標準偏差 / 平均) 分布の平均が著しく異なる場合に利用 利用例: ある地域の間の所得格差が変化しているか ・標準得点 利用例: A君の国語の点数と数学の点数を比較 平均 標準偏差 観測値 観測値 ・偏差値得点 標準得点 * 10 + 50
記述統計学 2次元データ • グラフ 散布図 クロス表
記述統計学 2次元データ •ピアソンの積率相関係数 ※相関関係(AとBは関係 ある)と、因果関係(Aなら ばBである)は別のもの ・みかけ上の相関 ex)飲食店数と金融機関店舗数の相関 ・偏相関係数 ex)昼間人口の影響を除いた、飲食店数と金融機関店舗数の相関 •順位相関係数
ex) 好きな花の人気順は、男女で似ているか •自己相関係数 ex) 今日の最高気温と明日の最高気温には相関があるか?
記述統計学 2次元データ •回帰方程式 ex) 年齢から血圧を予測 する方程式の導出 •決定係数 (=(相関係数)2) 回帰方程式から予測される値は、どれくらい信頼性があるか ※2次元以上のデータに対しても適用可能(重回帰)
推計統計学 確率 •確率変数:x 1 ,x 2 ,...,x n なるn個の値をとる変数Xに対して、X=x i なる確
率p i が与えられているときのX ex) サイコロを振って出る目 •確率分布 : p i の分布 対数正規分布 ex)所得、貯蓄額 正規分布 ex)生物・人体測定値 ガンマ分布 ex)システムの耐久年数 二項分布 ex)大量生産の不良品個数 ポアソン分布 ex)航空機事件件数 超幾何分布 ex)魚の資源調査 乱数さい 連続型分布 離散型分布
推計統計学 大数の法則 •ベルヌーイ試行:事象が生起する確率が常に一定の試行 ex) コイン投げ •大数の法則 P(0.4≦r/10≦0.6) = 0.65625 P(0.4≦r/30≦0.6) =
0.79951 P(0.4≦r/50≦0.6) = 0.88108 P(0.4≦r/100≦0.6) = 0.96780 ex) 規定打席数は3.1 公式の成績として残されるために必要な、1試合あたりの打席数 1シーズンは130試合→1シーズン 3.1×130=403打席 P(|r/n-0.5|≦0.1) → 1 (n → ∞) 1年間の真の実力
推計統計学 推定 •大阪は東京よりどれ位暑いか? → 差の母平均の95%信頼区間 を求める 1988年8月の最高気温 日付 1 2 3
... 15 東京 32.1 26.2 27.5 ... 29.3 大阪 35.4 34.6 31.1 ... 32.2 差(東京-大阪) -3.3, -8.4, …, -2.9 -(標本の平均)±(自由度14のt分布の上側確率2.5%のパーセ ント点)×√母分散の不偏推定量/√標本数 = -2.68±1.27 [-3.95, -1.41]
推計統計学 仮説検定≒有意性の検定 •コインを20回投げた時に、14回表が出たならば、「コインに歪みが ない」という仮設は支持できるか? 「歪みがない」 → p=1/2 母集団分布 : コイン 仮にこの仮説が正しいならば、表の回数Xについて、
P(X≧14) = 0.0577 ≒ 5.8% 有意水準 1%の時、仮説は棄却されない → コインに歪みがない (有意水準 10% の時、仮説は棄却される → コインに歪みがある)
ベイズ統計学 •客観説の立場 誰が計算しても同一の値であり、客観的に決定される •主観説の立場 研究者が、ある確率を主観的に与えて分析を行う 以下の分析が可能になる。 ・まだ起こっていないか、ほとんど起こっていない事象 ・実験ごとに統計的規則が変わってしまうような事象 ベイズの定理を用いて展開する
数学的に高度
ベイズ統計学 基本発想 「私は病気であるかないかどちらかであるが、私の症状を考えると、 私が病気である確率は0.7である。」 「病気であるかないかどちらかなのだから、そもそも確率というのはあ りえない」 データも見通しも予想もすべて確率の演算で一貫する
次回 : 「予測モデル 予測モデル」って何?