Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
統計手法の紹介 #TechLunch
Search
Livesense Inc.
PRO
April 23, 2014
Technology
0
73
統計手法の紹介 #TechLunch
2012/02/08(水) @ Livesense TechLunch
発表者:福田 絵里
Livesense Inc.
PRO
April 23, 2014
Tweet
Share
More Decks by Livesense Inc.
See All by Livesense Inc.
27新卒_Webエンジニア職採用_会社説明資料
livesense
PRO
0
2.5k
株式会社リブセンス・転職会議 採用候補者様向け資料
livesense
PRO
0
53
株式会社リブセンス 会社説明資料(報道関係者様向け)
livesense
PRO
0
1.5k
データ基盤の負債解消のためのリプレイス
livesense
PRO
0
440
26新卒_総合職採用_会社説明資料
livesense
PRO
0
11k
株式会社リブセンス会社紹介資料 / Invent the next common.
livesense
PRO
1
38k
26新卒_Webエンジニア職採用_会社説明資料
livesense
PRO
1
13k
中途セールス職_会社説明資料
livesense
PRO
0
270
EM候補者向け転職会議説明資料
livesense
PRO
0
130
Other Decks in Technology
See All in Technology
Generative AI Japan 第一回生成AI実践研究会「AI駆動開発の現在地──ブレイクスルーの鍵を握るのはデータ領域」
shisyu_gaku
0
280
MCPで変わる Amebaデザインシステム「Spindle」の開発
spindle
PRO
3
3.3k
下手な強制、ダメ!絶対! 「ガードレール」を「檻」にさせない"ガバナンス"の取り方とは?
tsukaman
2
450
TS-S205_昨年対比2倍以上の機能追加を実現するデータ基盤プロジェクトでのAI活用について
kaz3284
1
170
人工衛星のファームウェアをRustで書く理由
koba789
15
8k
KotlinConf 2025_イベントレポート
sony
1
140
BPaaSにおける人と協働する前提のAIエージェント-AWS登壇資料
kentarofujii
0
140
生成AI時代のデータ基盤設計〜ペースレイヤリングで実現する高速開発と持続性〜 / Levtech Meetup_Session_2
sansan_randd
1
150
La gouvernance territoriale des données grâce à la plateforme Terreze
bluehats
0
180
Practical Agentic AI in Software Engineering
uzyn
0
110
[ JAWS-UG 東京 CommunityBuilders Night #2 ]SlackとAmazon Q Developerで 運用効率化を模索する
sh_fk2
3
430
【初心者向け】ローカルLLMの色々な動かし方まとめ
aratako
7
3.5k
Featured
See All Featured
The Cult of Friendly URLs
andyhume
79
6.6k
How to Ace a Technical Interview
jacobian
279
23k
Faster Mobile Websites
deanohume
309
31k
Making Projects Easy
brettharned
117
6.4k
Writing Fast Ruby
sferik
628
62k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
Done Done
chrislema
185
16k
Docker and Python
trallard
45
3.6k
Build The Right Thing And Hit Your Dates
maggiecrowley
37
2.9k
Reflections from 52 weeks, 52 projects
jeffersonlam
352
21k
Gamification - CAS2011
davidbonilla
81
5.4k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Transcript
統計手法の紹介 古典統計学~近代統計学~ベイズ統計学
Table of contents • 記述統計学 (古典統計学) • 1次元データ • 2次元データ
• 推計統計学 (近代統計学) • 確率変数、確率分布、大数の法則 • 推定、仮説検定 • ベイズ統計学
記述統計学 1次元データ 記述方法→グラフ、要約値 • グラフ 度数分布表 ヒストグラム ローレンツ曲線
記述統計学 1次元データ • 要約値 •平均値 ・算術平均 → 通常の平均 (1+3+5+4)/4 ・幾何平均 →
ex)投資、年間利回り平均 2√(1.2*1.3) ・調和平均 → 平均時速 行きは時速25km, 帰りは時速15kmで往復した時の平均時速 •分位点 ・第一分位点 : 上位75% ・第二分位点(メディアン) : 上位50% ・第三分位点 : 上位25%)
記述統計学 1次元データ • 要約値 偏差 : 分布の散らばり具合を示す ・分散、標準偏差 平均 観測値
・変動係数 (= 標準偏差 / 平均) 分布の平均が著しく異なる場合に利用 利用例: ある地域の間の所得格差が変化しているか ・標準得点 利用例: A君の国語の点数と数学の点数を比較 平均 標準偏差 観測値 観測値 ・偏差値得点 標準得点 * 10 + 50
記述統計学 2次元データ • グラフ 散布図 クロス表
記述統計学 2次元データ •ピアソンの積率相関係数 ※相関関係(AとBは関係 ある)と、因果関係(Aなら ばBである)は別のもの ・みかけ上の相関 ex)飲食店数と金融機関店舗数の相関 ・偏相関係数 ex)昼間人口の影響を除いた、飲食店数と金融機関店舗数の相関 •順位相関係数
ex) 好きな花の人気順は、男女で似ているか •自己相関係数 ex) 今日の最高気温と明日の最高気温には相関があるか?
記述統計学 2次元データ •回帰方程式 ex) 年齢から血圧を予測 する方程式の導出 •決定係数 (=(相関係数)2) 回帰方程式から予測される値は、どれくらい信頼性があるか ※2次元以上のデータに対しても適用可能(重回帰)
推計統計学 確率 •確率変数:x 1 ,x 2 ,...,x n なるn個の値をとる変数Xに対して、X=x i なる確
率p i が与えられているときのX ex) サイコロを振って出る目 •確率分布 : p i の分布 対数正規分布 ex)所得、貯蓄額 正規分布 ex)生物・人体測定値 ガンマ分布 ex)システムの耐久年数 二項分布 ex)大量生産の不良品個数 ポアソン分布 ex)航空機事件件数 超幾何分布 ex)魚の資源調査 乱数さい 連続型分布 離散型分布
推計統計学 大数の法則 •ベルヌーイ試行:事象が生起する確率が常に一定の試行 ex) コイン投げ •大数の法則 P(0.4≦r/10≦0.6) = 0.65625 P(0.4≦r/30≦0.6) =
0.79951 P(0.4≦r/50≦0.6) = 0.88108 P(0.4≦r/100≦0.6) = 0.96780 ex) 規定打席数は3.1 公式の成績として残されるために必要な、1試合あたりの打席数 1シーズンは130試合→1シーズン 3.1×130=403打席 P(|r/n-0.5|≦0.1) → 1 (n → ∞) 1年間の真の実力
推計統計学 推定 •大阪は東京よりどれ位暑いか? → 差の母平均の95%信頼区間 を求める 1988年8月の最高気温 日付 1 2 3
... 15 東京 32.1 26.2 27.5 ... 29.3 大阪 35.4 34.6 31.1 ... 32.2 差(東京-大阪) -3.3, -8.4, …, -2.9 -(標本の平均)±(自由度14のt分布の上側確率2.5%のパーセ ント点)×√母分散の不偏推定量/√標本数 = -2.68±1.27 [-3.95, -1.41]
推計統計学 仮説検定≒有意性の検定 •コインを20回投げた時に、14回表が出たならば、「コインに歪みが ない」という仮設は支持できるか? 「歪みがない」 → p=1/2 母集団分布 : コイン 仮にこの仮説が正しいならば、表の回数Xについて、
P(X≧14) = 0.0577 ≒ 5.8% 有意水準 1%の時、仮説は棄却されない → コインに歪みがない (有意水準 10% の時、仮説は棄却される → コインに歪みがある)
ベイズ統計学 •客観説の立場 誰が計算しても同一の値であり、客観的に決定される •主観説の立場 研究者が、ある確率を主観的に与えて分析を行う 以下の分析が可能になる。 ・まだ起こっていないか、ほとんど起こっていない事象 ・実験ごとに統計的規則が変わってしまうような事象 ベイズの定理を用いて展開する
数学的に高度
ベイズ統計学 基本発想 「私は病気であるかないかどちらかであるが、私の症状を考えると、 私が病気である確率は0.7である。」 「病気であるかないかどちらかなのだから、そもそも確率というのはあ りえない」 データも見通しも予想もすべて確率の演算で一貫する
次回 : 「予測モデル 予測モデル」って何?