Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[Gunosy研究会]データ解析のための統計モデリング6章(前篇)
Search
ysekky
September 29, 2014
Research
2
420
[Gunosy研究会]データ解析のための統計モデリング6章(前篇)
ysekky
September 29, 2014
Tweet
Share
More Decks by ysekky
See All by ysekky
スタートアップの開発サイクルに学ぶ 研究活動の進め方 / research practices inspired by startup business strategy
ysekky
0
2k
[論文紹介] A Method to Anonymize Business Metrics to Publishing Implicit Feedback Datasets (Recsys2020) / recsys20-reading-gunosy-datapub
ysekky
3
2.6k
JSAI2020 OS-12 広告とAI オープニング / JSAI2020-OS-12-ads-and-ai-opening
ysekky
0
2k
JSAI2020インダストリアルセッション - Gunosyにおける研究開発 / jsai2020-gunosy-rd-examples
ysekky
1
750
ウェブサービス事業者における研究開発インターン[株式会社Gunosy] - テキストアナリティクスシンポジウム2019 / research-intern-case-study-at-gunosy
ysekky
0
2.7k
Gunosyにおけるニュース記事推薦/ news-recommendation-in-gunosy-webdbf2019
ysekky
1
1.4k
DEIM2019技術報告セッション - Gunosyの研究開発 / deim-2019-sponsor-session-gunosy-research
ysekky
0
1.1k
Analysis of Bias in Gathering Information Between User Attributes in News Application (ABCCS 2018)
ysekky
1
2.3k
世代による政治ニュース記事の閲覧傾向の違いの分析 - JSAI2018 / Analysis of differences in viewing behavior of politics news by age
ysekky
0
3.9k
Other Decks in Research
See All in Research
ナレッジプロデューサーとしてのミドルマネージャー支援 - MIMIGURI「知識創造室」の事例の考察 -
chiemitaki
0
230
大規模日本語VLM Asagi-VLMにおける合成データセットの構築とモデル実装
kuehara
4
880
リモートワークにおけるパッシブ疲労
matsumoto_r
PRO
6
5k
精度を無視しない推薦多様化の評価指標
kuri8ive
1
360
Neural Fieldの紹介
nnchiba
2
700
PetiteSRE_GenAIEraにおけるインフラのあり方観察
ichichi
0
270
非ガウス性と非線形性に基づく統計的因果探索
sshimizu2006
0
550
アプリケーションから知るモデルマージ
maguro27
0
260
知識強化言語モデルLUKE @ LUKEミートアップ
ikuyamada
0
240
AIトップカンファレンスからみるData-Centric AIの研究動向 / Research Trends in Data-Centric AI: Insights from Top AI Conferences
tsurubee
3
1.7k
Zipf 白色化:タイプとトークンの区別がもたらす良質な埋め込み空間と損失関数
eumesy
PRO
8
1.4k
PhD Defence: Considering Temporal and Contextual Information for Lexical Semantic Change Detection
a1da4
0
120
Featured
See All Featured
Adopting Sorbet at Scale
ufuk
74
9.2k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.3k
YesSQL, Process and Tooling at Scale
rocio
172
14k
Raft: Consensus for Rubyists
vanstee
137
6.8k
Embracing the Ebb and Flow
colly
84
4.6k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
160
15k
Why Our Code Smells
bkeepers
PRO
336
57k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
40
2k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
27
1.6k
Facilitating Awesome Meetings
lara
52
6.2k
Into the Great Unknown - MozCon
thekraken
35
1.6k
Docker and Python
trallard
44
3.3k
Transcript
データ解析のための統計モデリング入門 6章 GLMの応用範囲を広げる (6.1 ~ 6.5) Yoshifumi Seki
(Gunosy Inc) 2014.09.30@Gunosy研究会
これまでのおさらい • ポアソン分布・対数リンク関数のGLMを題材 に – どのようにデータからモデルを作るか – どのように良いモデルを選ぶか – どうしたらモデルが本当に良いことがわかるか?
本章でやること • さまざまなGLMを取り扱う – 確率分布・リンク関数・線形予測子を組み合わせ る • ロジステック回帰
• ポアソン回帰(次回) • 正規分布、ガンマ分布(次回) – 交互作用項 – オフセット項(次回)
GLMのよく使われる組み合わせ 分布 リンク関数 特性 二項分布 logit 離散・上限あり ポアソン分布 log 離散・上限なし
ガンマ分布 log(正準リンク関数はinverseだが 使いにくい) 連続値・ゼロ以上 正規分布 indenGty 連続値
例題: 上限のあるカウントデータ • ある架空植物の個体iそれぞれにおいて – Ni個の観察種子の打ち生きているのはyi個 • Niはどの個体でも8個
• 全部で100個の個体を調べる – 個体サイズ: xi – 肥料を与えたかどうか: fi • 与えていたらfi=T, 与えていなければfi=C
• サイズが大きくなると生存する種子の 数が多くなる • 肥料をやると生存種子数が多くなる
二項分布で表現するカウントデータ • N個のうちy個が生存していたという構造のカ ウントデータ – 上限が存在する離散値 • ポアソン分布のときは上限がどこにあるかわ からないデータ
• n=1, y=[0, 1]のときをベルヌーイ分布と呼ぶ
ロジスティック回帰とロジット関数 • ロジスティック関数 ロジット関数はロジスティック関数の逆関数
パラメータ推定 • 尤度関数 • 最尤推定する – R •
glm(cbind(y, N-‐y)~ x+f, data=d, family=binomial) – 同様にAICでモデル選択可能
ロジット関数の意味・解釈 • ロジット関数と線形予測子 – 左辺をオッズと呼ぶ – どのぐらい増えたらオッズがどれだけ増えるかを 示す
交互作用項 • 交互作用項 – 例題: x_iとf_iの積 – R
• glm(cbind(y, N-‐y)~ x*f, data=d, family=binomial) – x*fはx+y+x:fを省略している • むやみに入れないほうが良い – 交互作用項をいれてAICが改善しても、過大評価して いることが多い – 個体差・場所差によるばらつきの影響の可能性が高 い • 7章以降で説明するモデルを使えば、交互作用項の見かけ 上の影響は消える
割り算値のモデリングをやめよう • なぜわざわざ二項分布のモデルを使った か? – 情報が失われる • 1000打数300安打の打者と100打数30安打の打者を 同等に評価してよいのか?
– 変換された情報がどのような分布に従うのかわ からなくなる