Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[Gunosy研究会]データ解析のための統計モデリング6章(前篇)
Search
ysekky
September 29, 2014
Research
2
430
[Gunosy研究会]データ解析のための統計モデリング6章(前篇)
ysekky
September 29, 2014
Tweet
Share
More Decks by ysekky
See All by ysekky
スタートアップの開発サイクルに学ぶ 研究活動の進め方 / research practices inspired by startup business strategy
ysekky
0
2.1k
[論文紹介] A Method to Anonymize Business Metrics to Publishing Implicit Feedback Datasets (Recsys2020) / recsys20-reading-gunosy-datapub
ysekky
3
2.7k
JSAI2020 OS-12 広告とAI オープニング / JSAI2020-OS-12-ads-and-ai-opening
ysekky
0
2.1k
JSAI2020インダストリアルセッション - Gunosyにおける研究開発 / jsai2020-gunosy-rd-examples
ysekky
1
760
ウェブサービス事業者における研究開発インターン[株式会社Gunosy] - テキストアナリティクスシンポジウム2019 / research-intern-case-study-at-gunosy
ysekky
0
2.8k
Gunosyにおけるニュース記事推薦/ news-recommendation-in-gunosy-webdbf2019
ysekky
1
1.5k
DEIM2019技術報告セッション - Gunosyの研究開発 / deim-2019-sponsor-session-gunosy-research
ysekky
0
1.1k
Analysis of Bias in Gathering Information Between User Attributes in News Application (ABCCS 2018)
ysekky
1
2.3k
世代による政治ニュース記事の閲覧傾向の違いの分析 - JSAI2018 / Analysis of differences in viewing behavior of politics news by age
ysekky
0
3.9k
Other Decks in Research
See All in Research
NLP2025 WS Shared Task 文法誤り訂正部門 ehiMetrick
sugiyamaseiji
0
190
Agentic AIとMCPを利用したサービス作成入門
mickey_kubo
0
220
RapidPen: AIエージェントによるペネトレーションテスト 初期侵入全自動化の研究
laysakura
0
1.4k
CSP: Self-Supervised Contrastive Spatial Pre-Training for Geospatial-Visual Representations
satai
3
200
データxデジタルマップで拓く ミラノ発・地域共創最前線
mapconcierge4agu
0
170
さくらインターネット研究所 アップデート2025年
matsumoto_r
PRO
0
630
A multimodal data fusion model for accurate and interpretable urban land use mapping with uncertainty analysis
satai
3
210
「エージェントって何?」から「実際の開発現場で役立つ考え方やベストプラクティス」まで
mickey_kubo
0
120
SI-D案内資料_京都文教大学
ryojitakeuchi1116
0
1.6k
2025年度 生成AIの使い方/接し方
hkefka385
1
690
Collaborative Development of Foundation Models at Japanese Academia
odashi
2
560
Google Agent Development Kit (ADK) 入門 🚀
mickey_kubo
2
930
Featured
See All Featured
YesSQL, Process and Tooling at Scale
rocio
172
14k
The Art of Programming - Codeland 2020
erikaheidi
54
13k
Done Done
chrislema
184
16k
GitHub's CSS Performance
jonrohan
1031
460k
Unsuck your backbone
ammeep
671
58k
GraphQLとの向き合い方2022年版
quramy
46
14k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
6
690
BBQ
matthewcrist
89
9.7k
Building Flexible Design Systems
yeseniaperezcruz
328
39k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
29
1.8k
Gamification - CAS2011
davidbonilla
81
5.3k
jQuery: Nuts, Bolts and Bling
dougneiner
63
7.8k
Transcript
データ解析のための統計モデリング入門 6章 GLMの応用範囲を広げる (6.1 ~ 6.5) Yoshifumi Seki
(Gunosy Inc) 2014.09.30@Gunosy研究会
これまでのおさらい • ポアソン分布・対数リンク関数のGLMを題材 に – どのようにデータからモデルを作るか – どのように良いモデルを選ぶか – どうしたらモデルが本当に良いことがわかるか?
本章でやること • さまざまなGLMを取り扱う – 確率分布・リンク関数・線形予測子を組み合わせ る • ロジステック回帰
• ポアソン回帰(次回) • 正規分布、ガンマ分布(次回) – 交互作用項 – オフセット項(次回)
GLMのよく使われる組み合わせ 分布 リンク関数 特性 二項分布 logit 離散・上限あり ポアソン分布 log 離散・上限なし
ガンマ分布 log(正準リンク関数はinverseだが 使いにくい) 連続値・ゼロ以上 正規分布 indenGty 連続値
例題: 上限のあるカウントデータ • ある架空植物の個体iそれぞれにおいて – Ni個の観察種子の打ち生きているのはyi個 • Niはどの個体でも8個
• 全部で100個の個体を調べる – 個体サイズ: xi – 肥料を与えたかどうか: fi • 与えていたらfi=T, 与えていなければfi=C
• サイズが大きくなると生存する種子の 数が多くなる • 肥料をやると生存種子数が多くなる
二項分布で表現するカウントデータ • N個のうちy個が生存していたという構造のカ ウントデータ – 上限が存在する離散値 • ポアソン分布のときは上限がどこにあるかわ からないデータ
• n=1, y=[0, 1]のときをベルヌーイ分布と呼ぶ
ロジスティック回帰とロジット関数 • ロジスティック関数 ロジット関数はロジスティック関数の逆関数
パラメータ推定 • 尤度関数 • 最尤推定する – R •
glm(cbind(y, N-‐y)~ x+f, data=d, family=binomial) – 同様にAICでモデル選択可能
ロジット関数の意味・解釈 • ロジット関数と線形予測子 – 左辺をオッズと呼ぶ – どのぐらい増えたらオッズがどれだけ増えるかを 示す
交互作用項 • 交互作用項 – 例題: x_iとf_iの積 – R
• glm(cbind(y, N-‐y)~ x*f, data=d, family=binomial) – x*fはx+y+x:fを省略している • むやみに入れないほうが良い – 交互作用項をいれてAICが改善しても、過大評価して いることが多い – 個体差・場所差によるばらつきの影響の可能性が高 い • 7章以降で説明するモデルを使えば、交互作用項の見かけ 上の影響は消える
割り算値のモデリングをやめよう • なぜわざわざ二項分布のモデルを使った か? – 情報が失われる • 1000打数300安打の打者と100打数30安打の打者を 同等に評価してよいのか?
– 変換された情報がどのような分布に従うのかわ からなくなる