Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[Gunosy研究会]データ解析のための統計モデリング6章(前篇)
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
ysekky
September 29, 2014
Research
440
2
Share
[Gunosy研究会]データ解析のための統計モデリング6章(前篇)
ysekky
September 29, 2014
More Decks by ysekky
See All by ysekky
スタートアップの開発サイクルに学ぶ 研究活動の進め方 / research practices inspired by startup business strategy
ysekky
0
2.4k
[論文紹介] A Method to Anonymize Business Metrics to Publishing Implicit Feedback Datasets (Recsys2020) / recsys20-reading-gunosy-datapub
ysekky
3
2.8k
JSAI2020 OS-12 広告とAI オープニング / JSAI2020-OS-12-ads-and-ai-opening
ysekky
0
2.2k
JSAI2020インダストリアルセッション - Gunosyにおける研究開発 / jsai2020-gunosy-rd-examples
ysekky
1
810
ウェブサービス事業者における研究開発インターン[株式会社Gunosy] - テキストアナリティクスシンポジウム2019 / research-intern-case-study-at-gunosy
ysekky
0
3k
Gunosyにおけるニュース記事推薦/ news-recommendation-in-gunosy-webdbf2019
ysekky
1
1.6k
DEIM2019技術報告セッション - Gunosyの研究開発 / deim-2019-sponsor-session-gunosy-research
ysekky
0
1.2k
Analysis of Bias in Gathering Information Between User Attributes in News Application (ABCCS 2018)
ysekky
1
2.4k
世代による政治ニュース記事の閲覧傾向の違いの分析 - JSAI2018 / Analysis of differences in viewing behavior of politics news by age
ysekky
0
4.1k
Other Decks in Research
See All in Research
通時的な類似度行列に基づく単語の意味変化の分析
rudorudo11
0
250
Unified Audio Source Separation (Defense Slides)
kohei_1979
1
570
2026.01ウェビナー資料
elith
0
330
Tiaccoon: Unified Access Control with Multiple Transports in Container Networks
hiroyaonoe
0
1.4k
それ、チームの改善になってますか?ー「チームとは?」から始めた組織の実験ー
hirakawa51
0
1k
データサイエンティストの業務変化
datascientistsociety
PRO
0
350
討議:RACDA設立30周年記念都市交通フォーラム2026
trafficbrain
0
720
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
450
ウェブ・ソーシャルメディア論文読み会 第36回: The Stepwise Deception: Simulating the Evolution from True News to Fake News with LLM Agents (EMNLP, 2025)
hkefka385
0
220
ペットのかわいい瞬間を撮影する オートシャッターAIアプリへの スマートラベリングの適用
mssmkmr
0
450
空間音響処理における物理法則に基づく機械学習
skoyamalab
0
260
「行ける・行けない表」による地域公共交通の性能評価
bansousha
0
130
Featured
See All Featured
Introduction to Domain-Driven Design and Collaborative software design
baasie
1
710
エンジニアに許された特別な時間の終わり
watany
106
240k
Fashionably flexible responsive web design (full day workshop)
malarkey
408
66k
For a Future-Friendly Web
brad_frost
183
10k
AI Search: Implications for SEO and How to Move Forward - #ShenzhenSEOConference
aleyda
1
1.2k
The World Runs on Bad Software
bkeepers
PRO
72
12k
Data-driven link building: lessons from a $708K investment (BrightonSEO talk)
szymonslowik
1
1k
SEO in 2025: How to Prepare for the Future of Search
ipullrank
3
3.4k
Skip the Path - Find Your Career Trail
mkilby
1
100
Navigating Weather and Climate Data
rabernat
0
160
A Soul's Torment
seathinner
6
2.6k
Neural Spatial Audio Processing for Sound Field Analysis and Control
skoyamalab
0
250
Transcript
データ解析のための統計モデリング入門 6章 GLMの応用範囲を広げる (6.1 ~ 6.5) Yoshifumi Seki
(Gunosy Inc) 2014.09.30@Gunosy研究会
これまでのおさらい • ポアソン分布・対数リンク関数のGLMを題材 に – どのようにデータからモデルを作るか – どのように良いモデルを選ぶか – どうしたらモデルが本当に良いことがわかるか?
本章でやること • さまざまなGLMを取り扱う – 確率分布・リンク関数・線形予測子を組み合わせ る • ロジステック回帰
• ポアソン回帰(次回) • 正規分布、ガンマ分布(次回) – 交互作用項 – オフセット項(次回)
GLMのよく使われる組み合わせ 分布 リンク関数 特性 二項分布 logit 離散・上限あり ポアソン分布 log 離散・上限なし
ガンマ分布 log(正準リンク関数はinverseだが 使いにくい) 連続値・ゼロ以上 正規分布 indenGty 連続値
例題: 上限のあるカウントデータ • ある架空植物の個体iそれぞれにおいて – Ni個の観察種子の打ち生きているのはyi個 • Niはどの個体でも8個
• 全部で100個の個体を調べる – 個体サイズ: xi – 肥料を与えたかどうか: fi • 与えていたらfi=T, 与えていなければfi=C
• サイズが大きくなると生存する種子の 数が多くなる • 肥料をやると生存種子数が多くなる
二項分布で表現するカウントデータ • N個のうちy個が生存していたという構造のカ ウントデータ – 上限が存在する離散値 • ポアソン分布のときは上限がどこにあるかわ からないデータ
• n=1, y=[0, 1]のときをベルヌーイ分布と呼ぶ
ロジスティック回帰とロジット関数 • ロジスティック関数 ロジット関数はロジスティック関数の逆関数
パラメータ推定 • 尤度関数 • 最尤推定する – R •
glm(cbind(y, N-‐y)~ x+f, data=d, family=binomial) – 同様にAICでモデル選択可能
ロジット関数の意味・解釈 • ロジット関数と線形予測子 – 左辺をオッズと呼ぶ – どのぐらい増えたらオッズがどれだけ増えるかを 示す
交互作用項 • 交互作用項 – 例題: x_iとf_iの積 – R
• glm(cbind(y, N-‐y)~ x*f, data=d, family=binomial) – x*fはx+y+x:fを省略している • むやみに入れないほうが良い – 交互作用項をいれてAICが改善しても、過大評価して いることが多い – 個体差・場所差によるばらつきの影響の可能性が高 い • 7章以降で説明するモデルを使えば、交互作用項の見かけ 上の影響は消える
割り算値のモデリングをやめよう • なぜわざわざ二項分布のモデルを使った か? – 情報が失われる • 1000打数300安打の打者と100打数30安打の打者を 同等に評価してよいのか?
– 変換された情報がどのような分布に従うのかわ からなくなる