Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[Gunosy研究会]データ解析のための統計モデリング6章(前篇)
Search
ysekky
September 29, 2014
Research
2
410
[Gunosy研究会]データ解析のための統計モデリング6章(前篇)
ysekky
September 29, 2014
Tweet
Share
More Decks by ysekky
See All by ysekky
スタートアップの開発サイクルに学ぶ 研究活動の進め方 / research practices inspired by startup business strategy
ysekky
0
1.9k
[論文紹介] A Method to Anonymize Business Metrics to Publishing Implicit Feedback Datasets (Recsys2020) / recsys20-reading-gunosy-datapub
ysekky
3
2.5k
JSAI2020 OS-12 広告とAI オープニング / JSAI2020-OS-12-ads-and-ai-opening
ysekky
0
1.9k
JSAI2020インダストリアルセッション - Gunosyにおける研究開発 / jsai2020-gunosy-rd-examples
ysekky
1
730
ウェブサービス事業者における研究開発インターン[株式会社Gunosy] - テキストアナリティクスシンポジウム2019 / research-intern-case-study-at-gunosy
ysekky
0
2.6k
Gunosyにおけるニュース記事推薦/ news-recommendation-in-gunosy-webdbf2019
ysekky
1
1.4k
DEIM2019技術報告セッション - Gunosyの研究開発 / deim-2019-sponsor-session-gunosy-research
ysekky
0
980
Analysis of Bias in Gathering Information Between User Attributes in News Application (ABCCS 2018)
ysekky
1
2.2k
世代による政治ニュース記事の閲覧傾向の違いの分析 - JSAI2018 / Analysis of differences in viewing behavior of politics news by age
ysekky
0
3.8k
Other Decks in Research
See All in Research
RSJ2024「基盤モデルの実ロボット応用」チュートリアルA(河原塚)
haraduka
3
640
Weekly AI Agents News! 8月号 論文のアーカイブ
masatoto
1
180
MIRU2024チュートリアル「様々なセンサやモダリティを用いたシーン状態推定」
miso2024
4
2.2k
テキストマイニングことはじめー基本的な考え方からメディアディスコース研究への応用まで
langstat
1
120
熊本から日本の都市交通政策を立て直す~「車1割削減、渋滞半減、公共交通2倍」の実現へ~@公共交通マーケティング研究会リスタートセミナー
trafficbrain
0
140
Matching 2D Images in 3D: Metric Relative Pose from Metric Correspondences
sgk
1
320
論文紹介/Expectations over Unspoken Alternatives Predict Pragmatic Inferences
chemical_tree
1
260
湯村研究室の紹介2024 / yumulab2024
yumulab
0
280
Weekly AI Agents News! 10月号 プロダクト/ニュースのアーカイブ
masatoto
1
110
さんかくのテスト.pdf
sankaku0724
0
340
授業評価アンケートのテキストマイニング
langstat
1
360
システムから変える 自分と世界を変えるシステムチェンジの方法論 / Systems Change Approaches
dmattsun
3
860
Featured
See All Featured
Keith and Marios Guide to Fast Websites
keithpitt
409
22k
Side Projects
sachag
452
42k
The Art of Programming - Codeland 2020
erikaheidi
52
13k
Intergalactic Javascript Robots from Outer Space
tanoku
269
27k
Producing Creativity
orderedlist
PRO
341
39k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
329
21k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
44
6.8k
Code Reviewing Like a Champion
maltzj
520
39k
Fontdeck: Realign not Redesign
paulrobertlloyd
82
5.2k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
28
2k
GitHub's CSS Performance
jonrohan
1030
460k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
246
1.3M
Transcript
データ解析のための統計モデリング入門 6章 GLMの応用範囲を広げる (6.1 ~ 6.5) Yoshifumi Seki
(Gunosy Inc) 2014.09.30@Gunosy研究会
これまでのおさらい • ポアソン分布・対数リンク関数のGLMを題材 に – どのようにデータからモデルを作るか – どのように良いモデルを選ぶか – どうしたらモデルが本当に良いことがわかるか?
本章でやること • さまざまなGLMを取り扱う – 確率分布・リンク関数・線形予測子を組み合わせ る • ロジステック回帰
• ポアソン回帰(次回) • 正規分布、ガンマ分布(次回) – 交互作用項 – オフセット項(次回)
GLMのよく使われる組み合わせ 分布 リンク関数 特性 二項分布 logit 離散・上限あり ポアソン分布 log 離散・上限なし
ガンマ分布 log(正準リンク関数はinverseだが 使いにくい) 連続値・ゼロ以上 正規分布 indenGty 連続値
例題: 上限のあるカウントデータ • ある架空植物の個体iそれぞれにおいて – Ni個の観察種子の打ち生きているのはyi個 • Niはどの個体でも8個
• 全部で100個の個体を調べる – 個体サイズ: xi – 肥料を与えたかどうか: fi • 与えていたらfi=T, 与えていなければfi=C
• サイズが大きくなると生存する種子の 数が多くなる • 肥料をやると生存種子数が多くなる
二項分布で表現するカウントデータ • N個のうちy個が生存していたという構造のカ ウントデータ – 上限が存在する離散値 • ポアソン分布のときは上限がどこにあるかわ からないデータ
• n=1, y=[0, 1]のときをベルヌーイ分布と呼ぶ
ロジスティック回帰とロジット関数 • ロジスティック関数 ロジット関数はロジスティック関数の逆関数
パラメータ推定 • 尤度関数 • 最尤推定する – R •
glm(cbind(y, N-‐y)~ x+f, data=d, family=binomial) – 同様にAICでモデル選択可能
ロジット関数の意味・解釈 • ロジット関数と線形予測子 – 左辺をオッズと呼ぶ – どのぐらい増えたらオッズがどれだけ増えるかを 示す
交互作用項 • 交互作用項 – 例題: x_iとf_iの積 – R
• glm(cbind(y, N-‐y)~ x*f, data=d, family=binomial) – x*fはx+y+x:fを省略している • むやみに入れないほうが良い – 交互作用項をいれてAICが改善しても、過大評価して いることが多い – 個体差・場所差によるばらつきの影響の可能性が高 い • 7章以降で説明するモデルを使えば、交互作用項の見かけ 上の影響は消える
割り算値のモデリングをやめよう • なぜわざわざ二項分布のモデルを使った か? – 情報が失われる • 1000打数300安打の打者と100打数30安打の打者を 同等に評価してよいのか?
– 変換された情報がどのような分布に従うのかわ からなくなる