Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Speaker Deck
PRO
Sign in
Sign up for free
[Gunosy研究会]データ解析のための統計モデリング6章(前篇)
ysekky
September 29, 2014
Research
1
350
[Gunosy研究会]データ解析のための統計モデリング6章(前篇)
ysekky
September 29, 2014
Tweet
Share
More Decks by ysekky
See All by ysekky
スタートアップの開発サイクルに学ぶ 研究活動の進め方 / research practices inspired by startup business strategy
ysekky
0
890
[論文紹介] A Method to Anonymize Business Metrics to Publishing Implicit Feedback Datasets (Recsys2020) / recsys20-reading-gunosy-datapub
ysekky
3
2.1k
JSAI2020 OS-12 広告とAI オープニング / JSAI2020-OS-12-ads-and-ai-opening
ysekky
0
1.5k
JSAI2020インダストリアルセッション - Gunosyにおける研究開発 / jsai2020-gunosy-rd-examples
ysekky
1
620
ウェブサービス事業者における研究開発インターン[株式会社Gunosy] - テキストアナリティクスシンポジウム2019 / research-intern-case-study-at-gunosy
ysekky
0
1.9k
Gunosyにおけるニュース記事推薦/ news-recommendation-in-gunosy-webdbf2019
ysekky
0
910
DEIM2019技術報告セッション - Gunosyの研究開発 / deim-2019-sponsor-session-gunosy-research
ysekky
0
590
Analysis of Bias in Gathering Information Between User Attributes in News Application (ABCCS 2018)
ysekky
1
1.8k
世代による政治ニュース記事の閲覧傾向の違いの分析 - JSAI2018 / Analysis of differences in viewing behavior of politics news by age
ysekky
0
3.4k
Other Decks in Research
See All in Research
CompilerGym CGO 2022 Tutorial Part 2
chriscummins
0
600
より良いTransformerをつくる
butsugiri
22
7k
意思決定を最大化するための”ループ”とループを回すための”施策”
masadooon
0
780
ABCIで回そう爆速深層学習 (基礎編)
yoshipon
12
5.9k
2022 東工大 情報通信系 研究室紹介 (すずかけ台) / Research@ICT, Tokyo Tech (Suzukakedai Campus) 2022
icttitech
0
3.4k
第13回チャンピオンズミーティング・タウラス杯ラウンド1集計 / Umamusume Taurus 2022 Round1
kitachan_black
0
740
Generating a Pairwise Dataset for Click-through Rate Prediction of News Articles Considering Positions and Contents
upura
0
110
深層学習を用いた三次元点群処理入門
nnchiba
5
3.3k
Survey
takumikato
0
280
Celebrate UTIG: Staff and Student Awards 2022
utig
0
190
PLDI '21論文読み会: Provable Repair of Deep Neural Networks
ideininc
0
730
民間企業におけるデータ整備の課題と工夫 / 20220305
yuzutas0
4
3.3k
Featured
See All Featured
Designing on Purpose - Digital PM Summit 2013
jponch
106
5.6k
Code Reviewing Like a Champion
maltzj
506
37k
Rebuilding a faster, lazier Slack
samanthasiow
62
7.2k
Reflections from 52 weeks, 52 projects
jeffersonlam
337
17k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
29
4.3k
Thoughts on Productivity
jonyablonski
43
2.3k
10 Git Anti Patterns You Should be Aware of
lemiorhan
638
52k
Rails Girls Zürich Keynote
gr2m
86
12k
Unsuck your backbone
ammeep
659
55k
Design by the Numbers
sachag
271
17k
Bootstrapping a Software Product
garrettdimon
296
110k
Facilitating Awesome Meetings
lara
29
4k
Transcript
データ解析のための統計モデリング入門 6章 GLMの応用範囲を広げる (6.1 ~ 6.5) Yoshifumi Seki
(Gunosy Inc) 2014.09.30@Gunosy研究会
これまでのおさらい • ポアソン分布・対数リンク関数のGLMを題材 に – どのようにデータからモデルを作るか – どのように良いモデルを選ぶか – どうしたらモデルが本当に良いことがわかるか?
本章でやること • さまざまなGLMを取り扱う – 確率分布・リンク関数・線形予測子を組み合わせ る • ロジステック回帰
• ポアソン回帰(次回) • 正規分布、ガンマ分布(次回) – 交互作用項 – オフセット項(次回)
GLMのよく使われる組み合わせ 分布 リンク関数 特性 二項分布 logit 離散・上限あり ポアソン分布 log 離散・上限なし
ガンマ分布 log(正準リンク関数はinverseだが 使いにくい) 連続値・ゼロ以上 正規分布 indenGty 連続値
例題: 上限のあるカウントデータ • ある架空植物の個体iそれぞれにおいて – Ni個の観察種子の打ち生きているのはyi個 • Niはどの個体でも8個
• 全部で100個の個体を調べる – 個体サイズ: xi – 肥料を与えたかどうか: fi • 与えていたらfi=T, 与えていなければfi=C
• サイズが大きくなると生存する種子の 数が多くなる • 肥料をやると生存種子数が多くなる
二項分布で表現するカウントデータ • N個のうちy個が生存していたという構造のカ ウントデータ – 上限が存在する離散値 • ポアソン分布のときは上限がどこにあるかわ からないデータ
• n=1, y=[0, 1]のときをベルヌーイ分布と呼ぶ
ロジスティック回帰とロジット関数 • ロジスティック関数 ロジット関数はロジスティック関数の逆関数
パラメータ推定 • 尤度関数 • 最尤推定する – R •
glm(cbind(y, N-‐y)~ x+f, data=d, family=binomial) – 同様にAICでモデル選択可能
ロジット関数の意味・解釈 • ロジット関数と線形予測子 – 左辺をオッズと呼ぶ – どのぐらい増えたらオッズがどれだけ増えるかを 示す
交互作用項 • 交互作用項 – 例題: x_iとf_iの積 – R
• glm(cbind(y, N-‐y)~ x*f, data=d, family=binomial) – x*fはx+y+x:fを省略している • むやみに入れないほうが良い – 交互作用項をいれてAICが改善しても、過大評価して いることが多い – 個体差・場所差によるばらつきの影響の可能性が高 い • 7章以降で説明するモデルを使えば、交互作用項の見かけ 上の影響は消える
割り算値のモデリングをやめよう • なぜわざわざ二項分布のモデルを使った か? – 情報が失われる • 1000打数300安打の打者と100打数30安打の打者を 同等に評価してよいのか?
– 変換された情報がどのような分布に従うのかわ からなくなる