$30 off During Our Annual Pro Sale. View Details »
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Stochastic Gradient Boostingについて
Search
Shinichi Takayanagi
January 27, 2016
Research
3
2.9k
Stochastic Gradient Boostingについて
社内の論文読み会資料
Shinichi Takayanagi
January 27, 2016
Tweet
Share
More Decks by Shinichi Takayanagi
See All by Shinichi Takayanagi
論文紹介「Evaluation gaps in machine learning practice」と、効果検証入門に関する昔話
stakaya
0
990
バイブコーディングの正体——AIエージェントはソフトウェア開発を変えるか?
stakaya
5
1.4k
[NeurIPS 2023 論文読み会] Wasserstein Quantum Monte Carlo
stakaya
0
560
[KDD2021 論文読み会] ControlBurn: Feature Selection by Sparse Forests
stakaya
2
2k
[ICML2021 論文読み会] Mandoline: Model Evaluation under Distribution Shift
stakaya
0
2k
[情報検索/推薦 各社合同 論文読み祭 #1] KDD ‘20 "Embedding-based Retrieval in Facebook Search"
stakaya
2
640
【2020年新人研修資料】ナウでヤングなPython開発入門
stakaya
29
21k
論文読んだ「Simple and Deterministic Matrix Sketching」
stakaya
1
1.2k
Quick Introduction to Approximate Bayesian Computation (ABC) with R"
stakaya
3
360
Other Decks in Research
See All in Research
ForestCast: Forecasting Deforestation Risk at Scale with Deep Learning
satai
2
120
データサイエンティストをめぐる環境の違い2025年版〈一般ビジネスパーソン調査の国際比較〉
datascientistsociety
PRO
0
340
Thirty Years of Progress in Speech Synthesis: A Personal Perspective on the Past, Present, and Future
ktokuda
0
140
AI in Enterprises - Java and Open Source to the Rescue
ivargrimstad
0
1.1k
学習型データ構造:機械学習を内包する新しいデータ構造の設計と解析
matsui_528
5
2.2k
HU Berlin: Industrial-Strength Natural Language Processing with spaCy and Prodigy
inesmontani
PRO
0
100
若手研究者が国際会議(例えばIROS)でワークショップを企画するメリットと成功法!
tanichu
0
130
[論文紹介] Intuitive Fine-Tuning
ryou0634
0
160
生成AI による論文執筆サポート・ワークショップ ─ サーベイ/リサーチクエスチョン編 / Workshop on AI-Assisted Paper Writing Support: Survey/Research Question Edition
ks91
PRO
0
130
Open Gateway 5GC利用への期待と不安
stellarcraft
2
170
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
230
SNLP2025:Can Language Models Reason about Individualistic Human Values and Preferences?
yukizenimoto
0
230
Featured
See All Featured
We Analyzed 250 Million AI Search Results: Here's What I Found
joshbly
0
260
Collaborative Software Design: How to facilitate domain modelling decisions
baasie
0
100
Design of three-dimensional binary manipulators for pick-and-place task avoiding obstacles (IECON2024)
konakalab
0
310
JAMstack: Web Apps at Ludicrous Speed - All Things Open 2022
reverentgeek
1
300
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.2k
BBQ
matthewcrist
89
9.9k
SEO in 2025: How to Prepare for the Future of Search
ipullrank
3
3.3k
Odyssey Design
rkendrick25
PRO
0
440
職位にかかわらず全員がリーダーシップを発揮するチーム作り / Building a team where everyone can demonstrate leadership regardless of position
madoxten
51
45k
Discover your Explorer Soul
emna__ayadi
2
1k
How GitHub (no longer) Works
holman
316
140k
Bioeconomy Workshop: Dr. Julius Ecuru, Opportunities for a Bioeconomy in West Africa
akademiya2063
PRO
0
31
Transcript
〜~論論⽂文輪輪読会〜~ Stochastic Gradient Boosting Jerome H. Friedman(1999) ⾼高柳柳慎⼀一
Whatʼ’s this? • 加法モデルの1つ – Gradient Boostingの拡張版 – モデルを学習させる際に”データをサンプリン グして使う(全部使わない)”というだけ • Gradient
Boostingの特徴 – モデル = 決定⽊木の⾜足しあげ – pseudoな誤差(損失関数の勾配)に対してモデ ルを当てはめる 2
まとめ • Stochastic Gradient Boosting = Gradient Boosting+標本サンプリング •
Gradient Boostingの特徴 – 最適化問題を⼆二段階に分けて解く • 第⼀一弾:勾配⽅方向になるような学習器を最適化計算 – データが有限なので厳密計算を諦めて近似 • 第⼆二弾:1を既存の学習器に追加する際の係数を最 適化 3
Gradient Boostingのモデル • モデルFはhという弱学習器の⾜足し上げ • 損失関数Ψを最⼩小化するように学習データ xから、βとhを決める 4
最適化計算 • 最適化はm=0から順に(stage-‐‑‒wise)決め ていく⽅方針を取る(これがいいという裏裏付 けはないっぽい) • F0を決めて、F1, F2, … FMと順に最適化
計算で決めていくということ 5
最適化計算のアイディア • 最適化計算を2ステップに分ける – aとβをばらばらにきめる • 第⼀一段階:勾配を学習器で近似(最適化) • 第⼆二段階:くっつけるときの係数を最適化 6
個々の学習器は回帰⽊木とする • 学習器 is 回帰⽊木 – 今までのaを{Rlm}と書いている – L個の終端ノードがある 7 1� 2…�
L� R1m R2m RLm 1:XΛͿͬ͜Ή 2:X͕Ϛον͢Δ RlmΛ୳͢ x͕RlmʹೖΔ yͷฏۉ
第⼀一段&第⼆二段の最適化 • 第⼀一段は普通にやれる • 第⼆二段は個々の終端ごとに最適化してOK – なぜならここの終端は独⽴立立/互いに素?なので – ∴並列列化できる! • これを今までの学習器に⾜足しこんで新しい 学習器とする
8
Gradient Boostingのアルゴリズム • アルゴリズムのまとめ 9
Stochastic Gradient Boostingのアルゴリズム • アルゴリズムのまとめ – データを全部使わない • (20%-‐‑‒50%程度度の使⽤用がふつうらしい) 10
なぜStochasticにするとよいのか? • 論論⽂文を読む限り・・・ – サンプリングで学習に使うデータが異異なる – 学習器間の相関が減る – ⼀一⽅方 • 全体の分散≒sum(個々の分散) + sum(相関) と書ける
– 相関が減るおかげで全体の分散が減る – Bias-‐‑‒Variance的に考えて汎化性能があがる 11