Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LightGBMを理解しようとするLT
Search
daidesukedonanika
June 15, 2019
Technology
1.5k
3
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
LightGBMを理解しようとするLT
daidesukedonanika
June 15, 2019
More Decks by daidesukedonanika
See All by daidesukedonanika
モダンデータアーキテクチャ~ウィッシュじゃないよデータメッシュ~
daidesukedonanika
0
2.3k
XGBoostを数式で理解しようとするLT
daidesukedonanika
1
2.1k
Other Decks in Technology
See All in Technology
FDE という解 ― 暗黙知と明示知をつなぐ、伴走型エンジニアリング ―
otanet
0
160
就職⽀援サービスにおけるキャリアアドバイザーのシフトスケジューリング
recruitengineers
PRO
1
140
Oracle AI Database@AWS:サービス概要のご紹介
oracle4engineer
PRO
4
2.9k
2026TECHFRESH畢業分享會 - 原生還是跨平台? App 開發踩坑實錄
line_developers_tw
PRO
0
1k
AIエージェントが名古屋の猛暑からあなたを守る
happysamurai294
0
120
AAIFに入ってみた ~内から見えるコミュニティ動向~
sato4
0
230
Claude Codeをどのように キャッチアップしているか
oikon48
12
8k
SONiC Scale-Up Working Group から探る Scale-UpやUltraEthernet機能の実装方法
ebiken
PRO
2
330
人材育成分科会.pdf
_awache
4
250
攻撃者視点で考えるDetection Engineering
cryptopeg
3
1.8k
自宅LLMの話
jacopen
1
580
AGENTS.mdとSkillsで始めるAIエージェント活用
sonoda_mj
3
210
Featured
See All Featured
Marketing Yourself as an Engineer | Alaka | Gurzu
gurzu
0
230
svc-hook: hooking system calls on ARM64 by binary rewriting
retrage
2
300
Git: the NoSQL Database
bkeepers
PRO
432
67k
Context Engineering - Making Every Token Count
addyosmani
9
960
What Being in a Rock Band Can Teach Us About Real World SEO
427marketing
0
250
jQuery: Nuts, Bolts and Bling
dougneiner
66
8.5k
Digital Projects Gone Horribly Wrong (And the UX Pros Who Still Save the Day) - Dean Schuster
uxyall
1
1.7k
Keith and Marios Guide to Fast Websites
keithpitt
413
23k
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
3.2k
Redefining SEO in the New Era of Traffic Generation
szymonslowik
1
340
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
10
1.2k
Transcript
© 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL. LightGBMを数式で理解しよう とするLT
発表者 兼城大(見習いデータサイエンティスト)
早速ですが質問です (1)XGBoostまたはLightGBMを使ったことある人 (2)XGBoostまたはLightGBMのアルゴリズムを説明できる人 (3)XGBoostからLightGBMのアルゴリズムを説明できる人 (繋がりが見えてくると理解が深まる) © 2019 Chura DATA inc.
PROPRIETARY & CONFIDENTIAL.
ざっくり掴むLightGBM © 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL. XGBoost
LightGBM 重いなぁ… 軽い! しかも精 度良い! 高速化
LightGBMを掴むポイント 1/3 © 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL.
①GBDT(Gradient Boosting Decision Tree) LightGBM ②GOSS(Gradient-based One-side Sampling) ③EFB(Exclusive Feature Bundling) 今回は水色の 部分だけ扱う 『LightGBM: A Highly Efficient Gradient Boosting Decision Tree』(2017) https://papers.nips.cc/pape r/6907-lightgbm-a-highly- efficient-gradient-boosting- decision-tree [論文の構成] 論文の要約 1章:紹介 2章:準備 3章:GOSS 4章:EFB 5章:実験 6章:まとめ 数 式 万 歳 特徴量削減 の話
LightGBMを掴むポイント 2/3 © 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL.
『LightGBM: A Highly Efficient Gradient Boosting Decision Tree』(2017) https://papers.nips.cc/pape r/6907-lightgbm-a-highly- efficient-gradient-boosting- decision-tree [論文の構成] 論文の要約 1章:紹介 2章:準備 3章:GOSS 4章:EFB 5章:実験 6章:まとめ 数 式 万 歳 Q. なぜこんな式になるの? A.貴方の武器を使いなさい。きっと わかるから。。。 手持ちの武器(前回のLT資料) そうか!僕たちには、XGBoostのアル ゴリズムがあるじゃないか!! →XGBoostとの繋がりで理解しよう! 理解したい!! 理解したいよぉ!!!
LightGBMを掴むポイント 3/3 © 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL.
この流れでXGBoostからLightGBMを理解しよう! 今回は水色の 部分だけ扱う
© 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL. λ=0とする ポイント:
の定義が異なる = −2( ーො −1) (XGBoostの式) = ーො −1(GBDTの式)
GOSSの仕組み 11 12 13 …1 1 21 22 23 …2
2 31 32 33 …3 3 © 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL. … 1 2 3 … … … (1)全データXを勾配 の降順に並べる。 (2)Xのうち、勾配の上位a×100%データセットをA、その他(1-a)×100%データセットを とする。 (3) のうち、ランダムに ×100%データを抽出し、データセットBとする。 (4)正規化するためにBには1− をかけて結果を出力する。 勾配上位a×100%を データセットA としてとる 下位(1-a)×100%を データセットとして とる 勾配 特徴量 デ ー タ さらにから割合bだけ抽出 したものをデータセットBと する 勾配の大きな データセットA 勾配の小さなものから いくつかを取ってきた データセットB 勾配 = ーො −1 要するにサンプリングの話!
© 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL. 勾配の小さいデータ セットは少なくサン
プリングする ポイント: 出力に対する係数 Aはそのまま、Bには1− をかける
まとめ © 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL. この流れでXGBoostからLightGBMを理解しよう!
今回は水色の 部分だけ扱う
展望 • EFBのアルゴリズムについてまとめる。 (グラフ彩色問題、NP困難などの背景概念も説明したい) • 「GOSSのアルゴリズムは、(1-a)/bをかけるのでなく、1/bをかけ るべきでは??」と思ったので、もう少し考える。 © 2019 Chura
DATA inc. PROPRIETARY & CONFIDENTIAL. データセットAのサイズ (m×a)個 →そのまま出力 データセットBのサイズ (m×(1-a)×b)個 →(1-a)/bして出力(論文) 1/bして出力(僕的)
主な参考・引用文献 『LightGBM:A Highly Efficient Gradient Boosting Decision Tree』 Year :2017
Authors:Guolin Ke, Qi Meng , Thomas Finley , Taifeng Wang, Wei Chen, Weidong Ma , Qiwei Ye , Tie-Yan Liu https://papers.nips.cc/paper/6907-lightgbm-a-highly-efficient- gradient-boosting-decision-tree © 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL.