Slide 1

Slide 1 text

© 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL. LightGBMを数式で理解しよう とするLT 発表者 兼城大(見習いデータサイエンティスト)

Slide 2

Slide 2 text

早速ですが質問です (1)XGBoostまたはLightGBMを使ったことある人 (2)XGBoostまたはLightGBMのアルゴリズムを説明できる人 (3)XGBoostからLightGBMのアルゴリズムを説明できる人 (繋がりが見えてくると理解が深まる) © 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL.

Slide 3

Slide 3 text

ざっくり掴むLightGBM © 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL. XGBoost LightGBM 重いなぁ… 軽い! しかも精 度良い! 高速化

Slide 4

Slide 4 text

LightGBMを掴むポイント 1/3 © 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL. ①GBDT(Gradient Boosting Decision Tree) LightGBM ②GOSS(Gradient-based One-side Sampling) ③EFB(Exclusive Feature Bundling) 今回は水色の 部分だけ扱う 『LightGBM: A Highly Efficient Gradient Boosting Decision Tree』(2017) https://papers.nips.cc/pape r/6907-lightgbm-a-highly- efficient-gradient-boosting- decision-tree [論文の構成] 論文の要約 1章:紹介 2章:準備 3章:GOSS 4章:EFB 5章:実験 6章:まとめ 数 式 万 歳 特徴量削減 の話

Slide 5

Slide 5 text

LightGBMを掴むポイント 2/3 © 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL. 『LightGBM: A Highly Efficient Gradient Boosting Decision Tree』(2017) https://papers.nips.cc/pape r/6907-lightgbm-a-highly- efficient-gradient-boosting- decision-tree [論文の構成] 論文の要約 1章:紹介 2章:準備 3章:GOSS 4章:EFB 5章:実験 6章:まとめ 数 式 万 歳 Q. なぜこんな式になるの? A.貴方の武器を使いなさい。きっと わかるから。。。 手持ちの武器(前回のLT資料) そうか!僕たちには、XGBoostのアル ゴリズムがあるじゃないか!! →XGBoostとの繋がりで理解しよう! 理解したい!! 理解したいよぉ!!!

Slide 6

Slide 6 text

LightGBMを掴むポイント 3/3 © 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL. この流れでXGBoostからLightGBMを理解しよう! 今回は水色の 部分だけ扱う

Slide 7

Slide 7 text

© 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL. λ=0とする ポイント: の定義が異なる = −2( ーො −1) (XGBoostの式) = ーො −1(GBDTの式)

Slide 8

Slide 8 text

GOSSの仕組み 11 12 13 …1 1 21 22 23 …2 2 31 32 33 …3 3 © 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL. … 1 2 3 … … … (1)全データXを勾配 の降順に並べる。 (2)Xのうち、勾配の上位a×100%データセットをA、その他(1-a)×100%データセットを とする。 (3) のうち、ランダムに ×100%データを抽出し、データセットBとする。 (4)正規化するためにBには1− をかけて結果を出力する。 勾配上位a×100%を データセットA としてとる 下位(1-a)×100%を データセットとして とる 勾配 特徴量 デ ー タ さらにから割合bだけ抽出 したものをデータセットBと する 勾配の大きな データセットA 勾配の小さなものから いくつかを取ってきた データセットB 勾配 = ーො −1 要するにサンプリングの話!

Slide 9

Slide 9 text

© 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL. 勾配の小さいデータ セットは少なくサン プリングする ポイント: 出力に対する係数 Aはそのまま、Bには1− をかける

Slide 10

Slide 10 text

まとめ © 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL. この流れでXGBoostからLightGBMを理解しよう! 今回は水色の 部分だけ扱う

Slide 11

Slide 11 text

展望 • EFBのアルゴリズムについてまとめる。 (グラフ彩色問題、NP困難などの背景概念も説明したい) • 「GOSSのアルゴリズムは、(1-a)/bをかけるのでなく、1/bをかけ るべきでは??」と思ったので、もう少し考える。 © 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL. データセットAのサイズ (m×a)個 →そのまま出力 データセットBのサイズ (m×(1-a)×b)個 →(1-a)/bして出力(論文) 1/bして出力(僕的)

Slide 12

Slide 12 text

主な参考・引用文献 『LightGBM:A Highly Efficient Gradient Boosting Decision Tree』 Year :2017 Authors:Guolin Ke, Qi Meng , Thomas Finley , Taifeng Wang, Wei Chen, Weidong Ma , Qiwei Ye , Tie-Yan Liu https://papers.nips.cc/paper/6907-lightgbm-a-highly-efficient- gradient-boosting-decision-tree © 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL.