Upgrade to Pro — share decks privately, control downloads, hide ads and more …

人工知能学会2023ランチョンセミナー「アンサンブル学習における基礎理論の構築」

もりし
August 07, 2023

 人工知能学会2023ランチョンセミナー「アンサンブル学習における基礎理論の構築」

もりし

August 07, 2023
Tweet

More Decks by もりし

Other Decks in Research

Transcript

  1. © Hitachi, Ltd. 2023. All rights reserved. 3 自己紹介 

    氏名: 森下 皓文 ( @MorishTr )  所属: 先端AIイノベーションセンタ 知能メディア処理研究部  研究内容: 自然言語処理・機械学習  バックグラウンド: 東京大学 物理学専攻 (素粒子物理学)  超対称性理論が予言するダークマター粒子の探索 てるふみ 研究所
  2. © Hitachi, Ltd. 2023. All rights reserved. 5 日立における基礎研究 

    応用研究  自動鉄道ダイヤ修正/天井クレーン自動運転/... (営利企業なので無限個ある)  基礎研究  量子計算・暗号 / 再生医療(デザイン細胞)  人工光合成 / CCS(Carbon dioxide Capture and Storage) 1. 国際コンペ参加を通じたSocial-NLP技術の開発 (SemEval2020) 2. アンサンブル学習における基礎理論の構築 (ICML2022) 今回は…
  3. © Hitachi, Ltd. 2023. All rights reserved. 7 SemEvalとは? 

    ACL分科会が毎年開催(1998~)  世界中の研究機関(企業・大学)が参加  幅広いタスクが出題される SemEval(*) = NLPで最も著名な国際コンペ (*) Semantic Evaluation
  4. © Hitachi, Ltd. 2023. All rights reserved. 8 我々が参加したタスク タスク

    概要 Memotion Analysis ミームに込められた意図(攻撃・憎悪・皮肉・冗談,等)を予測する. Detection of Propaganda Techniques in News Articles コンテンツに含まれるプロパガンダとそのタイプを検出する. Emphasis Selection 広告上で強調すべきテキスト部分を予測する. Assessing the Funniness of Edited News Headlines コンテンツのユーモア度合いを予測する. Predicting the Effect of Context in Word Similarity 語句の類似性に対してコンテンツ文脈が与える影響を計測する. インターネットミーム 広告の強調テキスト SemEval 2020 = SNS時代の様々な社会課題をタスク化
  5. © Hitachi, Ltd. 2023. All rights reserved. 9 1. 言語モデルをベースに各タスク特化の手法を開発

     𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷  ℎ𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 − 𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔 𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡  𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 − 𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎  (...) 2. 最良のアンサンブルを探索し特定した:  Step-1: 複数種の言語モデルを用いてモデル群を生成  Step-2: stacking ensembleで混合 我々の作戦 予測 Step-2 Step-1
  6. © Hitachi, Ltd. 2023. All rights reserved. 10 実例 –

    ユーモアタスク 多種類の設定 • seed • ハイパラ • アーキテクチャ 7種類の言語モデル + Step1: モデル生成 Step2: モデル混合 アンサンブルの構築 提案手法 ユーモア度(∈ [𝟎𝟎, 𝟑𝟑])の誤差 (上にいくほど小さい=良い) モデル数 102 101 RMSE 350
  7. © Hitachi, Ltd. 2023. All rights reserved. 11 実例 –

    ユーモアタスク 多種類の設定 • seed • ハイパラ • アーキテクチャ 7種類の言語モデル + 提案手法 Step1: モデル生成 Step2: モデル混合 ユーモア度(∈ [𝟎𝟎, 𝟑𝟑])の誤差 (上にいくほど小さい=良い) アンサンブルの構築 モデル数 102 101 RMSE 350 つよそう...!!
  8. © Hitachi, Ltd. 2023. All rights reserved. 12 結果 タスク

    順位 Memotion Analysis 2位/23 (multi label) Detection of Propaganda Techniques in News Articles 1位/36 (span identification) 3位/31 (technique classification) Emphasis Selection 2位/31 Assessing the Funniness of Edited News Headlines 1位/48 (regression), 1位/31 (classification) Predicting the (Graded) Effect of Context in Word Similarity 1位/11 (SL), 2位/11 (CR)  多数のタスクで1位~3位  COLING workshop で5件発表(1件オーラル) [1-5]  CoNLLコンペ[6]と複数同時1位獲得は日本初 [1] Terufumi Morishita et al. Hitachi at SemEval-2020 Task 7: Stacking at Scale with Heterogeneous Language Models for Humor Recognition 等.全文献は巻末参照のこと. https://www.hitachi.co.jp/New/cnews/month/2020/12/1202.html
  9. © Hitachi, Ltd. 2023. All rights reserved. 14 残った謎 

    他にも様々なアンサンブルを試行  Step-1: モデル生成  最強の言語モデル(=RoBERTa)のみ x 多種Seed  Boosting [25]  Bagging [22]  Step-2: モデル混合  単純な平均・多数決  誤差重み付け [26]  Boosting weights
  10. © Hitachi, Ltd. 2023. All rights reserved. 15 残った謎 

    他にも様々なアンサンブルを試行  Step-1: モデル生成  最強の言語モデル(=RoBERTa)のみ x 多種Seed  Boosting [25]  Bagging [22]  Step-2: モデル混合  単純な平均・多数決  誤差重み付け [26]  Boosting weights  多種言語モデル x stacking = 常につよい
  11. © Hitachi, Ltd. 2023. All rights reserved. 16 残った謎 

    他にも様々なアンサンブルを試行  Step-1: モデル生成  最強の言語モデル(=RoBERTa)のみ x 多種Seed  Boosting [25]  Bagging [22]  Step-2: モデル混合  単純な平均・多数決  誤差重み付け [26]  Boosting weights  多種言語モデル x stacking = 常につよい なぜ?
  12. © Hitachi, Ltd. 2023. All rights reserved. 17 残った謎 

    他にも様々なアンサンブルを試行  Step-1: モデル生成  最強の言語モデル(=RoBERTa)のみ x 多種Seed  Boosting [25]  Bagging [22]  Step-2: モデル混合  単純な平均・多数決  誤差重み付け [26]  Boosting weights  多種言語モデル x stacking = 常につよい アンサンブルの強さを決めている要因は何? 根本的な問い なぜ?
  13. © Hitachi, Ltd. 2023. All rights reserved. 19  アンサンブルの魅力

     シンプル = 複数モデルを生成→予測を混合  汎用性 = 広汎なドメインで利用可  言語理解[a1-6], 画像認識[a7-10], バイオインフォ[a11-15], 交通管理[a16-18], 制御[a19], 教育[a20] → 超技術だと思う  研究も盛ん = 経験的な手法が多数,提案される  単純平均・多数決/Stacking[21]/Bagging[22]/RandomForest[23]/Mixture-of-Expert[24] ... アンサンブルの魅力と謎
  14. © Hitachi, Ltd. 2023. All rights reserved. 20  アンサンブルの魅力

     シンプル = 複数モデルを生成→予測を混合  汎用性 = 広汎なドメインで利用可  言語理解[a1-6], 画像認識[a7-10], バイオインフォ[a11-15], 交通管理[a16-18], 制御[a19], 教育[a20] → 超技術だと思う  研究も盛ん = 経験的な手法が多数,提案される  単純平均・多数決/Stacking[21]/Bagging[22]/RandomForest[23]/Mixture-of-Expert[24] ... アンサンブルの魅力と謎 どのような要因がアンサンブルの強さを決めているのか? 根本的な謎
  15. © Hitachi, Ltd. 2023. All rights reserved. 21 通説 Model

    猫! 猫! 犬! 犬! 犬! 犬! 助かった...🙂🙂 通説 = 精度と多様性じゃない? 個々のモデルの精度 モデル間の多様性 Model Model Model Model
  16. © Hitachi, Ltd. 2023. All rights reserved. 22 通説の理論的根拠 Fanoの不等式に基づく既存理論

    (Brown 2009, Zhou & Li 2010) 誤差下限(=性能のバロメータ)が精度と多様性に分解できることを示した 導出 精度 冗長性 (多様性の逆)
  17. © Hitachi, Ltd. 2023. All rights reserved. 25  精度と多様性さえ高ければよい?

    しかし... 僕は正解 したんだが💢💢 犬! 犬! 猫! 犬! 犬! 猫! Model Model Model Model Model
  18. © Hitachi, Ltd. 2023. All rights reserved. 26  精度と多様性さえ高ければよい?

    しかし... 僕は正解 したんだが💢💢 混合によって失われてしまう情報量があるのでは? 犬! 犬! 猫! 犬! 犬! 猫! Model Model Model Model Model 失われる情報
  19. © Hitachi, Ltd. 2023. All rights reserved. 27 通説の理論的根拠 Fanoの不等式に基づく既存理論

    (Brown 2009, Zhou & Li 2010) 誤差下限(=性能のバロメータ)が精度と多様性に分解できることを示した 導出 精度 冗長性 (多様性の逆)
  20. © Hitachi, Ltd. 2023. All rights reserved. 28 提案理論 Fanoの不等式(オリジナル)に基にづく提案理論

    (Morishita et al. ICML2022 *) 誤差下限が精度・多様性・結合損失に分解できることを示した 導出 (*) "Rethinking Fano’s Inequality in Ensemble Learning.“ =結合損失(combination loss) 精度 冗長性 (多様性の逆)
  21. © Hitachi, Ltd. 2023. All rights reserved. 29 理論の妥当性の検証実験 既存理論

    提案理論 誤 差 下 限 ( 削 減 率 ) 誤差(削減率[%]) 提案理論の「誤差下限」は「実際の誤差」と相関 → 提案理論はより正確 誤差(削減率[%]) 相関係数 = -0.24 相関係数 = 0.98 [%] 誤 差 下 限 ( 削 減 率 ) [%]
  22. © Hitachi, Ltd. 2023. All rights reserved. 30 提案理論の使いどころ 精度・多様性・結合損失によって

    アンサンブルの強み・弱みを分析できる 多種言語モデル x Stacking 精度は低い 多様性はとても高い 結合損失 多数決だと大きいが Stackingで下げることが可能 各量(100で正規化) Stacking →詳細は論文 精度 冗長性 結合損失 多数決 Step-1: モデル生成 Step-2: モデル混合 多種ハイパラ Bagging 単一言語モデル 多種言語モデル
  23. © Hitachi, Ltd. 2023. All rights reserved. 31 (おまけ1) ICML

    2022への参加  ICML (International Conference on Machine Learning)  NeurIPSと双璧をなすMLの世界最高峰会議  理論寄り.多くの論文に定理が見られる.  ICML 2022 (717-7/23)  採択率: 21.9% (1233/5630)  開催地: ボルチモア=全米最古の港町  感想  自分の発表は好評  ICMLの人達,賢く理解が早い  ICMLの人達,実験に興味ない...? (*個人の経験談)  アメリカ,物価が無限大  コロナに感染 → 入国拒否 → 10日以上足止め Figure 1: ボルチモアは船がいっぱい! Figure 2: 会場には人がいっぱい!! Figure 3: アメリカの物価は無限大!!! (a) 2000円 (b) 2500円 (c) 5000円 Figure A.1: コロナ陽性・入国拒否の通知
  24. © Hitachi, Ltd. 2023. All rights reserved. 32 (おまけ2) 日経ロボティクスさんからの取材

     日経ロボティクス = 機械学習系の専門誌  「アンサンブル学習はどうすれば性能アップできるのか、 日立製作所が実務に役立つ新理論を提唱」 https://xtech.nikkei.com/atcl/nxt/mag/rob/18/012600001/00114/
  25. © Hitachi, Ltd. 2023. All rights reserved. 33  アンサンブル学習における基礎理論の構築(ICML2022)

     「アンサンブル手法の性能を決めている要因は何か?」という謎を解明  コンペ時の謎にも答えられて満足 まとめ  国際コンペ参加を通じたSocial-NLP技術の開発(SemEval2020)  多数タスクで1位~3位  根本的な謎「多種モデル x stackingがなぜ強いのか」が残る 質問・議論は日立ブース or (@MorishTr)にて歓迎 !! このあと「人工演繹推論コーパスによる学習は言語モデルをどのように強化するか?」発表します! 言語モデルは厳密な論理推論を解けるのか? 数理論理学に基づき自動生成した自作ベンチマークで確かめます! (GPT-4もあるよ!!) @GS-6 言語メディア処理 E会場 (大会議室 A2) 16:50 ~ ご静聴ありがとうございました
  26. © Hitachi, Ltd. 2023. All rights reserved. 34 関連情報 “自然言語処理の国際コンペティション「CoNLL

    2020 Shared Task」と「SemEval 2020」の複数部門で1位を獲得” (プレスリ リース) → https://www.hitachi.co.jp/New/cnews/month/2020/12/1202.html Morishita et al. “Hitachi at SemEval-2020 Task 7: Stacking at Scale with Heterogeneous Language Models for Humor Recognition” SemEval workshop, COLING 2020”,等 [1-6] Morishita et al. "Rethinking Fano’s Inequality in Ensemble Learning." ICML. PMLR, 2022. 「アンサンブル学習はどうすれば性能アップできるのか、日立製作所が実務に役立つ新理論を提唱」 (日経ロボティクス) → https://xtech.nikkei.com/atcl/nxt/mag/rob/18/012600001/00114/ ”Uncovering the mystery of ensemble learning through the information theoretical lens” (ブログ) → https://www.hitachi.com/rd/sc/aiblog/202209_theoretical-framework-of-el/index.html
  27. © Hitachi, Ltd. 2023. All rights reserved. 36 (おまけ1) 各量のスケーリング則

    スケーリング則は,極めて直感的な解釈が可能 →詳細は論文 モデル数 新規モデルによる 多様性の増分