Slide 1

Slide 1 text

アンサンブル学習における 基礎理論の構築 森下 皓文 日立製作所 先端AIイノベーションセンタ メディア知能処理研究部

Slide 2

Slide 2 text

© Hitachi, Ltd. 2023. All rights reserved. 自己紹介

Slide 3

Slide 3 text

© Hitachi, Ltd. 2023. All rights reserved. 3 自己紹介  氏名: 森下 皓文 ( @MorishTr )  所属: 先端AIイノベーションセンタ 知能メディア処理研究部  研究内容: 自然言語処理・機械学習  バックグラウンド: 東京大学 物理学専攻 (素粒子物理学)  超対称性理論が予言するダークマター粒子の探索 てるふみ 研究所

Slide 4

Slide 4 text

© Hitachi, Ltd. 2023. All rights reserved. 概要

Slide 5

Slide 5 text

© Hitachi, Ltd. 2023. All rights reserved. 5 日立における基礎研究  応用研究  自動鉄道ダイヤ修正/天井クレーン自動運転/... (営利企業なので無限個ある)  基礎研究  量子計算・暗号 / 再生医療(デザイン細胞)  人工光合成 / CCS(Carbon dioxide Capture and Storage) 1. 国際コンペ参加を通じたSocial-NLP技術の開発 (SemEval2020) 2. アンサンブル学習における基礎理論の構築 (ICML2022) 今回は…

Slide 6

Slide 6 text

© Hitachi, Ltd. 2023. All rights reserved. 国際コンペへの参加

Slide 7

Slide 7 text

© Hitachi, Ltd. 2023. All rights reserved. 7 SemEvalとは?  ACL分科会が毎年開催(1998~)  世界中の研究機関(企業・大学)が参加  幅広いタスクが出題される SemEval(*) = NLPで最も著名な国際コンペ (*) Semantic Evaluation

Slide 8

Slide 8 text

© Hitachi, Ltd. 2023. All rights reserved. 8 我々が参加したタスク タスク 概要 Memotion Analysis ミームに込められた意図(攻撃・憎悪・皮肉・冗談,等)を予測する. Detection of Propaganda Techniques in News Articles コンテンツに含まれるプロパガンダとそのタイプを検出する. Emphasis Selection 広告上で強調すべきテキスト部分を予測する. Assessing the Funniness of Edited News Headlines コンテンツのユーモア度合いを予測する. Predicting the Effect of Context in Word Similarity 語句の類似性に対してコンテンツ文脈が与える影響を計測する. インターネットミーム 広告の強調テキスト SemEval 2020 = SNS時代の様々な社会課題をタスク化

Slide 9

Slide 9 text

© Hitachi, Ltd. 2023. All rights reserved. 9 1. 言語モデルをベースに各タスク特化の手法を開発  𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷  ℎ𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 − 𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔 𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡  𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 − 𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎  (...) 2. 最良のアンサンブルを探索し特定した:  Step-1: 複数種の言語モデルを用いてモデル群を生成  Step-2: stacking ensembleで混合 我々の作戦 予測 Step-2 Step-1

Slide 10

Slide 10 text

© Hitachi, Ltd. 2023. All rights reserved. 10 実例 – ユーモアタスク 多種類の設定 • seed • ハイパラ • アーキテクチャ 7種類の言語モデル + Step1: モデル生成 Step2: モデル混合 アンサンブルの構築 提案手法 ユーモア度(∈ [𝟎𝟎, 𝟑𝟑])の誤差 (上にいくほど小さい=良い) モデル数 102 101 RMSE 350

Slide 11

Slide 11 text

© Hitachi, Ltd. 2023. All rights reserved. 11 実例 – ユーモアタスク 多種類の設定 • seed • ハイパラ • アーキテクチャ 7種類の言語モデル + 提案手法 Step1: モデル生成 Step2: モデル混合 ユーモア度(∈ [𝟎𝟎, 𝟑𝟑])の誤差 (上にいくほど小さい=良い) アンサンブルの構築 モデル数 102 101 RMSE 350 つよそう...!!

Slide 12

Slide 12 text

© Hitachi, Ltd. 2023. All rights reserved. 12 結果 タスク 順位 Memotion Analysis 2位/23 (multi label) Detection of Propaganda Techniques in News Articles 1位/36 (span identification) 3位/31 (technique classification) Emphasis Selection 2位/31 Assessing the Funniness of Edited News Headlines 1位/48 (regression), 1位/31 (classification) Predicting the (Graded) Effect of Context in Word Similarity 1位/11 (SL), 2位/11 (CR)  多数のタスクで1位~3位  COLING workshop で5件発表(1件オーラル) [1-5]  CoNLLコンペ[6]と複数同時1位獲得は日本初 [1] Terufumi Morishita et al. Hitachi at SemEval-2020 Task 7: Stacking at Scale with Heterogeneous Language Models for Humor Recognition 等.全文献は巻末参照のこと. https://www.hitachi.co.jp/New/cnews/month/2020/12/1202.html

Slide 13

Slide 13 text

© Hitachi, Ltd. 2023. All rights reserved. 13 しかし... しかし…

Slide 14

Slide 14 text

© Hitachi, Ltd. 2023. All rights reserved. 14 残った謎  他にも様々なアンサンブルを試行  Step-1: モデル生成  最強の言語モデル(=RoBERTa)のみ x 多種Seed  Boosting [25]  Bagging [22]  Step-2: モデル混合  単純な平均・多数決  誤差重み付け [26]  Boosting weights

Slide 15

Slide 15 text

© Hitachi, Ltd. 2023. All rights reserved. 15 残った謎  他にも様々なアンサンブルを試行  Step-1: モデル生成  最強の言語モデル(=RoBERTa)のみ x 多種Seed  Boosting [25]  Bagging [22]  Step-2: モデル混合  単純な平均・多数決  誤差重み付け [26]  Boosting weights  多種言語モデル x stacking = 常につよい

Slide 16

Slide 16 text

© Hitachi, Ltd. 2023. All rights reserved. 16 残った謎  他にも様々なアンサンブルを試行  Step-1: モデル生成  最強の言語モデル(=RoBERTa)のみ x 多種Seed  Boosting [25]  Bagging [22]  Step-2: モデル混合  単純な平均・多数決  誤差重み付け [26]  Boosting weights  多種言語モデル x stacking = 常につよい なぜ?

Slide 17

Slide 17 text

© Hitachi, Ltd. 2023. All rights reserved. 17 残った謎  他にも様々なアンサンブルを試行  Step-1: モデル生成  最強の言語モデル(=RoBERTa)のみ x 多種Seed  Boosting [25]  Bagging [22]  Step-2: モデル混合  単純な平均・多数決  誤差重み付け [26]  Boosting weights  多種言語モデル x stacking = 常につよい アンサンブルの強さを決めている要因は何? 根本的な問い なぜ?

Slide 18

Slide 18 text

© Hitachi, Ltd. 2023. All rights reserved. アンサンブル学習における 基礎理論の構築

Slide 19

Slide 19 text

© Hitachi, Ltd. 2023. All rights reserved. 19  アンサンブルの魅力  シンプル = 複数モデルを生成→予測を混合  汎用性 = 広汎なドメインで利用可  言語理解[a1-6], 画像認識[a7-10], バイオインフォ[a11-15], 交通管理[a16-18], 制御[a19], 教育[a20] → 超技術だと思う  研究も盛ん = 経験的な手法が多数,提案される  単純平均・多数決/Stacking[21]/Bagging[22]/RandomForest[23]/Mixture-of-Expert[24] ... アンサンブルの魅力と謎

Slide 20

Slide 20 text

© Hitachi, Ltd. 2023. All rights reserved. 20  アンサンブルの魅力  シンプル = 複数モデルを生成→予測を混合  汎用性 = 広汎なドメインで利用可  言語理解[a1-6], 画像認識[a7-10], バイオインフォ[a11-15], 交通管理[a16-18], 制御[a19], 教育[a20] → 超技術だと思う  研究も盛ん = 経験的な手法が多数,提案される  単純平均・多数決/Stacking[21]/Bagging[22]/RandomForest[23]/Mixture-of-Expert[24] ... アンサンブルの魅力と謎 どのような要因がアンサンブルの強さを決めているのか? 根本的な謎

Slide 21

Slide 21 text

© Hitachi, Ltd. 2023. All rights reserved. 21 通説 Model 猫! 猫! 犬! 犬! 犬! 犬! 助かった...🙂🙂 通説 = 精度と多様性じゃない? 個々のモデルの精度 モデル間の多様性 Model Model Model Model

Slide 22

Slide 22 text

© Hitachi, Ltd. 2023. All rights reserved. 22 通説の理論的根拠 Fanoの不等式に基づく既存理論 (Brown 2009, Zhou & Li 2010) 誤差下限(=性能のバロメータ)が精度と多様性に分解できることを示した 導出 精度 冗長性 (多様性の逆)

Slide 23

Slide 23 text

© Hitachi, Ltd. 2023. All rights reserved. 23 しかし... しかし…

Slide 24

Slide 24 text

© Hitachi, Ltd. 2023. All rights reserved. 24  精度と多様性さえ高ければよい? しかし...

Slide 25

Slide 25 text

© Hitachi, Ltd. 2023. All rights reserved. 25  精度と多様性さえ高ければよい? しかし... 僕は正解 したんだが💢💢 犬! 犬! 猫! 犬! 犬! 猫! Model Model Model Model Model

Slide 26

Slide 26 text

© Hitachi, Ltd. 2023. All rights reserved. 26  精度と多様性さえ高ければよい? しかし... 僕は正解 したんだが💢💢 混合によって失われてしまう情報量があるのでは? 犬! 犬! 猫! 犬! 犬! 猫! Model Model Model Model Model 失われる情報

Slide 27

Slide 27 text

© Hitachi, Ltd. 2023. All rights reserved. 27 通説の理論的根拠 Fanoの不等式に基づく既存理論 (Brown 2009, Zhou & Li 2010) 誤差下限(=性能のバロメータ)が精度と多様性に分解できることを示した 導出 精度 冗長性 (多様性の逆)

Slide 28

Slide 28 text

© Hitachi, Ltd. 2023. All rights reserved. 28 提案理論 Fanoの不等式(オリジナル)に基にづく提案理論 (Morishita et al. ICML2022 *) 誤差下限が精度・多様性・結合損失に分解できることを示した 導出 (*) "Rethinking Fano’s Inequality in Ensemble Learning.“ =結合損失(combination loss) 精度 冗長性 (多様性の逆)

Slide 29

Slide 29 text

© Hitachi, Ltd. 2023. All rights reserved. 29 理論の妥当性の検証実験 既存理論 提案理論 誤 差 下 限 ( 削 減 率 ) 誤差(削減率[%]) 提案理論の「誤差下限」は「実際の誤差」と相関 → 提案理論はより正確 誤差(削減率[%]) 相関係数 = -0.24 相関係数 = 0.98 [%] 誤 差 下 限 ( 削 減 率 ) [%]

Slide 30

Slide 30 text

© Hitachi, Ltd. 2023. All rights reserved. 30 提案理論の使いどころ 精度・多様性・結合損失によって アンサンブルの強み・弱みを分析できる 多種言語モデル x Stacking 精度は低い 多様性はとても高い 結合損失 多数決だと大きいが Stackingで下げることが可能 各量(100で正規化) Stacking →詳細は論文 精度 冗長性 結合損失 多数決 Step-1: モデル生成 Step-2: モデル混合 多種ハイパラ Bagging 単一言語モデル 多種言語モデル

Slide 31

Slide 31 text

© Hitachi, Ltd. 2023. All rights reserved. 31 (おまけ1) ICML 2022への参加  ICML (International Conference on Machine Learning)  NeurIPSと双璧をなすMLの世界最高峰会議  理論寄り.多くの論文に定理が見られる.  ICML 2022 (717-7/23)  採択率: 21.9% (1233/5630)  開催地: ボルチモア=全米最古の港町  感想  自分の発表は好評  ICMLの人達,賢く理解が早い  ICMLの人達,実験に興味ない...? (*個人の経験談)  アメリカ,物価が無限大  コロナに感染 → 入国拒否 → 10日以上足止め Figure 1: ボルチモアは船がいっぱい! Figure 2: 会場には人がいっぱい!! Figure 3: アメリカの物価は無限大!!! (a) 2000円 (b) 2500円 (c) 5000円 Figure A.1: コロナ陽性・入国拒否の通知

Slide 32

Slide 32 text

© Hitachi, Ltd. 2023. All rights reserved. 32 (おまけ2) 日経ロボティクスさんからの取材  日経ロボティクス = 機械学習系の専門誌  「アンサンブル学習はどうすれば性能アップできるのか、 日立製作所が実務に役立つ新理論を提唱」 https://xtech.nikkei.com/atcl/nxt/mag/rob/18/012600001/00114/

Slide 33

Slide 33 text

© Hitachi, Ltd. 2023. All rights reserved. 33  アンサンブル学習における基礎理論の構築(ICML2022)  「アンサンブル手法の性能を決めている要因は何か?」という謎を解明  コンペ時の謎にも答えられて満足 まとめ  国際コンペ参加を通じたSocial-NLP技術の開発(SemEval2020)  多数タスクで1位~3位  根本的な謎「多種モデル x stackingがなぜ強いのか」が残る 質問・議論は日立ブース or (@MorishTr)にて歓迎 !! このあと「人工演繹推論コーパスによる学習は言語モデルをどのように強化するか?」発表します! 言語モデルは厳密な論理推論を解けるのか? 数理論理学に基づき自動生成した自作ベンチマークで確かめます! (GPT-4もあるよ!!) @GS-6 言語メディア処理 E会場 (大会議室 A2) 16:50 ~ ご静聴ありがとうございました

Slide 34

Slide 34 text

© Hitachi, Ltd. 2023. All rights reserved. 34 関連情報 “自然言語処理の国際コンペティション「CoNLL 2020 Shared Task」と「SemEval 2020」の複数部門で1位を獲得” (プレスリ リース) → https://www.hitachi.co.jp/New/cnews/month/2020/12/1202.html Morishita et al. “Hitachi at SemEval-2020 Task 7: Stacking at Scale with Heterogeneous Language Models for Humor Recognition” SemEval workshop, COLING 2020”,等 [1-6] Morishita et al. "Rethinking Fano’s Inequality in Ensemble Learning." ICML. PMLR, 2022. 「アンサンブル学習はどうすれば性能アップできるのか、日立製作所が実務に役立つ新理論を提唱」 (日経ロボティクス) → https://xtech.nikkei.com/atcl/nxt/mag/rob/18/012600001/00114/ ”Uncovering the mystery of ensemble learning through the information theoretical lens” (ブログ) → https://www.hitachi.com/rd/sc/aiblog/202209_theoretical-framework-of-el/index.html

Slide 35

Slide 35 text

© Hitachi, Ltd. 2023. All rights reserved. 補足

Slide 36

Slide 36 text

© Hitachi, Ltd. 2023. All rights reserved. 36 (おまけ1) 各量のスケーリング則 スケーリング則は,極めて直感的な解釈が可能 →詳細は論文 モデル数 新規モデルによる 多様性の増分