Slide 1

Slide 1 text

1 Confidential © TDAI Lab All right reserved. NeurIPS 2023 技術報告会 ⽇本ディープラーニング協会主催 2024年2⽉1⽇ 株式会社TDAI Lab GPT-4登場以降のトップ国際会議から捉える7つのAI研究トレンド

Slide 2

Slide 2 text

2 Confidential © TDAI Lab All right reserved. ⾃⼰紹介 経歴 2016年 株式会社TDAI Lab創業 (代表取締役社⻑) 2018年 東京⼤学⼤学院⼯学系研究科 修⼠課程修了(@⿃海研) 2021年 東京⼤学⼤学院⼯学系研究科 博⼠課程修了(@⿃海研) 興味領域 計算社会科学・評価(公平性・バイアス)・要約・推薦 特技︓競技ダンス 2014年 東京⼤学総⻑賞受賞 2015年 全⽇本学⽣競技ダンス選⼿権 優勝 2020年 芸能⼈格付けチェック出演 2022年 全⽇本ランキング6位 2016~2024年 全⽇本代表選⼿ 著書 「世界⼀カンタンで実戦的な⽂系のための⼈⼯知能の教科書」 福⾺ 智⽣ Tomoki Fukuma @fukuma_tomoki

Slide 3

Slide 3 text

3 Confidential © TDAI Lab All right reserved. ⾃⼰紹介 野⽥ 昂希 Koki Noda 経歴 2020年 株式会社TDAI Labインターン⼊社 2021年 東京⼤学農学部 卒業 2021年 株式会社TDAI Lab 取締役就任 2022年 株式会社TDAI Lab CTO就任 技術領域 機械学習, Cloud, Web, 分散処理 特技︓競技ダンス 2019年 レギュラー戦全6試合団体優勝 研究 Beyond Real-world Benchmark Datasets: An Empirical Study of Node Classification with GNNs. (NeurIPS 2022 D&B)

Slide 4

Slide 4 text

4 Confidential © TDAI Lab All right reserved. 本資料の⽬的・留意事項 【想定聴講者 】 1. 近年のAI研究トレンドのざっくりした傾向を掴みたい⽅ 2. 機械学習・深層学習にある程度の予備知識がある⽅ 3. 当カンファレンスについての⼀参加者の⾒解を、興味を持って聴講くださる⽅ 【 留意事項 】 本発表資料はできる限り誤解のないように努めておりますが、著者⾃⾝の仮説や想定の誤りに より、内容の⼀部に正確でない表現を含むことがあるかもしれない点、ご容赦ください。

Slide 5

Slide 5 text

5 Confidential © TDAI Lab All right reserved. NeurIPS統計情報 ● 1987年から37回⽬の開催 ● 12/10~12/16 (本会議) ● 12345 submissions ● 3218 accepted (26.07 acceptance) https://papercopilot.com/statistics/neurips-statistics/

Slide 6

Slide 6 text

6 Confidential © TDAI Lab All right reserved. NeurIPS統計情報 ● Language Models ● Diffusion Models ● Large Language ● Text to ● Diffusion Model ● Dataset for ● to Image ● Language Model ● Benchmark for ● Time Series 著者独⾃作成 ● Reinforcement Learning ● Neural Networks ● Learning with ● Learning in ● Knowledge Distillation ● for Neural ● Learning of ● Few Shot ● Near Optimal ● Learning to 2022年から⽐べて特に増えた単語 2022年から⽐べて特に減った単語

Slide 7

Slide 7 text

7 Confidential © TDAI Lab All right reserved. 本⽇の発表の流れ ● トレンド1: LLMをより⼈が好む回答へ ● トレンド2: データの重要性について ● トレンド3: モデルの社会的適合性を多⾯的評価 ● トレンド4: マルチモーダルモデルも同様 ● トレンド5: 汎⽤的AIに向けて推論⼒を⾼めよう ● トレンド6: 多分野への応⽤ ● トレンド7: 未解決現象の理論的解明

Slide 8

Slide 8 text

8 Confidential © TDAI Lab All right reserved. 背景知識︓基盤モデル ● 基盤モデル(Foundation Model)とは、⼤量のデータを⽤いて(⼀般的に⾃⼰教師あ り的に)学習することで、下流の広範なタスクに対し⾼い汎化性能を獲得したモデル https://arxiv.org/abs/2108.07258 2021年にBommasaniらのスタンフォード⼤学のグループによって, 基盤モデル(Foundation Model)と命名 基盤モデルはそのまま使われることは少なく、⼿元のタスクに応じて微調整して⽤いられる。

Slide 9

Slide 9 text

9 Confidential © TDAI Lab All right reserved. 背景知識︓RLHF (Reinforcement Learning from Human Feedback) 2ステップの微調整によって、⼈が好む出⼒をするようにLLMを調整 ● Step1. ○ ⼊⼒プロンプトに対する複数の回答を⽤意し、⼈がランク付けしたデータを作成 ○ “⼈間にとっての好ましさ”をスカラーで出⼒するようなReward Model(RM)を得る ● Step2. ○ RMを報酬関数として使い、強化学習で微調整 ChatGPTもRLHFを⽤いて微調整されたモデル

Slide 10

Slide 10 text

10 Confidential © TDAI Lab All right reserved. トレンド1まとめ. LLMをより⼈が好む回答へ ? もっと簡単に再学習ができない︖ RLHFよりももっと良い⽅法は︖ →(論⽂1) ⼀部の重み+量⼦化でより軽量に →(論⽂2) 順伝播で勾配計算 → (論⽂3) 最尤推定の⽅が安定・⾼性能 → (論⽂4) FBデータは少なくても良い ? どうやって、より早く・安く・安定してLLMを再学習をさせられるようにするか

Slide 11

Slide 11 text

11 Confidential © TDAI Lab All right reserved. もっと簡単に再学習ができない︖ PEFT(Parameter-Efficient Fine Tuning) 近年流⾏の代表的な⼿法 (論⽂1)”QLoRA: Efficient Finetuning of Quantized LLMs”,NeurIPS2023 (論⽂2)”Fine-Tuning Language Models with Just Forward Passes”,NeurIPS2023 NeurIPS 2023では、LoRAに量⼦化を組み合わせてさらに軽量化するQLoRAや、 順伝播だけで勾配計算を⾏いメモリ負荷を低減したMeZOなどが提案されていた Full Fine Tuningの問題点 学習データが少ない場合にオーバ ーフィットしやすい 1 2 3 全パラメータの更新には膨⼤な 計算コストが掛かる 壊滅的忘却が発⽣するリスク LoRA : 低ランクに分解した別のパス を追加

Slide 12

Slide 12 text

12 Confidential © TDAI Lab All right reserved. 論⽂紹介(3/4)︓ Direct Preference Optimization: Your Language Model is Secretly a Reward Model(Outstanding Paper) ● RLHFよりも安定していて簡素なファインチューニング⽅法DPOを提案 ● 教師あり学習の要領で、Preferenceの⾼い回答が出やすくなるように学習 ○ 選好度合いが⾼い⽂章→⾼尤度、低い⽂章→低尤度 ○ 凍結した別のLMと⽐較しながら学習 ● 同じデータで学習した時、DPOはRLHFを上回る性能 嗜好データセットの準備

Slide 13

Slide 13 text

13 Confidential © TDAI Lab All right reserved. (参考) 最新のアラインメント学習⽅法の変遷︓RLHF→DPO→KTO ● DPOはRLHFの学習プロセスを簡単にした ● Kahneman-Tversky Optimization(KTO)︓RLHF、DPOの学習データの作成コストを削減 ○ 選好データ→2値評価データ(GOOD or BAD) ● 今後OpenAIといったプラットフォーマーがデータ収集の観点で優位に︖ https://contextual.ai/better-cheaper-faster-llm-alignment-with-kto/

Slide 14

Slide 14 text

14 Confidential © TDAI Lab All right reserved. 論⽂紹介(4/4)︓Less Is More for Alignment ● 表⾯的アライメント仮説 ○ モデル知識は事前学習時に概ね学習している ○ あとはどの部分の知識を使うかや、フォーマットだけ微調整すれば良い 少数のデータでも⼗分微調整できるのでは︖ (ついでに破壊的忘却も減らせるかもしれない) ● LIMAでは少量の⾼品質な1000件のデータを準備 ○ 750件をQAフォーラムから ■ ✅ ⼿動で⾼品質かつ多様なものを選択 ○ 250件は⼿書きで作成 ● LLaMa-65Bを教師あり学習の要領で微調整

Slide 15

Slide 15 text

15 Confidential © TDAI Lab All right reserved. 論⽂紹介(4/4)︓Less Is More for Alignment ←Alpaca: LLaMaを⼤量のInstruction Datasetで微調整に勝利 ←DaVinci003︓RLHFで学習したモデルに勝利 ←BARDやClaude、GPT-4に匹敵する性能 1000件+教師あり学習で、 ⼤量データ+RLHFに匹敵 データを1000件以上に増やしても性能の 変化は少ない

Slide 16

Slide 16 text

16 Confidential © TDAI Lab All right reserved. トレンド1まとめ. LLMをより⼈が好む回答へ ? もっと簡単に再学習ができない︖ RLHFよりももっと良い⽅法は︖ →(論⽂1) ⼀部の重み+量⼦化でより軽量に →(論⽂2) 順伝播で勾配計算 → (論⽂3) 最尤推定の⽅が安定・⾼性能 → (論⽂4) FBデータは少なくても良い ? どうやって、より早く・安く・安定してLLMを再学習をさせられるようにするか

Slide 17

Slide 17 text

17 Confidential © TDAI Lab All right reserved. 本⽇の発表の流れ ● トレンド1: LLMをより⼈が好む回答へ ● トレンド2: データの重要性について ● トレンド3: モデルの社会的適合性を多⾯的評価 ● トレンド4: マルチモーダルモデルも同様 ● トレンド5: 汎⽤的AIに向けて推論⼒を⾼めよう ● トレンド6: 多分野への応⽤ ● トレンド7: 未解決現象の理論的解明

Slide 18

Slide 18 text

18 Confidential © TDAI Lab All right reserved. 背景知識. Data Centric AI ● アルゴリズムを改善するだけではより優れたモデルを作ることができない問題 ● NeurIPS 2021以降、Datasets and Benchmarksという新しいトラックが常設 ● Andrew Ng⽒が提案したData Centric AIのコンテストが象徴的 ○ モデルではなくデータをチューニングすることで精度を競う https://www.deeplearning.ai/wp-content/uploads/2021/06/MLOps- From-Model-centric-to-Data-centric-AI.pdf

Slide 19

Slide 19 text

19 Confidential © TDAI Lab All right reserved. トレンド1まとめ. LLMをより⼈が好む回答へ ? もっと簡単に再学習ができない︖ RLHFよりももっと良い⽅法は︖ →(論⽂1) ⼀部の重み+量⼦化でより軽量に →(論⽂2) 順伝播で勾配計算 ? どうやって、より早く・安く・安定してLLMを再学習をさせられるようにするか RLHFよりももっと良い⽅法は︖ ? トレンド1の後半も学習データの⼯夫による性能向上とみても良いかも︖ → (論⽂3) 最尤推定の⽅が安定・⾼性能 → (論⽂4) FBデータは少なくても良い

Slide 20

Slide 20 text

20 Confidential © TDAI Lab All right reserved. トレンド2まとめ. データの重要性について ? 将来LLMの学習データが枯渇するけ⼤丈夫︖ 良いデータセットをどう作る︖ → (論⽂5) 同データは4回まで使い回しOK → (論⽂1) データセットの良い枝刈り → (論⽂2) 複数ドメインデータの混ぜ⽅ ? ⽣成データでAIは学習できる︖ → (論⽂3,4) 拡散モデルでデータ拡張 ? モデル構造の改善よりもデータセットの作り⽅をどう改善するかにシフト

Slide 21

Slide 21 text

21 Confidential © TDAI Lab All right reserved. 良いデータセットをどう作る︖ データセットの良い枝刈り事例 ⽬的タスクに応じてデータセットの重要度 を計算するestimator → 今回は単語の出現頻度を考慮 複数ドメインデータの混ぜ⽅ 計算予算に制限がある場合、複数ドメインをど う混ぜれば、精度⾼く・⾼速な収束が可能か︖ → 280Mモデルでドメインの割合を最適化し てから8Bモデルを学習 論⽂1. Data Selection for Language Models Via Importance Resampling[NeurIPS 2023] 論⽂2. DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining[NeurIPS 2023]

Slide 22

Slide 22 text

22 Confidential © TDAI Lab All right reserved. ⽣成データでAIは学習できる︖ Data Augmentationに応⽤した事例 元画像のコンテキストを保ったまま類似画 像を⽣成するフレームワークを提案し、 Few-shotなどで効果を実証 画像認識への応⽤事例 道路認識のデータセット作成に応⽤した事例 (NeurIPS 2023 workshop SynheticData4ML) 論⽂4.Synthetic Data Generation for Scarce Road Scene Detection Scenarios [Workshop: NeurIPS 2023 Synthetic Data Generation with Generative AI] 論⽂3.Effective Data Augmentation With Diffusion Models [Workshop: NeurIPS 2023 Workshop on Diffusion Models]

Slide 23

Slide 23 text

23 Confidential © TDAI Lab All right reserved. 背景知識. 学習データ量の限界 ● 基盤モデルの学習データの量は有限であり、将来的に枯渇する ● トレンドラインから考えると、以下の年には使い尽くしてしまうと予測されている ○ ⾔語データ(低品質)︓2032.4年 ○ ⾔語データ(⾼品質)︓2024.5年 ○ 画像データ︓2046年 ⾔語データ(低品質) ⾔語データ(⾼品質) 画像データ

Slide 24

Slide 24 text

24 Confidential © TDAI Lab All right reserved. 背景知識︓基盤モデルにおけるScaling Law ● 基盤モデルに⽤いられるTransformerの性能は「計算リソース」「データセット サイズ」「パラメータ数」に依存する(Scaling Law) ● Chinchilla[NeurIPS 2022]では特定の計算資源(FLOPs)が与えられた時の最適 なモデルのパラメータ数と学習データ数を割り出し、さらにはその性能(クロスエ ントロピー)が推定できると主張 出典︓Scaling Laws for Neural Language Models 出典︓Training Compute-Optimal Large Language Models ⽌まらないモデルの巨⼤化

Slide 25

Slide 25 text

25 Confidential © TDAI Lab All right reserved. 論⽂紹介(5/5)︓ Scaling Data-Constrained Language Models(Runner-up Awards) ● 学習データ量に制限がある場合、学習時のエポック数がモデルのスケーリング則にどう影 響するのかを調べた ● 現状LLMの学習では1エポック分回すのが⼀般的*だが、同じデータ量でもエポックを増や すことでまだ学習させる余地があると主張 ○ 4エポックくらいまではデータを加えるのと同じくらい効果がある. *Aran Komatsuzaki. 2019. One epoch is all you need. arXiv.

Slide 26

Slide 26 text

26 Confidential © TDAI Lab All right reserved. トレンド2まとめ. データの重要性について ? 将来LLMの学習データが枯渇するけ⼤丈夫︖ 良いデータセットをどう作る︖ → (論⽂5) 同データは4回まで使い回しOK → (論⽂1) データセットの良い枝刈り → (論⽂2) 複数ドメインデータの混ぜ⽅ ? ⽣成データでAIは学習できる︖ → (論⽂3,4) 拡散モデルでデータ拡張 ? モデル構造の改善よりもデータセットの作り⽅をどう改善するかにシフト

Slide 27

Slide 27 text

27 Confidential © TDAI Lab All right reserved. 本⽇の発表の流れ ● トレンド1: LLMをより⼈が好む回答へ ● トレンド2: データの重要性について ● トレンド3: モデルの社会的適合性を多⾯的評価 ● トレンド4: マルチモーダルモデルも同様 ● トレンド5: 汎⽤的AIに向けて推論⼒を⾼めよう ● トレンド6: 多分野への応⽤ ● トレンド7: 未解決現象の理論的解明

Slide 28

Slide 28 text

28 Confidential © TDAI Lab All right reserved. トレンド3まとめ. モデルの社会的適合性を多⾯的評価 LLMの良さを精度以外で評価すると︖ → (論⽂1) 信頼性を多⾯的に測定 → (論⽂2) ⼈格プロンプトで強みと弱みを探る ? 評価に関しての今後の⽰唆とは︖ → (Invited Talk) 不確かさに焦点を当てよう ? 多⾯的にかつそもそもどのように評価するかといった議論

Slide 29

Slide 29 text

29 Confidential © TDAI Lab All right reserved. 論⽂紹介(1/3)︓DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models(Outstanding Paper) ● GPT-4, GPT-3.5の信頼性を8つの評価基準から評価 ○ (毒性、ステレオタイプ・バイアス、敵対的堅牢性、分布外堅牢性、プライバシー、敵 対的デモンストレーションへの堅牢性、機械倫理、公平性) ● GPT-4はGPT-3.5に⽐べてプロンプトにより正確に従うため、悪意ある⼊⼒に犯されやすい

Slide 30

Slide 30 text

30 Confidential © TDAI Lab All right reserved. 論⽂紹介(1/3)︓DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models(Outstanding Paper)

Slide 31

Slide 31 text

31 Confidential © TDAI Lab All right reserved. 論⽂紹介(1/3)︓DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models(Outstanding Paper)

Slide 32

Slide 32 text

32 Confidential © TDAI Lab All right reserved. 論⽂紹介(2/3)︓In-Context Impersonation Reveals Large Language Modelsʼ Strengths and Biases (Spotlight) ● 「もしあなたが{ペルソナ}だったら」というフレーズでLLMに様々なペルソナを設定 してタスクを解かせた ○ 年齢を変えた場合 →より年齢が⾼いほど探索・活⽤の両⽴ができるようになる(⼈間と同様) ○ 専⾨家か否か →タスクレベルの専⾨家が⼀番性能が⾼く、ドメインレベルの専⾨家は2番⽬に ⾼い。計算を要する難しい問題ではほとんど差が出ない ● 設定した「⼈種」や「性別」による性能の偏りも明らかとなった

Slide 33

Slide 33 text

33 Confidential © TDAI Lab All right reserved. Invited Talk: The Many Faces of Responsible AI ● AI分野では「正解・不正解」を正答率で測るといった簡素化された評価がよく⾏われる ● しかし現実問題アノテーションは⼈間でも評価が割れる ● AIの安全性を議論する上では、これら評価の割れに関するデータが重要 ● より多くのこのような例を収集し、それを使ってモデルや評価指標を改善する必要があ ると主張(関連したデータセット、DICES*を提案) * https://github.com/google-research-datasets/dices-dataset

Slide 34

Slide 34 text

34 Confidential © TDAI Lab All right reserved. Invited Talk: The Many Faces of Responsible AI https://diamond-tilapia-430.notion.site/Lora-Aroyo-The-Many-Faces-of-Responsible-AI-adf8f54bc5e842d98d85e2d4bd18333e 講演著者お気に⼊りのパート

Slide 35

Slide 35 text

35 Confidential © TDAI Lab All right reserved. トレンド3まとめ. モデルの社会的適合性を多⾯的評価 LLMの良さを精度以外で評価すると︖ → (論⽂1) 信頼性を多⾯的に測定 → (論⽂2) ⼈格プロンプトで強みと弱みを探る ? 多⾯的にかつそもそもどのように評価するかといった議論 評価に関しての今後の⽰唆とは︖ → (Invited Talk) 不確かさに焦点を当てよう ?

Slide 36

Slide 36 text

36 Confidential © TDAI Lab All right reserved. 本⽇の発表の流れ ● トレンド1: LLMをより⼈が好む回答へ ● トレンド2: データの重要性について ● トレンド3: モデルの社会的適合性を多⾯的評価 ● トレンド4: マルチモーダルモデルも同様 ● トレンド5: 汎⽤的AIに向けて推論⼒を⾼めよう ● トレンド6: 多分野への応⽤ ● トレンド7: 未解決現象の理論的解明

Slide 37

Slide 37 text

37 Confidential © TDAI Lab All right reserved. 背景知識︓マルチモーダルモデルの急速な進化 ● マルチモーダルモデルは特に進化が急速 ● NeurIPS時点ではマルチモーダルデータ”認識”モデルが発展してきたが、現在ではマル チモーダル”⽣成”まで扱うモデルも登場(e.g., MiniGPT-5, SpeechGPT) NeurIPS 2023 submission deadline May 17, 2023 MM-LLMs: Recent Advances in MultiModal Large Language Models (2024/1/24)

Slide 38

Slide 38 text

38 Confidential © TDAI Lab All right reserved. トレンド4まとめ: マルチモーダルでも同様のトレンド 【トレンド1】どう学習させる︖ → (論⽂1) マルチモーダルを同時に扱う⽅法 ? 【トレンド3】どう評価する︖ → (論⽂3) 多様な観点から ? LLMで起きていたトレンド1~3と全く同じ議論がマルチモーダルでも起きている 【トレンド2】どう良いデータを準備する︖ → (論⽂2) DataCentricコンペ解法 ?

Slide 39

Slide 39 text

39 Confidential © TDAI Lab All right reserved. 背景知識︓Instruction Tuning ● 背景︓⼤規模⾔語モデルをZero-Shotでどんなタスクでも性能良く使えるようにしたい ● ⼿法︓Instruction Tuning(Finetuned Language Models Are Zero-Shot Learners ICLR 2022) ● 詳細︓ ○ Step1. 既存のデータセットをタスクごとに分割(A, [B, C, D,]) ○ Step2. タスクごとに回答を⽣成させるプロンプトのTemplateを⽤意し、ファインチューニン グ⽤のデータ作成 ○ Step3. 再学習を⾏う ● 結果︓未学習のタスクで、Zero-shotで性能が良いことが確認されている ● 代表例︓T0, FLAN-T5, FLAN-PaLMなど

Slide 40

Slide 40 text

40 Confidential © TDAI Lab All right reserved. 論⽂紹介(1/3)︓Visual Instruction Tuning ● オープンソース版GPT4-Vに相当するマルチモーダルモデル「LLaVA」を提案 ○ Vicuna(LLaMAを微調整したLLM)とCLIPを組み合わせたモデル ● インストラクションチューニング(FALN-PaLMなどLLMで使われていた微調整⼿法)を マルチモーダルモデルへ適⽤した ● 2023年10⽉に登場したLLaVA-1.5ではさらに性能が向上

Slide 41

Slide 41 text

41 Confidential © TDAI Lab All right reserved. 論⽂紹介(1/3)︓Visual Instruction Tuning ● 2段階のファインチューニング ○ CC3Mデータセット(画像-キャプションデータ、約60万件)を⽤いて、画像→⾔語空 間への変換層だけ学習 ○ COCOデータセットを元にGPT4に⽣成させたデータセット(約16万件)を⽤いて、 変換層とLLMを学習 ・・・COCOデータセット ・・・微調整⽤データ ある意味LLMで作ったデータで学習 している事例(トレンド3) GPT4

Slide 42

Slide 42 text

42 Confidential © TDAI Lab All right reserved. DataComp: In search of the next generation of multimodal datasets(Workshop Competiton) A. リソースに応じて、⼩・中・⼤・特⼤のスケールから選択します。各スケールは異なるデ ータプールとモデルのサイズを持ちます。 B. フィルタリング(提供されたプールのデータのみ)かBYOD(任意のデータソース)のト ラックから、データを選んで候補データセットを作成します。 C. 選んだデータセットでCLIPモデルをトレーニングします。スケールごとにCLIPのサイズ と設定は固定されています。 D. 38の多様なタスクでモデルを評価し、トレーニングデータセットの効果を測定します。

Slide 43

Slide 43 text

43 Confidential © TDAI Lab All right reserved. 論⽂紹介(2/3) : An Inverse Scaling Law for CLIP Training ● 従来の認識︓画像/テキストエンコーダのモデルサイズが⼤きいほど、学習に必要な画像/ テキストのトークン⻑も⻑くなり、計算コストが増加すると思われていた ● 「Inverse Scaling Law」の発⾒︓モデルサイズが⼤きくなると、学習に適⽤できる画像/ テキストトークンのシーケンスの⻑さを逆に短くできるということが分かった ● 期待される影響︓CLIPのトレーニングが計算リソースが限られた環境でも可能となりフィ ールドに新たな進歩をもたらす可能性がある 画像token数を減らした事例 ⽂字token数を減らした事例

Slide 44

Slide 44 text

44 Confidential © TDAI Lab All right reserved. 論⽂紹介(3/3)Holistic Evaluation of Text-to-Image Models ● テキスト-画像⽣成モデルについて、プロンプトに対する整合性と画質だけでなく12個 の多様な指標を⽤いて評価を⾏った ○ テキストと画像の整合性、画質(リアリズム)、美学、独創性、論理的思考、知 識、バイアス、毒性、公平性、堅牢性、多⾔語性、効率性

Slide 45

Slide 45 text

45 Confidential © TDAI Lab All right reserved. 論⽂紹介(3/3)Holistic Evaluation of Text-to-Image Models ● 相対的な指標(win rate)で各モデルを各指標で⽐較

Slide 46

Slide 46 text

46 Confidential © TDAI Lab All right reserved. 論⽂紹介(3/3)Holistic Evaluation of Text-to-Image Models

Slide 47

Slide 47 text

47 Confidential © TDAI Lab All right reserved. トレンド4まとめ: マルチモーダルでも同様のトレンド 【トレンド1】どう学習させる︖ → (論⽂1) マルチモーダルを同時に扱う⽅法 ? 【トレンド3】どう評価する︖ → (論⽂3) 多様な観点から ? LLMで起きていたトレンド1~3と全く同じ議論がマルチモーダルでも起きている 【トレンド2】どう良いデータを準備する︖ → (論⽂2) DataCentricコンペ解法 ?

Slide 48

Slide 48 text

48 Confidential © TDAI Lab All right reserved. 本⽇の発表の流れ ● トレンド1: LLMをより⼈が好む回答へ ● トレンド2: データの重要性について ● トレンド3: モデルの社会的適合性を多⾯的評価 ● トレンド4: マルチモーダルモデルも同様 ● トレンド5: 汎⽤的AIに向けて推論⼒を⾼めよう ● トレンド6: 多分野への応⽤ ● トレンド7: 未解決現象の理論的解明

Slide 49

Slide 49 text

49 Confidential © TDAI Lab All right reserved. トレンド5まとめ: 汎⽤的AIに向けて推論⼒を⾼めよう LLMではそもそも解けない問題に対して︖ → (論⽂1) 外部APIの⼒を借りてLLMを補助 ? 問題解決能⼒を⾼めていこうというトレンド CoTよりももっと良い考えさせ⽅は︖ → (論⽂2) 思考の⽊プロセス ?

Slide 50

Slide 50 text

50 Confidential © TDAI Lab All right reserved. 論⽂紹介(1/2)︓Toolformer: Language Models Can Teach Themselves to Use Tools ● Toolformerは、どのAPIを呼び出すか、いつ呼び出すか、どのような引数を渡すか、 そしてその結果をトークン予測にどのように組み込むのが最適かを決定するためにフ ァインチューニングされたモデル ● 5つのAPI(QA⽤LLM、ウィキペディア検索、翻訳機、計算機、カレンダー)を使⽤ ● 専⽤プロンプトを⽤いてLLMにデータセットを作成させた ● 特に計算・⽇時に関する性能が⼤きく向上

Slide 51

Slide 51 text

51 Confidential © TDAI Lab All right reserved. 論⽂紹介(2/2)︓Tree of Thoughts: Deliberate Problem Solving with Large Language Models ● 新しいプロンプト⼿法「Tree of Thoughts」を提案 ○ 中間の思考を⾃⼰評価してプロセスを先読みしたり後戻りしたりすることで、⼈ 間がタスクを実⾏するような⼿順でChatGPTに指⽰できるよう⼯夫 ● 計画・探索を要するタスクにおいてToTは⾼い性能を⽰した ○ 24ゲーム(4つの数字の四則計算で24を作るゲーム)では、CoTを⽤いたGPT-4の 正解率が4%だったのに対し、ToTでは74%の成功率を達成

Slide 52

Slide 52 text

52 Confidential © TDAI Lab All right reserved. 論⽂紹介(2/2)︓Tree of Thoughts: Deliberate Problem Solving with Large Language Models 24ゲームの場合のToTの⼿順 ● ステップ1︓3つの思考ステップに分ける ● ステップ2︓次の思考の候補(どの数字を選んでどういう計算をするか)を5個出す ● ステップ3︓残った数字から24に到達できそうかを評価する ● ステップ4︓探索アルゴリズムを決める→幅優先探索(BFS) 24ゲームにおけるToT

Slide 53

Slide 53 text

53 Confidential © TDAI Lab All right reserved. トレンド5まとめ: 汎⽤的AIに向けて推論⼒を⾼めよう LLMではそもそも解けない問題に対して︖ → (論⽂1) 外部APIの⼒を借りてLLMを補助 ? 問題解決能⼒を⾼めていこうというトレンド CoTよりももっと良い考えさせ⽅は︖ → (論⽂2) 思考の⽊プロセス ?

Slide 54

Slide 54 text

54 Confidential © TDAI Lab All right reserved. (参考)︓Multimodal Chain-of-Thought Reasoning in Language Models(ICLR 2024) ● テキストと画像のモーダルを組み込んだMultimodal-CoTを提案 ○ 画像とテキストを元に⼀度論拠を出⼒した後に、画像、テキスト、論拠を⼊⼒して最 終的な答えを得る ● T5とViTを組み合わせたモデルを使⽤ ● ScienceQAベンチマークにおいてSOTA性能(90.45%)を達成した(⼈の場合88.40%) ● Multimodal-CoTを使うことで幻覚を軽減する効果がある

Slide 55

Slide 55 text

55 Confidential © TDAI Lab All right reserved. 本⽇の発表の流れ ● トレンド1: LLMをより⼈が好む回答へ ● トレンド2: データの重要性について ● トレンド3: モデルの社会的適合性を多⾯的評価 ● トレンド4: マルチモーダルモデルも同様 ● トレンド5: 汎⽤的AIに向けて推論⼒を⾼めよう ● トレンド6: 多分野への応⽤ ● トレンド7: 未解決現象の理論的解明

Slide 56

Slide 56 text

56 Confidential © TDAI Lab All right reserved. トレンド6まとめ: 他分野への応⽤事例 他分野に活⽤した事例は︖ → (論⽂1) 時系列 → (論⽂2) レコメンド → (論⽂3) グラフ ? Zero-shotの事例や、従来⼿法と組み合わせてExplainableにするトレンド

Slide 57

Slide 57 text

57 Confidential © TDAI Lab All right reserved. 論⽂紹介(1/3)︓Large Language Models Are Zero- Shot Time Series Forecasters ● GPT-3などのLLMに直接時系列データを挿⼊して予測させることの有効性を⽰した ○ 時系列予測では、事前学習済みの微調整していないLLMが適していた

Slide 58

Slide 58 text

58 Confidential © TDAI Lab All right reserved. 論⽂紹介(1/3)︓Large Language Models Are Zero- Shot Time Series Forecasters ● LLMに,で区切られた過去の時系列の値からなる⽂を与え、将来の値を予測させる ● しかし重要なのは、LLMが正確に予測できるような⼊⼒⽅法 ○ (テクニック1) 42235630 が [422, 35, 630] のように分解される場⾯があり、⼀つの値 が変更されると全体のトークンが変わる ■ GPT-3: 数値の各桁間にスペースを挿⼊すると、より精度が⾼いトークナイズが可能 ■ LLaMA: 元々各桁を独⽴したトークンとして扱っているため、スペース不要 ○ (テクニック2) 桁を丸めて0~1の間でRescaling

Slide 59

Slide 59 text

59 Confidential © TDAI Lab All right reserved. 論⽂紹介(1/3)︓Large Language Models Are Zero- Shot Time Series Forecasters ● 論⽂内では⾔語モデルが複雑な出⼒の分布も近似できることを⽰している ● 各桁を個々にトークナイズする際に、階層的ソフトマックス分布のように働くため

Slide 60

Slide 60 text

60 Confidential © TDAI Lab All right reserved. 論⽂紹介(2/3)︓Large Language Models are Zero- Shot Rankers for Recommender Systems ● 過去の⾏動履歴とレコメンドする候補(20個)をプロンプトに組み込み、LLMに ランク付けをさせることの有⽤性を検証 ● GPT-3.5-turboを使⽤

Slide 61

Slide 61 text

61 Confidential © TDAI Lab All right reserved. 論⽂紹介(2/3)︓Large Language Models are Zero- Shot Rankers for Recommender Systems ● zero-shotでも⾼い性能を⽰した ● 過去の⾏動履歴を単純に並べて⼊⼒するよりも、直近の⾏動にフォーカスしたり、レ コメンド例を⽰した⽅が⾼い性能を⽰した

Slide 62

Slide 62 text

62 Confidential © TDAI Lab All right reserved. 論⽂紹介(3/3)︓Can Language Models Solve Graph Problems in Natural Language? ● ⾃然⾔語で書かれたグラフタスクのベンチマーク(NLGraph)を提案しLLMを評価 ○ 8種類のグラフタスク(接続性、サイクル、トポロジカルソート、最短経路、最⼤フ ロー、2グラフマッチング、ハミルトンパス、GNN) ● 単純タスク(接続性、サイクル、最短経路)→CoTを使えば結構上⼿く解ける ● 複雑タスク(トポロジカルソートやハミルトンパス)→プロンプトを⼯夫しても難しい

Slide 63

Slide 63 text

63 Confidential © TDAI Lab All right reserved. トレンド6まとめ: 他分野への応⽤事例 他分野に活⽤した事例は︖ → (論⽂1) レコメンド → (論⽂2) 時系列 → (論⽂3) グラフ ? Zero-shotの事例や、従来⼿法と組み合わせてExplainableにするトレンド

Slide 64

Slide 64 text

64 Confidential © TDAI Lab All right reserved. 本⽇の発表の流れ ● トレンド1: LLMをより⼈が好む回答へ ● トレンド2: データの重要性について ● トレンド3: モデルの社会的適合性を多⾯的評価 ● トレンド4: マルチモーダルモデルも同様 ● トレンド5: 汎⽤的AIに向けて推論⼒を⾼めよう ● トレンド6: 多分野への応⽤ ● トレンド7: 未解決現象の理論的解明

Slide 65

Slide 65 text

65 Confidential © TDAI Lab All right reserved. トレンド7まとめ: 未解決現象の理論的解明 突然性能が開花する︖ → Are Emergent Abilities of Large Language Models a Mirage? ? 経験則で得られた現象に対しての理論的な考察も進んでいる ? ? ? CoTは何故うまくいく︖ 深層強化学習って結局いつうまくいくの︖ Double Descentって結局どうなった︖ → Why think step by step? Reasoning emerges from the locality of experience →A U-turn on Double Descent: Rethinking Parameter Counting in Statistical Learning →Bridging RL Theory and Practice with the Effective Horizon,

Slide 66

Slide 66 text

66 Confidential © TDAI Lab All right reserved. 論⽂紹介︓ Are Emergent Abilities of Large Language Models a Mirage?(Outstanding Papers Awards) ● ⼤規模⾔語モデルのパラメータ数を増加させていくと、突然新しい能⼒が開花するこ とが経験上知られている →しかしそれは評価指標の問題で、実際は突然能⼒が向上するわけではなかった

Slide 67

Slide 67 text

67 Confidential © TDAI Lab All right reserved. 論⽂紹介︓ Are Emergent Abilities of Large Language Models a Mirage?(Outstanding Papers Awards) ● ⾮線形・不連続の評価指標を⽤いるとemergent abilityが発⽣する(⾚枠)が、線形・連 続値をとる評価指標を⽤いるとemergent abilityは発⽣しない(⻘枠) ● ⾮線形指標でほぼ性能が0に⾒えるものでも、テストデータのサイズを⼤きくして解 像度を⾼めることで滑らかな性能向上曲線を描ける(右図)

Slide 68

Slide 68 text

68 Confidential © TDAI Lab All right reserved. 本⽇の発表のまとめ ● トレンド1: LLMをより⼈が好む回答へ ● トレンド2: データの重要性について ● トレンド3: モデルの社会的適合性を多⾯的評価 ● トレンド4: マルチモーダルモデルも同様 ● トレンド5: 汎⽤的AIに向けて推論⼒を⾼めよう ● トレンド6: 多分野への応⽤ ● トレンド7: 未解決現象の理論的解明 基盤モデルの応⽤範囲は多岐に渡り、データの観点からモデルの性能向上させつつも 多⾯的に評価を⾏う流れが、マルチモーダル全般で⾏われている