日本ディープラーニング協会主催 NeurIPS 2022 技術報告会講演資料

1 Confidential © TDAI Lab All right reserved. NeurIPS 2022
技術報告会⽇本ディープラーニング協会主催 2022年1⽉23⽇株式会社TDAI Lab ⼤規模基盤モデルの発展から捉えるAI研究トレンド

2 Confidential © TDAI Lab All right reserved. ⾃⼰紹介経歴
2016年株式会社TDAI Lab創業 (代表取締役社⻑) 2018年東京⼤学⼤学院⼯学系研究科修⼠課程修了 2021年東京⼤学⼤学院⼯学系研究科博⼠課程修了興味領域 Fairness, Unbiased Learning to Rank, Recommendation 特技︓競技ダンス 2014年東京⼤学総⻑賞受賞 2015年全⽇本学⽣競技ダンス選⼿権優勝 2020年芸能⼈格付けチェック出演 2022年全⽇本ランキング6位 ~2023年全⽇本強化指定選⼿著書「世界⼀カンタンで実戦的な⽂系のための⼈⼯知能の教科書」福⾺智⽣ Tomoki Fukuma @fukuma_tomoki

3 Confidential © TDAI Lab All right reserved. ⾃⼰紹介野⽥
昂希 Koki Noda 経歴 2020年株式会社TDAI Labインターン⼊社 2021年東京⼤学農学部卒業 2021年株式会社TDAI Lab 取締役就任 2022年株式会社TDAI Lab CTO就任技術領域機械学習, Cloud, Web, DB 特技︓競技ダンス 2019年レギュラー戦全６試合団体優勝研究 Beyond Real-world Benchmark Datasets: An Empirical Study of Node Classification with GNNs. (NeurIPS 2022 D&B)

4 Confidential © TDAI Lab All right reserved. 本資料の⽬的・留意事項【想定聴講者
】 1. 近年のAI研究トレンドのざっくりした傾向を掴みたい⽅ 2. 機械学習・深層学習にある程度の予備知識がある⽅ 3. 当カンファレンスについての⼀参加者の⾒解を、興味を持って聴講くださる⽅【留意事項】本発表資料はできる限り誤解のないように努めておりますが、著者⾃⾝の仮説や想定の誤りにより、内容の⼀部に正確でない表現を含むことがあるかもしれない点、ご容赦ください。

5 Confidential © TDAI Lab All right reserved. NeurIPS統計情報 •
1987年から36回⽬の開催 • 11/28~12/3 (本会議) • 9634 submissions • 2672 accepted (27.7% acceptance) 9634 2672 0.27

6 Confidential © TDAI Lab All right reserved. 現在のAI研究をリードしているのは誰か︖ •
学術機関 Top5 ◦ Tsinghua university(158) ◦ Stanford University(149) ◦ University of California(145) ◦ Carnegie Mellon University(138) ◦ MIT(130) • 企業 Top5 ◦ Google (123) ◦ Microsoft(65) ◦ Deepmind(57) ◦ Google Brain(54) ◦ Amazon(40) ◦ (Facebook(3位→?位)) https://github.com/sanagno/neurips_2022_statistics ⽶中⼤学の上位ランクインとGoogleの強さが⽬⽴つ

7 Confidential © TDAI Lab All right reserved. 本⽇の発表の流れ •
現在のAI研究開発の潮流 • トレンド1. ⾔語基盤モデルの巨⼤化による複雑なタスクへの応⽤事例 • トレンド2. ⾔語基盤モデルの微調整による⼈間らしさの学習 • 前半のまとめと将来予測 • トレンド3. 拡散モデル(画像・ビデオ・⾔語・⾳声・３D) • トレンド4. 汎⽤的なAI開発に向けて • 後半のまとめ • トレンド5. AIを使ったAIの学習・評価エコシステム構築

8 Confidential © TDAI Lab All right reserved. 背景知識︓基盤モデル •
基盤モデル（Foundation Model）とは、⼤量のデータから(⼀般的に⾃⼰教師あり的に)学習することで、下流の広範なタスクに対し⾼い汎化性能を獲得したモデル ◦ 代表例︓BERT, GPT-3, CLIP, DALLE-2 … • 基盤モデルはそのまま使われることは少なく、⼿元のタスクに応じて微調整して⽤いられる。 https://arxiv.org/abs/2108.07258 2021年にBommasaniらのスタンフォード⼤学のグループによって, 基盤モデル(Foundation Model)と命名

9 Confidential © TDAI Lab All right reserved. 背景知識︓基盤モデルにおけるScaling Law
• 基盤モデルに⽤いられるTransformerの性能は「計算リソース」「データセットサイズ」「パラメータ数」に依存する(Scaling Law) • Chinchilla[NeurIPS 2022]では特定の計算資源（FLOPs）が与えられた時の最適なモデルのパラメータ数と学習データ数を割り出し、さらにはその性能（クロスエントロピー）が推定できると主張出典︓Scaling Laws for Neural Language Models 出典︓Training Compute-Optimal Large Language Models ⽌まらないモデルの巨⼤化

11 Confidential © TDAI Lab All right reserved. トレンド1まとめ. LLMの複雑なタスクへの応⽤
• Googleが発表したPaLMのパラメータ数は5400億(GPT-3の約3倍) • PaLMのように⾔語基盤モデルは⼤きくなればなるほど、複雑なタスクが⾏えることが分かった(数学, コード⽣成, ジョークの理解など) • Chain-of-Thought Prompting(後述)は、⾔語基盤モデルから得たい知識を引き出すのに有効であり、更にそのモデルが巨⼤であるほどその効果は増す。 • 特に2022年前半までとても話題になったトピック https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html

12 Confidential © TDAI Lab All right reserved. トレンド1. 注⽬論⽂（1/3）Chain-of-Thought
• 【論⽂名】︓Chain-of-Thought Prompting Elicits Reasoning in Large Language Models [NeurIPS 2022] • Chain of Thoughtで、論理的思考を要するタスク(算術、常識問題、記号推論)での性能を⾼めた ◦ CoT︓最終的な答えを求めるのに必要な『思考プロセス』を記述したプロンプト • CoTはパラメータ数の多いモデルほど効果的(右下図) マーカー部分全てCoTの事例 PaLMの⽅がLaMDAよりもCoTの導⼊効果が⼤きい

13 Confidential © TDAI Lab All right reserved. トレンド1. 注⽬論⽂（2/3）Minerva
• 【論⽂名】Minerva: Solving Quantitative Reasoning Problems with Language Models [NeurIPS 2022] • Googleの⾔語モデル(PaLM)を、118GBのarxivの論⽂とLatexで書かれているWebページで微調整 • ⾃然⾔語と数式の両情報が含まれる⼤規模学習データセットを特殊な前処理(Latexを潰さない)で作成 (図１) →特に数学問題での性能を⼤幅に向上 • いきなり答えを予測するのではなく途中経過・途中式を書かせるCoT promptingを採⽤(図2) (図1) (図2)

14 Confidential © TDAI Lab All right reserved. トレンド1. 注⽬論⽂（2/3）Minerva
• 回答を⼤量⽣成(16~64個程度)してその中で多数決で解を決める(図3) • 特にMATHデータセット(⾼校数学レベル)で既存SOTAを⼤幅更新(図4) ◦ accuracyが6.9%から50.3%へ向上 (図3) (図4) (MATHデータセットに含まれる問題の例)

15 Confidential © TDAI Lab All right reserved. トレンド1. 注⽬論⽂（3/3）LIFT
【論⽂名】LIFT: Language-Interfaced Fine-Tuning for Non-Language Machine Learning Tasks [NeurIPS 2022] • GPT3 などの巨⼤⾔語モデルのファインチューニングは、⾔語タスクだけでなく、分類・回帰タスクでも効果的だと⽰した • データセットを⾃然⾔語に変換することで、従来通りのファインチューニングが可能 • ⼊出⼒が⾃然⾔語のため、モデル構造やロス関数の変更が不要であり、⾮技術者でも⾔語モデルを⽤いた機械学習が可能

16 Confidential © TDAI Lab All right reserved. トレンド1. 注⽬論⽂（3/3）LIFT
• 従来の予測モデルでは何のデータを扱っているか不明なままI/Oの関係性からタスクを解いていた⼀⽅、LIFTでは⽤いる変数が何であるかを⾃然⾔語で教えてタスクを解くことが可能 → 特徴量の名前を付けて学習することで性能向上に貢献 • Iris: 97%, MNIST: 98% , F-MNIST: 90%! (W/O Names) “When we have x1 = 1, x2 = 23, x3 = 3, x4 = 1, x5 = 19, what should be y value?” (Correct-Names I) “When we have native speaker=English speaker, course instructor=23, course=3, semester=summer, class size=19, how is the teaching performance?”

17 Confidential © TDAI Lab All right reserved. (再掲)トレンド1まとめ. LLMの複雑なタスクへの応⽤
• Googleが発表したPaLMのパラメータ数は5400億(GPT-3の約3倍) • PaLMのように⾔語基盤モデルは⼤きくなればなるほど、複雑なタスクが⾏えることが分かった(数学, コード⽣成, ジョークの理解など) • Chain-of-Thought Prompting(後述)は、⾔語基盤モデルから得たい知識を引き出すのに有効であり、更にそのモデルが巨⼤であるほどその効果は増す。 • 特に2022年前半までとても話題になったトピック https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html

19 Confidential © TDAI Lab All right reserved. 最近の注⽬技術︓ChatGPT •
12⽉1⽇(NeurIPS開催中)にOpenAIが公開した対話AIで，今までのGPTシリーズに⼈間からのフィードバックをもとにした強化学習(RLHF)を⾏ない、対話⽤に微調整したモデル ◦ https://chat.openai.com/chat • ⾮常に⾼性能で、ほとんどの質問に対する⾃然な回答、コピペで動く⾼度なプログラミングコードの⽣成，翻訳，⽂章構成，⽂章要約，⽂章校正が可能 • 従来の検索エンジンを置き換える可能性があると⾔われ、Googleが｢コードレッド（緊急事態）｣を発令したことも話題になった https://www.nytimes.com/2022/12/21/technology/ai-chatgpt-google- search.html

20 Confidential © TDAI Lab All right reserved. トレンド2まとめ. ⾔語基盤モデルの微調整による⼈間らしさの学習
• 基盤モデルは、タスクごとに微調整しないとそのままでは性能が悪い • ⾔語基盤モデルにユーザーが求めている解答をさせるための⼯夫でトレンドな⼿法 ◦ 重み変化あり👈本章ではこちらの事例を紹介 ▪ Reinforcement Learning from Human Feedback (RLHF) ▪ Instrction Tuning ◦ 重み変化なし ▪ Prompt Engineering(Chain-of-Thoughtなど) • 特にRLHFは近年話題のChatGPTのベースの⼿法であり、⼈間の曖昧な”出⼒の良さ”を報酬信号にして強化学習するため柔軟性が⾼く、⼈間の曖昧な趣向を学ばせることができるとして期待が集まる ◦ (XAIや、個⼈に最適化した、画像⽣成器・対話エージェントもできるかも..︖)

21 Confidential © TDAI Lab All right reserved. トレンド2. 注⽬論⽂(1/4):
InstructGPT(RLHF⼿法概要) • 【論⽂名】Aligning Language Models to Follow Instructions [NeurIPS 2022] • ⼈間のフィードバックデータから⼈間の好みを模倣する報酬モデルを作り(後述)、強化学習によってモデルに⼈間の価値観を学ばせた • RLHFにより⾔語モデルの⽣成結果がより⼈間好みになった ◦ 事前学習のみ＜プロンプト＜ファインチューニング＜RLHF 縦軸︓SFT(GPT-3の supervised fine-tuning)が⽣成した回答と対象のモデルの回答、どちらがすぐれているか⼈間に判断して選ばれた割合

22 Confidential © TDAI Lab All right reserved. トレンド2. 注⽬論⽂(1/3):
InstructGPT(RLHF⼿法詳細) • Step1. 適切な会話サンプル(プロンプトと回答のペア)データを⼈⼿で作成し(1.5万件)、GPT-3を微調整 →Supervised Finetuning(SFT)を得る • Step2. ⼊⼒プロンプトに対する複数の回答を⽤意して、それらを⼈がランク付けしたデータを作成(5.1 万件)し、⼈間にとっての好ましさをスカラーで出⼒するようなSFTを微調整 →Reward Model(RM)を得る • Step3. RMを報酬関数として使い、SFTをPPOで微調整 ◦ ランダムにプロンプト提⽰(4.7万件)→回答⽣成→RMが報酬(回答の良さ)決定の流れを25.6万回⾏う

23 Confidential © TDAI Lab All right reserved. トレンド2. 注⽬論⽂(2/3)
FLAN • 背景︓⼤規模⾔語モデルをZero-Shotでどんなタスクでも性能良く使えるようにしたい • ⼿法︓Instruction Tuning(Finetuned Language Models Are Zero-Shot Learners ICLR 2022) • 詳細︓ ◦ Step1. 既存のデータセットをタスクごとに分割(A, [B, C, D,]) ◦ Step2. タスクごとに回答を⽣成させるプロンプトのTemplateを⽤意し、ファインチューニング⽤のデータ作成 ◦ Step3. 再学習を⾏う • 結果︓未学習のタスクで、Zero-shotで性能が良いことが確認されている • 代表例︓T0, FLAN-T5, FLAN-PaLMなど

FLANとスケーリング • 【論⽂名】Scaling Instruction-Finetuned Language Models • Instruction-Finetuningはタスクの数、モデルサイズに対してよくスケールする ◦ 最⼤540Bパラメータ、1800タスクまで実験 • ファインチューニング⽤データにCoTを加えると論理的思考を要するタスクでより性能アップ • 本論⽂で学習させたFlan-PaLMはPaLMよりも⼤幅に性能が⾼く、⾃然科学や社会科学や⼈⽂科学など広範囲の学問の選択問題を集めたベンチマークMMLUにおいてSOTA(75.2%)

25 Confidential © TDAI Lab All right reserved. トレンド2まとめ. ⾔語基盤モデルの微調整による⼈間らしさの学習
• 基盤モデルは、タスクごとに微調整しないとそのままでは性能が悪い • ⾔語基盤モデルにユーザーが求めている解答をさせるための⼯夫でトレンドな⼿法 ◦ 重み変化あり👈本章ではこちらの事例を紹介 ▪ Reinforcement Learning from Human Feedback (RLHF) ▪ Instrction Tuning ◦ 重み変化なし ▪ Prompt Engineering(Chain-of-Thoughtなど) • 特にRLHFは近年話題のChatGPTのベースの⼿法であり、⼈間の曖昧な”出⼒の良さ”を報酬信号にして強化学習するため柔軟性が⾼く、⼈間の曖昧な趣向を学ばせることができるとして期待が集まる ◦ (XAIや、個⼈に最適化した、画像⽣成器・対話エージェントもできるかも..︖)

27 Confidential © TDAI Lab All right reserved. 前半まとめと今後の予測【まとめ】
• いよいよ巨⼤⾔語モデルの実⽤化が始まり、⾝近なものとなってきた (ChatGPT) • モデルの巨⼤化は続き、巨⼤化は性能向上に寄与する (Scaling Law, GPT-4への期待) ◦ Chain-of-Thought→理論的思考・数学・分類・回帰, … • 基盤モデルは、微調整によって⼤きな⼒を発揮する ◦ RLHF, Instruction Finetuning 【今後の予測】 • 今後は基盤モデルのマルチモーダル化が進む • 今後は「知識拡張」「⾏動選択」と組み合わされる(次⾴) (参考)NeurIPS2022にもFoundation Models for Decision MakingというWorkshopが開かれていた

28 Confidential © TDAI Lab All right reserved. 最近の事例: 知識拡張の事例（GPT
Index） • ⾃分で学習させたいドキュメントなどを読み込ませて、GPT-3と組み合わせられる

29 Confidential © TDAI Lab All right reserved. 最近の話題︓⾏動拡張・知識拡張の事例（LangChain) •
LangChainは、外部ツール(Python、電卓、Web検索、データベース)と連携できる ◦ LangChainもライブラリの総称 ◦ 元論⽂など ▪ ReAct: Synergizing Reasoning and Acting in Language Models ▪ Measuring and Narrowing the Compositionality Gap in Language Models

31 Confidential © TDAI Lab All right reserved. トレンド3まとめ. 拡散モデルの利⽤
• 2022年後半特に話題になったニュース • Diffusion Model（拡散モデル）という技術で、画像の修正を段階的に⾏うことで、ユーザーが⼊⼒する語句（prompt）にあわせた画像を⽣成する • 最近は画像だけでなく、ビデオ・⾳声・３D・⾔語などに広がる • 拡散モデルは、(⾃⼰回帰系よりも)条件づけられた⽣成と多様性を持った出⼒が得意 https://www.youtube.com/watch?v=mKjATdA_n_g 画像⽣成AIは、OpenAIのDALL·E 2、少⼈数の研究所で運営するMidjourney、ロンドンのスタートアップの提供するStable Diffusionなどが話題に

32 Confidential © TDAI Lab All right reserved. 背景技術: Diffusion
Model • 現在の⽣成系のトレンド(2020年のDDPM以降) • 複雑な分布x0を徐々に簡単な分布(ノイズ)xTに変換 • 各ステップで逆変換を与えるような過程を学習させることでノイズ除去ができる • ノイズから画像を復元できるように(これら⽣成時にテキスト情報などをconditionalな情報として⼊れて、狙った画像を⽣成させる) photograph of an astronaut riding a horse

33 Confidential © TDAI Lab All right reserved. 背景技術︓CLIP 巨⼤⾔語モデルで⾏われていた⾃⼰教師あり学習をマルチモーダルなデータについて⾏う研究が増加
• OpenAIによるCLIP[Radford et al., 2021]などの登場により、テキストと画像の類似度が測れるだけでなく、画像からテキストの⽣成によるZero-shot Learningも可能に CLIP: Connecting Text and Images [Radford et al., 2021]

34 Confidential © TDAI Lab All right reserved. トレンド3. 注⽬論⽂(1/2)︓Imagen
• 【論⽂名】Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding [NeurIPS Outstanding Paper] • DALL-E2を1ヶ⽉で破ったGoogleの論⽂ • テキスト埋め込みの際に、CLIPベースのencoderではなく、テキストのみで学習させた巨⼤encoder （T5-XXL）を使うことで画像⽣成能⼒が⼤幅向上 ◦ diffusion modelのサイズよりもテキストencoderのサイズを⼤きくすることが重要 • テキスト-画像⽣成はまだ懸念事項が多いため公開を控えた

35 Confidential © TDAI Lab All right reserved. トレンド3. 注⽬論⽂(1/2)︓Imagen
• 有名な３モデル(Imagen, DALL-E2, Stable Diffusion)による⽣成画像の⽐較 ◦ 提案ベンチマークDrawBenchにあるプロンプトを使って画像⽣成 ◦ どれだけテキストに忠実か、リアルに近いかで評価→Imagenの出⼒が⼀番良い Imagen DALL-E2 Stable Diffusion(2.1) Hovering cow abducting aliens. A black apple and a green backpack.

LAION-5B(概要) • 【論⽂名】LAION-5B: An open large-scale dataset for training next generation image-text models [NeurIPS 2022 Outstanding Datasets and Benchmarks Paper] • LAIONというドイツの⾮営利団体が、過去最⼤規模の画像・テキストデータセットを作成し無償公開(58.5億ペア) ◦ 前作であるLAION-400Mの14倍の規模 ◦ 様々な⾔語に対応(英語データが最多(23億件)だが⽇本語データセットも存在) ◦ 有害コンテンツは削除せずタグ付けして残している ▪ 検索サイトでsafe modeのチェックを外せば有害コンテンツを閲覧可能 • テキスト-画像⽣成モデルのStable DiffusionもLAION-5Bデータセット(の⼀部)を⽤いて学習

LAION-5B(収集⼿法) • データ収集⽅法 ◦ ウェブデータの巨⼤アーカイブ(Common Crawl)からaltテキスト値のある画像のURLを抽出 ◦ 画像をダウンロードし、短すぎるaltテキストや5KB以下の画像、有害な画像などをフィルタリング(CLIPベースの分類器を使⽤) ◦ CLIPモデルを使い、画像とaltテキストに⼀定の相関性のあるものだけを選定(9割削除) →AI学習のためのデータをAIで作成

38 Confidential © TDAI Lab All right reserved. その他ドメインでの拡散モデル活⽤事例︓⾔語 •
⾃⼰回帰的な⽣成モデル(GPT-3)に⽐べて、拡散モデルを使うと何がいいのか︖ ◦ ⽣成結果をコントロールしやすい ▪ ⻑さや構⽂などを指定して⽣成可能 ◦ より多様な出⼒ができる • その他提案モデル ◦ Diffusion-LM︓単語ベクトルを拡散モデルで⽣成する⾔語モデル ◦ DiffuSeq︓拡散モデルを系列変換に適⽤できるようにした

39 Confidential © TDAI Lab All right reserved. その他ドメインでの拡散モデル活⽤事例︓⾳声 •
モデル例 ◦ Diffsound︓拡散モデルを使ってテキストからオーディオ(10秒)を⽣成 ◦ Riffusion︓⾳楽のスペクトグラムを画像と⾒なしてテキストから⾳楽を⽣成 ▪ Stable Diffusionをスペクトログラムを⽣成するようファインチューニング funk bassline with a jazzy saxophone solo

40 Confidential © TDAI Lab All right reserved. その他ドメインでの拡散モデル活⽤事例︓3D •
ゲーム開発での3Dモデル作成・編集の効率化などが期待されている • 3Dデータセット作成の難しさから、テキスト-画像モデルを転⽤するアプローチが主流 • 提案モデル ◦ DreamFusion︓テキストから3D⽣成 ▪ 3Dデータによる学習は不要で、学習済み2D拡散モデル(Imagen)を重みを変えずに利⽤ ▪ シーンモデル(NeRF)と拡散モデルを組み合わせ、各プロンプトごとにNeRFモデルを最適化(1.5h) ◦ Magic3D︓テキスト-3D⽣成をより⾼品質、⾼解像度、⾼速に ▪ DreamFusionに⽐べ解像度が８倍、計算速度が２倍に(40min) a teddy bear pushing a shopping cart full of fruits and vegetables 学習箇所 Imagen

41 Confidential © TDAI Lab All right reserved. (再掲)トレンド3まとめ. 拡散モデルの利⽤
• 2022年後半特に話題になったニュース • Diffusion Model（拡散モデル）という技術で、画像の修正を段階的に⾏うことで、ユーザーが⼊⼒する語句（prompt）にあわせた画像を⽣成する • 最近は画像だけでなく、ビデオ・⾳声・３D・⾔語などに広がる • 拡散モデルは、(⾃⼰回帰系よりも)条件づけられた⽣成と多様な出⼒が得意 https://www.youtube.com/watch?v=mKjATdA_n_g 画像⽣成AIは、OpenAIのDALL·E 2、少⼈数の研究所で運営するMidjourney、ロンドンのスタートアップの提供するStable Diffusionなどが話題に

43 Confidential © TDAI Lab All right reserved. トレンド4まとめマルチモーダルを扱う汎⽤的なAI開発
• Transformerであらゆるモーダルのデータ(画像・⾳声・テキストなど)を扱い、あらゆる⾏動・出⼒を⾏えるAIの開発が進む ◦ 多くのタスク(対話・ゲームなど)を⼀つのモデルで⾏う事例︓GATO ◦ ⾃然⾔語で与えた命令の通りに⾏動する事例︓MineDOJO

GATO 【論⽂名】A Generalist Agent (Deepmind) 【なにができたのか︖】 • 同じモデルの同じ重みで604個のタスクが⾏える汎⽤モデルの学習 ◦ AlphaZero(2017年)は、囲碁とチェスと将棋の3種類のタスクに限られ、また個別にしか学習できなかった【性能はいいのか︖】 • SOTAには及ばないが、⽐較的⼩さい⼀つのモデルでできたことが凄い【たくさん同時に学習させることは未知のタスクに有効︖】 • そのままでは弱いが、ファインチューニングするとexpert並の性能が出せる

45 Confidential © TDAI Lab All right reserved. (参考資料)トレンド4. 注⽬論⽂(1/2)
GATO 【どうしてマルチモーダルなデータを同時に⼊⼒できるのか︖】どのモーダルのデータも、固定次元のembeddingに変換しTranformerに⼊⼒することで解決 • テキスト→32000個のtokenごとにembeddingを作成 • 画像→16*16のパッチに分け、ResNetなどでembeddingを作成(ViTと同様) • 離散値→[0,1024)の整数で表し、embeddingを作成 • 連続値→[-1,1]の範囲に収まるよう変換後、1024個の離散値で表しembeddingを作成

GATO 【どうやって学習させたのか︖】 • 学習データ ◦ ⾔語・画像︓公開されているデータセット(ただし学習のうち占める割合は14.7%) ◦ 学習済みのエージェントが様々な環境でとった⾏動履歴(学習に占める割合は85.3%) • 学習⽅法 ◦ どのタスクも単に次のトークンを予測するタスクとして捉え、複数タスクをミックスして教師あり的にバッチ学習(バッチサイズ512) ◦ タスクごとにプロンプトシーケンスをデモ的に与えることで複数タスクに対応(prompt conditioning)

MineDOJO • 【論⽂名】MineDojo: Building Open-Ended Embodied Agents with Internet-Scale Knowledge[NeurIPS 2022 Outstanding Datasets and Benchmarks Paper Award] 【なにができたのか︖】 • ⾃然⾔語でMinecraft内のエージェントに命令を与えると、その通り⾏動する強化学習エージェントの学習 →個別タスクに最適化するのではなく、任意のタスクを受け付ける汎⽤的エージェントの作成【報酬関数をどう設定しているのか︖】 • 16フレームの動画とテキストとの⼀致度を測るMineCLIPを学習し、エージェントがとる⾏動によるビデオと命令の⾃然⾔語との類似度から報酬を与える → タスクごとに報酬関数を設計する必要がない

MineDOJO 【テキストとビデオとの⼀致度を測るMineCLIPをどのように学習させたのか︖】 • Minecraftに関する⼤量のインターネット上のコンテンツを収集 ◦ 73万本ものYouTube動画 →動画と字幕をそれぞれ埋め込みし、類似度が⾼くなる様なエンコーダーを学習(MineCLIP) ◦ Miecraft wikiからスクレイピングされた7,000のWebページ ◦ Minecraftに関する34万のReddit投稿、66万のコメントなど →今回は使っていないが今後の研究のために収集 CLIPの図に発表者が改変 Video Encoder

49 Confidential © TDAI Lab All right reserved. トレンド4まとめマルチモーダルを扱う汎⽤的なAI開発
• Transformerであらゆるモーダルのデータ(画像・⾳声・テキストなど)を扱い、あらゆる⾏動・出⼒を⾏えるAIの開発が進む ◦ 多くのタスク(対話・ゲームなど)を⼀つのモデルで⾏う事例︓GATO ◦ ⾃然⾔語で与えた命令の通りに⾏動する事例︓MineDOJO

51 Confidential © TDAI Lab All right reserved. 後半まとめと今後の予測【まとめ】
• 基盤モデルはマルチモーダルになっていく • 拡散モデル技術により、様々なモーダルの⾼品質データ⽣成が⾏える様になってきた • 出⼒も多機能・⾼機能になっていく ◦ GATOの様な⾏動の多機能さ、MineDOJOの様な⾏動の柔軟さ【今後の予測】 • AIが作ったデータで学習・評価する研究が増えていく ◦ 基盤モデルの品質の担保が課題に

53 Confidential © TDAI Lab All right reserved. トレンド5︓「AIを使ったAIの学習・評価」 •
【AIが⽣成したデータで学習した事例】 ◦ 本⽇の事例︓Stable Diffusion ▪ 画像とテキストの⼀致度を測るCLIPを⽤いてフィルタリングしたデータセットLAIONを使って学習 ◦ 次⾴で解説︓ProcTHOR ▪ AIで⽣成したシミュレーション空間で学習させたエージェントがZero-ShotでもSOTA • 【AIを使ったAIの評価】 ◦ 本⽇の事例︓MineDOJO ▪ 動画とテキストの⼀致度を測るMineCLIPを⽤いた報酬関数 (そのエージェントがどれほどよく⾏動できているかを評価した事例) ◦ 本⽇の事例︓Imagen ▪ ⽣成画像と正解画像の⼀致度(リアル度)を測る評価指標(e.g., FID) (AIによる埋め込み空間での距離で評価)

54 Confidential © TDAI Lab All right reserved. トレンド5. 注⽬論⽂:
ProcTHOR • ProcTHOR: Large-Scale Embodied AI Using Procedural Generation • Embodied AI⽤の仮想3D環境を⽣成するフレームワーク(ProcTHOR)を提案 ◦ 幅広い仮想環境を⽣成できる。 ◦ ProcTHORの⽣成した環境で事前学習したエージェントは6つのタスクにおいて、 Zero-shotでもSOTA性能

55 Confidential © TDAI Lab All right reserved. 個⼈的今後の研究予測︓「AIを使ったAIの学習・評価」
• 【AIが⽣成したデータで学習した事例】 ◦ 本⽇の事例︓Stable Diffusion ▪ 画像とテキストの⼀致度を測るCLIPを⽤いてフィルタリングしたデータセットLAIONを使って学習 ◦ 次⾴で解説︓ProcTHOR ▪ AIで⽣成したシミュレーション空間で学習させたエージェントがZero-ShotでもSOTA • 【AIを使ったAIの評価】 ◦ 本⽇の事例︓MineDOJO ▪ 動画とテキストの⼀致度を測るMineCLIPを⽤いた報酬関数 (そのエージェントがどれほどよく⾏動できているかを評価した事例) ◦ 本⽇の事例︓Imagen ▪ ⽣成画像と正解画像の⼀致度(リアル度)を測る評価指標(e.g., FID) (AIによる埋め込み空間での距離で評価)

56 Confidential © TDAI Lab All right reserved. (以前資料)関連研究︓ベンチマークの⾒直し •
2021年は多数のベンチマークの記録をまとめて⼤幅に更新する⾔語モデルは登場しなかった • モデルの進歩が⽌まったのではなく、既存のデータセットではモデルの評価が追いついていない可能性 • 2021年はどうモデルを評価すればいいのかについて議論が深まった年 • 機械翻訳分野におけるメタ評価によると、過去10年間に発表された769本ののうち、74.3%がBLEUのみを使⽤ Dynabench: Rethinking Benchmarking in NLP [Kiela et al. 2021 ACL] Human Performance Scientific Credibility of Machine Translation Research: A Meta- Evaluation of 769 Papers[Marie et al. 2021 ACL]

57 Confidential © TDAI Lab All right reserved. (以前資料)関連研究︓ベンチマークの⾒直し •
2021年は多数のベンチマークの記録をまとめて⼤幅に更新する⾔語モデルは登場しなかった • モデルの進歩が⽌まったのではなく、既存のデータセットではモデルの評価が追いついていない可能性 • 2021年はどうモデルを評価すればいいのかについて議論が深まった年 • 機械翻訳分野におけるメタ評価によると、過去10年間に発表された769本ののうち、74.3%がBLEUのみを使⽤ Dynabench: Rethinking Benchmarking in NLP [Kiela et al. 2021 ACL] Human Performance Scientific Credibility of Machine Translation Research: A Meta- Evaluation of 769 Papers[Marie et al. 2021 ACL] 今後の課題︓ どうやって巨⼤基盤モデルを評価する︖ (公平性など..)

Confidential © TDAI Lab All right reserved. 58 Confidential ©
TDAI Lab All right reserved. 58 (以前資料)解釈性・説明性に関する有識者の⾒解 • 私はAIに説明責任を負わせるべきかどうかについて、私の技術的専⾨知識に関連して答えると全くするべきではないと思います。 • 画像に歩⾏者が写っているかの判断で、AIシステムに「なぜそれを考えたのですか」と尋ねた際、⼈間が理解しやすい簡単な規則があるのであれば、そのような問題は、何年もずっと前に既に解決された問題だったでしょう。 • その代わりシステムをどのように信頼するかに応じて、そのシステムがどのように振る舞うかに基づいて規制する必要があります。 2018年のWIREDでのHinton⽒のインタビュー記事意訳 https://www.wired.com/story/googles-ai- guru-computers-think-more-like-brains/ この発⾔は、賛同もあった半⾯、多くの研究者から「Interpretableであることも、Explainableであることも放棄したかのようだ」と、批判的、懐疑的な意⾒も出ました。 https://www.forbes.com/sites/cognitiveworld/2 018/12/20/geoff-hinton-dismissed-the-need- for-explainable-ai-8-experts-explain-why-hes- wrong/#5d5f3796756d

TDAI Lab All right reserved. 59 (以前資料)関連研究︓Beyond Accuracy: Behavioral Testing of NLP Models with CHECKLIST • ACL 2020 Best Paper • 従来はtrain-test-validationでのみ精度評価が⾏われることが⼀般的 • そこでチェックリストを設けることで多⾯的に性能を評価しようという試み ◦ Min Func Test︓ユニットテスト的な発想 ◦ INVariance︓摂動に対する出⼒の頑健さ(⼊⼒が多少変わっても出⼒はかわらない) ◦ DIRectional︓出⼒を変えるような変更で出⼒が変わるか

61 Confidential © TDAI Lab All right reserved. トレンド５まとめ【まとめ】
• 今後はAIが作ったデータでの学習・評価がトレンドになるか ◦ 従来はCLIPなどのモーダル間の類似度を測る技術を使っていた ◦ 今後は⾔語モデルが出⼒した⽂章で、⾔語モデルを学習させていく(と思われる) • 評価の機能にもAIが⽣成したデータが⽤いられる事例も増加 • 今後は⾃動学習のエコシステムが完成されると思われる ◦ まずは⾔語から次第にマルチモーダルへ

62 Confidential © TDAI Lab All right reserved. 本講演まとめ 62
• 2021年は⾶躍的な進歩を遂げた年であった • 巨⼤化＋微調整 ◦ トレンド1. ⾔語基盤モデルの巨⼤化による複雑なタスクへの応⽤事例 ◦ トレンド2. ⾔語基盤モデルの微調整による⼈間らしさの学習 • マルチモーダル・汎⽤化 ◦ トレンド3. 拡散モデル(画像・ビデオ・⾔語・⾳声・３D) ◦ トレンド4. 汎⽤的なAI開発に向けて • 今後は学習データの収集コストに着⽬した研究が⾏われそう ◦ トレンド5. AIを使ったAIの学習・評価エコシステム構築 https://www.nytimes.com/2020/05/21/technol ogy/ben-shneiderman-automation-humans.html

64 Confidential © TDAI Lab All right reserved. 64 Company
Mission ⼤量のデータと最新のアルゴリズムの掛け合わせにより《今まで⼈間には分からなかったこと、データに眠る隠れた価値の発⾒》を⾏う Vision “Augment Intelligence”（拡張知能） : The combination of HumanExpertise & MachineLearning that goes far beyond just individuals & AI Empower Your Mind using Artificial Intelligence

日本ディープラーニング協会主催 NeurIPS 2022 技術報告会講演資料

日本ディープラーニング協会主催 NeurIPS 2022 技術報告会講演資料

More Decks by 株式会社TDAI Lab

Other Decks in Technology

Featured

Transcript