深層学習技術のサーベイとNASの今後の展望について(2023/4)

深層学習技術のサーベイと今後の展望について産業技術総合研究所　人工知能研究センター社会知能研究チーム博士後期課程　逸見一喜

自己紹介

研究テーマ Neural Architecture Search(NAS) →NNのArchitectureの設計を自動で行う技術研究内容は次々回のチームMTGでも話すので今回は自分自身の研究分野の見つめ直し筑波大学　博士後期課程1年　逸見一喜自己紹介 Hemmi
Kazuki University of Tsukuba National Institute of Advanced Industrial Science and Technology (AIST) Reasoning Speed Conciseness

研究テーマ Neural Architecture Search(NAS) 研究内容は次々回のチームMTGで話すので今回は自分自身の研究分野の見つめ直し筑波大学　博士後期課程1年　逸見一喜自己紹介 Hemmi Kazuki
University of Tsukuba National Institute of Advanced Industrial Science and Technology (AIST) Reasoning Speed Conciseness 特技：GPT4(2023/4/27)より返信が速いこと

過去と最新のAI動向から時系列的なトピックの概要を、さらには近年の流行と共に紹介し、未来を予測する。 01 博士課程になりました自己紹介 02 自分がやっていること最新のAI動向調査方法 03時系列的にAIの大きなトピックを紹介
近年の流行 04 流行をもとに NASの重要性を再検討 Neural Architecture Searchの立ち位置深層学習技術のサーベイと今後の展望について：目次

最新のAI動向調査方法

新しい技術にとにかく触れるニュースレター / まとめサービスの活用 TwitterでAI有識者をフォロー＆興味ある論文や記事を読む Qiitaでトレンド/人気の記事を読む（基本毎日）国際会議で出ている関連分野の論文のサーベイ自分のやっていること最新のAI動向調査方法

国際会議で出ている関連分野の論文のサーベイ 01 トップ国際会議機械学習系では ICLR(253), NeurIPS(245), ICML(204) 人工知能系では AAAI(157), IJCAI(105)
画像系では CVPR(356), ECCV(197), ICCV(184) 02 関連しそうなキーワードを調べて出てきた物を読む Semantic Scholarで被引用，関連論文を更に読む論文だけ読んでても疲れるのでスライドが有ると嬉しい最新のAI動向調査方法

(YouTubeのTwo Minute Papersもおすすめ) Semantic Scholarで被引用，関連論文を更に読む国際会議で出ている関連分野の論文のサーベイ最新のAI動向調査方法 https://www.semanticscholar.org/ https://www.youtube.com/@TwoMinutePapers/vid

良い具合にゆるくて読みやすい記事多め Qiitaでトレンド/人気の記事を読む（基本毎日） Qiita（エンジニアに関する知識を記録・共有するためのサービス）最新のAI動向調査方法他だとZennとか https://qiita.com/trend

Twitterが一番の情報収集サイト TwitterでAI有識者をフォロー興味ある論文や記事を読むリアルタイムで新しい情報がどんどん入る特に去年～今年の入ってAIの進展が活発なことが分かる最新のAI動向調査方法

Twitterのいいねやリツイートの多さで論文をピックアップ ⇒最新の話題論文/研究が見れる！ labml.ai Twitterが一番の情報収集サイト最新のAI動向調査方法 https://papers.labml.ai/papers/daily/

⇒ 自分に合うサービスを探すのがおすすめ AlphaSignalで情報収集ニュースレター / まとめサービスの活用最新のAI動向調査方法 https://alphasignal.ai/

とりあえず色々試してみる新しい技術にとにかく触れる GPT系のサービスはもちろん LLaMAやControlNetなどスライド作成AIなど（このスライドの配置はAIに任せてます）最新のAI動向調査方法

新しい技術にとにかく触れるニュースレター / まとめサービスの活用 TwitterでAI有識者をフォロー＆興味ある論文や記事を読む Qiitaでトレンド/人気の記事を読む（基本毎日）国際会議で出ている関連分野の論文のサーベイ自分のやっていること最新のAI動向調査方法

近年の流行

2022年 4・5月 DALL・E 2 Imagen Gato PaLM MaxViT 6・7月 GitHub
Copilot Minerva YOLOv7 Midjourney 8・9月 Stable Diffusion Real-ESRGAN Make-A-Video Whisper 10・11月 AudioLM Cicero Galactica MC-DARTS MC-PC-DARTS ChatGPT 12月・1月 Point・E Perplexity AI ConvNext V2 Make-A-Video 3D GraphGPT DetectGPT 2月～ ControlNet GPT-4 VisualChatGPT NotionAI LLaMA Bard AutoGPT 1年間（2022年度）のAIの大きなトピックを時系列的に紹介近年の流行 2023年

MaxViT：CNN＋Vision Transformer(ViT)モデル / ECCV'22 PaLM：LLM(大規模言語モデル,5400億パラメータ) / Google Gato ：マルチモーダルAI /
DeepMind Imagen：画像生成モデル / Google DALL・E 2：画像生成モデル / OpenAI 2022年4・5月：画像生成AIの登場近年の流行

DALL・E 2：画像生成モデル / OpenAI 近年の流行

Midjourney：画像生成モデル,個人でも簡単に利用が可能に YOLOv7 ：複合スケーリングを取り入れた最新の物体検出手法 Minerva：数学や物理の問題を解けるLLM / Google GitHub Copilot：GPTを用いたコード提案モデル 2022年6・7月：一般の人のAI関心度が徐々に向上近年の流行

Whisper：音声認識モデル / OpenAI Make-A-Video：動画生成モデル / Meta Real-ESRGAN：超解像による画像や動画の高解像度化モデル Stable Diffusion：オープンソースの画像生成モデル/Stability AI
2022年8・9月：モデルのオープンソース化近年の流行

ChatGPT：RLHFとGPT-3.5を用いたLLM / OpenAI MC-PC-DARTS：PC-DARTSを拡張した革新的なNAS手法 MC-DARTS：モデルサイズ制約付き勾配法NAS / NeurIPS WS'22 Galactica：科学記事自動生成モデル ,
2日で公開中止 / Meta Cicero：対話エンジンと計画エンジンを持つモデル / Meta AudioLM：LLMを用いた音声生成モデル / Google 2022年10・11月：ChatGPTの衝撃近年の流行

ChatGPT：RLHFとGPT-3.5を用いたLLM / OpenAI RLHF（＝Reinforcement Learning from Human Feedback） Helpfulness（有益性）：ユーザーのタスクを解決してくれるか
Harmlessness（無害性）：人や環境を物理的・精神的に傷つけていないか Truthfullness（真実性）：デマやミスリードの情報ではないか人間の好みに合った文を出力するように微調整したInstructGPTをベースとしたモデル近年の流行

ChatGPT系おすすめサービス / 拡張機能 ChatPDF WebChatGPT 近年の流行

DetectGPT：ChatGPT生成文章検出ツール GraphGPT ：GPT-3を用いたText to 知識グラフ生成ツール Make-A-Video 3D：Text to 動く3D生成モデル /
Meta ConvNext V2：画像系のConvNeXtの改良モデル（MAEを参考） Perplexity AI：LLMを用いた対話型検索エンジン Point・E：Text to 3D点群生成モデル(間に画像生成) / OpenAI 2022年12月・1月：ChatGPT APIを用いたツールの大量登場近年の流行

Perplexity AI：LLMを用いた対話型検索エンジン近年の流行

AutoGPT：GPT-4を用いた完全自立型AIエージェント Bard：LaMDAをベースとした最新のLLM / Google LLaMA ：新しい位置埋め込みを用いた小型のLLM / Meta NotionAI：Notionで文章自動生成や要約が可能に(一般公開) VisualChatGPT：入出力が画像＋テキストのGPT
/ Microsoft GPT-4：推定パラメータ1～10兆の最新LLM / OpenAI ControlNet：ポーズを自由自在に調整可能な画像生成モデル 2023年2月：大規模モデル競争勃発、AI進化速度が10倍に近年の流行

AutoGPT 目標を与えて回答を自律的に導き出すGPTベースの自立型AI 途中からプロンプト自動生成 AgentGPT ブラウザベースでAutoGPTを利用可能にしたサービス AutoGPT：GPT-4を用いた完全自立型AIエージェント近年の流行

Scaling Transformer to 1M tokens and beyond with RMT[ArXiv 2023/4/19]
通常32000トークン　- > 最大 20 0 万トークンまで入出力が可能に近年の流行

Generative Agents: Interactive Simulacra of Human Behavior[ArXiv 2023/4/7] 仮想の町に解き放たれた25人の AIエージェントはどう振る舞うか
近年の流行

Neural Architecture Searchの立ち位置

今の流行：大規模データ、大規模モデル、大規模な計算時間 POINT 01 Transformerの発展 POINT 02 OpenAIが出したScaling Law POINT 03
モデルは重要ではなく、今後はクラウドベース？ Neural Architecture Searchの立ち位置

Transformerの発展 GPT-3(Open AI)は1,750億個（96層） GPT-4(Open AI)は1～10兆？（推定） Bard,LaMDA(Google)は1,370億個 PaLM(Google)は5,400億 LLaMA(Meta)は70～650億 Neural Architecture
Searchの立ち位置今の流行：大規模データ、大規模モデル、大規模な計算時間

OpenAIが出したScaling Law 言語以外のドメインでも適用 Transformerの性能は計算予算，データサイズ，パラメータ数を変数としてべき乗で増加 Neural Architecture Searchの立ち位置今の流行：大規模データ、大規模モデル、大規模な計算時間

OpenAIが出したScaling Law お金をかければ高性能なモデルが作れる＝世はまさに大規模基盤モデル投資時代！！言語以外のドメインでも適用 Transformerの性能は計算予算，データサイズ，パラメータ数を変数としてべき乗で増加 Neural Architecture Searchの立ち位置
今の流行：大規模データ、大規模モデル、大規模な計算時間

モデル（Architecture）構築は重要ではなく、今後はクラウドベース？大量のデータを使って学習した1つのモデルに利用者がアクセスクラウドベースLLM 通義千問(Alibaba)　… NEMO(NVIDIA) Claude(Claude) LLaMA(Meta) PaLM(Google) GPT-4(OpenAI) Neural
Architecture Searchの立ち位置

個人的な見解：大規模基盤モデルが必須にはならない（発展はする） 01 ハードウェアの限界モデルサイズ制約や知識蒸留、重みの量子化（研究者が入り込む場所？）動かすマシンやデータセンターの建設が追い付かない（OpenAI CEO曰く,2023/4/17）パラメータ数：兆単位になってきた（GPT-4の学習には1億ドル以上） 02 接続できない団体の存在深層学習モデルを自前で持ちたい会社も数多く居る（日本は特に多い印象）
機密性の担保（特に話題、イタリア、鳥取県）処理速度はネット接続が挟むため若干遅い Neural Architecture Searchの立ち位置

NASの重要性を再考(応用事例) 高精度なモデル作成 DeepMind社のAlphafold2 →タンパク質の構造予測が可能 AutoMLツール AIモデルを低コストで構築 →HPO , NASを実行して自動調整 Neural
Architecture Searchの立ち位置

NASの重要性を再考(出来ること) 01 計算量削減研究者が独立して大量の計算を回す必要はない 02 手順の簡略化他ならNASで簡略化可能（モデルの微調整など）（本当は）今までにないArchitectureを見つけたい →探索空間の設計に依存するので現状困難　 Neural
Architecture Searchの立ち位置 Architecture最適化のコストは減少

新しいNASの研究を考えてみる

GPT-4でモデル生成させてみた（一昨日見つけて面白かった論文） Can GPT-4 Perform Neural Architec ture Search?[ArXiv 2023/4/21]
GPT-4 ×NAS Neural Architecture Searchの立ち位置

Low-Rank Adaptationより有効組み合わせ方を考えるNASの研究面白そう Adapter：取り付け可能な小さいNN [ICML'19] 大規模モデルでは対応できない新しい知識の挿入 Neural Architecture Searchの立ち位置

状態空間モデル×Deep Learning Transformerに替わる新しい研究：S4,H3 Transformerより長い系列を処理可能であり計算量が小さい CNN＋RNNのような時系列モデル HiPPO[NeurIPS'20]→LSSL[NeurIPS'21] →S4[ICLR'22]→H3[ICLR'23] Neural Architecture
Searchの立ち位置

過去と最新のAI動向から時系列的なトピックの概要を、さらには近年の流行と共に紹介し、未来を予測する。 2022年：画像生成などの生成系AI(拡散モデル)、LLM(大規模言語モデル)が大流行 2023年：個人的にはGatoのようなマルチモーダルなモデルの研究に注目＆興味有流行を捉え、未来を見据えて研究を進める必要がある（特に機械学習分野） NASの立ち位置近年の流行最新のAI動向調査方法自己紹介深層学習技術のサーベイと今後の展望について：まとめ

https://www.midjourney.com/home/?callbackUrl=%2Fapp%2F https://arxiv.org/abs/2207.02696 https://arxiv.org/abs/2206.14858 https://docs.github.com/ja/copilot/getting-started-with-github-copilot GitHub Copilot,Minerva,YOLOv7,Midjourney https://arxiv.org/abs/2204.01697 https://arxiv.org/abs/2204.02311 https://arxiv.org/pdf/2205.06175.pdf https://imagen.research.google/
https://arxiv.org/pdf/2204.06125.pdf DALL・E 2,Imagen,Gato,PaLM,MaxViT 参考文献

https://openai.com/blog/chatgpt https://openreview.net/forum?id=jKJ6OcvqdQ https://arxiv.org/abs/2211.09085 https://arxiv.org/abs/2203.13926 https://arxiv.org/abs/2209.03143 AudioLM,Cicero,Galactica,MC-DARTS,MC-PC-DARTS,ChatGPT https://arxiv.org/abs/2204.01697 https://arxiv.org/abs/2212.04356 https://openreview.net/forum?id=nJfylDvgzlq https://arxiv.org/abs/2107.10833
https://arxiv.org/abs/2112.10752 Stable Diffusion,Real-ESRGAN,Make-A-Video,Whisper 参考文献

https://blog.google/technology/ai/bard-google-ai-search-updates/ https://arxiv.org/abs/2302.13971 https://www.notion.so/blog/introducing-notion-ai https://arxiv.org/abs/2303.08774 https://arxiv.org/abs/2302.05543 ControlNet,GPT-4,VisualChatGPT,NotionAI,LLaMA,Bard,AutoGPT https://github.com/varunshenoy/GraphGPT https://arxiv.org/abs/2209.14792 https://arxiv.org/abs/2301.00808 https://www.perplexity.ai/
https://arxiv.org/abs/2212.08751 Point・E,Perplexity AI,ConvNext V2,Make-A-Video 3D, GraphGPT,DetectGPT 参考文献 https://arxiv.org/abs/2301.11305 https://github.com/Significant-Gravitas/Auto-GPT

https://openreview.net/forum?id=COZDy0WYGg https://openreview.net/pdf?id=uYLFoz1vlAC https://openreview.net/forum?id=yWd42CWN3c https://proceedings.neurips.cc/paper/2020/file/102f0bb6efb3a6128a3c750dd 16729be-Paper.pdf HiPPO,LSSL,S4,H3 https://arxiv.org/abs/2304.10970 https://arxiv.org/abs/2001.08361 https://www.microsoft.com/en-us/research/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-genera tive-language-model/
https://arxiv.org/abs/2304.03442 https://arxiv.org/abs/2304.11062 RMT,Generative Agents,MT-NLG,Scaling Law,GPT4×NAS,Adapter 参考文献 http://proceedings.mlr.press/v97/houlsby19a/houlsby19a.pdf

https://note.com/it_navi/n/nfd29236cad63 https://scrapbox.io/yuwd/Hungry_Hungry_Hippos:_Towards_Language_Modeling_with_State_Space_Models https://zenn.dev/rishigami/articles/32c7a05c88e104 https://agirobots.com/attention-mechanism-transformer/ https://horomary.hatenablog.com/entry/2022/11/28/212738#UniMaskNeurIPS-2022-MaskedLMの導入その他参考記事参考文献 https://speakerdeck.com/sgnm/vision-and-languagenoxian-zhuang-tozhan-wang-gpt-4

深層学習技術のサーベイとNASの今後の展望について(2023/4)

深層学習技術のサーベイとNASの今後の展望について(2023/4)

Kazuki Hemmi

Other Decks in Research

Featured

Transcript

深層学習技術のサーベイと今後の展望について産業技術総合研究所　人工知能研究センター社会知能研究チーム博士後期課程　逸見一喜

自己紹介

研究テーマ Neural Architecture Search(NAS) →NNのArchitectureの設計を自動で行う技術研究内容は次々回のチームMTGでも話すので今回は自分自身の研究分野の見つめ直し筑波大学　博士後期課程1年　逸見一喜自己紹介 Hemmi

研究テーマ Neural Architecture Search(NAS) 研究内容は次々回のチームMTGで話すので今回は自分自身の研究分野の見つめ直し筑波大学　博士後期課程1年　逸見一喜自己紹介 Hemmi Kazuki

最新のAI動向調査方法

国際会議で出ている関連分野の論文のサーベイ 01 トップ国際会議機械学習系では ICLR(253), NeurIPS(245), ICML(204) 人工知能系では AAAI(157), IJCAI(105)

(YouTubeのTwo Minute Papersもおすすめ) Semantic Scholarで被引用，関連論文を更に読む国際会議で出ている関連分野の論文のサーベイ最新のAI動向調査方法 https://www.semanticscholar.org/ https://www.youtube.com/@TwoMinutePapers/vid

良い具合にゆるくて読みやすい記事多め Qiitaでトレンド/人気の記事を読む（基本毎日） Qiita（エンジニアに関する知識を記録・共有するためのサービス）最新のAI動向調査方法他だとZennとか https://qiita.com/trend

Twitterが一番の情報収集サイト TwitterでAI有識者をフォロー興味ある論文や記事を読むリアルタイムで新しい情報がどんどん入る特に去年～今年の入ってAIの進展が活発なことが分かる最新のAI動向調査方法

Twitterのいいねやリツイートの多さで論文をピックアップ ⇒最新の話題論文/研究が見れる！ labml.ai Twitterが一番の情報収集サイト最新のAI動向調査方法 https://papers.labml.ai/papers/daily/

⇒ 自分に合うサービスを探すのがおすすめ AlphaSignalで情報収集ニュースレター / まとめサービスの活用最新のAI動向調査方法 https://alphasignal.ai/

とりあえず色々試してみる新しい技術にとにかく触れる GPT系のサービスはもちろん LLaMAやControlNetなどスライド作成AIなど（このスライドの配置はAIに任せてます）最新のAI動向調査方法

近年の流行

2022年 4・5月 DALL・E 2 Imagen Gato PaLM MaxViT 6・7月 GitHub

MaxViT：CNN＋Vision Transformer(ViT)モデル / ECCV'22 PaLM：LLM(大規模言語モデル,5400億パラメータ) / Google Gato ：マルチモーダルAI /

DALL・E 2：画像生成モデル / OpenAI 近年の流行

Whisper：音声認識モデル / OpenAI Make-A-Video：動画生成モデル / Meta Real-ESRGAN：超解像による画像や動画の高解像度化モデル Stable Diffusion：オープンソースの画像生成モデル/Stability AI

ChatGPT：RLHFとGPT-3.5を用いたLLM / OpenAI MC-PC-DARTS：PC-DARTSを拡張した革新的なNAS手法 MC-DARTS：モデルサイズ制約付き勾配法NAS / NeurIPS WS'22 Galactica：科学記事自動生成モデル ,

ChatGPT：RLHFとGPT-3.5を用いたLLM / OpenAI RLHF（＝Reinforcement Learning from Human Feedback） Helpfulness（有益性）：ユーザーのタスクを解決してくれるか

ChatGPT系おすすめサービス / 拡張機能 ChatPDF WebChatGPT 近年の流行

DetectGPT：ChatGPT生成文章検出ツール GraphGPT ：GPT-3を用いたText to 知識グラフ生成ツール Make-A-Video 3D：Text to 動く3D生成モデル /

Perplexity AI：LLMを用いた対話型検索エンジン近年の流行

AutoGPT 目標を与えて回答を自律的に導き出すGPTベースの自立型AI 途中からプロンプト自動生成 AgentGPT ブラウザベースでAutoGPTを利用可能にしたサービス AutoGPT：GPT-4を用いた完全自立型AIエージェント近年の流行

Scaling Transformer to 1M tokens and beyond with RMT[ArXiv 2023/4/19]

Generative Agents: Interactive Simulacra of Human Behavior[ArXiv 2023/4/7] 仮想の町に解き放たれた25人の AIエージェントはどう振る舞うか

Neural Architecture Searchの立ち位置

今の流行：大規模データ、大規模モデル、大規模な計算時間 POINT 01 Transformerの発展 POINT 02 OpenAIが出したScaling Law POINT 03

Transformerの発展 GPT-3(Open AI)は1,750億個（96層） GPT-4(Open AI)は1～10兆？（推定） Bard,LaMDA(Google)は1,370億個 PaLM(Google)は5,400億 LLaMA(Meta)は70～650億 Neural Architecture

NASの重要性を再考(応用事例) 高精度なモデル作成 DeepMind社のAlphafold2 →タンパク質の構造予測が可能 AutoMLツール AIモデルを低コストで構築 →HPO , NASを実行して自動調整 Neural

新しいNASの研究を考えてみる

GPT-4でモデル生成させてみた（一昨日見つけて面白かった論文） Can GPT-4 Perform Neural Architec ture Search?[ArXiv 2023/4/21]

Low-Rank Adaptationより有効組み合わせ方を考えるNASの研究面白そう Adapter：取り付け可能な小さいNN [ICML'19] 大規模モデルでは対応できない新しい知識の挿入 Neural Architecture Searchの立ち位置

状態空間モデル×Deep Learning Transformerに替わる新しい研究：S4,H3 Transformerより長い系列を処理可能であり計算量が小さい CNN＋RNNのような時系列モデル HiPPO[NeurIPS'20]→LSSL[NeurIPS'21] →S4[ICLR'22]→H3[ICLR'23] Neural Architecture