Slide 1

Slide 1 text

医療AI研究所 AI最新論文読み会2022年9月 https://deeplearning-b.connpass.com/event/256652/ ㈱YEBIS.XYZ 橋本祥一

Slide 2

Slide 2 text

スピーカーの自己紹介 橋本祥一(はしもとよしかず) 株式会社YEBIS.XYZ 代表取締役 ・仕事は、起業家や研究者(未来を作る人)を手伝う ・研究者ではなく、AI 研究の成果を使わせていただく立場です Twitter: @kamicup

Slide 3

Slide 3 text

Agenda ● PapersWithCode > Social > Last 30 days https://paperswithcode.com/top-social?num_days=30 の上位10本(2022年8月26日時点)の論文を読んで、どんなことが書いてあるか紹 介します。 → 気になる論文がみつかれば読んでみてください。

Slide 4

Slide 4 text

DeepL翻訳を使用させてい ただいています。

Slide 5

Slide 5 text

論文タイトル一覧 1. MobileNeRF: Exploiting the Polygon Rasterization Pipeline for Efficient Neural Field Rendering on Mobile Architectures 2. An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion 3. LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale 4. Few-shot Learning with Retrieval Augmented Language Models 5. Lecture Notes on Neural Information Retrieval 6. Cold Diffusion: Inverting Arbitrary Image Transforms Without Noise 7. A Library for Representing Python Programs as Graphs for Machine Learning 8. PEER: A Collaborative Language Model 9. Meaning without reference in large language models 10. Super-Universal Regularized Newton Method

Slide 6

Slide 6 text

論文タイトル一覧 1. MobileNeRF: Exploiting the Polygon Rasterization Pipeline for Efficient Neural Field Rendering on Mobile Architectures ▶3D表現 2. An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion ▶2D画像生成 3. LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale 4. Few-shot Learning with Retrieval Augmented Language Models ▶言語モデル 5. Lecture Notes on Neural Information Retrieval 6. Cold Diffusion: Inverting Arbitrary Image Transforms Without Noise 7. A Library for Representing Python Programs as Graphs for Machine Learning 8. PEER: A Collaborative Language Model 9. Meaning without reference in large language models 10. Super-Universal Regularized Newton Method

Slide 7

Slide 7 text

MobileNeRF: ポリゴンラスタライゼーションパイプラインの活用によるモバイルアーキテクチャでの効率的なニューラルフィールドレン ダリング (原文: MobileNeRF: Exploiting the Polygon Rasterization Pipeline for Efficient Neural Field Rendering on Mobile Architectures) https://arxiv.org/abs/2208.00277v2 Neural Radiance Fields (NeRF)は、新しい視点から3Dシーンの画像を合成する驚くべき能力を実証している。しかし、レイマーチン グに基づく特殊なボリュームレンダリングアルゴリズムに依存しているため、広く普及しているグラフィックスハードウェアの性能に適合し ていない。本論文では、テクスチャ付きポリゴンに基づく新しいNeRF表現を紹介し、標準的なレンダリングパイプラインで効率的に新し い画像を合成することができます。NeRFは、2値の不透明度と特徴ベクトルを表すテクスチャを持つポリゴンの集合として表現される。 従来のZバッファを用いたポリゴンのレンダリングでは、各ピクセルに特徴を持つ画像が生成され、フラグメントシェーダで実行される ビュー依存の小さなMLPによって解釈されて、最終的なピクセルカラーが生成されます。この手法により、NeRFは従来のポリゴンラスタ ライゼーションパイプラインでレンダリングすることができ、大規模なピクセルレベルの並列処理を実現し、携帯電話を含む幅広い計算 機プラットフォームでインタラクティブなフレームレートを達成することができます。 #1 ● 目的:一般的なモバイル端末でリアルタイムにレンダリング可能な NeRF派生手法 ● 成果:SNeRG より10倍早く、一般的なモバイル端末で実用的な FPSで動作 ● 方法:テクスチャ付きポリゴンメッシュ表現による古典的なサーフェイスレンダリングパイプライン( Zバッファとフラグメント シェーダー)。テクスチャマップには(色ではなく)学習した特徴を格納し、小さな MLPをシェーダーとして使う。 ● 固有名:MobileNeRF ● 著者所属:Google Research, Simon Fraser University [v1] Sat, 30 Jul 2022 17:14:14 UTC [v2] Sat, 6 Aug 2022 10:39:38 UTC

Slide 8

Slide 8 text

https://mobile-nerf.github.io/ ブラウザで動作するデモがあるので、スマホで動かしてみるべし (なんとthree.js/WebGLでグリグリ動く)

Slide 9

Slide 9 text

https://mobile-nerf.github.io/ ブラウザで動作するデモがあるので、スマホで動かしてみるべし (なんとthree.js/WebGLでグリグリ動く)

Slide 10

Slide 10 text

https://mobile-nerf.github.io/ ブラウザで動作するデモがあるので、スマホで動かしてみるべし (なんとthree.js/WebGLでグリグリ動く)

Slide 11

Slide 11 text

https://mobile-nerf.github.io/ ブラウザで動作するデモがあるので、スマホで動かしてみるべし (なんとthree.js/WebGLでグリグリ動く)

Slide 12

Slide 12 text

基本的なコンセプト: 従来の NeRF のボリュームレンダリング は重い処理なので、一般的な普及帯のハードウェアでは実行で きない。     ↓ 古典的な 3DCG と同じサーフェイスレンダリング に落し込んで軽量にしよう。

Slide 13

Slide 13 text

参考:3Dモデル(yagara.jp より)

Slide 14

Slide 14 text

参考:3Dモデル(yagara.jp より)

Slide 15

Slide 15 text

古典的なレンダリング手順: | ポリゴン(三角メッシュ)とテクスチャ(画像)  → |                カメラのポーズ  → シェーダー → 出力画像 本手法で応用するためのポイント: ・テクスチャに格納するのは色ではなく、学習で得た features(特徴)と opacity(不透明度)。 ・MLPをシェーダーに利用する。

Slide 16

Slide 16 text

トレーニングは3ステップ: 1) NeRFに類する(連続的な不透明度を扱う)ト レーニング 2) 不透明度をバイナリ扱いするテクニックを導入し たトレーニング(半透明メッシュをサポートしない ハードウェアのため) 3) 不要な(不可視な)ポリゴンメッシュ削除、テクス チャをベイク

Slide 17

Slide 17 text

初期状態は格子状のメッシュ(トポロジはそのまま頂点位置を最適化する)と 3つのMLP。(3つ目の小さいMLPがシェーダーに組み込まれるもの。)

Slide 18

Slide 18 text

No content

Slide 19

Slide 19 text

No content

Slide 20

Slide 20 text

No content

Slide 21

Slide 21 text

画像は一語の価値あり。テキスト反転を用いたテキストから画像への生成のパーソナライズ (原文: An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion) https://arxiv.org/abs/2208.01618v1 Text-to-Imageモデルは、自然言語によって創作を導くという、これまでにない自由度を持つモデルである。しかし、その自由度を活 かして、特定の固有概念の画像を生成したり、その外観を変更したり、新しい役割や新しいシーンを構成したりすることは、まだ明らかに なっていません。つまり、飼い猫を絵画にしたり、お気に入りのおもちゃから新しい商品を想像したりするために、言語誘導型モデルをど のように使えばよいのだろうかということである。ここでは、そのような自由な創造を可能にするシンプルなアプローチを紹介します。オブ ジェクトやスタイルなど、ユーザが提供したコンセプトの画像を3-5枚だけ使い、凍結されたテキスト-画像モデルの埋め込み空間に新し い「言葉」を使って表現することを学習します。この「言葉」は、自然言語文として構成することができ、直感的な方法でパーソナライズさ れた創作を導くことができる。特に、ユニークで多様な概念を捉えるためには、単一の単語埋め込みで十分であることを示す証拠を見出 した。我々は、このアプローチを様々なベースラインと比較し、様々なアプリケーションやタスクにおいて、より忠実に概念を表現できるこ とを実証する。我々のコード、データ、新しい単語は https://textual-inversion.github.io で公開される予定である。 #2 ● 目的:モデルの汎化性能を損なうことなく、個別的な(一般語彙にはない)概念を捉えた画像生成を行う ● 成果:既存のテキスト>画像変換モデルを用い、少数の画像によって示す概念を捉えた画像生成を実証 ● 方法:3〜5枚の画像を用いて、既存学習済みモデルの埋め込み空間内から、それらの画像集合がもつ概念(埋め込み ベクトル)を表す新しい疑似単語を逆算。画像生成のガイドする文章の中で利用可能に。適用対象にしたのは Latent Diffusion Models だが、それに限定されるわけではない。 ● 固有名:Textual Inversion(最適化手法の呼称) ● 著者所属:Tel-Aviv University, NVIDIA [v1] Tue, 2 Aug 2022 17:50:36 UTC

Slide 22

Slide 22 text

No content

Slide 23

Slide 23 text

No content

Slide 24

Slide 24 text

No content

Slide 25

Slide 25 text

No content

Slide 26

Slide 26 text

No content

Slide 27

Slide 27 text

No content

Slide 28

Slide 28 text

No content

Slide 29

Slide 29 text

LLM.int8()。スケールの大きいトランスフォーマーのための 8ビット行列の乗算 (原文: LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale) https://arxiv.org/abs/2208.07339v1 大規模言語モデルは広く採用されているが、推論に多大な GPUメモリを必要とする。我々は、トランスフォーマーにおけるフィードフォワード層と 注意投射層のための Int8行列乗算の手順を開発し、全精度の性能を維持しながら推論に必要なメモリを半分に削減する。本手法では、 175B パラメータの16/32ビットチェックポイントをロードし、 Int8に変換してすぐに使用することができ、性能低下もない。これは、注意と変換器の予測 性能を支配する変換器言語モデルの高度に系統的な創発的特徴の特性を理解し、それを回避することで可能となります。これらの特徴に対処 するために、我々は 2つの部分からなる量子化手順、 LLM.int8()を開発した。まず、行列の乗算における各内積に個別の正規化定数を用いた ベクトル単位の量子化を行い、ほとんどの特徴を量子化する。しかし、出現した外れ値に対しては、新しい混合精度分解スキームを組み込み、外 れ値の特徴次元を16ビットの行列乗算に分離する一方、 99.9%以上の値は8ビットで乗算されるようにしました。 LLM.int8()を用いて、最大 175Bのパラメータを持つLLMにおいて、性能低下なしに推論を行うことが可能であることを実証的に示しています。この結果、このようなモデル がより身近になり、例えば、民生用 GPUを搭載した1台のサーバでOPT-175B/BLOOMを使用することが可能になります。 #3 ● 目的:6.7Bパラメタを超え175Bまでの大規模言語モデルで精度を保ちながらも推論に必要なメモリを削減 ● 成果:既存手法では性能低下していた大規模モデルでも性能低下なしに必要メモリを半減する手順を開発し Hagging Face のモデルに統合 ● 方法:ベクトル単位の量子化と、行列乗算の混合精度分解(大部分の特徴次元を 8bitとしながら、ごく一部の性能低下を 招く特徴次元は16bitで扱う)の組み合わせ ● 固有名:LLM.int8() ● 著者所属:University of Washington, Facebook AI Research, Hugging Face, ENS Paris-Saclay [v1] Tue, 2 Aug 2022 17:50:36 UTC

Slide 30

Slide 30 text

No content

Slide 31

Slide 31 text

No content

Slide 32

Slide 32 text

No content

Slide 33

Slide 33 text

No content

Slide 34

Slide 34 text

検索拡張言語モデルによる few-shot学習 (原文: Few-shot Learning with Retrieval Augmented Language Models) https://arxiv.org/abs/2208.03299v2 大規模言語モデルは、様々なタスクで印象的な few-shotの結果を示してきた。しかし、質問応答や事実確認などのタスクのよ うに、このような結果を得るために知識が鍵となる場合、知識を格納するための膨大なパラメータ数が必要となるようです。検索 拡張モデルは、それほど多くのパラメータを必要とせず、知識集約的なタスクに優れていることが知られているが、数発の設定 において機能するかは不明である。本研究では、非常に少ない学習例で知識集約的なタスクを学習できる、注意深く設計され 事前に学習された検索補強型言語モデル Atlasを発表する。MMLU、KILT、NaturalQuestionsを含む幅広いタスクで評価を 行い、文書インデックスの内容の影響を研究し、容易に更新できることを示す。注目すべきは、 AtlasがNaturalQuestionsに おいて、わずか64例を用いて42%以上の精度を達成し、50倍少ないパラメータを持つにもかかわらず、 540Bパラメータのモ デルを3%上回ったことである。 #4 ● 目的:知識集約的なタスクに強い言語モデル ● 成果:標準的なLLMより小さくも知識集約タスクで高い few-shot 能力を発揮する検索拡張言語モデル Atlas ● 方法:関連文書を取得する retriever と、それを受け取り出力を生成する language model の2つのサブモデル(い ずれも事前訓練されたトランスフォーマー)を共同で事前学習。 ● 固有名:Atlas ● 著者所属:Meta AI Research, ENS, PSL University, Inria, University College London [v1] Fri, 5 Aug 2022 17:39:22 UTC [v2] Mon, 8 Aug 2022 15:01:33 UTC

Slide 35

Slide 35 text

No content

Slide 36

Slide 36 text

No content

Slide 37

Slide 37 text

No content

Slide 38

Slide 38 text

No content

Slide 39

Slide 39 text

No content

Slide 40

Slide 40 text

神経情報検索に関するレクチャーノート (原文: Lecture Notes on Neural Information Retrieval) https://arxiv.org/abs/2207.13443v1 このレクチャーノートでは、ニューラル情報検索の最近の進歩のうち、特にトランスフォーマーネットワークを利用したシステムや モデルに焦点を当てます。これらのネットワークは、もともと 2017年にGoogleによって提案され、多くの自然言語処理と情報検 索タスクで大きな成功を収めています。情報検索や自然言語処理に関する素晴らしい教科書や、より高度な読者向けの専門書 は数多くありますが、この講義ノートは、主な情報検索技術や深層学習に基づくアプローチの基本的な理解を深めることを目的 とする人々を対象としています。このノートは、イタリア・ピサ大学の人工知能・データ工学修士課程の IRコース用に作成された ものです。 #5 ● 目的:情報検索がテーマの授業用資料 ● 成果:ー ● 方法:ー ● 固有名:ー ● 著者所属:University of Pisa [v1] Wed, 27 Jul 2022 10:43:27 UTC

Slide 41

Slide 41 text

No content

Slide 42

Slide 42 text

コールドディフュージョン。ノイズのない任意の画像変換の反転 (原文: Cold Diffusion: Inverting Arbitrary Image Transforms Without Noise) https://arxiv.org/abs/2208.09392v1 標準的な拡散モデルには、ガウスノイズを加える画像変換と、この劣化を反転させる画像復元演算子が含まれる。我々は、拡 散モデルの生成挙動は画像劣化の選択に強く依存せず、実際、この選択を変えることで生成モデルの全ファミリーを構築するこ とができることを観察した。完全に決定論的な劣化(例えば、ぼかし、マスキングなど)を使用する場合でも、拡散モデルの基礎 となる学習・テスト時の更新ルールは、生成モデルを作成するために容易に一般化することができる。これらの完全決定論的モ デルの成功は、勾配ランジュバン力学または変分推論のいずれかのノイズに依存する拡散モデルに対するコミュニティの理解 に疑問を投げかけ、任意のプロセスを反転させる一般化された拡散モデルへの道を開くものである。私たちのコードは https://github.com/arpitbansal297/Cold-Diffusion-Models で公開されています。 #6 ● 目的:拡散モデルについての既存の理解(ガウスノイズの正規分布性に依存した説明)に疑問を投げかけ ● 成果:拡散モデルでガウシアンノイズではなく決定論的な劣化操作を用いても高品質な画像生成能力を得られることを示 した ● 方法:ガウシアンノイズを数種類の異なる劣化操作で代替 ● 固有名:Cold Diffusion ● 著者所属:University of Maryland, New York University [v1] Fri, 19 Aug 2022 15:18:39 UTC

Slide 43

Slide 43 text

No content

Slide 44

Slide 44 text

Pythonプログラムを機械学習のためのグラフとして表現するライブラリ (原文: A Library for Representing Python Programs as Graphs for Machine Learning) https://arxiv.org/abs/2208.07461v1 プログラムのグラフ表現は、一般的にコード研究のための機械学習の中心的な要素である。本論文では、機械学習モデルの学 習に適したPythonプログラムのグラフ表現を構築するために、静的解析を適用したオープンソースの Pythonライブラリ python_graphsを紹介する。本ライブラリは、制御フローグラフ、データフローグラフ、および、プログラムに関する制御フ ロー、データフロー、構文、語彙の情報を組み合わせた複合プログラムグラフの作成を許可している。本ライブラリの機能と限界 を紹介し、数百万件の競争的プログラミング提出物に本ライブラリを適用したケーススタディを行い、機械学習研究への本ライブ ラリの有用性を示す。 #7 ● 目的:Python ソースコード専用のグラフ表現構築ツール python_graphs の機能、拡張性、制限、ユースケース、利 用事例を紹介 ● 成果:ー ● 方法:ー ● 固有名:python_graphs ● 著者所属:Google Research [v1] Mon, 15 Aug 2022 22:36:17 utc

Slide 45

Slide 45 text

PEER:協調型言語モデル (原文: PEER: A Collaborative Language Model) https://arxiv.org/abs/2208.11663v1 テキストコンテンツは、多くの場合、共同執筆プロセスの成果物です。私たちは最初のドラフトから始めて、提案を求め、変更を繰り返 す。このようなプロセスを無視し、今日の言語モデルは最終結果のみを生成するように訓練されています。その結果、共同執筆に不可 欠ないくつかの能力が欠けています。既存のテキストを更新することができない、制御が難しい、口頭で行動を計画したり説明したりす ることができない、などです。これらの欠点に対処するために、我々はPEERを導入する。PEERは、書くプロセス全体を模倣するように 訓練された協調言語モデルである。PEERは原稿を書き、提案を加え、編集を提案し、自分の行動に対して説明を行うことができる。 PEERは、原稿を書き、提案を加え、編集を提案し、説明を提供することができます。これにより、編集履歴がない領域でも適用できるよ うになり、指示に従う能力、有用なコメントを書く能力、自分の行動を説明する能力が向上し、PEERの潜在能力が最大限に引き出され る。PEERは様々なドメインや編集タスクにおいて高い性能を発揮することを示す。 #8 ● 目的:執筆に必要な能力を持つ言語モデルの予備実験(与えている前提が現実には則していなさそう) ● 成果:編集履歴に基づき学習させた、執筆プロセス全体をカバーする協調言語モデル PEER ● 方法:テキストコンテンツの編集を数種類のタスクの反復プロセスとしてモデル化し、変更を計画・実現することを繰り返す ことで表現。有用なデータソースの不足( wikipediaしかない)を克服するために、個別のタスクで訓練したそれぞれのモ デルインスタンスで相互に訓練データを合成するアプローチを検証。 ● 固有名:PEER (Plan, Edit, Explain, Repeat) ● 著者所属:Meta AI Reseach / Carnegie Mellon Univ. / Inria & ENS, PSL Univ. / University College London [v1] Wed, 24 Aug 2022 16:56:47 utc

Slide 46

Slide 46 text

No content

Slide 47

Slide 47 text

No content

Slide 48

Slide 48 text

No content

Slide 49

Slide 49 text

No content

Slide 50

Slide 50 text

No content

Slide 51

Slide 51 text

No content

Slide 52

Slide 52 text

大規模言語モデルにおける参照不要の意味 (原文: Meaning without reference in large language models) https://arxiv.org/abs/2208.02957v2 大規模言語モデル(LLM)は、人間の概念や意味のようなものを持たないという懐疑的な見方で広く受け止められている。しか し、我々はLLMが意味の重要な側面を捉えている可能性が高いこと、さらに、意味が概念的役割から生じるという人間の認知 の説得力のある説明に近い形で機能することを主張する。概念的役割は内部表現状態間の関係によって定義されるため、モデ ルのアーキテクチャ、学習データ、目的関数から意味を決定することはできないが、内部状態が互いにどのように関係するかを 調べることによってのみ、意味を決定することができる。このアプローチは、 LLMがなぜ、どのように成功したかを明らかにし、 LLMをより人間に近いものにする方法を示唆するものである。 #9 ● 目的:言語モデルが意味や理解を獲得できないとする主張への否定 ● 成果:ー ● 方法:ー ● 固有名:ー ● 著者所属:University of California, Berkley [v1] Fri, 5 Aug 2022 02:48:26 UTC [v2] Fri, 12 Aug 2022 15:36:46 UTC

Slide 53

Slide 53 text

超ユニバーサル正則化ニュートン法 (原文: Super-Universal Regularized Newton Method) https://arxiv.org/abs/2208.05888v1 我々は、複合凸最小化問題を解くための、二次正則化を用いたニュートン法の改良版の性能を分析する。本手法の各ステップ において、現在の点における勾配ノルムのある種のべき乗に比例する正則化パラメータを選択する。本論文では、 2次導関数ま たは3次導関数のḦolder連続性によって特徴づけられる問題クラスのファミリーを導入する。次に、問題の具体的なパラメータ を知らなくても、最適なグローバルな複雑さの境界を持つ問題クラスへの自動調整を可能にする、簡単な適応的探索手順を持 つ方法を紹介する。特に、リプシッツ連続 3次導関数のクラスでは、従来 3次テンソル法に起因していた大域的な O(1/k3)率を 得ることができる。 目的関数が一様に凸である場合、我々のスキームの自動的な加速が正当化され、より速いグローバルレートと局所的な超線形 収束をもたらす。異なる速度(サブリニア、リニア、スーパーリニア)間の切り替えは自動的に行われる。そのために、パラメータ に関する先験的な知識は必要ない。 #10 ● 目的:最小化問題の解法のひとつであるニュートン法の改良 ● 成果:改善された解法の導出・証明 ● 方法:ユークリッド・ノルムの 2乗によって目的の2次モデルを正則化する ● 固有名:Super-Universal Regularized Newton Method ● 著者所属:UCLouvain / ENS, Inria Sierra [v1] Thu, 11 Aug 2022 15:44:56 UTC

Slide 54

Slide 54 text

No content

Slide 55

Slide 55 text

No content

Slide 56

Slide 56 text

おわり