AI最新論文読み会2022年9月

医療AI研究所 AI最新論文読み会2022年9月 https://deeplearning-b.connpass.com/event/256652/ ㈱YEBIS.XYZ 橋本祥一

スピーカーの自己紹介橋本祥一（はしもとよしかず）株式会社YEBIS.XYZ 代表取締役・仕事は、起業家や研究者（未来を作る人）を手伝う・研究者ではなく、AI 研究の成果を使わせていただく立場です Twitter: @kamicup

Agenda • PapersWithCode > Social > Last 30 days https://paperswithcode.com/top-social?num_days=30
の上位10本（2022年8月26日時点）の論文を読んで、どんなことが書いてあるか紹介します。 → 気になる論文がみつかれば読んでみてください。

DeepL翻訳を使用させていただいています。

論文タイトル一覧 1. MobileNeRF: Exploiting the Polygon Rasterization Pipeline for Efficient
Neural Field Rendering on Mobile Architectures 2. An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion 3. LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale 4. Few-shot Learning with Retrieval Augmented Language Models 5. Lecture Notes on Neural Information Retrieval 6. Cold Diffusion: Inverting Arbitrary Image Transforms Without Noise 7. A Library for Representing Python Programs as Graphs for Machine Learning 8. PEER: A Collaborative Language Model 9. Meaning without reference in large language models 10. Super-Universal Regularized Newton Method

論文タイトル一覧 1. MobileNeRF: Exploiting the Polygon Rasterization Pipeline for Efficient
Neural Field Rendering on Mobile Architectures ▶3D表現 2. An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion ▶2D画像生成 3. LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale 4. Few-shot Learning with Retrieval Augmented Language Models ▶言語モデル 5. Lecture Notes on Neural Information Retrieval 6. Cold Diffusion: Inverting Arbitrary Image Transforms Without Noise 7. A Library for Representing Python Programs as Graphs for Machine Learning 8. PEER: A Collaborative Language Model 9. Meaning without reference in large language models 10. Super-Universal Regularized Newton Method

MobileNeRF: ポリゴンラスタライゼーションパイプラインの活用によるモバイルアーキテクチャでの効率的なニューラルフィールドレンダリング (原文: MobileNeRF: Exploiting the Polygon Rasterization Pipeline
for Efficient Neural Field Rendering on Mobile Architectures) https://arxiv.org/abs/2208.00277v2 Neural Radiance Fields (NeRF)は、新しい視点から3Dシーンの画像を合成する驚くべき能力を実証している。しかし、レイマーチングに基づく特殊なボリュームレンダリングアルゴリズムに依存しているため、広く普及しているグラフィックスハードウェアの性能に適合していない。本論文では、テクスチャ付きポリゴンに基づく新しいNeRF表現を紹介し、標準的なレンダリングパイプラインで効率的に新しい画像を合成することができます。NeRFは、2値の不透明度と特徴ベクトルを表すテクスチャを持つポリゴンの集合として表現される。従来のZバッファを用いたポリゴンのレンダリングでは、各ピクセルに特徴を持つ画像が生成され、フラグメントシェーダで実行されるビュー依存の小さなMLPによって解釈されて、最終的なピクセルカラーが生成されます。この手法により、NeRFは従来のポリゴンラスタライゼーションパイプラインでレンダリングすることができ、大規模なピクセルレベルの並列処理を実現し、携帯電話を含む幅広い計算機プラットフォームでインタラクティブなフレームレートを達成することができます。 #1 • 目的：一般的なモバイル端末でリアルタイムにレンダリング可能な NeRF派生手法 • 成果：SNeRG より10倍早く、一般的なモバイル端末で実用的な FPSで動作 • 方法：テクスチャ付きポリゴンメッシュ表現による古典的なサーフェイスレンダリングパイプライン（ Zバッファとフラグメントシェーダー）。テクスチャマップには（色ではなく）学習した特徴を格納し、小さな MLPをシェーダーとして使う。 • 固有名：MobileNeRF • 著者所属：Google Research, Simon Fraser University [v1] Sat, 30 Jul 2022 17:14:14 UTC [v2] Sat, 6 Aug 2022 10:39:38 UTC

https://mobile-nerf.github.io/ ブラウザで動作するデモがあるので、スマホで動かしてみるべし（なんとthree.js/WebGLでグリグリ動く）

基本的なコンセプト：従来の NeRF のボリュームレンダリングは重い処理なので、一般的な普及帯のハードウェアでは実行できない。　　　　↓ 古典的な 3DCG と同じサーフェイスレンダリング
に落し込んで軽量にしよう。

参考：3Dモデル（yagara.jp より）

古典的なレンダリング手順：｜　ポリゴン（三角メッシュ）とテクスチャ（画像）　 → ｜　　　　　　　　　　　　　　　　カメラのポーズ　 →　シェーダー　→　出力画像本手法で応用するためのポイント：・テクスチャに格納するのは色ではなく、学習で得た features（特徴）と opacity（不透明度）。・MLPをシェーダーに利用する。

トレーニングは3ステップ： 1) NeRFに類する（連続的な不透明度を扱う）トレーニング 2) 不透明度をバイナリ扱いするテクニックを導入したトレーニング（半透明メッシュをサポートしないハードウェアのため） 3) 不要な（不可視な）ポリゴンメッシュ削除、テクス
チャをベイク

初期状態は格子状のメッシュ（トポロジはそのまま頂点位置を最適化する）と３つのMLP。（３つ目の小さいMLPがシェーダーに組み込まれるもの。）

画像は一語の価値あり。テキスト反転を用いたテキストから画像への生成のパーソナライズ (原文: An Image is Worth One Word: Personalizing Text-to-Image
Generation using Textual Inversion) https://arxiv.org/abs/2208.01618v1 Text-to-Imageモデルは、自然言語によって創作を導くという、これまでにない自由度を持つモデルである。しかし、その自由度を活かして、特定の固有概念の画像を生成したり、その外観を変更したり、新しい役割や新しいシーンを構成したりすることは、まだ明らかになっていません。つまり、飼い猫を絵画にしたり、お気に入りのおもちゃから新しい商品を想像したりするために、言語誘導型モデルをどのように使えばよいのだろうかということである。ここでは、そのような自由な創造を可能にするシンプルなアプローチを紹介します。オブジェクトやスタイルなど、ユーザが提供したコンセプトの画像を3-5枚だけ使い、凍結されたテキスト-画像モデルの埋め込み空間に新しい「言葉」を使って表現することを学習します。この「言葉」は、自然言語文として構成することができ、直感的な方法でパーソナライズされた創作を導くことができる。特に、ユニークで多様な概念を捉えるためには、単一の単語埋め込みで十分であることを示す証拠を見出した。我々は、このアプローチを様々なベースラインと比較し、様々なアプリケーションやタスクにおいて、より忠実に概念を表現できることを実証する。我々のコード、データ、新しい単語は https://textual-inversion.github.io で公開される予定である。 #2 • 目的：モデルの汎化性能を損なうことなく、個別的な（一般語彙にはない）概念を捉えた画像生成を行う • 成果：既存のテキスト＞画像変換モデルを用い、少数の画像によって示す概念を捉えた画像生成を実証 • 方法：３〜５枚の画像を用いて、既存学習済みモデルの埋め込み空間内から、それらの画像集合がもつ概念（埋め込みベクトル）を表す新しい疑似単語を逆算。画像生成のガイドする文章の中で利用可能に。適用対象にしたのは Latent Diffusion Models だが、それに限定されるわけではない。 • 固有名：Textual Inversion（最適化手法の呼称） • 著者所属：Tel-Aviv University, NVIDIA [v1] Tue, 2 Aug 2022 17:50:36 UTC

LLM.int8()。スケールの大きいトランスフォーマーのための 8ビット行列の乗算 (原文: LLM.int8(): 8-bit Matrix Multiplication for Transformers at
Scale) https://arxiv.org/abs/2208.07339v1 大規模言語モデルは広く採用されているが、推論に多大な GPUメモリを必要とする。我々は、トランスフォーマーにおけるフィードフォワード層と注意投射層のための Int8行列乗算の手順を開発し、全精度の性能を維持しながら推論に必要なメモリを半分に削減する。本手法では、 175B パラメータの16/32ビットチェックポイントをロードし、 Int8に変換してすぐに使用することができ、性能低下もない。これは、注意と変換器の予測性能を支配する変換器言語モデルの高度に系統的な創発的特徴の特性を理解し、それを回避することで可能となります。これらの特徴に対処するために、我々は 2つの部分からなる量子化手順、 LLM.int8()を開発した。まず、行列の乗算における各内積に個別の正規化定数を用いたベクトル単位の量子化を行い、ほとんどの特徴を量子化する。しかし、出現した外れ値に対しては、新しい混合精度分解スキームを組み込み、外れ値の特徴次元を16ビットの行列乗算に分離する一方、 99.9%以上の値は8ビットで乗算されるようにしました。 LLM.int8()を用いて、最大 175Bのパラメータを持つLLMにおいて、性能低下なしに推論を行うことが可能であることを実証的に示しています。この結果、このようなモデルがより身近になり、例えば、民生用 GPUを搭載した1台のサーバでOPT-175B/BLOOMを使用することが可能になります。 #3 • 目的：6.7Bパラメタを超え175Bまでの大規模言語モデルで精度を保ちながらも推論に必要なメモリを削減 • 成果：既存手法では性能低下していた大規模モデルでも性能低下なしに必要メモリを半減する手順を開発し Hagging Face のモデルに統合 • 方法：ベクトル単位の量子化と、行列乗算の混合精度分解（大部分の特徴次元を 8bitとしながら、ごく一部の性能低下を招く特徴次元は16bitで扱う）の組み合わせ • 固有名：LLM.int8() • 著者所属：University of Washington, Facebook AI Research, Hugging Face, ENS Paris-Saclay [v1] Tue, 2 Aug 2022 17:50:36 UTC

検索拡張言語モデルによる few-shot学習 (原文: Few-shot Learning with Retrieval Augmented Language Models)
https://arxiv.org/abs/2208.03299v2 大規模言語モデルは、様々なタスクで印象的な few-shotの結果を示してきた。しかし、質問応答や事実確認などのタスクのように、このような結果を得るために知識が鍵となる場合、知識を格納するための膨大なパラメータ数が必要となるようです。検索拡張モデルは、それほど多くのパラメータを必要とせず、知識集約的なタスクに優れていることが知られているが、数発の設定において機能するかは不明である。本研究では、非常に少ない学習例で知識集約的なタスクを学習できる、注意深く設計され事前に学習された検索補強型言語モデル Atlasを発表する。MMLU、KILT、NaturalQuestionsを含む幅広いタスクで評価を行い、文書インデックスの内容の影響を研究し、容易に更新できることを示す。注目すべきは、 AtlasがNaturalQuestionsにおいて、わずか64例を用いて42%以上の精度を達成し、50倍少ないパラメータを持つにもかかわらず、 540Bパラメータのモデルを3%上回ったことである。 #4 • 目的：知識集約的なタスクに強い言語モデル • 成果：標準的なLLMより小さくも知識集約タスクで高い few-shot 能力を発揮する検索拡張言語モデル Atlas • 方法：関連文書を取得する retriever と、それを受け取り出力を生成する language model の２つのサブモデル（いずれも事前訓練されたトランスフォーマー）を共同で事前学習。 • 固有名：Atlas • 著者所属：Meta AI Research, ENS, PSL University, Inria, University College London [v1] Fri, 5 Aug 2022 17:39:22 UTC [v2] Mon, 8 Aug 2022 15:01:33 UTC

神経情報検索に関するレクチャーノート (原文: Lecture Notes on Neural Information Retrieval) https://arxiv.org/abs/2207.13443v1 このレクチャーノートでは、ニューラル情報検索の最近の進歩のうち、特にトランスフォーマーネットワークを利用したシステムや
モデルに焦点を当てます。これらのネットワークは、もともと 2017年にGoogleによって提案され、多くの自然言語処理と情報検索タスクで大きな成功を収めています。情報検索や自然言語処理に関する素晴らしい教科書や、より高度な読者向けの専門書は数多くありますが、この講義ノートは、主な情報検索技術や深層学習に基づくアプローチの基本的な理解を深めることを目的とする人々を対象としています。このノートは、イタリア・ピサ大学の人工知能・データ工学修士課程の IRコース用に作成されたものです。 #5 • 目的：情報検索がテーマの授業用資料 • 成果：ー • 方法：ー • 固有名：ー • 著者所属：University of Pisa [v1] Wed, 27 Jul 2022 10:43:27 UTC

コールドディフュージョン。ノイズのない任意の画像変換の反転 (原文: Cold Diffusion: Inverting Arbitrary Image Transforms Without Noise)
https://arxiv.org/abs/2208.09392v1 標準的な拡散モデルには、ガウスノイズを加える画像変換と、この劣化を反転させる画像復元演算子が含まれる。我々は、拡散モデルの生成挙動は画像劣化の選択に強く依存せず、実際、この選択を変えることで生成モデルの全ファミリーを構築することができることを観察した。完全に決定論的な劣化（例えば、ぼかし、マスキングなど）を使用する場合でも、拡散モデルの基礎となる学習・テスト時の更新ルールは、生成モデルを作成するために容易に一般化することができる。これらの完全決定論的モデルの成功は、勾配ランジュバン力学または変分推論のいずれかのノイズに依存する拡散モデルに対するコミュニティの理解に疑問を投げかけ、任意のプロセスを反転させる一般化された拡散モデルへの道を開くものである。私たちのコードは https://github.com/arpitbansal297/Cold-Diffusion-Models で公開されています。 #6 • 目的：拡散モデルについての既存の理解（ガウスノイズの正規分布性に依存した説明）に疑問を投げかけ • 成果：拡散モデルでガウシアンノイズではなく決定論的な劣化操作を用いても高品質な画像生成能力を得られることを示した • 方法：ガウシアンノイズを数種類の異なる劣化操作で代替 • 固有名：Cold Diffusion • 著者所属：University of Maryland, New York University [v1] Fri, 19 Aug 2022 15:18:39 UTC

Pythonプログラムを機械学習のためのグラフとして表現するライブラリ (原文: A Library for Representing Python Programs as Graphs
for Machine Learning) https://arxiv.org/abs/2208.07461v1 プログラムのグラフ表現は、一般的にコード研究のための機械学習の中心的な要素である。本論文では、機械学習モデルの学習に適したPythonプログラムのグラフ表現を構築するために、静的解析を適用したオープンソースの Pythonライブラリ python_graphsを紹介する。本ライブラリは、制御フローグラフ、データフローグラフ、および、プログラムに関する制御フロー、データフロー、構文、語彙の情報を組み合わせた複合プログラムグラフの作成を許可している。本ライブラリの機能と限界を紹介し、数百万件の競争的プログラミング提出物に本ライブラリを適用したケーススタディを行い、機械学習研究への本ライブラリの有用性を示す。 #7 • 目的：Python ソースコード専用のグラフ表現構築ツール python_graphs の機能、拡張性、制限、ユースケース、利用事例を紹介 • 成果：ー • 方法：ー • 固有名：python_graphs • 著者所属：Google Research [v1] Mon, 15 Aug 2022 22:36:17 utc

PEER：協調型言語モデル (原文: PEER: A Collaborative Language Model) https://arxiv.org/abs/2208.11663v1 テキストコンテンツは、多くの場合、共同執筆プロセスの成果物です。私たちは最初のドラフトから始めて、提案を求め、変更を繰り返す。このようなプロセスを無視し、今日の言語モデルは最終結果のみを生成するように訓練されています。その結果、共同執筆に不可
欠ないくつかの能力が欠けています。既存のテキストを更新することができない、制御が難しい、口頭で行動を計画したり説明したりすることができない、などです。これらの欠点に対処するために、我々はPEERを導入する。PEERは、書くプロセス全体を模倣するように訓練された協調言語モデルである。PEERは原稿を書き、提案を加え、編集を提案し、自分の行動に対して説明を行うことができる。 PEERは、原稿を書き、提案を加え、編集を提案し、説明を提供することができます。これにより、編集履歴がない領域でも適用できるようになり、指示に従う能力、有用なコメントを書く能力、自分の行動を説明する能力が向上し、PEERの潜在能力が最大限に引き出される。PEERは様々なドメインや編集タスクにおいて高い性能を発揮することを示す。 #8 • 目的：執筆に必要な能力を持つ言語モデルの予備実験（与えている前提が現実には則していなさそう） • 成果：編集履歴に基づき学習させた、執筆プロセス全体をカバーする協調言語モデル PEER • 方法：テキストコンテンツの編集を数種類のタスクの反復プロセスとしてモデル化し、変更を計画・実現することを繰り返すことで表現。有用なデータソースの不足（ wikipediaしかない）を克服するために、個別のタスクで訓練したそれぞれのモデルインスタンスで相互に訓練データを合成するアプローチを検証。 • 固有名：PEER (Plan, Edit, Explain, Repeat) • 著者所属：Meta AI Reseach / Carnegie Mellon Univ. / Inria & ENS, PSL Univ. / University College London [v1] Wed, 24 Aug 2022 16:56:47 utc

大規模言語モデルにおける参照不要の意味 (原文: Meaning without reference in large language models) https://arxiv.org/abs/2208.02957v2
大規模言語モデル(LLM)は、人間の概念や意味のようなものを持たないという懐疑的な見方で広く受け止められている。しかし、我々はLLMが意味の重要な側面を捉えている可能性が高いこと、さらに、意味が概念的役割から生じるという人間の認知の説得力のある説明に近い形で機能することを主張する。概念的役割は内部表現状態間の関係によって定義されるため、モデルのアーキテクチャ、学習データ、目的関数から意味を決定することはできないが、内部状態が互いにどのように関係するかを調べることによってのみ、意味を決定することができる。このアプローチは、 LLMがなぜ、どのように成功したかを明らかにし、 LLMをより人間に近いものにする方法を示唆するものである。 #9 • 目的：言語モデルが意味や理解を獲得できないとする主張への否定 • 成果：ー • 方法：ー • 固有名：ー • 著者所属：University of California, Berkley [v1] Fri, 5 Aug 2022 02:48:26 UTC [v2] Fri, 12 Aug 2022 15:36:46 UTC

超ユニバーサル正則化ニュートン法 (原文: Super-Universal Regularized Newton Method) https://arxiv.org/abs/2208.05888v1 我々は、複合凸最小化問題を解くための、二次正則化を用いたニュートン法の改良版の性能を分析する。本手法の各ステップにおいて、現在の点における勾配ノルムのある種のべき乗に比例する正則化パラメータを選択する。本論文では、 2次導関数ま
たは3次導関数のḦolder連続性によって特徴づけられる問題クラスのファミリーを導入する。次に、問題の具体的なパラメータを知らなくても、最適なグローバルな複雑さの境界を持つ問題クラスへの自動調整を可能にする、簡単な適応的探索手順を持つ方法を紹介する。特に、リプシッツ連続 3次導関数のクラスでは、従来 3次テンソル法に起因していた大域的な O(1/k3)率を得ることができる。目的関数が一様に凸である場合、我々のスキームの自動的な加速が正当化され、より速いグローバルレートと局所的な超線形収束をもたらす。異なる速度（サブリニア、リニア、スーパーリニア）間の切り替えは自動的に行われる。そのために、パラメータに関する先験的な知識は必要ない。 #10 • 目的：最小化問題の解法のひとつであるニュートン法の改良 • 成果：改善された解法の導出・証明 • 方法：ユークリッド・ノルムの 2乗によって目的の2次モデルを正則化する • 固有名：Super-Universal Regularized Newton Method • 著者所属：UCLouvain / ENS, Inria Sierra [v1] Thu, 11 Aug 2022 15:44:56 UTC

おわり

AI最新論文読み会2022年9月

AI最新論文読み会2022年9月

kamicup

More Decks by kamicup

Other Decks in Research

Featured

Transcript

医療AI研究所 AI最新論文読み会2022年9月 https://deeplearning-b.connpass.com/event/256652/ ㈱YEBIS.XYZ 橋本祥一

スピーカーの自己紹介橋本祥一（はしもとよしかず）株式会社YEBIS.XYZ 代表取締役・仕事は、起業家や研究者（未来を作る人）を手伝う・研究者ではなく、AI 研究の成果を使わせていただく立場です Twitter: @kamicup

Agenda • PapersWithCode > Social > Last 30 days https://paperswithcode.com/top-social?num_days=30

DeepL翻訳を使用させていただいています。

論文タイトル一覧 1. MobileNeRF: Exploiting the Polygon Rasterization Pipeline for Efficient

論文タイトル一覧 1. MobileNeRF: Exploiting the Polygon Rasterization Pipeline for Efficient

MobileNeRF: ポリゴンラスタライゼーションパイプラインの活用によるモバイルアーキテクチャでの効率的なニューラルフィールドレンダリング (原文: MobileNeRF: Exploiting the Polygon Rasterization Pipeline

https://mobile-nerf.github.io/ ブラウザで動作するデモがあるので、スマホで動かしてみるべし（なんとthree.js/WebGLでグリグリ動く）

https://mobile-nerf.github.io/ ブラウザで動作するデモがあるので、スマホで動かしてみるべし（なんとthree.js/WebGLでグリグリ動く）

https://mobile-nerf.github.io/ ブラウザで動作するデモがあるので、スマホで動かしてみるべし（なんとthree.js/WebGLでグリグリ動く）

https://mobile-nerf.github.io/ ブラウザで動作するデモがあるので、スマホで動かしてみるべし（なんとthree.js/WebGLでグリグリ動く）

基本的なコンセプト：従来の NeRF のボリュームレンダリングは重い処理なので、一般的な普及帯のハードウェアでは実行できない。　　　　↓ 古典的な 3DCG と同じサーフェイスレンダリング

参考：3Dモデル（yagara.jp より）

参考：3Dモデル（yagara.jp より）

初期状態は格子状のメッシュ（トポロジはそのまま頂点位置を最適化する）と３つのMLP。（３つ目の小さいMLPがシェーダーに組み込まれるもの。）

画像は一語の価値あり。テキスト反転を用いたテキストから画像への生成のパーソナライズ (原文: An Image is Worth One Word: Personalizing Text-to-Image

LLM.int8()。スケールの大きいトランスフォーマーのための 8ビット行列の乗算 (原文: LLM.int8(): 8-bit Matrix Multiplication for Transformers at

検索拡張言語モデルによる few-shot学習 (原文: Few-shot Learning with Retrieval Augmented Language Models)

コールドディフュージョン。ノイズのない任意の画像変換の反転 (原文: Cold Diffusion: Inverting Arbitrary Image Transforms Without Noise)

Pythonプログラムを機械学習のためのグラフとして表現するライブラリ (原文: A Library for Representing Python Programs as Graphs

大規模言語モデルにおける参照不要の意味 (原文: Meaning without reference in large language models) https://arxiv.org/abs/2208.02957v2

おわり