AI最新論文読み会2022年7月

Slide 1

Slide 1 text

AI最新論文読み会2022年7月 YAMAHA MOTOR CO.,LTD ＊Saitou Takashi Komaike Kunimune Yamamoto Atsushi （文献調査を上記で分担、今回の発表者＊）産業用ロボット| ヤマハ発動機 (yamaha-motor.co.jp) 2022国際ロボット展(iREX2022) - イベント | ヤマハ発動機株式会社 (yamaha-motor.com)

Slide 2

Slide 2 text

1. 大型モデルによる進化 (原文: Evolution through Large Models) 2. 模倣ゲームを超えて。言語モデルの能力を定量化し、外挿する (原文: Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models) 3. 自己教師付き学習による脳内音声処理の現実的なモデル化に向けて (原文: Toward a realistic model of speech processing in the brain with self-supervised learning) 4. 大規模言語モデルの創発的能力 (原文: Emergent Abilities of Large Language Models) 5. Diffusion-LMによる制御可能なテキスト生成の改善 (原文: Diffusion-LM Improves Controllable Text Generation) 6. アルゴリズム・インプリント (原文: The Algorithmic Imprint) 7. Pythae:Pythonによる生成オートエンコーダの統一 -- ベンチマーキングユースケース (原文: Pythae: Unifying Generative Autoencoders in Python -- A Benchmarking Use Case) 8. 学習可能な点、学習価値のある点、未学習の点を優先的にトレーニングする。 (原文: Prioritized Training on Points that are Learnable, Worth Learning, and Not Yet Learnt) 9. アメリカの博士号取得者の給与は、生活費の格差の拡大を考慮していない (原文: American postdoctoral salaries do not account for growing disparities in cost of living) 10. 階層的自己教師付き学習によるギガピクセル画像への視覚変換器のスケーリング (原文: Scaling Vision Transformers to Gigapixel Images via Hierarchical Self-Supervised Learning) PaperWithCodeの10本を紹介【pickup】 https://ml-ocu.s3-ap-northeast-1.amazonaws.com/arxiv-translation/sanity/2022-06-24-top-social.txt

Slide 3

Slide 3 text

1. 大型モデルによる進化 (原文: Evolution through Large Models) https://arxiv.org/abs/2206.08896v1 本論文では、遺伝的プログラミング（GP）において、コード生成のために学習させた大規模言語モデル（LLM）が、プログラムに適用する変異演算子の効果を大幅に改善できるという洞察を追及する。このようなLLMは、連続的な変更と修正を含む学習データから恩恵を受けるため、人間が行う可能性の高い変更を近似することができる。本実験では、このような大規模モデルによる進化（ELM）の持つ意味の広さを強調するため、ELMとMAP-Elitesを組み合わせて、 Sodaraceドメインで歩行ロボットを動作させるPythonプログラムの機能例を数十万個生成しました。これらの例は、特定の地形に適した歩行器を出力することができる新しい条件付き言語モデルのブートストラップ学習に役立つ。学習データがない領域で、与えられた文脈に適した成果物を出力できる新しいモデルをブートストラップする能力は、オープンエンド性、深層学習、強化学習に対する示唆を含んでいる。これらの意味合いは、ELMによって開かれた新しい研究の方向性を刺激することを期待して、ここで深く掘り下げられている。目的：高品質で多様なソースコードを効率的に自動生成するELM(大規模モデルによる進化)を提案成果：ELMと品質多様性アルゴリズムを組み合わせて、 Sodaraceドメインで歩行ロボットを動作させる Pythonプログラムのサンプルコードを数十万個生成方法：GPの突然変異演算子に大規模言語モデルを使用し、品質多様性アルゴリズムで繰り返し演算する固有名：著者所属：OpenAI

Slide 8

Slide 8 text

2. 模倣ゲームを超えて。言語モデルの能力を定量化し、外挿する (原文: Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models) https://arxiv.org/abs/2206.04615v2 言語モデルは、規模の拡大に伴い、定量的な改善と新たな定性的能力の両方を示しています。しかし、これらの新しい能力は、潜在的な変革のインパクトがあるにもかかわらず、まだ十分に特徴付けられていない。将来の研究に情報を提供し、破壊的な新しいモデルの能力に備え、社会的に有害な影響を改善するためには、言語モデルの現在および近未来の能力と限界を理解することが不可欠です。この課題に取り組むため、我々はBeyond the Imitation Gameベンチマーク（BIG-bench）を導入します。BIG-benchは現在 204のタスクから構成されており、132機関の442人の著者によって寄稿されています。タスクのトピックは多岐にわたり、言語学、児童発達、数学、常識的推論、生物学、物理学、社会的偏見、ソフトウェア開発、その他から問題が集められています。BIG- benchは、現在の言語モデルの能力を超えていると思われるタスクに焦点を合わせています。BIG-benchでは、数百万から数千億のパラメータに及ぶモデルサイズにおいて、OpenAIのGPTモデル、Google内部の密な変換器アーキテクチャ、Switch形式の疎な変換器の挙動を評価します。さらに、強力なベースラインを提供するために、人間の専門家評価者チームがすべてのタスクを実行しました。その結果、モデルの性能とキャリブレーションの両方が規模に応じて向上するが、絶対値では（そして評価者の性能と比較した場合）劣ること、性能はモデルクラス間で驚くほど似ているが、スパース性によるメリットがあること、徐々にかつ予測可能に向上するタスクには一般的に大きな知識または暗記要素が含まれるが、臨界規模での「突破」行動を示すタスクにはしばしば複数のステップまたはコンポーネント、あるいは脆いメトリックが含まれること、ソーシャルバイアスは通常曖昧な文脈の設定で規模に応じて増加するが、これはプロンプティングにより改善可能なことなどが明らかになった。目的：言語モデルの現時点と近未来における能力・限界を理解・予測するためのベンチマークの作成成果：GPT-3、TransformerベースのBIG-Gモデル、スパースBIG-Gモデルの挙動をBIG-Benchで評価した方法：大規模・高難易度・多様性のあるタスクによって構成された新しいベンチマーク、BIG-Benchを提案する固有名： BIG-Bench 著者所属：Google, OpenAI(主要著者のみ、共同研究者は割愛)

Slide 17

Slide 17 text

3. 自己教師付き学習による脳内音声処理の現実的なモデル化に向けて (原文: Toward a realistic model of speech processing in the brain with self-supervised learning) https://arxiv.org/abs/2206.01685v1 最近、いくつかのディープニューラルネットワークが、同じ入力に対して脳と同様の活性化を生成することが示された。しかし、これらのアルゴリズムは、（1）非常に大量のデータ、（2）教師付きラベルの取得不可能、（3）生の感覚入力ではなくテキスト入力、（4）非常に大きなメモリ（例えば、数千の文脈語）を必要とするため、依然としてほとんど現実的ではありません。これらの要素から、これらの制約のもとで、行動と脳の両方の反応を説明するのに十分なアルゴリズムを特定する必要性が強調される。我々は、音声処理の問題に着目し、生の波形に対して学習させた自己教師付きアルゴリズムが有望な候補であると仮定している。具体的には、英語、フランス語、標準中国語を話す412人の脳活動を、1時間のオーディオブックを聞きながらfMRIで記録し、最近の自己教師付きアーキテクチャであるWav2Vec 2.0と比較する。その結果、4つの成果が得られました。まず、このアルゴリズムは、わずか600 時間の非標識音声で脳のような表現を学習することを示す。第二に、このアルゴリズムの機能階層は、音声処理の皮質階層と一致する。3つ目は、異なるトレーニング方法によって、大脳皮質と同様の機能特化が見られることである。Wav2Vec 2.0は、前頭前野や側頭葉と同様に、音声一般、音声固有、言語固有表現を学習する。第四に、この特殊化の類似性を、さらに386人の参加者の行動で確認する。これらの要素は、これまでで最大の神経画像ベンチマークから得られたもので、自己教師付き学習が脳内の音声処理の豊かな組織を説明できることを示し、その結果、人間の脳を形成する言語習得の法則を明らかにする道筋が示されたものである。目的：自己教師付き学習が脳内の音声処理の豊かな組織を説明できることを示すこと。成果：人間の脳を形成する言語習得の法則を明らかにする道筋が示せた。方法：機能的磁気共鳴画像（fMRI）の記録と自己教師付きアーキテクチャWav2Vec 2.0との比較固有名：ー著者所属： Meta AIなど

Slide 19

Slide 19 text

Architecture ：wav2vec 2.0とは？ Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, Michael Auli （2020）. wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations ArXiv:2006.11477v3 [cs.CL] 22 Oct 2020参照 ⇒畳み込み層（CNN）と変換層（Transformer）を使用した音声認識フレームワークである。音声波形の潜在的な表現の量子化を予測するものである。 ■モジュール構成（１）特徴エンコーダ部：音声信号χから潜在表現zに畳み込む（２）量子化モジュール：潜在表現zをqに離散化する（３）transformerエンコーダ部：潜在表現zから文脈表現cを得る ■学習プロセス（１）自己教師あり学習：事前学習により音声の特徴を学習・量子化された表現 q を予測する（Contrastive loss）・量子化された表現 q の多様性を担保するため（Diversity loss）（２）教師あり学習：ファインチューニングで高精度化 Transformer の最終出力に線形層を加えて CTC 誤差関数で学習し、音素認識が可能となる以上の学習プロセスで、潜在表現zと文脈表現cの両方から各層の活性度を抽出する。対照学習（Contrastive Learning）：ラベル付けを行うことなく、データ同士を比較する仕組み用いて、膨大なデータをそのまま学習できる自己教師あり学習の一つである。似たデータは近くに、異なるデータは遠くになるように特徴量を学習する。例）量子化表現 qt を予測する。 ⇒マスクされた箇所の出力ctに対応するqt（= 正例）に近づける。同音声の他の箇所からサンプリングされたk 個のqt’（= 負例）から遠ざける CTC誤差関数：入力は、時間区切りごとの文字や音素などの識別結果で、時系列、画像、音声データなどから文字列等を抽出するネットワークの損失関数を定義したもの音素認識：音素は、言語における音波の最小単位である。音素認識とは、話し言葉の中の個々の音に注目する能力である。（１）（２）（３） Diversity Loss ct qt

Slide 23

Slide 23 text

4. 大規模言語モデルの創発的能力 (原文: Emergent Abilities of Large Language Models) https://arxiv.org/abs/2206.07682v1 言語モデルをスケールアップすることで、様々なダウンストリームタスクのパフォーマンスとサンプル効率が予測通りに向上することが示されています。本論文では、このような予測不可能な現象を、大規模言語モデルの創発的能力と呼びます。我々は、ある能力が小さなモデルには存在せず、大きなモデルには存在する場合、その能力を創発的であると考える。このように、創発的な能力は、小規模なモデルの性能を外挿するだけでは予測することができません。このような創発の存在は、さらなるスケーリングによって言語モデルの能力の幅がさらに広がる可能性を示唆している。目的：大規模言語モデルの創発能力という予測不可能な現象に関して議論すること。成果：多くの自然言語処理（NLP）下流タスクでスケール（学習FLOPsやモデルパラメータなど）が言語モデルの性能と高い相関があることを確認した。一方で、スケールが創発能力を見る唯一の手段でないことも確認した。また、なぜそのような能力が創発されるのかについて、説得力のある説明は、今のところほとんどない。そして、創発による質的変化が、NLPコミュニティにおける汎用的なモデルへの社会的なシフトが出現する可能性を強調した。方法：創発的能力（Emergent Abilities）の定義をし、 Few-Shot Prompted Tasksについて、大規模言語モデルの創発能力例をさまざまな下流タスクで確認した。創発の説明の可能性や、創発リスクについても議論し、モデルの規模が創発的な能力を引き出す唯一の要因ではないことも示唆した。固有名：ー著者所属：Google Research 、Stanford University 、UNC Chapel Hill 、DeepMind

Slide 28

Slide 28 text

議論：創発の説明の可能性議論：創発リスク議論：社会的な変化最後に、ここで議論された創発能力はモデルの動作に焦点を当てきた。もう一つの注目すべき質的変化は社会学的なもので、規模の拡大によりコミュニティの言語モデルに対する見方や使い方が変化する。例えば、NLPは歴史的にタスクに特化したモデルにフォーカスしてたが、最近では、スケーリングによって、学習データに明示的にコード化されていない様々なタスクの実行を目的とした単一モデルである「汎用」モデルの研究と開発が爆発的に増えている。汎用的なモデルがわずかな例で未知のタスクを実行できることから、NLP研究コミュニティ以外でも言語モデルの新しい応用が多数生まれている。例えば、言語モデルはプロンプトを通じて、・自然言語の指示をロボットが実行可能な動作に変換したり（Ahn et al., 2022; Huang et al., 2022）、・ユーザーと対話したり（Coenen et al., 2021; Wu et al., 2021, 2022; Lee et al., 2022b）、・マルチモーダル推論（Zeng et al.）創発的な能力の例は数多くあるが、なぜそのような能力が創発されるのかについて、説得力のある説明は今のところほとんどない。直観的には、例えば、・多段階推論タスクが、Ｌステップの逐次計算を必要とする場合、少なくともＯ(Ｌ)層の深さを持つモデルが必要となるかもしれない。・世界知識を必要とするタスクの場合、圧縮された知識ベース自体を捉えるのに十分なパラメータを持つモデルが必要かもしれない。事前訓練に明示的に含まれることなく、 Few-Shot Promptedで出現能力が観察されているため、リスクも出現しうるということである。

Slide 35

Slide 35 text

6. アルゴリズム・インプリント (原文: The Algorithmic Imprint) https://arxiv.org/abs/2206.03275v1 アルゴリズムによる害が顕在化した場合，公平性，説明責任，透明性，倫理性（FATE）に関連する懸念を解消するために，アルゴリズムの使用を停止することが妥当な対応となる．しかし、アルゴリズムが削除されたからといって、そのFATEに関連する問題が存在しなくなるわけではありません。この論文では，アルゴリズムを削除しただけでは，必ずしもその影響を元に戻したり軽減したりすることができないことを説明するために，「アルゴリズムの刻印」という概念を導入します．この概念とその意味を，160カ国以上で実施されている国際的に認められた英国ベースの高校卒業資格試験であるGeneral Certificate of Education (GCE) Advanced (A) Level試験のアルゴリズムによる採点を巡る2020年の出来事を通じて運用する．アルゴリズムによる標準化は、最終的に世界的な抗議運動によって撤廃されたが、この撤廃が、学生、教師、保護者の生活を形成する社会技術的インフラへのアルゴリズムによる刷り込みを元に戻すことがいかにできなかったかを示す。これらの出来事は、アルゴリズムによる仲介がある場合とない場合の両方の世界の状態を分析する貴重な機会となっている。我々はバングラデシュをケーススタディとして、北半球で作られたアルゴリズムが南半球のステークホルダーにいかに不釣り合いな影響を与えるかを説明する。47のインタビューからなる1年以上にわたるコミュニティとの関わりを記録し、バングラデシュで「何が」起こったかを初めて一貫した年表として提示し、「なぜ」「どのように」起こったかをアルゴリズムの刻印とアルゴリズムによる公平性の位置づけというレンズを通して文脈付けしている。これらの出来事を分析することで、アルゴリズムによる刷り込みの輪郭をインフラ、社会、個人の各レベルでどのように推測することができるかを明らかにする。また、インプリントを意識することで、（a）アルゴリズムの影響について考える際の境界を広げ、（b）アルゴリズムの設計方法を伝え、（c）AIガバナンスの指針とすることができるのかについて、概念的・実際的な示唆を与えている。目的：アルゴリズムによる害が発生した場合の対策として、アルゴリズムの使用停止がよく行われるが、停止(削除)したからと言って公平性、説明責任、透明性、倫理の問題がなくなるわけではない。この有害なアルゴリズムは存在した期間以降もはるかに長く残り続ける(アルゴリズムの痕跡)ことを説明する成果：例を通して「アルゴリズムの痕跡」について説明し、それを踏まえた上で、アルゴリズムをどう考慮するか説明する方法：英国ベースの高校卒業資格試験(GCE)の2020年の問題を例に挙げて「アルゴリズムの痕跡」について説明する固有名：ー著者所属： Data & Society Research Institute, Georgia Institute of Technology

Slide 41

Slide 41 text

8. 学習可能な点、学習価値のある点、未学習の点を優先的にトレーニングする。 (原文: Prioritized Training on Points that are Learnable, Worth Learning, and Not Yet Learnt) https://arxiv.org/abs/2206.07137v2 ウェブスケールデータでの学習は数ヶ月かかることもある。しかし、ほとんどの計算と時間は、既に学習済みの冗長でノイズの多いポイントや、学習不可能なポイントに浪費されている。学習を高速化するために、我々はRHO-LOSS （Reducible Holdout Loss Selection）を導入する。これは、モデルの汎化損失を最も低減する学習用のポイントをほぼ選択する、シンプルだが原理的な手法である。その結果、RHO-LOSSは既存のデータ選択手法の弱点を緩和する。最適化文献の技術は一般的に「難しい」（例えば高損失）点を選択するが、そのような点はしばしばノイズが多い（学習可能ではない）かタスクとの関連性が低いのである。逆に、カリキュラム学習は「簡単な」点を優先するが、そのような点は一度学習すれば学習する必要はない。これに対し、RHO-LOSSは学習可能で、学習に値する、そしてまだ学習していないポイントを選択する。RHO-LOSSは先行技術よりはるかに少ないステップで学習し、精度を向上させ、幅広いデータセット、ハイパーパラメータ、アーキテクチャ（MLP、CNN、BERT）において学習を高速化することが可能です。大規模なウェブスクレイピング画像データセットClothing-1Mにおいて、RHO-LOSSは18倍少ないステップで学習し、均一なデータシャッフリングよりも2%高い最終精度に到達しました。目的：従来手法より高速に汎用誤差を低減させることができるRHO-LOSSを紹介する成果：クリーンなデータと、ノイズの多いWebスクレイピングデータの大幅な高速化が可能方法：冗長データ(学習済みデータ)、ノイズの多いデータ、外れ値をスキップし、学ぶ価値があるデータを選択的して学習する固有名：ー著者所属：OATML、 University of Oxford、Cohere、University of Toronto

Slide 45

Slide 45 text

9. アメリカの博士号取得者の給与は、生活費の格差の拡大を考慮していない (原文: American postdoctoral salaries do not account for growing disparities in cost of living) https://arxiv.org/abs/2205.12892v1 国立衛生研究所（NIH）はポスドク（博士研究員）研修生の給与水準を設定しており、アメリカの多くの研究機関や研究者がポスドク給与の基準として利用しています。給与の基準は大学間で一定ですが、その大学のある市や町の生活費は大きく異なります。ポスドク以外の職種の場合、物価の高い都市ほど労働者の賃金は高く、生活費の上昇に比例して賃金も上昇する。この研究では、ポスドクの賃金が生活費の違いをどの程度まで説明できるかを調査している。米国の全大学における27,000人以上のポスドクの給与を、生活費の地域差の指標と合わせて分析した。その結果、同じ市町村における広範な労働市場とは対照的に、ポスドクの給与は生活費の違いを説明しないことが分かった。生活費の高い地域では収入が多少増えるにもかかわらず、実質的な（生活費調整後の）ポスドクの給与は、最も物価の安い地域と最も高い地域の間で29％（15000ドル2021米ドル）の差がある。ボストン、ニューヨーク、サンフランシスコなど、学生に対してより多くのテニュアトラック教員を輩出している都市は、この給与格差の影響を最も強く受けている都市である。ポスドクの給与格差は拡大しており、経済的に不利なグループに大きな経済的負担を負わせ、女性や人種的マイノリティにおける教員採用格差の一因となる可能性が十分にある。目的：ポスドクの賃金が生活費の違いをどの程度まで説明できるかを調査すること。成果：資金提供機関は生活費に関係なく研究機関間で一律のポスドク給与基準を設定しているため、米国のポスドク給与には空間的均衡が成り立たず、結果として米国の都市間で給与格差が生じるようだ。方法：米国労働省が報告した2015年から2020年のポスドク給与のデータセットをもとに、地域価格平価（RPP）を考慮し実質給与について調査した。固有名：ー著者所属： Harvard Medical School

Slide 48

Slide 48 text

10. 階層的自己教師付き学習によるギガピクセル画像への視覚変換器のスケーリング (原文: Scaling Vision Transformers to Gigapixel Images via Hierarchical Self-Supervised Learning) https://arxiv.org/abs/2206.02647v1 Vision Transformers (ViT) とそのマルチスケールおよび階層的なバリエーションは、画像表現の捕捉に成功しているが、その使用は一般に低解像度画像（例：- 256x256, 384384）に対して研究されてきた。計算病理学のギガピクセルホールスライドイメージング（WSI）では、WSIは20倍の倍率で150000x150000ピクセルとなり、16x16画像から組織微細環境内の相互作用を特徴づける4096x4096画像まで、様々な解像度にわたって視覚トークンの階層的構造を示すことが可能である。HIPTは、WSIに内在する自然な階層構造を活用し、2段階の自己教師付き学習を用いて高解像度の画像表現を学習するものである。HIPTは33種類のがんに対して、10,678枚のギガピクセルWSI、 408,218枚の4096x4096画像、104M枚の256x256画像を用いて事前学習される。9つのスライドレベルタスクを用いてHIPT表現のベンチマークを行い、以下のことを実証した。1) 階層的な事前学習を行ったHIPTは、がんのサブタイプ分類と生存予測において現在の最先端手法を凌駕する。2) 自己教師付きViTは、腫瘍微小環境における表現型の階層的構造に関する重要な誘導的バイアスをモデル化することができる。目的：WSIによる高解像度画像を使ったがんのサブタイプ分類と進行度分類において“診察レベル”を達成する成果：がんのサブタイプ分類と生存予測(進行度分類)において最先端手法を凌駕する精度を達成した方法：WSIが持つ階層構造を利用した階層構造的Transformer(HIPT)を開発した固有名： Hierarchical Image Pyramid Transformer (HIPT) 著者所属：Harvard BWH Broad Institute, Bill & Melinda Gates Foundation, University of Toronto

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Slide 21

Slide 21 text

Slide 22

Slide 22 text

Slide 23

Slide 23 text

Slide 24

Slide 24 text

Slide 25

Slide 25 text

Slide 26

Slide 26 text

Slide 27

Slide 27 text

Slide 28

Slide 28 text

Slide 29

Slide 29 text

Slide 30

Slide 30 text

Slide 31

Slide 31 text

Slide 32

Slide 32 text

Slide 33

Slide 33 text

Slide 34

Slide 34 text

Slide 35

Slide 35 text

Slide 36

Slide 36 text

Slide 37

Slide 37 text

Slide 38

Slide 38 text

Slide 39

Slide 39 text

Slide 40

Slide 40 text