AI最新論文読み会2022年7月

AI最新論文読み会2022年7月 YAMAHA MOTOR CO.,LTD ＊Saitou Takashi Komaike Kunimune Yamamoto Atsushi
（文献調査を上記で分担、今回の発表者＊）産業用ロボット| ヤマハ発動機 (yamaha-motor.co.jp) 2022国際ロボット展(iREX2022) - イベント | ヤマハ発動機株式会社 (yamaha-motor.com)

1. 大型モデルによる進化 (原文: Evolution through Large Models) 2. 模倣ゲームを超えて。言語モデルの能力を定量化し、外挿する (原文:
Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models) 3. 自己教師付き学習による脳内音声処理の現実的なモデル化に向けて (原文: Toward a realistic model of speech processing in the brain with self-supervised learning) 4. 大規模言語モデルの創発的能力 (原文: Emergent Abilities of Large Language Models) 5. Diffusion-LMによる制御可能なテキスト生成の改善 (原文: Diffusion-LM Improves Controllable Text Generation) 6. アルゴリズム・インプリント (原文: The Algorithmic Imprint) 7. Pythae:Pythonによる生成オートエンコーダの統一 -- ベンチマーキングユースケース (原文: Pythae: Unifying Generative Autoencoders in Python -- A Benchmarking Use Case) 8. 学習可能な点、学習価値のある点、未学習の点を優先的にトレーニングする。 (原文: Prioritized Training on Points that are Learnable, Worth Learning, and Not Yet Learnt) 9. アメリカの博士号取得者の給与は、生活費の格差の拡大を考慮していない (原文: American postdoctoral salaries do not account for growing disparities in cost of living) 10. 階層的自己教師付き学習によるギガピクセル画像への視覚変換器のスケーリング (原文: Scaling Vision Transformers to Gigapixel Images via Hierarchical Self-Supervised Learning) PaperWithCodeの10本を紹介【pickup】 https://ml-ocu.s3-ap-northeast-1.amazonaws.com/arxiv-translation/sanity/2022-06-24-top-social.txt

1. 大型モデルによる進化 (原文: Evolution through Large Models) https://arxiv.org/abs/2206.08896v1 本論文では、遺伝的プログラミング（GP）において、コード生成のために学習させた大規模言語モデル（LLM）が、プログラムに適用する変異演算子の効果を大幅に改善できるという洞察を追及する。このようなLLMは、連続的な変
更と修正を含む学習データから恩恵を受けるため、人間が行う可能性の高い変更を近似することができる。本実験では、このような大規模モデルによる進化（ELM）の持つ意味の広さを強調するため、ELMとMAP-Elitesを組み合わせて、 Sodaraceドメインで歩行ロボットを動作させるPythonプログラムの機能例を数十万個生成しました。これらの例は、特定の地形に適した歩行器を出力することができる新しい条件付き言語モデルのブートストラップ学習に役立つ。学習データがない領域で、与えられた文脈に適した成果物を出力できる新しいモデルをブートストラップする能力は、オープンエンド性、深層学習、強化学習に対する示唆を含んでいる。これらの意味合いは、ELMによって開かれた新しい研究の方向性を刺激することを期待して、ここで深く掘り下げられている。目的：高品質で多様なソースコードを効率的に自動生成するELM(大規模モデルによる進化)を提案成果：ELMと品質多様性アルゴリズムを組み合わせて、 Sodaraceドメインで歩行ロボットを動作させる Pythonプログラムのサンプルコードを数十万個生成方法：GPの突然変異演算子に大規模言語モデルを使用し、品質多様性アルゴリズムで繰り返し演算する固有名：著者所属：OpenAI

▪背景〇既存のソースコード生成用大規模言語モデル（LLM）の問題学習したデータのドメインではうまく動作するが、そこからかけ離れたドメインではうまく動作しない →学習したドメインの外側へと解の探索を推し進めることが望ましい(多様性) ▪概要〇どんなもの？ ELM（Evolution through Large Models)
= 突然変異(大規模言語モデルLLM) × 品質多様性アルゴリズム(MAP-Elites) →自動生成するソースコードの品質を効率的に向上させる・ソースコードの品質向上、多様性拡大のためにアウターループとして品質多様性アルゴリズム(多様な解の探索)を使用・一般的な遺伝的プログラミングの突然変異演算を大規模言語モデル(LLM)にし、ソースコードを自動生成する経験分布ドメインを広げる多様な解を探索この2つを組み合わせる ◎多様性は異なるドメインで有効に働く一般的な遺伝的プログラミング

▪どうやって有効だと検証したか？二次元を移動する任意の構造の移動体(Sodaracer(可変質量点とばねの集合体))をシミュレーションする〇目的・高さ、幅、質量を変更させて地表を効率よく移動できるSodaracerを設計する(pythonコード自動生成) Sodaracer(質点とばねからなる)

▪提案手法の詳細 ①ソースコード自動生成のために大規模言語モデル（LLM） diffモデルを使用する例 Githubのdiffを用いた学習・diffとはGithubのようなバージョン管理システムにコミットされたファイルの増分変更であり、変更の意図を記述するコミットメッセージが添付されている・diffとその時のコメントを入力として、プログラム合成モデルを訓練する Sodaracerのdiffのコメント例：maker_wake関数のパラメータを更新しましたなど ②多様性拡大のためにアウターループ：品質多様性アルゴリズム
〇反復演算内容 ①解のマップから既存のpythonコードをサンプルする ②diff modelは修正したpythonコードを出力する自動生成されたpythonプログラムを実行することで Sodaracerの個体を評価する(うまく動作できたか？) ③この修正されたpythonプログラムは新たにマップに配置されるか(新たなニッチ)、現在のチャンピオンよりも優れていれば挿入される(ニッチの置き換え) ①～③を繰り返すことで高品質の解で埋め尽くされる・diffは1つのファイルが対象とする・ファイルの変更はできるだけ短くするこの青ブロックの手法・pythonプログラム (Sodaracerの構造が記述されている) ・ Sodaracerの個体の評価各マップごとに ① ① ② ② ③ ③ 行動空間

多様に ▪実験と結果〇繰り返し演算・3つの初期値で独立に実行・100万回の評価を行った・生成されたpythonプログラㇺを実行することで評価 ◦結果・多様性評価：正方形シード以外は空間うまくに広がっている・品質評価：正方形シード・放射状シードが特に高品質な解を生成している
◦結論人間が用意したサンプルコードから高品質で多様なpythonプログラム例を数十万件生成できた異なるシード間のマップのニッチが埋まった量異なるシードが平均的に達成した最大性能多様性多様性と品質を考慮した評価

2. 模倣ゲームを超えて。言語モデルの能力を定量化し、外挿する (原文: Beyond the Imitation Game: Quantifying and extrapolating
the capabilities of language models) https://arxiv.org/abs/2206.04615v2 言語モデルは、規模の拡大に伴い、定量的な改善と新たな定性的能力の両方を示しています。しかし、これらの新しい能力は、潜在的な変革のインパクトがあるにもかかわらず、まだ十分に特徴付けられていない。将来の研究に情報を提供し、破壊的な新しいモデルの能力に備え、社会的に有害な影響を改善するためには、言語モデルの現在および近未来の能力と限界を理解することが不可欠です。この課題に取り組むため、我々はBeyond the Imitation Gameベンチマーク（BIG-bench）を導入します。BIG-benchは現在 204のタスクから構成されており、132機関の442人の著者によって寄稿されています。タスクのトピックは多岐にわたり、言語学、児童発達、数学、常識的推論、生物学、物理学、社会的偏見、ソフトウェア開発、その他から問題が集められています。BIG- benchは、現在の言語モデルの能力を超えていると思われるタスクに焦点を合わせています。BIG-benchでは、数百万から数千億のパラメータに及ぶモデルサイズにおいて、OpenAIのGPTモデル、Google内部の密な変換器アーキテクチャ、Switch形式の疎な変換器の挙動を評価します。さらに、強力なベースラインを提供するために、人間の専門家評価者チームがすべてのタスクを実行しました。その結果、モデルの性能とキャリブレーションの両方が規模に応じて向上するが、絶対値では（そして評価者の性能と比較した場合）劣ること、性能はモデルクラス間で驚くほど似ているが、スパース性によるメリットがあること、徐々にかつ予測可能に向上するタスクには一般的に大きな知識または暗記要素が含まれるが、臨界規模での「突破」行動を示すタスクにはしばしば複数のステップまたはコンポーネント、あるいは脆いメトリックが含まれること、ソーシャルバイアスは通常曖昧な文脈の設定で規模に応じて増加するが、これはプロンプティングにより改善可能なことなどが明らかになった。目的：言語モデルの現時点と近未来における能力・限界を理解・予測するためのベンチマークの作成成果：GPT-3、TransformerベースのBIG-Gモデル、スパースBIG-Gモデルの挙動をBIG-Benchで評価した方法：大規模・高難易度・多様性のあるタスクによって構成された新しいベンチマーク、BIG-Benchを提案する固有名： BIG-Bench 著者所属：Google, OpenAI(主要著者のみ、共同研究者は割愛)

▪現在の言語モデルベンチマークの限界 1．評価する対象が既に学習可能と証明されているいくつかの対象に制限されており、スコープが狭い 2．(評価対象が少ないため)言語モデルベンチマークとして有効な期間が短い 3．ラベリングコストが高いため専門家がラベル付けしておらず、ラベル付けしやすい簡単なタスクに制限している例えば、SuperGLUEでは発表から 12か月で人間のベースラインに到達、18か月で人間越え →SuperGLUEの評価指標としての寿命は18か月左)既存のベンチマークによるGPTのパフォーマンス
右)BIG-BenchによるGPTのパフォーマンス( ) 既存のベンチマークではGPTのパラメータ数を10⁸→1015～1017に増やすと人間と同等のパフォーマンス( )と期待できる →人間の能力の狭い範囲でしか比較していないため既存の言語モデルベンチマークでは人間の幅広い能力を評価しきれていない →複雑で多様性のある高難易度なベンチマークが必要

テストセットの多様性・高難易度性のため言語学、児童発達、数学、常識的推論、生物学、物理学、社会的偏見、ソフトウェア開発などの分野から204のタスクによりテストセット(BIG-Bench)を構成したタスク名: emoji_movie 一連の絵文字の組み合わせからそれが示す映画の名前を当てるタスク名: checkmate_in_one 入力された局面から最短で相手をチェックメイトする手順を当てるタスク名:
periodic_elements 元素番号から名前を当てる eg.)元素番号6番の元素は？→炭素

▪評価対象 BIG-G：Google内部で使用しているTransformerベースのモデル 13層のデコーダーのみのTransformer＋LaMDAベースのGELU活性化関数スパースBIG-G：Mixture-of-Expertsを組み込んだSwitch Transformer GPT-3: OpenAI社の8層のデコーダーのみのTransformer PaLM：デコーダーのみのTransformer＋SWiGLU活性化関数、言語モデルのSOTA 評価スコア：実スコアをハイスコア・ロースコア(作成者によりタスクごとに設定されている)で正規化した値複数回答問題をすべて外すとマイナスのスコアにもなりうる
→タスクごとでばらつきやすい正答率ではなく、様々なタスク間で標準的な指標で評価する

▪BIG-Benchによる評価の過程で発見したこと・大きい(パラメータ数の多い)モデルであっても脆い →入出力のフォーマットに変化があるとランダムを超える精度が出なくなる・タスクによってはモデルが突然変異しやすくなる →0-1タスクにおいては精度評価グラフにステップが生じやすい (左)完全一致(右)選択問題 →右側の方が緩やかに精度向上していることが分かる

▪BIG-Benchによる評価の過程で発見したこと・総合的なパフォーマンスはパラメータ数の増加により向上したが、人間のパフォーマンスを下回る →詳細は次スライド以降2つのタスクを例に挙げて解説する

オレンジ：有効なチェックメイト(正解) 緑：有効な駒の動き、チェックメイトではないピンク：チェックメイトだが、正しくアノテーションされていない青：無効な動き ▪パラメータ数の変化による振る舞いの変化・パラメータが増えるごとに精度は増加傾向にある →左下図にあるように有効な動きはパラメータ数の増加と共に増えている・ルール以上のことを理解し始める
→パラメータ数が増加しても無効な動きは大きく変化しない＋チェックメイト自体はできていても無効になる(誤ったチェックメイトマーク)割合は増えている →パラメータ数の増加により、有効な手・チェックメイトを見つける能力は向上しているが、文に正確なアノテーションする能力は向上していない

▪パラメータ数の変化による振る舞いの変化・zero-shot ～1700万：意味のない文字列を返す 5700万～4億5300万：質問文の数字を認識するがまだ意味のない文字列を返す 10億前後：元素名を推測し始める(水素のみ正解できる） 20億前後：ほぼすべての元素番号に対しAlと推論する(ただし元素番号13(Al)に対しては希ガスと推論する) ・one-shot ～1700万：意味のない文字列を返す
5700万～20億：前の質問の答えを返す 40億～：正解数が増え始める →パラメータ数の増加により精度は向上している

▪結論・モデルの規模が大きくなっても(実線)人間の点数(点線)を超えられない →単に層を深くする・広くするのでは根本的な解決にはならない・ただし、手法を改善することにより予測線を上回る成長を見せている →BIG-Benchで高いスコアを出すにはさらなる手法の改善・新しいモデルが必要

3. 自己教師付き学習による脳内音声処理の現実的なモデル化に向けて (原文: Toward a realistic model of speech processing
in the brain with self-supervised learning) https://arxiv.org/abs/2206.01685v1 最近、いくつかのディープニューラルネットワークが、同じ入力に対して脳と同様の活性化を生成することが示された。しかし、これらのアルゴリズムは、（1）非常に大量のデータ、（2）教師付きラベルの取得不可能、（3）生の感覚入力ではなくテキスト入力、（4）非常に大きなメモリ（例えば、数千の文脈語）を必要とするため、依然としてほとんど現実的ではありません。これらの要素から、これらの制約のもとで、行動と脳の両方の反応を説明するのに十分なアルゴリズムを特定する必要性が強調される。我々は、音声処理の問題に着目し、生の波形に対して学習させた自己教師付きアルゴリズムが有望な候補であると仮定している。具体的には、英語、フランス語、標準中国語を話す412人の脳活動を、1時間のオーディオブックを聞きながらfMRIで記録し、最近の自己教師付きアーキテクチャであるWav2Vec 2.0と比較する。その結果、4つの成果が得られました。まず、このアルゴリズムは、わずか600 時間の非標識音声で脳のような表現を学習することを示す。第二に、このアルゴリズムの機能階層は、音声処理の皮質階層と一致する。3つ目は、異なるトレーニング方法によって、大脳皮質と同様の機能特化が見られることである。Wav2Vec 2.0は、前頭前野や側頭葉と同様に、音声一般、音声固有、言語固有表現を学習する。第四に、この特殊化の類似性を、さらに386人の参加者の行動で確認する。これらの要素は、これまでで最大の神経画像ベンチマークから得られたもので、自己教師付き学習が脳内の音声処理の豊かな組織を説明できることを示し、その結果、人間の脳を形成する言語習得の法則を明らかにする道筋が示されたものである。目的：自己教師付き学習が脳内の音声処理の豊かな組織を説明できることを示すこと。成果：人間の脳を形成する言語習得の法則を明らかにする道筋が示せた。方法：機能的磁気共鳴画像（fMRI）の記録と自己教師付きアーキテクチャWav2Vec 2.0との比較固有名：ー著者所属： Meta AIなど

背景：ディープニューラルネットワークの性能は、過去10年間で飛躍的に向上し物体分類、テキスト翻訳、音声認識について訓練されたアルゴリズムは、人間レベルの性能に達し始めている。これらのアルゴリズムの表現が脳の表現と相関することが繰り返し示されている。しかし、これらの深層学習モデルと脳の間に残っている大きな差異を曖昧にしてはならない。学習の条件が人とは違う点：（１）非常に大量のデータ（２）（人間の経験ではまれな）教師付きラベル（３）（生の感覚形式ではなく）テキスト形式のデータ（４）かなりのメモリ（言語モデルは通常テキスト処理のために数千の文脈語に並行してアクセスできる）
これらの違いを踏まえて、行動と脳の反応の両方を説明するのに十分なアーキテクチャと学習プロセス（自己教師付きか教師付か）を明らかにすることが急務である。提案：生の感覚形式データで学習可能な、最新の自己教師付きアーキテクチャ Wav2Vec 2.0【メタ、2020】に注目する。 Wav2Vec2.0は、600時間の音声で訓練する。これは、幼児が言語習得の初期にさらされる量とほぼ同等である。音声認識は、次の4ステップが一般的 1.音響分析：音声の特徴量を扱いやすいデジタルデータに変換 2.音素の抽出：特徴量を事前に学習したデータと照らし合わせ音素（音波の最小単位）を抽出する（音響モデル） 3.パターンマッチ：特定された音素を発音辞書と連携して単語として組み立てる 4.言語モデル：単語の繋がりを調べより正確な文章を組み立てる

Architecture ：wav2vec 2.0とは？ Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, Michael
Auli （2020）. wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations ArXiv:2006.11477v3 [cs.CL] 22 Oct 2020参照 ⇒畳み込み層（CNN）と変換層（Transformer）を使用した音声認識フレームワークである。音声波形の潜在的な表現の量子化を予測するものである。 ▪モジュール構成（１）特徴エンコーダ部：音声信号χから潜在表現zに畳み込む（２）量子化モジュール：潜在表現zをqに離散化する（３）transformerエンコーダ部：潜在表現zから文脈表現cを得る ▪学習プロセス（１）自己教師あり学習：事前学習により音声の特徴を学習・量子化された表現 q を予測する（Contrastive loss）・量子化された表現 q の多様性を担保するため（Diversity loss）（２）教師あり学習：ファインチューニングで高精度化 Transformer の最終出力に線形層を加えて CTC 誤差関数で学習し、音素認識が可能となる以上の学習プロセスで、潜在表現zと文脈表現cの両方から各層の活性度を抽出する。対照学習（Contrastive Learning）：ラベル付けを行うことなく、データ同士を比較する仕組み用いて、膨大なデータをそのまま学習できる自己教師あり学習の一つである。似たデータは近くに、異なるデータは遠くになるように特徴量を学習する。例）量子化表現 qt を予測する。 ⇒マスクされた箇所の出力ctに対応するqt（= 正例）に近づける。同音声の他の箇所からサンプリングされたk 個のqt’（= 負例）から遠ざける CTC誤差関数：入力は、時間区切りごとの文字や音素などの識別結果で、時系列、画像、音声データなどから文字列等を抽出するネットワークの損失関数を定義したもの音素認識：音素は、言語における音波の最小単位である。音素認識とは、話し言葉の中の個々の音に注目する能力である。（１）（２）（３） Diversity Loss ct qt

図1：脳とディープニューラルネットワークにおける音声表現の比較・wav2vec 2.0を600時間の音声で学習させ、オーディオブックを聴きながらfMRIで記録した412人のボランティアの脳に、その活性度をマッピングし、モデルXの活性度と脳活動Yの類似度を評価した例。・真のBOLD反応（黒）、予測されるBOLD反応（赤）クロスバリデーションのピアソン相関R 図2：自己教師付き学習によりWav2Vec 2.0は脳のような音声表現を生成可能
・ほぼ全ての皮質領域において、モデルの活性度は脳活動を有意に予測し、一次および二次聴覚皮質において最も高い Rスコアに到達した（図2-A B）。・これらのスコアは、ランダムに初期化したモデルで得られたスコアよりも有意に高い（図2-C）。・この比較は言語グループ間でロバストである。自己教師付き学習により、Wav2Vec 2.0は人間の脳と同様の音声波形の潜在的表現を学習することができる。自己教師付き学習が脳内の音声処理の豊かな組織を説明できることを示すことが目的なため、モデルと脳の対応関係を図１~図4で明らかにしていく。

モデルの機能階層聴覚皮質 1次聴覚野A1 2次聴覚野A2 上側頭回（じょうそくとうかい）上側頭溝（じょうそく
とうこう）下前頭回（かぜんとうかい） IFG※ STG※ STS※ 図３：Wav2Vec 2.0の階層は、大脳皮質の階層にマッピングされる。脳の音声階層とWav2Vec 2.0で学習した機能階層を比較するために、モデルの各層のR scoreを比較する（図3）。・畳み込み層は、変換器層よりも予測精度が低いことがわかります。・変換器層において、表象の階層は、皮質階層と一致している。低レベルの領域（A1、A2）は最初の変換器層で最もよく予測される（青）高レベルの領域（IFG、STS）は深い層で最もよく予測される（オレンジ、赤）・驚くべきことに、この階層は両半球の補足運動野と運動野に及んでいる（図3-A）。 Wav2Vecの変換層の機能階層は、脳内の音声の皮質階層と一致し、音声処理の全脳組織をかつてないほど明瞭に示している。 1次聴覚野A1※ 2次聴覚野A2※ 出典：https://xn--o1qq22cjlllou16giuj.jp/archives/38595 ※文字および矢印加筆

音素認識タスクにおける言語特異性 600時間の自己教師あり学習をした Wav2Vec 2.0モデルについて、・人間の知覚同様（図4ーA）に、モデルは母国語に特化している（図4-B）。・ランダムモデルと音響モデルの精度が最悪である。 ⇒Wav2Vec 2.0が言語固有の表現を学習できることが確認された。
Wav2Vec 2.0と脳は言語固有の表現を学習する。各モデルのR scoreを比較する（図4-C D）。・Non-Speech ＞ Random ⇒脳的表現を生成するための学習の重要性を確認・Non-Native ＞ Non-Speech ⇒音声を学習することで音声に特化した表現を学習することを確認・Native ＞ Non-Native ⇒言語特異性を確認・補足運動野のような高次の領域では、母国語音ではなく、音声に対する特殊化が見られるだけである。星印は2つの条件間の有意差を示す Wav2Vec 2.0によって学習された聴覚、音声、言語固有の表現が、人間の脳の表現に収束している。図4：Wav2Vec 2.0の表現の特殊化は、脳内の音響、音声、言語領域をフォローし、明確化するものである。

4. 大規模言語モデルの創発的能力 (原文: Emergent Abilities of Large Language Models) https://arxiv.org/abs/2206.07682v1
言語モデルをスケールアップすることで、様々なダウンストリームタスクのパフォーマンスとサンプル効率が予測通りに向上することが示されています。本論文では、このような予測不可能な現象を、大規模言語モデルの創発的能力と呼びます。我々は、ある能力が小さなモデルには存在せず、大きなモデルには存在する場合、その能力を創発的であると考える。このように、創発的な能力は、小規模なモデルの性能を外挿するだけでは予測することができません。このような創発の存在は、さらなるスケーリングによって言語モデルの能力の幅がさらに広がる可能性を示唆している。目的：大規模言語モデルの創発能力という予測不可能な現象に関して議論すること。成果：多くの自然言語処理（NLP）下流タスクでスケール（学習FLOPsやモデルパラメータなど）が言語モデルの性能と高い相関があることを確認した。一方で、スケールが創発能力を見る唯一の手段でないことも確認した。また、なぜそのような能力が創発されるのかについて、説得力のある説明は、今のところほとんどない。そして、創発による質的変化が、NLPコミュニティにおける汎用的なモデルへの社会的なシフトが出現する可能性を強調した。方法：創発的能力（Emergent Abilities）の定義をし、 Few-Shot Prompted Tasksについて、大規模言語モデルの創発能力例をさまざまな下流タスクで確認した。創発の説明の可能性や、創発リスクについても議論し、モデルの規模が創発的な能力を引き出す唯一の要因ではないことも示唆した。固有名：ー著者所属：Google Research 、Stanford University 、UNC Chapel Hill 、DeepMind

背景：近年、言語モデルは自然言語処理（NLP）に革命をもたらしています。言語モデルの規模（学習計算、モデルパラメータなど）を大きくすることで、下流の様々なNLPタスクの性能とサンプル効率が向上することは、今やよく知られています。（一般的に）言語モデルの性能は、スケールしていくことで向上し続けるという『スケーリング則』が提示されており、モデルをスケールし続けた先に人の認知モデルが存在する可能性が示唆されている。一方、ある種の下流作業の性能は、直感に反してスケールの関数として連続的に向上しない場合もあり、そのような作業を前もって予測することはできない。目的：
大規模言語モデルの創発能力という予測不可能な現象に関する議論をすること。ノーベル賞を受賞した物理学者Philip Anderson（アンダーソン、1972）の1972年の論文「More Is Different」に根ざした、以下の創発の一般定義より『創発とは、システムの量的な変化によって、振る舞いが質的に変化することです』創発の例参照先）Emergence – How Stupid Things Become Smart Together – YouTube ・個体としては取るに足らないものが集団となることで、単なる「個体の集合」を超えた別次元の性質を備えることができる現象を「創発」と呼ぶ。・個体が起こすアクションとそれに対するリアクションはランダムで、予測することはできません。・相互作用の結果として

確認：Few-Shot Prompted Tasksにおける創発の例（図２）スケール則に従う：A~G スケール則に従わない・E：GPT-3 このベンチマークは、GPT-3モデルに対して敵対的収集されているため・H：GPT-3とChinchilla （次ページにて）
言語モデルがある規模まではランダムな性能を示し、その後、性能が大幅に向上し、創発的な動作が発生する。算数ベンチマーク国際音声記号の音訳品詞の検出文字からの単語復元質問に正直に答える能力接地型概念マッピング ※マルチタスク言語理解（数学、歴史、法律など様々なトピックをカバーする57のテストを集約したMMLUベンチマーク）意味理解のベンチマーク ※

スケーリングだけではモデルがこのタスクを解けない可能性を示唆している。例えば、 GPT-3のモデルアーキテクチャや自己回帰言語モデリング目的（ノイズ除去トレーニング目的ではなく）の使用を理由として挙げ、最終的に、デコーダのみの言語モデルをさらにスケールアップすることで、このタスクでランダム性を超える性能を実現できることがわかった。確認：最大規模のGPT-3やChinchillaモデルでさえもランダム性能を上回らないタスクがある（図２H）。

議論：創発についての他の見方（図4）計算量FLOPs 以外の尺度として Perplexity（パープレキシティppl）・人の話した言葉に対する相違指標（小さいほど良い）・一般的に流暢さを表す。ここで取り上げたモデル（DeepMind：GopherとChinchilla）では、WikiText103パープレキシティとトレーニングFLOPsがたまたま高い相関を持っているため、出現能力のプロットは両者で似通っている。しかし，将来的に
vanilla dense Transformer モデル以外の新しい技術が開発された場合，WikiText103パープレキシティと規模の相関は成り立たないかもしれない。そのため、創発の他の見方として示した。（ゴーファ） MMLU：大規模マルチタスク言語モデル（チンチラ）

議論：創発の説明の可能性議論：創発リスク議論：社会的な変化最後に、ここで議論された創発能力はモデルの動作に焦点を当てきた。もう一つの注目すべき質的変化は社会学的なもので、規模の拡大によりコミュニティの言語モデルに対する見方や使い方が変化する。例えば、NLPは歴史的にタスクに特化したモデルにフォーカスしてたが、最近では、スケーリングによって、学習データに明示的にコード化されていない様々なタスクの実行を目的とした単一モデルである「汎用」モデルの研究と開発が爆発的に増えている。汎用的なモデルがわずかな例で未知のタスクを実行できることから、NLP研究コミュニティ以外でも言語モデルの新しい応用が多数生まれている。例えば、言語モデルはプロンプトを通じて、
・自然言語の指示をロボットが実行可能な動作に変換したり（Ahn et al., 2022; Huang et al., 2022）、・ユーザーと対話したり（Coenen et al., 2021; Wu et al., 2021, 2022; Lee et al., 2022b）、・マルチモーダル推論（Zeng et al.）創発的な能力の例は数多くあるが、なぜそのような能力が創発されるのかについて、説得力のある説明は今のところほとんどない。直観的には、例えば、・多段階推論タスクが、Ｌステップの逐次計算を必要とする場合、少なくともＯ(Ｌ)層の深さを持つモデルが必要となるかもしれない。・世界知識を必要とするタスクの場合、圧縮された知識ベース自体を捉えるのに十分なパラメータを持つモデルが必要かもしれない。事前訓練に明示的に含まれることなく、 Few-Shot Promptedで出現能力が観察されているため、リスクも出現しうるということである。

5. Diffusion-LMによる制御可能なテキスト生成の改善 (原文: Diffusion-LM Improves Controllable Text Generation) https://arxiv.org/abs/2205.14217v1 自然言語生成において、再トレーニングを行わずに言語モデル（LM）の動作を制御することは、主要な未解決問題で
ある。近年の研究により、単純な文の属性（例えば、感情）の制御には成功しているが、複雑で細かい制御（例えば、構文構造）についてはほとんど進展がない。この課題を解決するために、我々は連続拡散に基づく新しい非自己回帰言語モデルを開発し、Diffusion-LMと呼ぶ。Diffusion-LMは連続領域における拡散モデルの最近の成功に基づき、一連のガウスベクトルを単語ベクトルに反復的にノイズ除去し、中間潜在変数の列を生成する。これらの中間変数の連続的、階層的な性質により、単純な勾配に基づくアルゴリズムで、複雑で制御可能な生成タスクを実行することができる。我々は、6つの困難な細粒度制御タスクに対してDiffusion-LMの制御に成功し、先行研究を大幅に上回る性能を示した。目的：タスクごとのファインチューニング不要で構文解析などの複雑で細かい制御が可能な言語生成モデルの開発成果：構文構造や内容理解など6つの複雑で細かい制御タスクでの先行研究を上回る精度を実現した方法：連続拡散による非自己回帰モデルDiffusion-LMの提案固有名： Diffusion-LM 著者所属：Stanford University

▪背景大規模自己回帰モデルでは高い精度での言語生成能力を発揮しているが、現実世界で使用するには言語生成プロセスをコントロール可能にする必要がある(必要とする文法構造などに適した出力が欲しい) →現状では学習済みのモデルを各タスクごとにファインチューニングする手法が取られているしかしその手法では以下の課題が存在する 1．タスクごとにファインチューニングを行うのはコストが高い 2．1つのモデルで複数のタスクの制御は不可能 3．学習済みモデルのパラメータを固定してしまうと、単純なタスクしか精度が出ない

▪先行研究との違い・自然言語におけるDiffution Model 自然言語においてはその離散的性質から、離散的状態空間においてDiffution Modelを研究していた →画像系で使用されるDiffusion Modelでは連続空間上に埋め込む・自己回帰モデル/非自己回帰モデル一般的な言語モデルは左→右の自己回帰のみを持つため、右側の文脈を直接調整できない。そのため右→左の自己回帰が必要な穴埋め問題や構文解析においては学習方法やデコードの手法を工夫している
非自己回帰モデルは音声認識や機械翻訳で実績があるが、複数の正解がある構文解析では精度が出ておらず使われていない・外付け判別器(現在最も使われている手法) この手法では言語モデルと判別器をそれぞれ用意し、言語モデルのパラメータを固定し使用するこれらの手法においても言語モデルに自己回帰モデルを使用しているため穴埋め問題や構文解析において同様の課題を持つ

既存の自然言語でのDiffusionModelに対し、以下の改良を加えた 1．離散データのテキストを連続空間に埋め込む →固定した埋め込み空間では最適ではないため、離散的なテキストデータにマルコフ遷移を加え、学習させた 2．埋め込み空間上のベクトルを単語へ変換する丸め手法を提案 →通常の丸め手法では埋め込み空間に十分に単語を埋め込んだ点が存在しないため、単語の存在する点へx 0
が丸められるよう学習した ① ② ガウシアンノイズを入力し、単語に対応するベクトルへ徐々にノイズ除去するよう学習する →この徐々にノイズ除去する過程が連続する隠れ変数の階層構造をつくり、この隠れ変数の階層構造と連続性が複雑な制御を可能にする ▪提案手法

▪比較対象モデル名モデルタイプ外付け判別器ベースモデル名モデルタイプ
外付け判別器 PPLM 自己回帰あり GPT-2 DELOREAN 自己回帰なし FUDGE 自己回帰あり GPT-2 COLD 自己回帰なし FT. 自己回帰なし GPR-2 AR-infilling 自己回帰なし ▪評価タスク SemanticControl～Lengthの5タスク LeftContextタスク

・ほぼすべてのタスクで提案手法(Diffusion-LM)が最高の精度を達成・追加で学習を行う手法と比べても精度が上である・タスクごとのファインチューニングは不要 ▪評価結果 ▪提案手法の課題・パープレキシティが既存手法に比べ高い(分岐が多い) →ただし、文脈によって意味の変わる単語などに対応するべく、分岐が多いよう設計している・デコーダーの処理が遅い
・既存手法に比べ学習時の収束が遅い

6. アルゴリズム・インプリント (原文: The Algorithmic Imprint) https://arxiv.org/abs/2206.03275v1 アルゴリズムによる害が顕在化した場合，公平性，説明責任，透明性，倫理性（FATE）に関連する懸念を解消するために，アルゴリズムの使用を停止することが妥当な対応となる．しかし、アルゴリズムが削除されたからといって、そのFATEに関連する問題が存在しなくなるわけではありません。この論文では，アルゴリズムを削除しただけでは，必ずしもその影響を元に戻したり軽減したりすることができないことを説明するために，「アルゴリ
ズムの刻印」という概念を導入します．この概念とその意味を，160カ国以上で実施されている国際的に認められた英国ベースの高校卒業資格試験であるGeneral Certificate of Education (GCE) Advanced (A) Level試験のアルゴリズムによる採点を巡る2020年の出来事を通じて運用する．アルゴリズムによる標準化は、最終的に世界的な抗議運動によって撤廃されたが、この撤廃が、学生、教師、保護者の生活を形成する社会技術的インフラへのアルゴリズムによる刷り込みを元に戻すことがいかにできなかったかを示す。これらの出来事は、アルゴリズムによる仲介がある場合とない場合の両方の世界の状態を分析する貴重な機会となっている。我々はバングラデシュをケーススタディとして、北半球で作られたアルゴリズムが南半球のステークホルダーにいかに不釣り合いな影響を与えるかを説明する。47のインタビューからなる1年以上にわたるコミュニティとの関わりを記録し、バングラデシュで「何が」起こったかを初めて一貫した年表として提示し、「なぜ」「どのように」起こったかをアルゴリズムの刻印とアルゴリズムによる公平性の位置づけというレンズを通して文脈付けしている。これらの出来事を分析することで、アルゴリズムによる刷り込みの輪郭をインフラ、社会、個人の各レベルでどのように推測することができるかを明らかにする。また、インプリントを意識することで、（a）アルゴリズムの影響について考える際の境界を広げ、（b）アルゴリズムの設計方法を伝え、（c）AIガバナンスの指針とすることができるのかについて、概念的・実際的な示唆を与えている。目的：アルゴリズムによる害が発生した場合の対策として、アルゴリズムの使用停止がよく行われるが、停止(削除)したからと言って公平性、説明責任、透明性、倫理の問題がなくなるわけではない。この有害なアルゴリズムは存在した期間以降もはるかに長く残り続ける(アルゴリズムの痕跡)ことを説明する成果：例を通して「アルゴリズムの痕跡」について説明し、それを踏まえた上で、アルゴリズムをどう考慮するか説明する方法：英国ベースの高校卒業資格試験(GCE)の2020年の問題を例に挙げて「アルゴリズムの痕跡」について説明する固有名：ー著者所属： Data & Society Research Institute, Georgia Institute of Technology

▪Algorithmic Imprint(アルゴリズムの痕跡)とはアルゴリズムによる害が発生した場合の一般的で合理的な対策として、その有害な影響がさらに伝搬するのを防ぐためにアルゴリズムの使用停止がよく行われるが、停止(削除)したからと言って公平性、説明責任、透明性、倫理の問題がなくなるわけではない →この有害なアルゴリズムの影響は、アルゴリズム削除以降も長く影響し続ける(アルゴリズムの痕跡) 例：英国を拠点とする高校の卒業証書試験であるGCE試験のアルゴリズムによる評価を取り巻く問題(2020) ▪どのような試験か？・
160か国以上で実施されている（その多くは英国の元植民地）国際的に認められた試験・ Aレベルの成績は必然的であり、大学への入学に不可欠な役割を果たす ▪経緯・COVID-19の大流行によりGCE試験を監督する英国に本拠を置く準政府機関であるOfqualは対面試験を中止した・試験の代わりに、学校での生徒の過去の成績、教師の評価を使用してアルゴリズムで成績を作成した →結果、世界的な抗議行動が勃発し、アルゴリズムは削除された教師側：そもそも過去の生徒の評価を記録していない生徒側：成績に対して真剣に取り組んでいなかった(試験が全てなので直前の30～60日に猛勉強する生徒が多い) ・アルゴリズムは削除されたが、学生の再評価は行われなかった。すなわち、採点方法は変わったが、アルゴリズムの影響を大きく受けていた(アルゴリズムの痕跡)

▪Algorithmic Imprint(アルゴリズムの痕跡)を意識したアルゴリズムの設計「アルゴリズムの痕跡」を意識した設計の考え方により、アルゴリズム開発プロセスをより公平で社会技術的な情報に基づいたものにすることができる。 (1)アルゴリズムの影響アルゴリズムは削除した後にも利害関係者に影響を及ぼす。開発者と運営者はアルゴリズムを削除するだけでなく、アルゴリズムによる危害を是正し、説明責任が持続して要求される。 (2)アルゴリズム設計の説明責任開発者は「アルゴリズムの痕跡」の影響を受ける人に害をより認識できるようにするべきである。 (3)AI倫理ガバナンスで補強する
技術的な介入だけでは害を削減することはできない。「アルゴリズムの痕跡」を意識したアルゴリズム設計を適切なAI倫理ガバナンスで補完する。

7. Pythae:Pythonによる生成オートエンコーダの統一 -- ベンチマーキングユースケース (原文: Pythae: Unifying Generative Autoencoders in
Python -- A Benchmarking Use Case) https://arxiv.org/abs/2206.08309v1 近年、複雑な分布をモデル化できる深層生成モデルへの関心が高まっている。その中でも変分オートエンコーダは、計算効率が高く、様々な分野で優れた成果を上げていることから、人気を集めています。このブレイクスルーの後、原著を改良するための大規模な研究が行われ、その結果、様々なタスクに対応する様々なVAEモデルが生み出されてきました。本論文では、Pythaeを紹介します。Pythaeは、統一された実装と、生成オートエンコーダーモデルを簡単に、再現可能かつ信頼性をもって使用できる専用のフレームワークの両方を提供する、汎用性の高いオープンソースのPythonライブラリです。また、このライブラリを用いて、画像再構成、生成、分類、クラスタリング、補間といった下流タスクの主要な改善点を代表する19の生成的オートエンコーダーモデルを提示し、比較するケーススタディベンチマークを実施することを提案する。オープンソースライブラリは、 https://github.com/clementchadebec/benchmark_VAE で公開されています。目的：最先端のGenerativeAutoEncoderのフレームワークを作成し、単発になっているVAEの開発を統一する成果：5つの下流タスクにおいて19種類のVAEのベンチマークを作成した方法：簡単に信頼性の高いVAE開発できるフレームワークPythaeの提案固有名： Pythae 著者所属： Paris Cite University

Pythae(PythonAutoEncoder)のライブラリ図 Pythaeライブラリで用意されているモデルパターン22種参照元:https://pythae.readthedocs.io/en/latest/models/pythae.models.html ▪背景開発者が開発したままになっており、 AEのモデルの開発が明確に共通化されていない →再評価や開発がしにくい ▪成果
AEのモデルをまとめて共通フレームワークを作成した。

▪評価方法フレームワークの作成と共に19種類のモデルを以下の5つの下流タスクで評価した。・再構築・画像生成・分類・クラスタリング・補完性 ▪評価を通して分かった点 1．VAEベースとAEベースとで明らかに挙動が異なる。
2．AEベースの手法ではほとんど同じ推移をしている →AEベースの手法では最適な潜在関数空間が共通して存在している。 3．タスクによって最適な潜在関数空間の大きさは異なる。 →MNISTでは16~32、CIFAR10では32~128 4．教師なしタスク(クラスタリングなど)では潜在関数空間が大きくなるにつれ精度が低下している。各潜在変数空間のサイズにおけるMSE、FID、分類正解率、クラスタリング正解率の推移

8. 学習可能な点、学習価値のある点、未学習の点を優先的にトレーニングする。 (原文: Prioritized Training on Points that are Learnable,
Worth Learning, and Not Yet Learnt) https://arxiv.org/abs/2206.07137v2 ウェブスケールデータでの学習は数ヶ月かかることもある。しかし、ほとんどの計算と時間は、既に学習済みの冗長でノイズの多いポイントや、学習不可能なポイントに浪費されている。学習を高速化するために、我々はRHO-LOSS （Reducible Holdout Loss Selection）を導入する。これは、モデルの汎化損失を最も低減する学習用のポイントをほぼ選択する、シンプルだが原理的な手法である。その結果、RHO-LOSSは既存のデータ選択手法の弱点を緩和する。最適化文献の技術は一般的に「難しい」（例えば高損失）点を選択するが、そのような点はしばしばノイズが多い（学習可能ではない）かタスクとの関連性が低いのである。逆に、カリキュラム学習は「簡単な」点を優先するが、そのような点は一度学習すれば学習する必要はない。これに対し、RHO-LOSSは学習可能で、学習に値する、そしてまだ学習していないポイントを選択する。RHO-LOSSは先行技術よりはるかに少ないステップで学習し、精度を向上させ、幅広いデータセット、ハイパーパラメータ、アーキテクチャ（MLP、CNN、BERT）において学習を高速化することが可能です。大規模なウェブスクレイピング画像データセットClothing-1Mにおいて、RHO-LOSSは18倍少ないステップで学習し、均一なデータシャッフリングよりも2%高い最終精度に到達しました。目的：従来手法より高速に汎用誤差を低減させることができるRHO-LOSSを紹介する成果：クリーンなデータと、ノイズの多いWebスクレイピングデータの大幅な高速化が可能方法：冗長データ(学習済みデータ)、ノイズの多いデータ、外れ値をスキップし、学ぶ価値があるデータを選択的して学習する固有名：ー著者所属：OATML、 University of Oxford、Cohere、University of Toronto

▪背景・webスクレイピング(webで収集したデータ)の学習には数か月かかることがある →深層学習モデルの開発サイクルが遅くなる・ webスクレイピングで集めたデータは教師データのラベルが間違っていたり、曖昧だったりしてノイジー・学習のほとんどの時間は冗長(過剰にあるカテゴリのデータ)でノイズの多いデータに多くの時間を割いている →学習時の既存のデータ選択方法の弱点 ▪対策・すでに学習できいる冗長なデータはスキップする・ノイズの多い点や外れ値では学ぶ価値がないのでスキップする
→削減可能なホールドアウト損失選択（RHO-LOSS）という学習可能で、学習する価値があり、まだ学習されていないポイントを選択する手法を紹介する

▪ RHO-LOSSについて ▪ RHO-LOSSが冗長で、ノイズが多いデータを回避する理由 ①既に学習できた冗長データはスキップする →すでに学習済みの冗長データサンプルは訓練損失が低く(それ以上減らせない)、 RHO-LOSSは常に訓練損失よりも小さいモデルがそれらを忘れた場合、それらは次のエポックで再検討される ②ノイズデータや外れ値では学ぶ価値がないのでスキップする →曖昧で不正解なラベルがついたノイズデータは削除不可能ホールドアウト損失が大きい(ホールドアウト)
そもそもノイズデータではラベル自体が間違っているのでホールドアウトデータセットを使っても間違える (削除不可能ホールドアウト損失が下がらない、つまり大きい) →つまり、RHO-LOSSは、まだ学習されておらず、学習可能で、学習する価値のあるサンプルを優先学習ステップごとに汎化誤差を減少させるサンプルを選択するための選択関数(この値が大きいサンプルほど選ばれる) ポイント：ホールドアウトデータセットでの損失を計算しておく

▪実験結果データセット：大規模なWebスクレイピング画像データセットClothing-1M 14のクラスの1Mの衣類の画像で、データはオンラインショッピングWebサイトから収集され、多くの誤ったラベルのサンプルが含まれているデータセットである。 RHO-LOSSは、一様ランダムデータ選択より18倍速く、目標精度に到達し、訓練時間を大幅に削減する。さらに、最終到達精度は一様ランダムデータ選択よりも２％高い Source: https://openaccess.thecvf.com/content_cvpr_2015/ papers/Xiao_Learning_From_Massive_2015_CVPR_paper.pdf ２％

9. アメリカの博士号取得者の給与は、生活費の格差の拡大を考慮していない (原文: American postdoctoral salaries do not account for
growing disparities in cost of living) https://arxiv.org/abs/2205.12892v1 国立衛生研究所（NIH）はポスドク（博士研究員）研修生の給与水準を設定しており、アメリカの多くの研究機関や研究者がポスドク給与の基準として利用しています。給与の基準は大学間で一定ですが、その大学のある市や町の生活費は大きく異なります。ポスドク以外の職種の場合、物価の高い都市ほど労働者の賃金は高く、生活費の上昇に比例して賃金も上昇する。この研究では、ポスドクの賃金が生活費の違いをどの程度まで説明できるかを調査している。米国の全大学における27,000人以上のポスドクの給与を、生活費の地域差の指標と合わせて分析した。その結果、同じ市町村における広範な労働市場とは対照的に、ポスドクの給与は生活費の違いを説明しないことが分かった。生活費の高い地域では収入が多少増えるにもかかわらず、実質的な（生活費調整後の）ポスドクの給与は、最も物価の安い地域と最も高い地域の間で29％（15000ドル2021米ドル）の差がある。ボストン、ニューヨーク、サンフランシスコなど、学生に対してより多くのテニュアトラック教員を輩出している都市は、この給与格差の影響を最も強く受けている都市である。ポスドクの給与格差は拡大しており、経済的に不利なグループに大きな経済的負担を負わせ、女性や人種的マイノリティにおける教員採用格差の一因となる可能性が十分にある。目的：ポスドクの賃金が生活費の違いをどの程度まで説明できるかを調査すること。成果：資金提供機関は生活費に関係なく研究機関間で一律のポスドク給与基準を設定しているため、米国のポスドク給与には空間的均衡が成り立たず、結果として米国の都市間で給与格差が生じるようだ。方法：米国労働省が報告した2015年から2020年のポスドク給与のデータセットをもとに、地域価格平価（RPP）を考慮し実質給与について調査した。固有名：ー著者所属： Harvard Medical School

米国経済活動局（BEA）は、この地域間の差を地域価格平価（RPP）として推定し、個人の「実質」所得を決定する基準として使用している。RPP=100が標準。大きいと物価が高い。米国最大の生物医学研究助成機関である国立衛生研究所（NIH）は、すべてのポスドクに一定の給与を設定し、多くの米国の研究機関はこの基準に倣っている。例）企業が密集する都市圏ニューヨーク： RPP＝134.5 給与＝＄55.9K 実質＝＄44.5K
ピッツバーグ： RPP＝92 給与＝＄51.8K 実質＝＄56.0K 差：＄12K （136円/ドル×12000 ＝年間163万も違う）

ポスドクポスドク以外ポスドク以外は、地域差を考慮できているため、実質給与はほぼ一定になっている。ポスドクの給与は生活費に連動していない。実際のポスドクの給与はRPPと負の相関がある実質給与は低いものの、アメリカで最も物価の高い都市でポスドクをするメリット・どこでポスドクをするかは、テニュアトラック（TT）教員の職を見つける場合、極めて重要・研修機関の名声は、将来の職を決める最も有力な指標の1つである。・企業が密集する都市圏が人気
国立衛生研究所（NIH）がポスドクの給与の基準を設定し、全米で一定に保っているからである。この給与格差はますます拡大する。このような給与の差は、ボストン、サンフランシスコ、ニューヨークなど、最も優秀な教授を輩出する都市に最も強く反映している。これらの都市は、米国の他の地域に比べて物価が高くなっており、結果としてポスドクの収入の実質的価値が低下することになる。

10. 階層的自己教師付き学習によるギガピクセル画像への視覚変換器のスケーリング (原文: Scaling Vision Transformers to Gigapixel Images via
Hierarchical Self-Supervised Learning) https://arxiv.org/abs/2206.02647v1 Vision Transformers (ViT) とそのマルチスケールおよび階層的なバリエーションは、画像表現の捕捉に成功しているが、その使用は一般に低解像度画像（例：- 256x256, 384384）に対して研究されてきた。計算病理学のギガピクセルホールスライドイメージング（WSI）では、WSIは20倍の倍率で150000x150000ピクセルとなり、16x16画像から組織微細環境内の相互作用を特徴づける4096x4096画像まで、様々な解像度にわたって視覚トークンの階層的構造を示すことが可能である。HIPTは、WSIに内在する自然な階層構造を活用し、2段階の自己教師付き学習を用いて高解像度の画像表現を学習するものである。HIPTは33種類のがんに対して、10,678枚のギガピクセルWSI、 408,218枚の4096x4096画像、104M枚の256x256画像を用いて事前学習される。9つのスライドレベルタスクを用いてHIPT表現のベンチマークを行い、以下のことを実証した。1) 階層的な事前学習を行ったHIPTは、がんのサブタイプ分類と生存予測において現在の最先端手法を凌駕する。2) 自己教師付きViTは、腫瘍微小環境における表現型の階層的構造に関する重要な誘導的バイアスをモデル化することができる。目的：WSIによる高解像度画像を使ったがんのサブタイプ分類と進行度分類において“診察レベル”を達成する成果：がんのサブタイプ分類と生存予測(進行度分類)において最先端手法を凌駕する精度を達成した方法：WSIが持つ階層構造を利用した階層構造的Transformer(HIPT)を開発した固有名： Hierarchical Image Pyramid Transformer (HIPT) 著者所属：Harvard BWH Broad Institute, Bill & Melinda Gates Foundation, University of Toronto

ホールスライドイメージングでは顕微鏡画像をスライドレベルで結合し、高解像度の画像を生成する。 ▪背景既存手法としてMIL(Multiple Instance Learning)が広く使われている。MILでは主に以下の3ステップで構成されている。 1．元の高解像度画像を決まった大きさのパッチに切り出す 2．パッチをさらに細かく切り出しそれぞれ特徴量抽出を行う
3．2の特徴量を集約しパッチレベルの特徴量ベクトルを求める。しかし、この3ステップには構造的な制約がいくつか存在する。・画像の切り出しや特徴量抽出は一般的に［256x256］にサイズが固定されている →ミクロな特徴を捉えることができる一方でよりマクロな特徴をとらえきれない。・他の画像系AIモデルと異なりMILはそのシーケンス長の大きさからグローバルプーリングしか使うことができない →Attension機構のように広範囲の依存関係を伝播できない。・統合層は都度ファインチューニングが必要である →特徴抽出と統合を同時に学習できないため、データの少ない状況では過学習や学習不足が起きやすい。

自然言語のTransformerが文全体、文、単語、文字の各レベルごとに特徴量を集約し、文章の階層構造的表現を使用していることに感化されている。これを実現するため、大きく2つ改良をしている 1．ビジュアルトークンのスケールと画像の解像度ごとの階層構造を固定化 2．WSI全体の長大なシーケンス長の処理ホールスライドイメージングの持つ階層構造(16x16pix, 256x256pix, 4096x4096pix)毎に画像をViTで特徴量抽出し、各階層ごとの特徴量ベクトルを1つ上の階層へ伝播する →これによりミクロな情報とマクロな情報の両方を伝達可能になった
▪提案手法

ほとんどのデータセットにおいて提案手法(HIPT)が最も良い精度を達成 ※RCCのサブタイプ分類は分類が明確なため難易度が他のタスクに比べ低く、差が出にくい生存予測癌のサブタイプ分類より小さい解像度で判定を行えるため、アテンションマップがより詳細に可視化できる。上)256x256,アテンションが粗い下)16x16,アテンションが細かく細胞単位でアテンションされている
▪評価結果

AI最新論文読み会2022年7月

AI最新論文読み会2022年7月

医療AI研究所@大阪公立大学

More Decks by 医療AI研究所@大阪公立大学

Other Decks in Science

Featured

Transcript

AI最新論文読み会2022年7月 YAMAHA MOTOR CO.,LTD ＊Saitou Takashi Komaike Kunimune Yamamoto Atsushi

1. 大型モデルによる進化 (原文: Evolution through Large Models) 2. 模倣ゲームを超えて。言語モデルの能力を定量化し、外挿する (原文:

2. 模倣ゲームを超えて。言語モデルの能力を定量化し、外挿する (原文: Beyond the Imitation Game: Quantifying and extrapolating

▪BIG-Benchによる評価の過程で発見したこと・総合的なパフォーマンスはパラメータ数の増加により向上したが、人間のパフォーマンスを下回る →詳細は次スライド以降2つのタスクを例に挙げて解説する

3. 自己教師付き学習による脳内音声処理の現実的なモデル化に向けて (原文: Toward a realistic model of speech processing

Architecture ：wav2vec 2.0とは？ Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, Michael

モデルの機能階層聴覚皮質 1次聴覚野A1 2次聴覚野A2 上側頭回（じょうそくとうかい）上側頭溝（じょうそく

4. 大規模言語モデルの創発的能力 (原文: Emergent Abilities of Large Language Models) https://arxiv.org/abs/2206.07682v1

確認：Few-Shot Prompted Tasksにおける創発の例（図２）スケール則に従う：A~G スケール則に従わない・E：GPT-3 このベンチマークは、GPT-3モデルに対して敵対的収集されているため・H：GPT-3とChinchilla （次ページにて）

▪比較対象モデル名モデルタイプ外付け判別器ベースモデル名モデルタイプ

7. Pythae:Pythonによる生成オートエンコーダの統一 -- ベンチマーキングユースケース (原文: Pythae: Unifying Generative Autoencoders in

8. 学習可能な点、学習価値のある点、未学習の点を優先的にトレーニングする。 (原文: Prioritized Training on Points that are Learnable,

9. アメリカの博士号取得者の給与は、生活費の格差の拡大を考慮していない (原文: American postdoctoral salaries do not account for

10. 階層的自己教師付き学習によるギガピクセル画像への視覚変換器のスケーリング (原文: Scaling Vision Transformers to Gigapixel Images via