Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AI最新論文読み会2022年7月

 AI最新論文読み会2022年7月

AI最新論文読み会2022年7月

More Decks by 医療AI研究所@大阪公立大学

Other Decks in Science

Transcript

  1. AI最新論文読み会2022年7月
    YAMAHA MOTOR CO.,LTD
    *Saitou Takashi
    Komaike Kunimune
    Yamamoto Atsushi
    (文献調査を上記で分担、今回の発表者*)
    産業用ロボット| ヤマハ発動機 (yamaha-motor.co.jp)
    2022国際ロボット展(iREX2022) - イベント | ヤマハ発動機株式会社 (yamaha-motor.com)

    View full-size slide

  2. 1. 大型モデルによる進化
    (原文: Evolution through Large Models)
    2. 模倣ゲームを超えて。言語モデルの能力を定量化し、外挿する
    (原文: Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models)
    3. 自己教師付き学習による脳内音声処理の現実的なモデル化に向けて
    (原文: Toward a realistic model of speech processing in the brain with self-supervised learning)
    4. 大規模言語モデルの創発的能力
    (原文: Emergent Abilities of Large Language Models)
    5. Diffusion-LMによる制御可能なテキスト生成の改善
    (原文: Diffusion-LM Improves Controllable Text Generation)
    6. アルゴリズム・インプリント
    (原文: The Algorithmic Imprint)
    7. Pythae:Pythonによる生成オートエンコーダの統一 -- ベンチマーキングユースケース
    (原文: Pythae: Unifying Generative Autoencoders in Python -- A Benchmarking Use Case)
    8. 学習可能な点、学習価値のある点、未学習の点を優先的にトレーニングする。
    (原文: Prioritized Training on Points that are Learnable, Worth Learning, and Not Yet Learnt)
    9. アメリカの博士号取得者の給与は、生活費の格差の拡大を考慮していない
    (原文: American postdoctoral salaries do not account for growing disparities in cost of living)
    10. 階層的自己教師付き学習によるギガピクセル画像への視覚変換器のスケーリング
    (原文: Scaling Vision Transformers to Gigapixel Images via Hierarchical Self-Supervised Learning)
    PaperWithCodeの10本を紹介
    【pickup】
    https://ml-ocu.s3-ap-northeast-1.amazonaws.com/arxiv-translation/sanity/2022-06-24-top-social.txt

    View full-size slide

  3. 1. 大型モデルによる進化
    (原文: Evolution through Large Models)
    https://arxiv.org/abs/2206.08896v1
    本論文では、遺伝的プログラミング(GP)において、コード生成のために学習させた大規模言語モデル(LLM)が、
    プログラムに適用する変異演算子の効果を大幅に改善できるという洞察を追及する。このようなLLMは、連続的な変
    更と修正を含む学習データから恩恵を受けるため、人間が行う可能性の高い変更を近似することができる。本実験で
    は、このような大規模モデルによる進化(ELM)の持つ意味の広さを強調するため、ELMとMAP-Elitesを組み合わせ
    て、 Sodaraceドメインで歩行ロボットを動作させるPythonプログラムの機能例を数十万個生成しました。これらの例
    は、特定の地形に適した歩行器を出力することができる新しい条件付き言語モデルのブートストラップ学習に役立つ。
    学習データがない領域で、与えられた文脈に適した成果物を出力できる新しいモデルをブートストラップする能力は、
    オープンエンド性、深層学習、強化学習に対する示唆を含んでいる。これらの意味合いは、ELMによって開かれた新
    しい研究の方向性を刺激することを期待して、ここで深く掘り下げられている。
    目的:高品質で多様なソースコードを効率的に自動生成するELM(大規模モデルによる進化)を提案
    成果:ELMと品質多様性アルゴリズムを組み合わせて、 Sodaraceドメインで歩行ロボットを動作させる
    Pythonプログラムのサンプルコードを数十万個生成
    方法:GPの突然変異演算子に大規模言語モデルを使用し、品質多様性アルゴリズムで繰り返し演算する
    固有名:
    著者所属:OpenAI

    View full-size slide

  4. ■背景
    〇既存のソースコード生成用大規模言語モデル(LLM)の問題
    学習したデータのドメインではうまく動作するが、そこからかけ離れたドメインではうまく動作しない
    →学習したドメインの外側へと解の探索を推し進めることが望ましい(多様性)
    ■概要
    〇どんなもの?
    ELM(Evolution through Large Models) = 突然変異(大規模言語モデルLLM) × 品質多様性アルゴリズム(MAP-Elites)
    →自動生成するソースコードの品質を効率的に向上させる
    ・ソースコードの品質向上、多様性拡大のためにアウターループとして
    品質多様性アルゴリズム(多様な解の探索)を使用
    ・一般的な遺伝的プログラミングの突然変異演算を
    大規模言語モデル(LLM)にし、ソースコードを自動生成する
    経験分布
    ドメインを広げる
    多様な解を探索
    この2つを組み合わせる
    ◎多様性は異なる
    ドメインで有効に働く
    一般的な遺伝的プログラミング

    View full-size slide

  5. ■どうやって有効だと検証したか?
    二次元を移動する任意の構造の移動体(Sodaracer(可変質量点とばねの集合体))をシミュレーションする
    〇目的
    ・高さ、幅、質量を変更させて地表を効率よく移動できるSodaracerを設計する(pythonコード自動生成)
    Sodaracer(質点とばねからなる)

    View full-size slide

  6. ■提案手法の詳細
    ①ソースコード自動生成のために大規模言語モデル(LLM)
    diffモデルを使用する
    例 Githubのdiffを用いた学習
    ・diffとはGithubのようなバージョン管理システムにコミットされたファイルの増分変更であり、
    変更の意図を記述するコミットメッセージが添付されている
    ・diffとその時のコメントを入力として、プログラム合成モデルを訓練する
    Sodaracerのdiffのコメント例:maker_wake関数のパラメータを更新しましたなど
    ②多様性拡大のためにアウターループ:品質多様性アルゴリズム
    〇反復演算内容
    ①解のマップから既存のpythonコードをサンプルする
    ②diff modelは修正したpythonコードを出力する
    自動生成されたpythonプログラムを実行することで
    Sodaracerの個体を評価する(うまく動作できたか?)
    ③この修正されたpythonプログラムは新たにマップに
    配置されるか(新たなニッチ)、現在のチャンピオンより
    も優れていれば挿入される(ニッチの置き換え)
    ①~③を繰り返すことで高品質の解で埋め尽くされる
    ・diffは1つのファイルが対象とする
    ・ファイルの変更はできるだけ短くする
    この青ブロックの手法
    ・pythonプログラム
    (Sodaracerの構造が
    記述されている)
    ・ Sodaracerの個体の評価
    各マップごとに ①





    行動空間

    View full-size slide

  7. 多様に
    ■実験と結果
    〇繰り返し演算
    ・3つの初期値で独立に実行
    ・100万回の評価を行った
    ・生成されたpythonプログラㇺを
    実行することで評価
    ○結果
    ・多様性評価:正方形シード以外は空間うまくに広がっている
    ・品質評価:正方形シード・放射状シードが特に高品質な解を生成している
    ○結論
    人間が用意したサンプルコードから高品質で多様なpythonプログラム例を数十万件生成できた
    異なるシード間のマップのニッチが埋まった量 異なるシードが平均的に達成した最大性能
    多様性 多様性と品質を考慮した評価

    View full-size slide

  8. 2. 模倣ゲームを超えて。言語モデルの能力を定量化し、外挿する
    (原文: Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models)
    https://arxiv.org/abs/2206.04615v2
    言語モデルは、規模の拡大に伴い、定量的な改善と新たな定性的能力の両方を示しています。しかし、これらの新しい能力は、潜在
    的な変革のインパクトがあるにもかかわらず、まだ十分に特徴付けられていない。将来の研究に情報を提供し、破壊的な新しいモデ
    ルの能力に備え、社会的に有害な影響を改善するためには、言語モデルの現在および近未来の能力と限界を理解することが不可欠で
    す。この課題に取り組むため、我々はBeyond the Imitation Gameベンチマーク(BIG-bench)を導入します。BIG-benchは現在
    204のタスクから構成されており、132機関の442人の著者によって寄稿されています。タスクのトピックは多岐にわたり、言語学、
    児童発達、数学、常識的推論、生物学、物理学、社会的偏見、ソフトウェア開発、その他から問題が集められています。BIG-
    benchは、現在の言語モデルの能力を超えていると思われるタスクに焦点を合わせています。BIG-benchでは、数百万から数千億
    のパラメータに及ぶモデルサイズにおいて、OpenAIのGPTモデル、Google内部の密な変換器アーキテクチャ、Switch形式の疎な
    変換器の挙動を評価します。さらに、強力なベースラインを提供するために、人間の専門家評価者チームがすべてのタスクを実行し
    ました。その結果、モデルの性能とキャリブレーションの両方が規模に応じて向上するが、絶対値では(そして評価者の性能と比較
    した場合)劣ること、性能はモデルクラス間で驚くほど似ているが、スパース性によるメリットがあること、徐々にかつ予測可能に
    向上するタスクには一般的に大きな知識または暗記要素が含まれるが、臨界規模での「突破」行動を示すタスクにはしばしば複数の
    ステップまたはコンポーネント、あるいは脆いメトリックが含まれること、ソーシャルバイアスは通常曖昧な文脈の設定で規模に応
    じて増加するが、これはプロンプティングにより改善可能なことなどが明らかになった。
    目的:言語モデルの現時点と近未来における能力・限界を理解・予測するためのベンチマークの作成
    成果:GPT-3、TransformerベースのBIG-Gモデル、スパースBIG-Gモデルの挙動をBIG-Benchで評価した
    方法:大規模・高難易度・多様性のあるタスクによって構成された新しいベンチマーク、BIG-Benchを提案する
    固有名: BIG-Bench
    著者所属:Google, OpenAI(主要著者のみ、共同研究者は割愛)

    View full-size slide

  9. ■現在の言語モデルベンチマークの限界
    1.評価する対象が既に学習可能と証明されているいくつかの対象に制限されており、スコープが狭い
    2.(評価対象が少ないため)言語モデルベンチマークとして有効な期間が短い
    3.ラベリングコストが高いため専門家がラベル付けしておらず、ラベル付けしやすい簡単なタスクに制限している
    例えば、SuperGLUEでは発表から
    12か月で人間のベースラインに
    到達、18か月で人間越え
    →SuperGLUEの評価指標としての
    寿命は18か月
    左)既存のベンチマークによるGPTのパフォーマンス
    右)BIG-BenchによるGPTのパフォーマンス( )
    既存のベンチマークではGPTのパラメータ数を10⁸→1015~1017に増やすと人
    間と同等のパフォーマンス( )と期待できる
    →人間の能力の狭い範囲でしか比較していないため
    既存の言語モデルベンチマークでは人間の幅広い能力を評価しきれていない
    →複雑で多様性のある高難易度なベンチマークが必要

    View full-size slide

  10. テストセットの多様性・高難易度性のため言語学、児童発達、数学、常識的推論、生物学、物理学、社会的偏見、
    ソフトウェア開発などの分野から204のタスクによりテストセット(BIG-Bench)を構成した
    タスク名: emoji_movie
    一連の絵文字の組み合わせからそれが示す映画の名前を当てる
    タスク名: checkmate_in_one
    入力された局面から最短で相手を
    チェックメイトする手順を当てる
    タスク名: periodic_elements
    元素番号から名前を当てる
    eg.)元素番号6番の元素は?→炭素

    View full-size slide

  11. ■評価対象
    BIG-G:Google内部で使用しているTransformerベースのモデル
    13層のデコーダーのみのTransformer+LaMDAベースのGELU活性化関数
    スパースBIG-G:Mixture-of-Expertsを組み込んだSwitch Transformer
    GPT-3: OpenAI社の8層のデコーダーのみのTransformer
    PaLM:デコーダーのみのTransformer+SWiGLU活性化関数、言語モデルのSOTA
    評価スコア:実スコアをハイスコア・ロースコア(作成者によりタスクごとに設定されている)で正規化した値
    複数回答問題をすべて外すとマイナスのスコアにもなりうる
    →タスクごとでばらつきやすい正答率ではなく、様々なタスク間で標準的な指標で評価する

    View full-size slide

  12. ■BIG-Benchによる評価の過程で発見したこと
    ・大きい(パラメータ数の多い)モデルであっても脆い
    →入出力のフォーマットに変化があるとランダムを
    超える精度が出なくなる
    ・タスクによってはモデルが突然変異しやすくなる
    →0-1タスクにおいては精度評価グラフにステップが生じやすい
    (左)完全一致(右)選択問題
    →右側の方が緩やかに精度向上していることが分かる

    View full-size slide

  13. ■BIG-Benchによる評価の過程で発見したこと
    ・総合的なパフォーマンスはパラメータ数の増加により向上したが、人間のパフォーマンスを下回る
    →詳細は次スライド以降2つのタスクを例に挙げて解説する

    View full-size slide

  14. オレンジ:有効なチェックメイト(正解)
    緑:有効な駒の動き、チェックメイトで
    はない
    ピンク:チェックメイトだが、正しくア
    ノテーションされていない
    青:無効な動き
    ■パラメータ数の変化による振る舞いの変化
    ・パラメータが増えるごとに精度は増加傾向にある
    →左下図にあるように有効な動きはパラメータ数の増加と共に増えている
    ・ルール以上のことを理解し始める
    →パラメータ数が増加しても無効な動きは大きく変化しない
    +チェックメイト自体はできていても無効になる(誤ったチェックメイトマーク)割合は増えている
    →パラメータ数の増加により、有効な手・チェックメイトを見つける能力は向上しているが、
    文に正確なアノテーションする能力は向上していない

    View full-size slide

  15. ■パラメータ数の変化による振る舞いの変化
    ・zero-shot
    ~1700万:意味のない文字列を返す
    5700万~4億5300万:質問文の数字を認識するがまだ意味の
    ない文字列を返す
    10億前後:元素名を推測し始める(水素のみ正解できる)
    20億前後:ほぼすべての元素番号に対しAlと推論する(ただし
    元素番号13(Al)に対しては希ガスと推論する)
    ・one-shot
    ~1700万:意味のない文字列を返す
    5700万~20億:前の質問の答えを返す
    40億~:正解数が増え始める
    →パラメータ数の増加により精度は向上している

    View full-size slide

  16. ■結論
    ・モデルの規模が大きくなっても(実線)人間の点数(点線)を超えられない
    →単に層を深くする・広くするのでは根本的な解決にはならない
    ・ただし、手法を改善することにより予測線を上回る成長を見せている
    →BIG-Benchで高いスコアを出すにはさらなる手法の改善・新しいモデルが必要

    View full-size slide

  17. 3. 自己教師付き学習による脳内音声処理の現実的なモデル化に向けて
    (原文: Toward a realistic model of speech processing in the brain with self-supervised learning)
    https://arxiv.org/abs/2206.01685v1
    最近、いくつかのディープニューラルネットワークが、同じ入力に対して脳と同様の活性化を生成することが示された。しかし、こ
    れらのアルゴリズムは、(1)非常に大量のデータ、(2)教師付きラベルの取得不可能、(3)生の感覚入力ではなくテキスト入力、
    (4)非常に大きなメモリ(例えば、数千の文脈語)を必要とするため、依然としてほとんど現実的ではありません。これらの要素
    から、これらの制約のもとで、行動と脳の両方の反応を説明するのに十分なアルゴリズムを特定する必要性が強調される。我々は、
    音声処理の問題に着目し、生の波形に対して学習させた自己教師付きアルゴリズムが有望な候補であると仮定している。具体的には、
    英語、フランス語、標準中国語を話す412人の脳活動を、1時間のオーディオブックを聞きながらfMRIで記録し、最近の自己教師付
    きアーキテクチャであるWav2Vec 2.0と比較する。その結果、4つの成果が得られました。まず、このアルゴリズムは、わずか600
    時間の非標識音声で脳のような表現を学習することを示す。第二に、このアルゴリズムの機能階層は、音声処理の皮質階層と一致す
    る。3つ目は、異なるトレーニング方法によって、大脳皮質と同様の機能特化が見られることである。Wav2Vec 2.0は、前頭前野や
    側頭葉と同様に、音声一般、音声固有、言語固有表現を学習する。第四に、この特殊化の類似性を、さらに386人の参加者の行動で
    確認する。これらの要素は、これまでで最大の神経画像ベンチマークから得られたもので、自己教師付き学習が脳内の音声処理の豊
    かな組織を説明できることを示し、その結果、人間の脳を形成する言語習得の法則を明らかにする道筋が示されたものである。
    目的:自己教師付き学習が脳内の音声処理の豊かな組織を説明できることを示すこと。
    成果:人間の脳を形成する言語習得の法則を明らかにする道筋が示せた。
    方法:機能的磁気共鳴画像(fMRI)の記録と自己教師付きアーキテクチャWav2Vec 2.0との比較
    固有名:ー
    著者所属: Meta AIなど

    View full-size slide

  18. 背景:
    ディープニューラルネットワークの性能は、過去10年間で飛躍的に向上し
    物体分類、テキスト翻訳、音声認識について訓練されたアルゴリズムは、人間レベルの性能に達し始めている。
    これらのアルゴリズムの表現が脳の表現と相関することが繰り返し示されている。
    しかし、これらの深層学習モデルと脳の間に残っている大きな差異を曖昧にしてはならない。
    学習の条件が人とは違う点:
    (1)非常に大量のデータ
    (2)(人間の経験ではまれな)教師付きラベル
    (3)(生の感覚形式ではなく)テキスト形式のデータ
    (4)かなりのメモリ(言語モデルは通常テキスト処理のために数千の文脈語に並行してアクセスできる)
    これらの違いを踏まえて、行動と脳の反応の両方を説明するのに十分なアーキテクチャと学習プロセス
    (自己教師付きか教師付か)を明らかにすることが急務である。
    提案:
    生の感覚形式データで学習可能な、
    最新の自己教師付きアーキテクチャ Wav2Vec 2.0【 メタ、2020】に注目する。
    Wav2Vec2.0は、600時間の音声で訓練する。これは、幼児が言語習得の初期にさらされる量とほぼ同等である。
    音声認識は、次の4ステップが一般的
    1.音響分析:音声の特徴量を扱いやすいデジタルデータに変換
    2.音素の抽出:特徴量を事前に学習したデータと照らし合わせ音素(音波の最小単位)を抽出する(音響モデル)
    3.パターンマッチ:特定された音素を発音辞書と連携して単語として組み立てる
    4.言語モデル:単語の繋がりを調べより正確な文章を組み立てる

    View full-size slide

  19. Architecture :wav2vec 2.0とは?
    Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, Michael Auli (2020).
    wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations
    ArXiv:2006.11477v3 [cs.CL] 22 Oct 2020参照
    ⇒畳み込み層(CNN)と変換層(Transformer)を使用した音声認識フレームワークである。
    音声波形の潜在的な表現の量子化を予測するものである。
    ■モジュール構成
    (1)特徴エンコーダ部:音声信号χから潜在表現zに畳み込む
    (2)量子化モジュール:潜在表現zをqに離散化する
    (3)transformerエンコーダ部:潜在表現zから文脈表現cを得る
    ■学習プロセス
    (1)自己教師あり学習:事前学習により音声の特徴を学習
    ・量子化された表現 q を予測する(Contrastive loss)
    ・量子化された表現 q の多様性を担保するため(Diversity loss)
    (2)教師あり学習: ファインチューニングで高精度化
    Transformer の最終出力に線形層を加えて
    CTC 誤差関数で学習し、音素認識が可能となる
    以上の学習プロセスで、潜在表現zと文脈表現cの両方から
    各層の活性度を抽出する。
    対照学習(Contrastive Learning):
    ラベル付けを行うことなく、データ同士を比較する仕組み用いて、膨大なデータをそのまま学習できる自己教師あり学習の一つである。似たデータは近くに、異なるデータは
    遠くになるように特徴量を学習する。
    例)量子化表現 qt を予測する。
    ⇒マスクされた箇所の出力ctに対応するqt(= 正例)に近づける。同音声の他の箇所からサンプリングされたk 個のqt’(= 負例)から遠ざける
    CTC誤差関数:入力は、時間区切りごとの文字や音素などの識別結果で、時系列、画像、音声データなどから文字列等を抽出するネットワークの損失関数を定義したもの
    音素認識:音素は、言語における音波の最小単位である。音素認識とは、話し言葉の中の個々の音に注目する能力である。
    (1)
    (2)
    (3)
    Diversity Loss
    ct
    qt

    View full-size slide

  20. 図1:脳とディープニューラルネットワークにおける音声表現の比較
    ・wav2vec 2.0を600時間の音声で学習させ、
    オーディオブックを聴きながらfMRIで記録した412人の
    ボランティアの脳に、その活性度をマッピングし、
    モデルXの活性度と脳活動Yの類似度を評価した例。
    ・真のBOLD反応(黒)、予測されるBOLD反応(赤)
    クロスバリデーションのピアソン相関R
    図2:自己教師付き学習によりWav2Vec 2.0は脳のような音声表現を生成可能
    ・ほぼ全ての皮質領域において、モデルの活性度は脳活動を
    有意に予測し、一次および二次聴覚皮質において最も高い
    Rスコアに到達した(図2-A B)。
    ・これらのスコアは、ランダムに初期化したモデルで
    得られたスコアよりも有意に高い(図2-C)。
    ・この比較は言語グループ間でロバストである。
    自己教師付き学習により、Wav2Vec 2.0は人間の脳と同様の
    音声波形の潜在的表現を学習することができる。
    自己教師付き学習が脳内の音声処理の豊かな組織を
    説明できることを示すことが目的なため、
    モデルと脳の対応関係を図1~図4で明らかにしていく。

    View full-size slide

  21. モデルの
    機能階層
    聴覚皮質
    1次聴覚野A1
    2次聴覚野A2
    上側頭回
    (じょうそく
    とうかい)
    上側頭溝
    (じょうそく
    とうこう)
    下前頭回
    (かぜん
    とうかい)
    IFG※
    STG※
    STS※
    図3:Wav2Vec 2.0の階層は、大脳皮質の階層にマッピングされる。
    脳の音声階層とWav2Vec 2.0で学習した機能階層を比較するために、
    モデルの各層のR scoreを比較する(図3)。
    ・畳み込み層は、変換器層よりも予測精度が低いことがわかります。
    ・変換器層において、表象の階層は、皮質階層と一致している。
    低レベルの領域(A1、A2)は最初の変換器層で最もよく予測される(青)
    高レベルの領域(IFG、STS)は深い層で最もよく予測される(オレンジ、赤)
    ・驚くべきことに、この階層は両半球の補足運動野と運動野に及んでいる(図3-A)。
    Wav2Vecの変換層の機能階層は、
    脳内の音声の皮質階層と一致し、
    音声処理の全脳組織をかつて
    ないほど明瞭に示している。
    1次聴覚野A1※
    2次聴覚野A2※
    出典:https://xn--o1qq22cjlllou16giuj.jp/archives/38595
    ※文字および矢印加筆

    View full-size slide

  22. 音素認識タスクにおける言語特異性
    600時間の自己教師あり学習をした
    Wav2Vec 2.0モデルについて、
    ・人間の知覚同様(図4ーA)に、モデルは母国語に
    特化している(図4-B)。
    ・ランダムモデルと音響モデルの精度が最悪である。
    ⇒Wav2Vec 2.0が言語固有の表現を
    学習できることが確認された。
    Wav2Vec 2.0と脳は言語固有の表現を学習する。
    各モデルのR scoreを比較する(図4-C D)。
    ・Non-Speech > Random ⇒脳的表現を生成するための学習の重要性を確認
    ・Non-Native > Non-Speech ⇒音声を学習することで音声に特化した表現を学習することを確認
    ・Native > Non-Native ⇒言語特異性を確認
    ・補足運動野のような高次の領域では、母国語音ではなく、音声に対する特殊化が見られるだけである。
    星印は2つの条件間の有意差を示す
    Wav2Vec 2.0によって学習された聴覚、音声、言語固有の表現が、人間の脳の表現に収束している。
    図4:Wav2Vec 2.0の表現の特殊化は、脳内の音響、音声、言語領域
    をフォローし、明確化するものである。

    View full-size slide

  23. 4. 大規模言語モデルの創発的能力
    (原文: Emergent Abilities of Large Language Models)
    https://arxiv.org/abs/2206.07682v1
    言語モデルをスケールアップすることで、様々なダウンストリームタスクのパフォーマンスとサンプル効率が予測通
    りに向上することが示されています。本論文では、このような予測不可能な現象を、大規模言語モデルの創発的能力
    と呼びます。我々は、ある能力が小さなモデルには存在せず、大きなモデルには存在する場合、その能力を創発的で
    あると考える。このように、創発的な能力は、小規模なモデルの性能を外挿するだけでは予測することができません。
    このような創発の存在は、さらなるスケーリングによって言語モデルの能力の幅がさらに広がる可能性を示唆してい
    る。
    目的:大規模言語モデルの創発能力という予測不可能な現象に関して議論すること。
    成果:多くの自然言語処理(NLP)下流タスクでスケール(学習FLOPsやモデルパラメータなど)が
    言語モデルの性能と高い相関があることを確認した。一方で、スケールが創発能力を見る唯一の手段でない
    ことも確認した。また、なぜそのような能力が創発されるのかについて、説得力のある説明は、
    今のところほとんどない。そして、創発による質的変化が、NLPコミュニティにおける汎用的なモデルへの
    社会的なシフトが出現する可能性を強調した。
    方法:創発的能力(Emergent Abilities)の定義をし、 Few-Shot Prompted Tasksについて、大規模言語モデルの
    創発能力例をさまざまな下流タスクで確認した。創発の説明の可能性や、創発リスクについても議論し、
    モデルの規模が創発的な能力を引き出す唯一の要因ではないことも示唆した。
    固有名:ー
    著者所属:Google Research 、Stanford University 、UNC Chapel Hill 、DeepMind

    View full-size slide

  24. 背景:
    近年、言語モデルは自然言語処理(NLP)に革命をもたらしています。
    言語モデルの規模(学習計算、モデルパラメータなど)を大きくすることで、下流の様々なNLPタスクの性能と
    サンプル効率が向上することは、今やよく知られています。
    (一般的に)
    言語モデルの性能は、スケールしていくことで向上し続けるという『スケーリング則』が提示されており、
    モデルをスケールし続けた先に人の認知モデルが存在する可能性が示唆されている。
    一方、ある種の下流作業の性能は、直感に反してスケールの関数として連続的に向上しない場合もあり、
    そのような作業を前もって予測することはできない。
    目的:
    大規模言語モデルの創発能力という予測不可能な現象に関する議論をすること。
    ノーベル賞を受賞した物理学者Philip Anderson(アンダーソン、1972)の1972年の論文「More Is Different」
    に根ざした、以下の創発の一般定義より
    『創発とは、システムの量的な変化によって、振る舞いが質的に変化することです』
    創発の例
    参照先)Emergence – How Stupid Things Become Smart Together – YouTube
    ・個体としては取るに足らないものが集団となることで、単なる「個体の集合」を超えた別次元の性質を
    備えることができる現象を「創発」と呼ぶ。
    ・個体が起こすアクションとそれに対するリアクションはランダムで、予測することはできません。
    ・相互作用の結果として

    View full-size slide

  25. 確認:Few-Shot Prompted Tasksにおける創発の例(図2)
    スケール則に従う:A~G
    スケール則に従わない
    ・E:GPT-3
    このベンチマークは、GPT-3モデル
    に対して敵対的収集されているため
    ・H:GPT-3とChinchilla
    (次ページにて)
    言語モデルがある規模までは
    ランダムな性能を示し、
    その後、性能が大幅に向上し、
    創発的な動作が発生する。
    算数ベンチマーク 国際音声記号の
    音訳
    品詞の検出
    文字からの
    単語復元
    質問に正直に
    答える能力
    接地型概念
    マッピング
    ※マルチタスク言語理解(数学、歴史、法律など様々なトピックをカバーする57のテストを集約したMMLUベンチマーク)
    意味理解の
    ベンチマーク

    View full-size slide

  26. スケーリングだけではモデルが
    このタスクを解けない可能性を示唆している。
    例えば、
    GPT-3のモデルアーキテクチャや自己回帰言語モデリング目
    的(ノイズ除去トレーニング目的ではなく)の使用を理由と
    して挙げ、最終的に、デコーダのみの言語モデルをさらにス
    ケールアップすることで、このタスクでランダム性を超える
    性能を実現できることがわかった。
    確認:最大規模のGPT-3やChinchillaモデルでさえもランダム性能を上回らないタスクがある(図2H)。

    View full-size slide

  27. 議論:創発についての他の見方(図4)
    計算量FLOPs 以外の尺度として
    Perplexity(パープレキシティppl)
    ・人の話した言葉に対する
    相違指標(小さいほど良い)
    ・一般的に流暢さを表す。
    ここで取り上げたモデル(DeepMind:GopherとChinchilla)では、WikiText103パープレキシティとトレーニングFLOPsが
    たまたま高い相関を持っているため、出現能力のプロットは両者で似通っている。
    しかし,将来的に vanilla dense Transformer モデル以外の新しい技術が開発された場合,WikiText103パープレキシティと
    規模の相関は成り立たないかもしれない。そのため、創発の他の見方として示した。
    (ゴーファ)
    MMLU:大規模マルチタスク言語モデル
    (チンチラ)

    View full-size slide

  28. 議論:創発の説明の可能性
    議論:創発リスク
    議論:社会的な変化
    最後に、ここで議論された創発能力はモデルの動作に焦点を当てきた。
    もう一つの注目すべき質的変化は社会学的なもので、規模の拡大によりコミュニティの言語モデルに対する見方や使い
    方が変化する。例えば、NLPは歴史的にタスクに特化したモデルにフォーカスしてたが、最近では、スケーリングに
    よって、学習データに明示的にコード化されていない様々なタスクの実行を目的とした単一モデルである
    「汎用」モデルの研究と開発が爆発的に増えている。汎用的なモデルがわずかな例で未知のタスクを実行できることか
    ら、NLP研究コミュニティ以外でも言語モデルの新しい応用が多数生まれている。
    例えば、言語モデルはプロンプトを通じて、
    ・自然言語の指示をロボットが実行可能な動作に変換したり(Ahn et al., 2022; Huang et al., 2022)、
    ・ユーザーと対話したり(Coenen et al., 2021; Wu et al., 2021, 2022; Lee et al., 2022b)、
    ・マルチモーダル推論(Zeng et al.)
    創発的な能力の例は数多くあるが、なぜそのような能力が創発されるのかについて、説得力のある説明は
    今のところほとんどない。直観的には、例えば、
    ・多段階推論タスクが、Lステップの逐次計算を必要とする場合、少なくともO(L)層の深さを持つモデルが
    必要となるかもしれない。
    ・世界知識を必要とするタスクの場合、圧縮された知識ベース自体を捉えるのに十分なパラメータを持つモデルが
    必要かもしれない。
    事前訓練に明示的に含まれることなく、 Few-Shot Promptedで出現能力が観察されているため、リスクも出現しうる
    ということである。

    View full-size slide

  29. 5. Diffusion-LMによる制御可能なテキスト生成の改善
    (原文: Diffusion-LM Improves Controllable Text Generation)
    https://arxiv.org/abs/2205.14217v1
    自然言語生成において、再トレーニングを行わずに言語モデル(LM)の動作を制御することは、主要な未解決問題で
    ある。近年の研究により、単純な文の属性(例えば、感情)の制御には成功しているが、複雑で細かい制御(例えば、
    構文構造)についてはほとんど進展がない。この課題を解決するために、我々は連続拡散に基づく新しい非自己回帰
    言語モデルを開発し、Diffusion-LMと呼ぶ。Diffusion-LMは連続領域における拡散モデルの最近の成功に基づき、一
    連のガウスベクトルを単語ベクトルに反復的にノイズ除去し、中間潜在変数の列を生成する。これらの中間変数の連
    続的、階層的な性質により、単純な勾配に基づくアルゴリズムで、複雑で制御可能な生成タスクを実行することがで
    きる。我々は、6つの困難な細粒度制御タスクに対してDiffusion-LMの制御に成功し、先行研究を大幅に上回る性能
    を示した。
    目的:タスクごとのファインチューニング不要で構文解析などの複雑で細かい制御が可能な言語生成モデルの開発
    成果:構文構造や内容理解など6つの複雑で細かい制御タスクでの先行研究を上回る精度を実現した
    方法:連続拡散による非自己回帰モデルDiffusion-LMの提案
    固有名: Diffusion-LM
    著者所属:Stanford University

    View full-size slide

  30. ■背景
    大規模自己回帰モデルでは高い精度での言語生成能力を発揮しているが、現実世界で使用するには言語生成プロ
    セスをコントロール可能にする必要がある(必要とする文法構造などに適した出力が欲しい)
    →現状では学習済みのモデルを各タスクごとにファインチューニングする手法が取られている
    しかしその手法では以下の課題が存在する
    1.タスクごとにファインチューニングを行うのはコストが高い
    2.1つのモデルで複数のタスクの制御は不可能
    3.学習済みモデルのパラメータを固定してしまうと、単純なタスクしか精度が出ない

    View full-size slide

  31. ■先行研究との違い
    ・自然言語におけるDiffution Model
    自然言語においてはその離散的性質から、離散的状態空間においてDiffution Modelを研究していた
    →画像系で使用されるDiffusion Modelでは連続空間上に埋め込む
    ・自己回帰モデル/非自己回帰モデル
    一般的な言語モデルは左→右の自己回帰のみを持つため、右側の文脈を直接調整できない。
    そのため右→左の自己回帰が必要な穴埋め問題や構文解析においては学習方法やデコードの手法を工夫している
    非自己回帰モデルは音声認識や機械翻訳で実績があるが、複数の正解がある構文解析では精度が出ておらず
    使われていない
    ・外付け判別器(現在最も使われている手法)
    この手法では言語モデルと判別器をそれぞれ用意し、言語モデルのパラメータを固定し使用する
    これらの手法においても言語モデルに自己回帰モデルを使用しているため穴埋め問題や構文解析において
    同様の課題を持つ

    View full-size slide

  32. 既存の自然言語でのDiffusionModelに対し、以下の改良
    を加えた
    1.離散データのテキストを連続空間に埋め込む
    →固定した埋め込み空間では最適ではないため、離散的
    なテキストデータにマルコフ遷移を加え、学習させた
    2.埋め込み空間上のベクトルを単語へ変換する丸め手
    法を提案
    →通常の丸め手法では埋め込み空間に十分に単語を埋め
    込んだ点が存在しないため、単語の存在する点へx
    0
    が丸
    められるよう学習した


    ガウシアンノイズを入力し、単語に対応するベクトル
    へ徐々にノイズ除去するよう学習する
    →この徐々にノイズ除去する過程が連続する隠れ変数
    の階層構造をつくり、この隠れ変数の階層構造と連続
    性が複雑な制御を可能にする
    ■提案手法

    View full-size slide

  33. ■比較対象
    モデル名 モデル
    タイプ
    外付け
    判別器
    ベース モデル名 モデル
    タイプ
    外付け
    判別器
    PPLM 自己回帰 あり GPT-2 DELOREAN 自己回帰 なし
    FUDGE 自己回帰 あり GPT-2 COLD 自己回帰 なし
    FT. 自己回帰 なし GPR-2 AR-infilling 自己回帰 なし
    ■評価タスク
    SemanticControl~Lengthの5タスク LeftContextタスク

    View full-size slide

  34. ・ほぼすべてのタスクで提案手法(Diffusion-LM)が
    最高の精度を達成
    ・追加で学習を行う手法と比べても精度が上である
    ・タスクごとのファインチューニングは不要
    ■評価結果 ■提案手法の課題
    ・パープレキシティが既存手法に比べ高い(分岐が多い)
    →ただし、文脈によって意味の変わる単語
    などに対応するべく、分岐が多いよう設計している
    ・デコーダーの処理が遅い
    ・既存手法に比べ学習時の収束が遅い

    View full-size slide

  35. 6. アルゴリズム・インプリント
    (原文: The Algorithmic Imprint)
    https://arxiv.org/abs/2206.03275v1
    アルゴリズムによる害が顕在化した場合,公平性,説明責任,透明性,倫理性(FATE)に関連する懸念を解消するために,アルゴリズムの使用を停止
    することが妥当な対応となる.しかし、アルゴリズムが削除されたからといって、そのFATEに関連する問題が存在しなくなるわけではありません。こ
    の論文では,アルゴリズムを削除しただけでは,必ずしもその影響を元に戻したり軽減したりすることができないことを説明するために,「アルゴリ
    ズムの刻印」という概念を導入します.この概念とその意味を,160カ国以上で実施されている国際的に認められた英国ベースの高校卒業資格試験で
    あるGeneral Certificate of Education (GCE) Advanced (A) Level試験のアルゴリズムによる採点を巡る2020年の出来事を通じて運用する.アルゴ
    リズムによる標準化は、最終的に世界的な抗議運動によって撤廃されたが、この撤廃が、学生、教師、保護者の生活を形成する社会技術的インフラへ
    のアルゴリズムによる刷り込みを元に戻すことがいかにできなかったかを示す。これらの出来事は、アルゴリズムによる仲介がある場合とない場合の
    両方の世界の状態を分析する貴重な機会となっている。我々はバングラデシュをケーススタディとして、北半球で作られたアルゴリズムが南半球のス
    テークホルダーにいかに不釣り合いな影響を与えるかを説明する。47のインタビューからなる1年以上にわたるコミュニティとの関わりを記録し、バ
    ングラデシュで「何が」起こったかを初めて一貫した年表として提示し、「なぜ」「どのように」起こったかをアルゴリズムの刻印とアルゴリズムに
    よる公平性の位置づけというレンズを通して文脈付けしている。これらの出来事を分析することで、アルゴリズムによる刷り込みの輪郭をインフラ、
    社会、個人の各レベルでどのように推測することができるかを明らかにする。また、インプリントを意識することで、(a)アルゴリズムの影響につ
    いて考える際の境界を広げ、(b)アルゴリズムの設計方法を伝え、(c)AIガバナンスの指針とすることができるのかについて、概念的・実際的な示
    唆を与えている。
    目的:アルゴリズムによる害が発生した場合の対策として、アルゴリズムの使用停止がよく行われるが、停止(削除)したからと
    言って公平性、説明責任、透明性、倫理の問題がなくなるわけではない。この有害なアルゴリズムは存在した期間以降も
    はるかに長く残り続ける(アルゴリズムの痕跡)ことを説明する
    成果:例を通して「アルゴリズムの痕跡」について説明し、それを踏まえた上で、アルゴリズムをどう考慮するか説明する
    方法:英国ベースの高校卒業資格試験(GCE)の2020年の問題を例に挙げて「アルゴリズムの痕跡」について説明する
    固有名: ー
    著者所属: Data & Society Research Institute, Georgia Institute of Technology

    View full-size slide

  36. ■Algorithmic Imprint(アルゴリズムの痕跡)とは
    アルゴリズムによる害が発生した場合の一般的で合理的な対策として、その有害な影響がさらに伝搬するのを防ぐ
    ためにアルゴリズムの使用停止がよく行われるが、停止(削除)したからと言って公平性、説明責任、透明性、倫理
    の問題がなくなるわけではない
    →この有害なアルゴリズムの影響は、アルゴリズム削除以降も長く影響し続ける(アルゴリズムの痕跡)
    例: 英国を拠点とする高校の卒業証書試験であるGCE試験のアルゴリズムによる評価を取り巻く問題(2020)
    ■どのような試験か?
    ・ 160か国以上で実施されている(その多くは英国の元植民地)国際的に認められた試験
    ・ Aレベルの成績は必然的であり、大学への入学に不可欠な役割を果たす
    ■経緯
    ・COVID-19の大流行によりGCE試験を監督する英国に本拠を置く準政府機関であるOfqualは対面試験を中止した
    ・試験の代わりに、学校での生徒の過去の成績、教師の評価を使用してアルゴリズムで成績を作成した
    →結果、世界的な抗議行動が勃発し、アルゴリズムは削除された
    教師側:そもそも過去の生徒の評価を記録していない
    生徒側:成績に対して真剣に取り組んでいなかった(試験が全てなので直前の30~60日に猛勉強する生徒が多い)
    ・アルゴリズムは削除されたが、学生の再評価は行われなかった。
    すなわち、採点方法は変わったが、アルゴリズムの影響を大きく受けていた(アルゴリズムの痕跡)

    View full-size slide

  37. ■Algorithmic Imprint(アルゴリズムの痕跡)を意識したアルゴリズムの設計
    「アルゴリズムの痕跡」を意識した設計の考え方により、アルゴリズム開発プロセスをより公平で社会技術的な
    情報に基づいたものにすることができる。
    (1)アルゴリズムの影響
    アルゴリズムは削除した後にも利害関係者に影響を及ぼす。開発者と運営者はアルゴリズムを削除するだけで
    なく、アルゴリズムによる危害を是正し、説明責任が持続して要求される。
    (2)アルゴリズム設計の説明責任
    開発者は「アルゴリズムの痕跡」の影響を受ける人に害をより認識できるようにするべきである。
    (3)AI倫理ガバナンスで補強する
    技術的な介入だけでは害を削減することはできない。 「アルゴリズムの痕跡」を意識したアルゴリズム設計を
    適切なAI倫理ガバナンスで補完する。

    View full-size slide

  38. 7. Pythae:Pythonによる生成オートエンコーダの統一 -- ベンチマーキングユースケース
    (原文: Pythae: Unifying Generative Autoencoders in Python -- A Benchmarking Use Case)
    https://arxiv.org/abs/2206.08309v1
    近年、複雑な分布をモデル化できる深層生成モデルへの関心が高まっている。その中でも変分オートエンコーダは、
    計算効率が高く、様々な分野で優れた成果を上げていることから、人気を集めています。このブレイクスルーの後、
    原著を改良するための大規模な研究が行われ、その結果、様々なタスクに対応する様々なVAEモデルが生み出されて
    きました。本論文では、Pythaeを紹介します。Pythaeは、統一された実装と、生成オートエンコーダーモデルを簡
    単に、再現可能かつ信頼性をもって使用できる専用のフレームワークの両方を提供する、汎用性の高いオープンソー
    スのPythonライブラリです。また、このライブラリを用いて、画像再構成、生成、分類、クラスタリング、補間と
    いった下流タスクの主要な改善点を代表する19の生成的オートエンコーダーモデルを提示し、比較するケーススタ
    ディベンチマークを実施することを提案する。オープンソースライブラリは、
    https://github.com/clementchadebec/benchmark_VAE で公開されています。
    目的:最先端のGenerativeAutoEncoderのフレームワークを作成し、単発になっているVAEの開発を統一する
    成果:5つの下流タスクにおいて19種類のVAEのベンチマークを作成した
    方法:簡単に信頼性の高いVAE開発できるフレームワークPythaeの提案
    固有名: Pythae
    著者所属: Paris Cite University

    View full-size slide

  39. Pythae(PythonAutoEncoder)のライブラリ図
    Pythaeライブラリで用意されているモデルパターン22種
    参照元:https://pythae.readthedocs.io/en/latest/models/pythae.models.html
    ■背景
    開発者が開発したままになってお
    り、 AEのモデルの開発が明確に共
    通化されていない
    →再評価や開発がしにくい
    ■成果
    AEのモデルをまとめて共通フレー
    ムワークを作成した。

    View full-size slide

  40. ■評価方法
    フレームワークの作成と共に19種類のモデルを
    以下の5つの下流タスクで評価した。
    ・再構築
    ・画像生成
    ・分類
    ・クラスタリング
    ・補完性
    ■評価を通して分かった点
    1.VAEベースとAEベースとで明らかに挙動が異なる。
    2.AEベースの手法ではほとんど同じ推移をしている
    →AEベースの手法では最適な潜在関数空間が共通して
    存在している。
    3.タスクによって最適な潜在関数空間の大きさは異なる。
    →MNISTでは16~32、CIFAR10では32~128
    4.教師なしタスク(クラスタリングなど)では潜在関数空間
    が大きくなるにつれ精度が低下している。
    各潜在変数空間のサイズにおけるMSE、FID、
    分類正解率、クラスタリング正解率の推移

    View full-size slide

  41. 8. 学習可能な点、学習価値のある点、未学習の点を優先的にトレーニングする。
    (原文: Prioritized Training on Points that are Learnable, Worth Learning, and Not Yet Learnt)
    https://arxiv.org/abs/2206.07137v2
    ウェブスケールデータでの学習は数ヶ月かかることもある。しかし、ほとんどの計算と時間は、既に学習済みの冗長
    でノイズの多いポイントや、学習不可能なポイントに浪費されている。学習を高速化するために、我々はRHO-LOSS
    (Reducible Holdout Loss Selection)を導入する。これは、モデルの汎化損失を最も低減する学習用のポイントを
    ほぼ選択する、シンプルだが原理的な手法である。その結果、RHO-LOSSは既存のデータ選択手法の弱点を緩和する。
    最適化文献の技術は一般的に「難しい」(例えば高損失)点を選択するが、そのような点はしばしばノイズが多い
    (学習可能ではない)かタスクとの関連性が低いのである。逆に、カリキュラム学習は「簡単な」点を優先するが、
    そのような点は一度学習すれば学習する必要はない。これに対し、RHO-LOSSは学習可能で、学習に値する、そして
    まだ学習していないポイントを選択する。RHO-LOSSは先行技術よりはるかに少ないステップで学習し、精度を向上
    させ、幅広いデータセット、ハイパーパラメータ、アーキテクチャ(MLP、CNN、BERT)において学習を高速化す
    ることが可能です。大規模なウェブスクレイピング画像データセットClothing-1Mにおいて、RHO-LOSSは18倍少な
    いステップで学習し、均一なデータシャッフリングよりも2%高い最終精度に到達しました。
    目的:従来手法より高速に汎用誤差を低減させることができるRHO-LOSSを紹介する
    成果:クリーンなデータと、ノイズの多いWebスクレイピングデータの大幅な高速化が可能
    方法:冗長データ(学習済みデータ)、ノイズの多いデータ、外れ値をスキップし、学ぶ価値があるデータを
    選択的して学習する
    固有名:ー
    著者所属:OATML、 University of Oxford、Cohere、University of Toronto

    View full-size slide

  42. ■背景
    ・webスクレイピング(webで収集したデータ)の学習には数か月かかることがある
    →深層学習モデルの開発サイクルが遅くなる
    ・ webスクレイピングで集めたデータは教師データのラベルが間違っていたり、曖昧だったりしてノイジー
    ・学習のほとんどの時間は冗長(過剰にあるカテゴリのデータ)でノイズの多いデータに多くの時間を割いている
    →学習時の既存のデータ選択方法の弱点
    ■対策
    ・すでに学習できいる冗長なデータはスキップする
    ・ノイズの多い点や外れ値では学ぶ価値がないのでスキップする
    →削減可能なホールドアウト損失選択(RHO-LOSS)という学習可能で、学習する価値があり、
    まだ学習されていないポイントを選択する手法を紹介する

    View full-size slide

  43. ■ RHO-LOSSについて
    ■ RHO-LOSSが冗長で、ノイズが多いデータを回避する理由
    ①既に学習できた冗長データはスキップする
    →すでに学習済みの冗長データサンプルは訓練損失が低く(それ以上減らせない)、 RHO-LOSSは常に訓練損失
    よりも小さいモデルがそれらを忘れた場合、それらは次のエポックで再検討される
    ②ノイズデータや外れ値では学ぶ価値がないのでスキップする
    →曖昧で不正解なラベルがついたノイズデータは削除不可能ホールドアウト損失が大きい(ホールドアウト)
    そもそもノイズデータではラベル自体が間違っているのでホールドアウトデータセットを使っても間違える
    (削除不可能ホールドアウト損失が下がらない、つまり大きい)
    →つまり、RHO-LOSSは、まだ学習されておらず、学習可能で、学習する価値のあるサンプルを優先
    学習ステップごとに汎化誤差を減少させるサンプルを選択する
    ための選択関数(この値が大きいサンプルほど選ばれる)
    ポイント:ホールドアウトデータセットでの損失を計算しておく

    View full-size slide

  44. ■実験結果
    データセット:大規模なWebスクレイピング画像データセットClothing-1M
    14のクラスの1Mの衣類の画像で、データはオンラインショッピングWebサイトから収集され、多くの誤った
    ラベルのサンプルが含まれているデータセットである。
    RHO-LOSSは、一様ランダムデータ選択より18倍速く、目標精度に到達し、訓練時間を大幅に
    削減する。さらに、最終到達精度は一様ランダムデータ選択よりも2%高い
    Source: https://openaccess.thecvf.com/content_cvpr_2015/
    papers/Xiao_Learning_From_Massive_2015_CVPR_paper.pdf
    2%

    View full-size slide

  45. 9. アメリカの博士号取得者の給与は、生活費の格差の拡大を考慮していない
    (原文: American postdoctoral salaries do not account for growing disparities in cost of living)
    https://arxiv.org/abs/2205.12892v1
    国立衛生研究所(NIH)はポスドク(博士研究員)研修生の給与水準を設定しており、アメリカの多くの研究機関や
    研究者がポスドク給与の基準として利用しています。給与の基準は大学間で一定ですが、その大学のある市や町の生
    活費は大きく異なります。ポスドク以外の職種の場合、物価の高い都市ほど労働者の賃金は高く、生活費の上昇に比
    例して賃金も上昇する。この研究では、ポスドクの賃金が生活費の違いをどの程度まで説明できるかを調査している。
    米国の全大学における27,000人以上のポスドクの給与を、生活費の地域差の指標と合わせて分析した。その結果、同
    じ市町村における広範な労働市場とは対照的に、ポスドクの給与は生活費の違いを説明しないことが分かった。生活
    費の高い地域では収入が多少増えるにもかかわらず、実質的な(生活費調整後の)ポスドクの給与は、最も物価の安
    い地域と最も高い地域の間で29%(15000ドル2021米ドル)の差がある。ボストン、ニューヨーク、サンフランシ
    スコなど、学生に対してより多くのテニュアトラック教員を輩出している都市は、この給与格差の影響を最も強く受
    けている都市である。ポスドクの給与格差は拡大しており、経済的に不利なグループに大きな経済的負担を負わせ、
    女性や人種的マイノリティにおける教員採用格差の一因となる可能性が十分にある。
    目的: ポスドクの賃金が生活費の違いをどの程度まで説明できるかを調査すること。
    成果: 資金提供機関は生活費に関係なく研究機関間で一律のポスドク給与基準を設定しているため、
    米国のポスドク給与には空間的均衡が成り立たず、結果として米国の都市間で給与格差が生じるようだ。
    方法: 米国労働省が報告した2015年から2020年のポスドク給与のデータセットをもとに、地域価格平価(RPP)
    を考慮し実質給与について調査した。
    固有名: ー
    著者所属: Harvard Medical School

    View full-size slide

  46. 米国経済活動局(BEA)は、この地域間の差を地域価格平価(RPP)として推定し、個人の「実質」所得を
    決定する基準として使用している。RPP=100が標準。大きいと物価が高い。
    米国最大の生物医学研究助成機関である国立衛生研究所(NIH)は、すべてのポスドクに一定の給与を設定し、
    多くの米国の研究機関はこの基準に倣っている。
    例)
    企業が密集する都市圏
    ニューヨーク:
    RPP=134.5
    給与=$55.9K
    実質=$44.5K
    ピッツバーグ:
    RPP=92
    給与=$51.8K
    実質=$56.0K
    差:$12K
    (136円/ドル×12000
    =年間163万も違う)

    View full-size slide

  47. ポスドク
    ポスドク以外
    ポスドク以外は、地域差を考慮できているため、実質給与はほぼ一定になっている。
    ポスドクの給与は生活費に連動していない。実際のポスドクの給与はRPPと負の相関がある
    実質給与は低いものの、アメリカで最も物価の高い都市でポスドクをするメリット
    ・どこでポスドクをするかは、テニュアトラック(TT)教員の職を見つける 場合、極めて重要
    ・研修機関の名声は、将来の職を決める最も有力な 指標の1つである。
    ・企業が密集する都市圏が人気
    国立衛生研究所(NIH)がポスドクの給与の基準を設定し、全米で一定に保っているからである。
    この給与格差はますます拡大する。このような給与の差は、ボストン、サンフランシスコ、ニューヨークな
    ど、最も優秀な教授を輩出する都市に最も強く反映している。これらの都市は、米国の他の地域に比べて物
    価が高くなっており、結果としてポスドクの収入の実質的価値が低下することになる。

    View full-size slide

  48. 10. 階層的自己教師付き学習によるギガピクセル画像への視覚変換器のスケーリング
    (原文: Scaling Vision Transformers to Gigapixel Images via Hierarchical Self-Supervised Learning)
    https://arxiv.org/abs/2206.02647v1
    Vision Transformers (ViT) とそのマルチスケールおよび階層的なバリエーションは、画像表現の捕捉に成功してい
    るが、その使用は一般に低解像度画像(例:- 256x256, 384384)に対して研究されてきた。計算病理学のギガピク
    セルホールスライドイメージング(WSI)では、WSIは20倍の倍率で150000x150000ピクセルとなり、16x16画像
    から組織微細環境内の相互作用を特徴づける4096x4096画像まで、様々な解像度にわたって視覚トークンの階層的構
    造を示すことが可能である。HIPTは、WSIに内在する自然な階層構造を活用し、2段階の自己教師付き学習を用いて
    高解像度の画像表現を学習するものである。HIPTは33種類のがんに対して、10,678枚のギガピクセルWSI、
    408,218枚の4096x4096画像、104M枚の256x256画像を用いて事前学習される。9つのスライドレベルタスクを用
    いてHIPT表現のベンチマークを行い、以下のことを実証した。1) 階層的な事前学習を行ったHIPTは、がんのサブタ
    イプ分類と生存予測において現在の最先端手法を凌駕する。2) 自己教師付きViTは、腫瘍微小環境における表現型の
    階層的構造に関する重要な誘導的バイアスをモデル化することができる。
    目的:WSIによる高解像度画像を使ったがんのサブタイプ分類と進行度分類において“診察レベル”を達成する
    成果:がんのサブタイプ分類と生存予測(進行度分類)において最先端手法を凌駕する精度を達成した
    方法:WSIが持つ階層構造を利用した階層構造的Transformer(HIPT)を開発した
    固有名: Hierarchical Image Pyramid Transformer (HIPT)
    著者所属:Harvard BWH Broad Institute, Bill & Melinda Gates Foundation, University of Toronto

    View full-size slide

  49. ホールスライドイメージングでは顕微鏡画像を
    スライドレベルで結合し、高解像度の画像を
    生成する。
    ■背景
    既存手法としてMIL(Multiple Instance Learning)が広く
    使われている。MILでは主に以下の3ステップで構成されている。
    1.元の高解像度画像を決まった大きさのパッチに切り出す
    2.パッチをさらに細かく切り出しそれぞれ特徴量抽出を行う
    3.2の特徴量を集約しパッチレベルの特徴量ベクトルを求める。
    しかし、この3ステップには構造的な制約がいくつか存在する。
    ・画像の切り出しや特徴量抽出は一般的に[256x256]に
    サイズが固定されている
    →ミクロな特徴を捉えることができる一方でよりマクロな
    特徴をとらえきれない。
    ・他の画像系AIモデルと異なりMILはそのシーケンス長の
    大きさからグローバルプーリングしか使うことができない
    →Attension機構のように広範囲の依存関係を伝播できない。
    ・統合層は都度ファインチューニングが必要である
    →特徴抽出と統合を同時に学習できないため、データの少ない
    状況では過学習や学習不足が起きやすい。

    View full-size slide

  50. 自然言語のTransformerが文全体、文、単語、文字の各レベルごとに特徴量を集約し、文章の階層構造的表現を
    使用していることに感化されている。
    これを実現するため、大きく2つ改良をしている
    1.ビジュアルトークンのスケールと画像の解像度ごとの階層構造を固定化
    2.WSI全体の長大なシーケンス長の処理
    ホールスライドイメージングの持つ階層構造(16x16pix, 256x256pix, 4096x4096pix)毎に画像をViTで特徴量
    抽出し、各階層ごとの特徴量ベクトルを1つ上の階層へ伝播する
    →これによりミクロな情報とマクロな情報の両方を伝達可能になった
    ■提案手法

    View full-size slide

  51. ほとんどのデータセットにおいて提案手法(HIPT)が最も良い精度を達成
    ※RCCのサブタイプ分類は分類が明確なため難易度が他のタスクに比べ低く、差が出にくい
    生存予測
    癌のサブタイプ分類
    より小さい解像度で判定を行えるため、
    アテンションマップがより詳細に可視化
    できる。
    上)256x256,アテンションが粗い
    下)16x16,アテンションが細かく細胞単位で
    アテンションされている
    ■評価結果

    View full-size slide