$30 off During Our Annual Pro Sale. View Details »

AI最新論文読み会2022年12月

 AI最新論文読み会2022年12月

AI最新論文読み会2022年12月

More Decks by 医療AI研究所@大阪公立大学

Other Decks in Science

Transcript

  1. AI最新論文読み会2022年12月
    YAMAHA MOTOR CO.,LTD.
    *Yamamoto Atsushi
    Saitou Takashi
    Komaike Kunimune
    (文献調査を上記で分担、今回の発表者*)
    産業用ロボット| ヤマハ発動機 (yamaha-motor.co.jp)
    2022国際ロボット展(iREX2022) - イベント | ヤマハ発動機株式会社 (yamaha-motor.com)

    View Slide

  2. 1. 簡単にアクセスできるテキストから画像への変換が、人口統計学的なステレオタイプを大規模に増幅する
    (原文: Easily Accessible Text-to-Image Generation Amplifies Demographic Stereotypes at Large Scale)
    2. InstructPix2Pix。画像編集の指示に従うことを学ぶ
    (原文: InstructPix2Pix: Learning to Follow Image Editing Instructions)
    3. トランス推論の効率的なスケーリング
    (原文: Efficiently Scaling Transformer Inference)
    4. BLOOM:176Bパラメータオープンアクセス多言語言語モデル
    (原文: BLOOM: A 176B-Parameter Open-Access Multilingual Language Model)
    5.敵対的な政策がプロフェッショナルレベルの囲碁AIを打ち負かす
    (原文: Adversarial Policies Beat Professional-Level Go AIs)
    6.インコンテキストラーニングによるアルゴリズム推論の教育
    (原文: Teaching Algorithmic Reasoning via In-context Learning)
    7.大規模言語モデルは人間レベルのプロンプトエンジニアである
    (原文: Large Language Models Are Human-Level Prompt Engineers)
    8. ERNIE-ViLG 2.0:テキストから画像への拡散モデルの改良と知識拡張型Mixture-of-Denoising-Expertsの利用
    (原文: ERNIE-ViLG 2.0: Improving Text-to-Image Diffusion Model with Knowledge-Enhanced Mixture-of-Denoising-Experts)
    9.一つの会場、二つの会議。中国とアメリカの引用ネットワークの分離
    (原文: One Venue, Two Conferences: The Separation of Chinese and American Citation Networks)
    10.対照的な復号化。最適化としての自由形式テキスト生成
    (原文: Contrastive Decoding: Open-ended Text Generation as Optimization)
    PaperWithCodeの10本を紹介
    【pickup】
    https://ml-ocu.s3-ap-northeast-1.amazonaws.com/arxiv-translation/sanity/2022-11-25-top-social.txt

    View Slide

  3. 1.簡単にアクセスできるテキストから画像への変換が、人口統計学的なステレオタイプを大規模に増幅する
    (原文: Easily Accessible Text-to-Image Generation Amplifies Demographic Stereotypes at Large Scale)
    https://arxiv.org/abs/2211.03759v1
    機械学習モデルによって、ユーザーが書いたテキスト説明を自然な画像に変換できるようになった。これらのモデル
    はオンラインで誰でも利用でき、1日に数百万枚の画像を生成するために利用されている。我々はこれらのモデルを
    調査し、危険で複雑な固定観念を増幅することを発見した。さらに、増幅されたステレオタイプは予測が難しく、
    ユーザやモデルの所有者によって容易に緩和されないことがわかった。これらの画像生成モデルが、どの程度、ステ
    レオタイプを永続させ、増幅させるのか、また、その大量展開は、深刻な懸念材料である
    目的:画像生成モデルが利用される際における固定概念への影響を調査する
    成果:画像生成モデルが利用される際に固定概念を増幅され、またその固定概念の予測が困難であることを確認した
    方法:生成された画像に固定概念が増幅されることを確認した
    固有名: -
    著者所属:Stanford University, Columbia University, Bocconi University, University of Washington

    View Slide

  4. 例2 アメリカ人は立派な車・家
    アフリカ人はひどい状態の車・簡素な家
    課題:人種・性別・民族・国籍に言及しない単純な入力テキストがモデルに有害な偏見をもった画像を生成しうる
    例1「テロリスト」は顎鬚を生やした中東の男性の画像が生成される
    ・画像生成モデルはオンライン画像で学習されており、このよう
    な危険なバイアスを持っている
    ・このバイアスを持った画像生成モデルによって一日に何百万も
    の画像が新たに生み出されている
    →ユーザ・社会全体が生成された画像に対して
    批判的な見方をするよう注意すべき
    画像生成(text2image)
    テキストを与えると、そのテキストの内容を描写した画像を描いてくれるAI

    View Slide

  5. 2. InstructPix2Pix:画像編集の指示に従うことを学ぶ
    (原文: InstructPix2Pix: Learning to Follow Image Editing Instructions)
    https://arxiv.org/abs/2211.09800v1
    我々は、人間の指示から画像を編集する手法を提案する。入力画像と、何をすべきかを指示する文章が与えられると、我々のモデル
    はその指示に従い画像を編集する。この問題の学習データを得るために、2つの大規模な事前学習済みモデル(言語モデル(GPT-
    3)とテキスト-画像モデル(Stable Diffusion))の知識を組み合わせて、画像編集例の大規模データセットを生成する。生成され
    たデータを用いて学習した条件付き拡散モデルInstructPix2Pixは、推論時に実画像やユーザが書いた指示に対して汎化される。こ
    のモデルは、フォワードパスで編集を行い、例ごとの微調整や反転を必要としないため、数秒という速さで画像を編集することがで
    きる。また、様々な入力画像と記述された命令に対して、説得力のある編集結果を示す。
    目的:人間の指示で画像を編集する手法を提案
    成果:数秒で画像を編集でき、説得力のある編集結果を示す。
    方法:2つの大規模な事前学習済みモデル(言語モデル:GPT-3とテキスト-画像モデル:Stable Diffusion)の
    知識を組み合わせて、画像編集例の大規模データセットを生成する。
    生成されたデータを用いて条件付き拡散モデルInstructPix2Pixで学習する。
    固有名: InstructPix2Pix
    著者所属: University of California, Berkeley

    View Slide

  6. 先行研究:
    ・拡散に基づく生成モデルの例
    DALL-E 2、 Imagen、 StableDiffusionなど
    ・画像編集のための生成モデルの課題
    類似のテキストプロンプトが、類似の画像を生成するという保証はない。
    提案手法:
    既存のテキストベースの画像編集(入出力画像のテキストラベル、キャプション、説明文)とは異なり
    モデルに実行させる動作を指示編集できるようにするものである
    この手法の利点:
    ・ユーザが自然な文章でモデルに何をすべきかを正確に伝えることができる
    ・ユーザは、入出力画像の間で変更したくない部位について余分な情報を提供する必要ない
    ・指示は表現力が豊かで正確、かつ直感的に書くことができるため、ユーザーは変更すべき特定の物体や
    視覚的属性を容易に特定することができる

    View Slide

  7. 手法:
    (1)テキスト編集指示と編集前後の画像のペア学習データセットを生成し(図2a〜c)、
    (2)この生成データセットに対して画像編集拡散モデルを学習する(図2d)。
    『画像編集データセットの生成』と『そのデータセットに対する拡散モデルの学習』という2つの部分から構成
    (1)画像編集データセットの生成 (2)そのデータセットに対する拡散モデルの学習

    View Slide

  8. 編集指示とペアのキャプション生成
    編集指示:「彼女にドラゴンに乗ってもらう」
    編集指示
    編集されたキャプション
    入力キャプション
    出力キャプション:「ドラゴンに乗る少女の写真」
    入力キャプション:「馬に乗る少女の写真」
    入力キャプションと
    出力キャプションのペア
    を次のステップで使う

    View Slide

  9. ペアキャプションからのペア画像生成
    ・事前に学習したtext2imageモデルを用いて、ペアキャプションを画像に変換する。
    Prompt-to-Promptは、2つの画像間の類似性を制御できるパラメータを持っている。
    対応するキャプションは
    「馬に乗る少女の写真」と
    「ドラゴンに乗る少女の写真」
    課題
    text2imageモデルが、条件付けプロンプトの非常に小さな変更であっても、画像の一貫性について保証しない
    ×馬→ドラゴンに変えてほしいだけなのに
    他も変わってる
    ①StableDiffusionはテキストから画像を生成する
    ②Prompt-to-Promptは入力テキストの一部を修正し、画像の対応箇所だけを編集する
    解決策(Prompt-to-Prompt)
    Prompt-to-Prompt を用いた場合

    View Slide

  10. InstructPix2Pix ・生成されたデータセットで、文章から画像を編集する条件付き拡散モデルを学習
    ・大規模なテキスト-画像潜在拡散モデルであるStable Diffusionがベース
    ノイズ潜在量zt、ノイズを予測するネットワークεθ、画像条件付けcI、テキスト命令条件付けcT
    潜在拡散のロスを最小化:
    計算量の削減:
    提案手法は入力xではなく、エンコーディングされた潜在変数z
    に対してDiffusion Processを実行する。
    高解像度の画像生成:
    さらに、プロンプトなどの条件に応じた、
    条件付き画像生成の精度を高めるためU-Netベースの
    クロスアテンションを導入。

    View Slide

  11. ・sTを増加させると、画像に適用される編集が
    強くなる(出力がより指示と一致する)
    ・sIを増加させると、入力画像の空間構造を保持す
    るのに役立つ(出力がより入力画像と一致する)
    ※sTは5〜10、sIは1〜1.5程度が最適
    編集指示:彼をサイボーグにする
    ・sIは入力画像との類似性を制御
    ・sTは編集指示との整合性を制御
    画像条件付けcI、テキスト命令条件付けcTによる制御
    入力画像との類似性
    編集指示の影響の強さ

    View Slide

  12. 画像を拡大 火星に移動 ネクタイを青に 人を入れ替える
    失敗例
    様々な芸術的媒体に変身したモナリザ
    新しい文脈と主題を持つ「アダムの創造」
    成功例
    結果:
    視点変更ができない 指定した物体を分離できない 物体同士の再編成や入れ替えが困難

    View Slide

  13. 結論:
    ー適用範囲:
    スタイル、媒体、その他の文脈上の変更を含む、多種多様で魅力的な画像編集
    ー課題:
    物の数を数えることや空間推論に弱い
    (失敗例は、図13に示すとおりである。 )
    例えば、
    「画像の左に移動させる」
    「位置を入れ替える」
    「コップを2つテーブルに置き、1つを椅子に置く」
    ー課題への対応:
    ・人間のフィードバックを取り入れたモデルの改善
    (例)人間ループ強化学習(人工知能 のトレーニング ループに人間を導入し)のような戦略を適用して、
    我々のモデルと人間の意図の間の整合性を向上

    View Slide

  14. 3.トランス推論の効率的なスケーリング
    (原文: Efficiently Scaling Transformer Inference)
    https://arxiv.org/abs/2211.05102v1
    我々は、Transformerモデルのための効率的な生成推論の問題を、その最も困難な設定の1つである、厳しいレイテンシ目標と長い
    シーケンス長を持つ大規模なディープモデルにおいて研究している。大規模なTransformerモデルの推論における工学的トレードオ
    フをより良く理解することは、これらのモデルのユースケースが応用分野全体で急速に増加しているため、重要である。我々は、ア
    プリケーションの要件に基づいて、TPU v4スライスに最適化された最適な多次元分割技術を選択するために、推論効率のためのシ
    ンプルな分析モデルを開発します。これらの技術と低レベルの最適化を組み合わせることで、500B以上のパラメータモデルにおけ
    るレイテンシとモデルFLOPS利用率(MFU)のトレードオフにおいて、FasterTransformerの一連のベンチマークを上回る新しい
    パレートフロンティアを達成しました。さらに、適切なパーティショニングにより、マルチクエリーアテンション(複数のクエリー
    ヘッドが単一のキー/バリューヘッドを共有する)の低いメモリ要件により、32倍のコンテキスト長までスケーリングが可能であ
    ることを示しました。最後に、PaLM 540Bのパラメータモデルで2048トークンという長いコンテキスト長をサポートしながら、
    int8重み量子化を用いたトークン生成時の低バッチサイズレイテンシを29ms/トークンとし、入力トークンの大規模バッチ処理時
    の76%MFUを達成しました。
    目的:大規模モデルの推論コストを効率化する
    成果:PaLM540Bのモデルにおいて低バッチサイズレイテンシ:29ms/トークンと大規模バッチ処理時に76%MFU
    を達成した
    方法:大規模モデルの推論時の要件に適した分割手法の分析モデルを開発した
    固有名:なし
    著者所属:Google

    View Slide

  15. 背景
    https://github.com/google/BIG-bench
    モデルの規模が大きくなるほど、複数ドメインへ対応出来たり、汎用性が向上する
    しかし、以下の課題がある。
    1.規模が大きくなるほど推論コストが増加するトレードオフが存在する
    2.単一のチップで処理しきれないため、複数のチップで処理を分割する必要がある
    →この論文では推論コストをレイテンシー、スループット、モデルFLOPS使用率の観点から計測し、
    TPUv4(GPU関係なし)にて規模の大きいモデルを推論する際の分割の手法を評価する
    ☆主にアーキテクチャの2つの部分を分割することによって高速化した

    View Slide

  16. 分割手法:順伝播層の分割
    チップ数やトークンのサイズによって最適な分割方法が変化する。
    この論文では以下の3種類の分割方法を挙げている。
    ②2D weight-stationary
    ・一固まりのチップごとに重みを分割し、入力
    トークンを固まりごとに移動させる。
    ・①と同様メモリ・演算レイテンシは減少する
    ・①と異なり一固まりごとで重みを共有するこ
    とで通信レイテンシーを効率化
    ③(1D / 2D) weight-gathered
    ・①②と異なり、重みではなく入力トークンを
    分割し、重みをチップ毎/固まり毎で移動させる
    ・バッチサイズ・シーケンス長が大きい場合に
    通信レイテンシーを①②に比べ効率化
    ①1D weight-stationary
    ・チップ数に応じて重みを分割し、入力
    トークンをチップ間で移動させる。
    ・メモリ・演算レイテンシーは減少する
    ・チップ数に応じて通信レイテンシーが
    増加する
    TPU
    重み
    ☆バッチサイズ・シーケンス長が大きい場合有効
    https://cloud.google.com/tpu/
    docs/intro-to-tpu?hl=ja
    ※レイテンシー(latency):アクションとその後の応答の間に経過する時間です。

    View Slide

  17. 評価:PaLM(言語モデル)でのケーススタディ
    条件:
    推論フレームワーク:JAX
    ハードウェア:256 TPU v4
    モデル:PaLM540B
    結果:
    ①2D vs 1D
    チップ数が64コの際はいずれの処理方法でもレイテンシーは95~100ms
    →チップ数が増えるにつれて2Dのレイテンシーが大きく減少する
    →まとまりごと扱ったおかげでレイテンシーが減った
    ②2D Weight Stationary vs 2D Weight Gathered
    2D weight stationaryはバッチサイズによらずMFUが一定だが、
    2D Weight Gatheredはバッチ数が増えるにつれてMFUが向上する
    ※レイテンシー(latency):アクションとその後の応答の間に経過する時間です。
    チップ数
    ※Model Flops Utilization:コンピュータがモデルを利用する計算性能

    View Slide

  18. 分割手法:アテンション層の分割
    アテンション層の分割も順伝播層の分割と同様の手法で可能
    しかしMulti-head attentionを用いて大きいバッチサイズ・長いテキストを推論する場合、
    KVキャッシュを貯める・読み込むコストが非常に大きい
    →そのためMulti-query attentionを代わりに導入した
    K/Vを複製するため
    通信コストを抑える
    ヘッド毎→バッチ毎
    にすることでバッチサイズが大
    きい場合に通信コストを抑える
    Multi-headに比べ赤枠部の処理が増えるが、
    バッチサイズが大きい場合は増加分の処理コス
    トより、削減したメモリの方が非常に大きいた
    め合計のコストは減少する

    View Slide

  19. 評価:FasterTransformerベンチマーク(早いモデル)比較
    比較対象
    ①PaLM540B
    ②Megatron 530B
    ③FasterTransformer 8
    ④FasterTransformer 16
    ⑤FasterTransformer 32
    結果:
    FasterTransformerではTP32が33%MFUにとどまって
    いるにもかかわらず、TP16は44%MFUを達成している
    →テンソル処理の並列数の増加に伴いチップ間通信がボト
    ルネックになっている
    本手法ではレイテンシーが小さいだけでなく、40%MFU
    以上をいずれも達成している。
    レイテンシーは小さいほうがよく、
    MFUは大きいほうが良い
    チップ数を増やしても早くなってない

    View Slide

  20. 4. BLOOM:176Bパラメータオープンアクセス多言語言語モデル
    (原文: BLOOM: A 176B-Parameter Open-Access Multilingual Language Model)
    https://arxiv.org/abs/2211.05100v1
    大規模言語モデル(LLM)は、わずかなデモや自然言語の指示に基づき、新しいタスクを実行できることが示されて
    いる。これらの能力により広く採用されるようになりましたが、ほとんどのLLMはリソースの豊富な組織によって開
    発され、一般には公開されていないことが多いのです。この強力な技術を民主化するための一歩として、何百人もの
    研究者が協力して設計・構築した176Bパラメータのオープンアクセス言語モデル「BLOOM」を紹介します。
    BLOOMはデコーダのみのTransformer言語モデルで、46の自然言語と13のプログラミング言語(合計59)の数百の
    ソースからなるデータセット、ROOTSコーパスで学習されました。BLOOMは、様々なベンチマークにおいて競争力
    のある性能を達成し、マルチタスクによるプロンプトの微調整を経て、より強力な結果を得ることができました。
    LLMを用いた今後の研究と応用を促進するため、我々のモデルとコードをResponsible AI Licenseの下で一般に公開
    しています。
    目的:オープンアクセスできる大規模言語モデル「BLOOM」を紹介する
    成果: 1760億個のパラメータを持つ言語モデル「BLOOM」を公開した
    方法:数百人規模の研究者が協力し、多言語の大規模言語モデルを開発する
    固有名:BLOOM
    著者所属:BigScience, Hugging Face, IDRIS, CNRS, GENCI, 他

    View Slide

  21. 研究背景
    大規模言語モデルの学習コストは高く、資金力のある組織でなければ手を出せなかった。
    最近まで、ほとんどの大規模言語モデルは一般公開されていなかった。
    例: 「GPT-3」や「LaMDA」の言語モデルを一般に利用できるようにしていない(ソースコードもなし)ので、
    外部の研究者は、これらの言語モデルがどのように訓練されているかについてほとんど分かっていない。
    →この論文ではオープンアクセス可能な大規模言語モデル「BLOOM」を紹介する。
    (自由に利用できるように、60か国を超える様々な機関の研究者がボランティアで集まって開発したもので
    できる限り透明性を持つように設計されている)
    ※BLOOMの開発者たちは、この言語モデルがAIの通常の開発方法を根本的に変えることを期待している。
    BLOOMとは
    ・すでに利用可能になっており、ハギング・フェイスのWebサイトから、誰でも無料でダウンロードして研究に
    利用できる。
    ・学習データセット
    46の自然言語と13のプログラミング言語で学習(1.65テラバイト)スパコンで3.5か月間訓練
    ・1760億個のパラメーター(入力データを望ましい出力に変換するための変数)を持つ
    (GPT-3の1750億個のパラメーター数よりも多い)

    View Slide

  22. 5. 敵対的な政策がプロフェッショナルレベルの囲碁AIを打ち負かす
    (原文: Adversarial Policies Beat Professional-Level Go AIs)
    https://arxiv.org/abs/2211.00241v1
    我々は、最先端の囲碁対局AIシステムであるKataGoを、凍結したKataGoの犠牲者と対局する敵対的な政策を訓練す
    ることによって攻撃する。我々の攻撃は、探索を行わないKataGoに対して99%以上の勝率を達成し、KataGoが超人
    に近いほどの探索を行った場合には50%以上の勝率を達成しました。私たちの知る限り、これは人間のトッププロと
    同レベルの囲碁AIに対する初めてのエンド・ツー・エンド攻撃の成功例です。注目すべきは、敵対者がKataGoより
    も優れた碁を打つことを学習して勝ったのではなく、人間のアマチュアにも簡単に勝てるという点です。むしろ、敵
    対者はKataGoをだまして、敵対者に有利な局面で早々にゲームを終了させることによって勝利するのです。この結果
    は、プロレベルのAIシステムであっても、意外な故障モードを持っている可能性があることを示しています。対局の
    例については、https://goattack.alignmentfund.org/ をご覧ください。
    目的:深層強化学習において敵対的ノイズによる脆弱性は存在するかを検証する
    成果:深層強化学習においても脆弱性があることを確認した
    方法:自己学習が最も得意とする囲碁においてSOTAであるKataGoに対してエンド2エンド攻撃を行う
    固有名:Adversarial Monte-Carlo Tree Search Sample/Recursive (A-MCTS-S/A-MCTS-R)
    著者所属:MIT, UC Barkeley, FAR AI

    View Slide

  23. 背景
    深層学習による画像分類器では人間に近い精度を達
    成しているモデルであっても、敵対的ノイズによる
    脆弱性がある。
    https://arxiv.org/pdf/1412.6572.pdf
    囲碁などの推移的ゲームではself-playを用いた深層強化
    学習が用いられ、AlphaGoやKataGoなどプロの囲碁棋
    士に勝つAIが登場している
    self-play:エージェント同士で対戦させて切磋琢磨させ
    ることでエージェントを強くする手法
    →self-playを用いた深層強化学習にも同様の脆弱性はあるのか?
    環境
    方策 方策
    エージェントA エージェントB
    エージェントBは
    Aの方策をコピー
    状態s
    状態s
    行動a
    報酬T
    行動a
    最新強化学習 画像認識AIの脆弱性

    View Slide

  24. 提案手法
    一般的なSelf-playではエージェントは自身の方策ネットワークから相手の候補手をモデリングする
    →しかし、敵対的方策では被害者側のエージェントをモデリングすることは望ましくない
    (単純に強いAIができるため)
    攻撃者は
    ・自分の手番では自分の方策ネットワークを、
    相手の手番では相手の方策ネットワークを相互に先の手を探索する(A-MCTS-S)
    ・ランダムに初期化を行い、勝率が50%を超えたら相手をより強いエージェントに切り替える
    環境
    方策 方策
    攻撃者側 被害者側
    被害者側の方策
    は学習しない
    攻撃者側は自分
    の手番の時のみ
    を学習する
    攻撃者・被害者側
    共にベースはKataGo
    Adversarial MCTS Samples(A-MCTS-S)

    View Slide

  25. 評価:
    ・被害者が探索なしのKataGoの場合、99.8%の勝率を達成した
    ・被害者の探索回数が増えるにつれて攻撃者の方策の勝率は低下する
    ただし、
    ・被害者が探索ありでも攻撃者の探索回数を増やせば、攻撃者の勝率は向上する
    (2048回探索するKataGo(プロでも勝てないレベル)であっても勝率72.6%を達成)
    ・著者(最低級位相当)の素人でもA-MCTS(攻撃者)には勝利できる
    →提案手法は単純に囲碁が強くなっているわけではなく、被害者に対して
    強くなっている。

    View Slide

  26. 評価:
    攻撃者(敵対的方策)の戦略は
    1.攻撃者は4つの角のうち、1つを囲う(10手目~30手目)
    2.攻撃者は被害者の地の内側に石を置く(62手目)
    3.攻撃者は自分の地を完全に囲った後、パスする(77手目)
    →この局面で被害者は優勢と判断出来ているが、パスして
    しまう
    ⇒お互いがパスすると終局するルールで評価しているため
    攻撃者が勝つ
    (取れる石が残っている限りパスしないルールで対局
    させると被害者が全勝している)
    ※この評価手法を含めて問題視されている
    黒:被害者(KataGo)
    白:攻撃者
    30手目
    10手目
    62手目 78手目(終局図)
    30手目
    深層強化学習モデルであってもこのような脆弱性があることが確認できた。
    ⇒金融システムや自動運転車などの高い安全性の求められる
    深層強化学習モデルにも同様の脆弱性があると考えられるため、よりロバストな学習方法を検討すべし

    View Slide

  27. 6.インコンテキストラーニングによるアルゴリズム推論の教育
    (原文: Teaching Algorithmic Reasoning via In-context Learning)
    https://arxiv.org/abs/2211.09066v1
    大規模言語モデル(LLM)は、モデルとデータサイズの拡大により、インコンテキスト学習の能力が向上していること
    を示している。このような進歩にもかかわらず、LLMはまだアルゴリズム推論問題を解決することができない。最終
    的な答えとともに根拠を提供することで、多段階の推論問題においてさらなる改善が見られる一方で、Anilら2022は、
    パリティなどの単純なアルゴリズム推論タスクでさえ、解決にはほど遠いことを示した。本研究では、LLMにアルゴ
    リズム推論をうまく教えるために、(1)アルゴリズムをスキルとして定式化する、(2)複数のスキルを同時に教える
    (スキル蓄積)、(3)スキルを組み合わせる方法を教える(スキル構成)、(4)スキルを道具として使う方法を教える、
    という4段階の鍵を特定し研究している。我々は、アルゴリズムプロンプトと呼ばれる文脈内学習によって、LLMに
    アルゴリズム推論を教えることが可能であることを示す。本アプローチを様々な算術・数量推論タスクで評価し、既
    存のプロンプティング手法よりも性能が大幅に向上することを実証する。特に、ロングパリティ、加算、乗算、減算
    において、既存のベースラインと比較して、それぞれ約10倍、9倍、5倍、2倍のエラー削減を達成した。
    目的:大規模言語言語モデル(LLM)に基本的なアルゴリズムをうまく教えるための手法を提案する
    成果:足し算、掛け算、引き算などの算術タスクで既存手法より大幅に正解率を上げた
    方法:アルゴリズムプロンプトというin-context学習手法を提案する
    固有名:ー
    著者所属:Google Research

    View Slide

  28. プロンプトとは
    言語モデルに入力するテキスト(テキストプロンプト)のこと。
    インコンテキスト学習(In-context learning)とは
    プロンプト内に提示されるいくつかの例からなるプロンプトシーケンスでモデルに条件を付ける学習。
    これは重みの更新を必要とせず、基礎となるモデルの一般性を失わなうことなく、専門スキルを習得する。
    http://ai.stanford.edu/blog/in-context-learning/
    https://signal.diamond.jp/articles/-/1522
    chatGPT

    View Slide

  29. 本研究では
    LLMにアルゴリズムやアルゴリズムの構成をin-context learningにより教える方法を検討する。
    本論文では大規模言語モデル(LLM)にアルゴリズム推定をうまく教えるために以下のステップを踏む。
    (1)アルゴリズムをスキルとして教える
    (2)スキルの蓄積(複数のスキルを同時に教える)
    (3)問題解決のためのツールとしてのスキルの使用

    View Slide

  30. (1)アルゴリズムをスキルとして教える
    既存手法:
    プロンプト情報がモデルに正確な解釈を十分に与えられて
    いない
    ・aはどのような数で構成されているか、bも同様
    ・aとbのの1桁目の足し算、位上げの説明
    ・同様に2桁目、3桁目の足し算の説明を順に含ませる。
    アルゴリズムプロンプト(提案手法)
    学習時:a+b=cのcは5桁までに制限
    テスト時:最大19桁までの問題を解かせる(これはODDと見なせる)
    他の手法と比べ、アルゴリズムプロンプトは非常に長い桁数の足し算でも正解
    率が高い(つまりODD汎化性をもつ→真の基本ルールをうまく学習できている)。
    なお、引き算、掛け算などでも同様に他の手法より最良の結果だった。
    提案手法(アルゴリズムプロンプト):
    自然言語による説明と中間計算の両方を含んでいる
    →論理的解釈を大幅に増やし、その中でアルゴリズムのステップ
    ごとの計算を教える(論理的根拠を含ませる)。
    例題:足し算 a+b = c (a,b,cは正の整数)
    質問と答えのペア
    自然言語による
    根拠(説明)
    中間計算 論理的多様性
    結果:他の手法との比較
    横軸:a+b=cのcの桁数
    縦軸:正解率

    View Slide

  31. LLMがアルゴリズムプロンプトのアルゴリズムに従っているか確認
    1)中間出力ステップの間違いが最終解答の間違いにつながっていること
    →最終解答が正しい問題は中間ステップも全て正しかった
    2)プロンプトの間違いがLLMの推論結果に大きく影響すること
    →プロンプト(答えの根拠となる追加説明)から本当に学習しているならプロンプトの間違いのせいでモデルは
    正しいルールを導き出せないはず
    不規則な誤り:わざとプロンプトの中間計算の一部に間違いを入れた
    系統的な誤り:プロンプトのの全ての中間計算に間違えを入れた
    結果:
    ・不規則な誤りは性能低下が小さかった
    ・系統的な誤りでは精度が0%近くまで低下する
    この結果より、LLMがプロンプトの文脈内で指定されたアルゴリズムに
    従っていることがわかる。

    View Slide

  32. (2)スキルの蓄積(複数のスキルを同時に教える)
    1つ前のステップで 単一アルゴリズムを教えることができることを示した。ここでは複数アルゴリズムを同時に学習し、
    問題を解く際に適用可能なアルゴリズム選択をするモデルの能力を研究する。
    例:足し引き算(足し算と引き算のアルゴリズムは異なる)
    a+b,-a+b,a-b,-a-b
    →LLMは足し算か引き算かで異なる計算経路をたどる能力を示す必要がある。
    ■足し算引き算を組み合わせたアルゴリズムプロンプトの性能
    Single Algo:(1)の足し算のみのためのアルゴリズム
    Comb Algo:足し算と引き算の両方の例を含むプロンプトを指示
    Add-only:足し算のみのタスク(a+b=c)
    Sub-only:引き算のタスク(-a+b,a-b,-a-b)←つまり足し引き算
    Single AlgoとComb Algoの比較
    Single Algo-Add-only :一番高い
    comb Algo-Sub-only:足し算より低い→引き算の方が複雑なアルゴリズムだから
    Comb Algo-Add-only :引算アルゴリズムも加わっているが性能がほぼ変化しない

    View Slide

  33. (3)問題解決のためのツールとしてのスキルの使用
    より大きな数学的推論問題を解けるようにする。
    以下のような問題は、数学的推論ステップと算術計算ステップに分かれる。
    Q: トミーは 3 台のおもちゃの車を持っている。彼の隣人のジェシーも 3 台の車を持っている。ジェシーの兄はトミー とジェシーより5台多く車を持っている。
    3人は合計で何台の車を持っているでしょうか?
    A:トミーとジェシーは3+3=6 台の車を持っています。ジェシーの兄は5+6=11台の車を持っています。合わせて6+11=17台です。答えは17台です。
    データセットGSM8kの例(数学的推論問題:足し算問題)の質問と回答例
    ・数学的推論ステップを行うためのモデルを1つ、算術計算ステップを行うためのモデルを1つ用意する
    ・1つ目のモデルが特定のトークンを出力するように教える
    ・これらのトークンを使い、足し算の質問を抽出して、2つ目のモデルに入力する
    ・2つ目のモデルは足し算アルゴリズムを実行し、答えを1つ目のモデルに返す
    ・1つ目のモデルは残りの問題の解答を続ける。
    実験結果
    GSM8kデータセットで「アルゴリズムプロンプトあり」の方が足し算正解率が高いが
    論理正解率は悪くなっている(特定のトークンを使用することによる干渉)。
    1つ目のモデルが出力する特定のトークン
    アルゴリズム ツールを使用する場合と使用しない場合の GSM8k-Hard Addition データセットの性能
    算術計算ステップ
    数学的推論ステップ

    View Slide

  34. 7.大規模言語モデルは人間レベルのプロンプトエンジニアである
    (原文: Large Language Models Are Human-Level Prompt Engineers)
    https://arxiv.org/abs/2211.01910v1
    大規模言語モデル(LLM)は、自然言語による指示を条件とすることで、汎用コンピュータとして素晴らしい能力を
    発揮してきた。しかし、タスクの性能はモデルの制御に用いるプロンプトの質に大きく依存し、最も効果的なプロン
    プトは人間が手作業で作成してきたものである。我々は、古典的なプログラム合成とプロンプト工学への人間のアプ
    ローチにヒントを得て、命令の自動生成と選択のための自動プロンプトエンジニア(APE)を提案する。本手法では、
    命令を「プログラム」として扱い、LLMによって提案された命令候補のプールを検索し、選択されたスコア関数を最
    大化することで最適化する。選択された命令の品質を評価するために、選択された命令の後に続く別のLLMのゼロ
    ショット性能を評価する。24の自然言語処理タスクで実験を行った結果、我々の自動生成した命令は、従来のLLMの
    ベースラインを大きく上回り、19/24のタスクで人間のアノテータが生成した命令と同等以上の性能を達成すること
    が分かった。また、APEの性能を調べるため、定性的・定量的な分析を行った。また、APEを用いたプロンプトは、
    真実性・情報性の高いモデルへの誘導や、標準的な文脈内学習プロンプトに前置することで数発学習性能を向上させ
    ることが可能であることを示す。私たちのウェブページ(https://sites.google.com/view/automatic-prompt-
    engineer)をご覧ください。
    目的:プロンプト(入力テキスト)の自動生成と選択のための自動プロンプトエンジニア(APE)を提案する
    成果:24の自然言語処理タスクで実験を行った結果、我々の自動生成した命令は、従来のLLMのベースラインを大きく上回った。
    方法:命令を「プログラム」として扱い、LLMによって提案された命令候補のプールを検索し、選択されたスコア関数を最大化することで最適化する。
    固有名:ー
    著者所属:ー

    View Slide

  35. 研究背景
    大規模言語モデル(LLM)は様々なタスクで驚くべき能力を発揮しているが、制御の問題(どうやって望むことをさせるか)がある。
    →この答えは、in-context learningやプロンプトなどがある。
    しかし、平素なプロンプトは常に望ましい結果を出すとは限らないという事実がある。
    例1:Dalle-2 (tex2imageモデル)は、キーワード「artstation」をプロンプトの最後に追加すると、より高品質の画像を生成する
    →これはモデルがデジタルアーティスト向けのポートフォリオサイトであるartstationと高品質な作品を関連付けているため
    例2:「beautiful」という単語の前に「very」の数を増やすと、画像が改善される。
    “A beautiful painting of a mountain next to a waterfall.”と入力したときより以下のようにveryを多く付けたほうが綺麗。
    “A very very very very very very very very very very very very beautiful painting of a mountain next to a waterfall.
    https://www.arinteli.com/what-is-prompt-engineering-and-why-is-it-important/
    このようにユーザ(人)は特定のモデルとプロンプト(入力テキスト)の相性をほとんど知らないため、望ましい結果
    を得るためには様々なプロンプトでの試行錯誤が必要となる(これをプロンプトエンジニアリングという。LLMが高い品質を返すように質問の仕方を工夫すること)。
    →本研究では、LLMを用いて効果的な命令を自動で生成し、選択する新しいアルゴリズムを提案する。

    View Slide

  36. 提案手法:
    LLMを用いて指定タスクに対するプロンプトを自動生成する。
    入力(Q,A)
    input:prove (証明する) output: disprove(反証する)
    input:on output: off
    出力(プロンプト)
    write the antonym of the word(言葉の反意語を書け).
    方法
    2つのLLMを使用する。
    ・プロンプトを提案するプロンプトモデル(LLM)
    ・提案されたプロンプトを点数付けする(ターゲットLLM)
    ①まず複数のプロンプト候補を提案する(プロンプトモデル(LLM))
    ②次に選択したスコア関数に従って候補を絞り込む(ターゲットLLM)
    ③最終的に最もスコアの高いプロンプトを採用する。
    ④再サンプリング(オプション)
    ④再サンプリング(オプション)つづき
    初期候補のサンプリングで適切な高い点数の候補が含まれていないために、適切な提案の集合uを生成できない場合が
    ある。
    →uを再サンプリングするための反復モンテカルロ検索を行う(最初の提案からサンプリングするだけでなく、現在の
    最良の候補を中心に局所的に検索空間を探索する)。

    View Slide

  37. 問題定義
    訓練データセット𝐷𝑡𝑟𝑎𝑖𝑛
    = (𝑄(入力), 𝐴(出力) 𝑛
    とプロンプトモデル(M)を使用する。
    Mにプロンプト𝜌と𝑄(入力),を連結した[𝜌, 𝑄]を入力し、 𝐴(出力)を出力させたい。
    このようなプロンプト𝜌∗を見つけたい。
    LLM
    (プロンプトモデルM)
    プロンプト𝜌
    𝑄(入力)
    𝐴(出力)
    ブラックボックス
    あるサンプル(𝑄, 𝐴)ごとに対するスコア𝑓(𝜌, 𝑄, 𝐴)の
    期待値を最大にするプロンプト𝜌∗を求めたい。
    1.提案の初期分布
    事前学習させたプロンプトモデル(M)を活用し、探索手順の
    指針となるプロンプト候補解の良い集合𝑢を提案する。
    ※点数付けはexecution accuracyかlog probabilityを用いる。
    2-9.効率的なサンプリング
    訓練データセット𝐷𝑡𝑟𝑎𝑖𝑛
    のサブセットでプロンプト候補を
    評価する。点数が高い、高品質な候補には正確な計算を行い
    点数が低い、低品質な候補には計算コストを大幅に削減する

    View Slide

  38. 実験
    ・24の指示誘導タスクについて評価した
    ・各タスクについて、学習データから5つの入出力のペアをサンプリングして提案アルゴリズムを適用し、
    最適なプロンプト(命令)を選択する。そしてInstruct GPT(GPT-3改良版)上でその命令を実行し、命令の品質を評価した。
    24の指示誘導タスク(例)
    APE(提案手法) は、24 個のタスクのうち 24 個すべてで
    人間レベル以上の性能を達成した。
    Greedy:Honovichが提案したアルゴリズム
    探索・選択を持たないAPEとみなせる

    View Slide

  39. 8.ERNIE-ViLG 2.0:テキストから画像への拡散モデルの改良と知識拡張型Mixture-of-Denoising-Expertsの利用
    (原文: ERNIE-ViLG 2.0: Improving Text-to-Image Diffusion Model with Knowledge-Enhanced Mixture-of-
    Denoising-Experts)
    https://arxiv.org/abs/2210.15257v1
    最近の拡散モデルの進歩は、テキストから画像への変換という一般的な技術に革命をもたらした。既存のアプローチ
    は、テキスト条件を持つ写実的な高解像度画像を生成することができるが、解決すべきいくつかの未解決の問題が
    残っており、画像の忠実性とテキストの関連性のさらなる向上を制限している。本論文では、大規模な中国語テキス
    トから画像への拡散モデルであるERNIE-ViLG 2.0を提案し、生成画像の品質を段階的に向上させる〜ことによって。
    (1)シーン内の重要な要素に関するきめ細かいテキストと視覚の知識を取り入れる、(2)異なるノイズ除去ステージで
    異なるノイズ除去専門家を利用する、によって生成画像の品質を段階的に向上させる。ERNIE-ViLG 2.0は、MS-
    COCOにおいてゼロショットFIDスコア6.75を達成しただけでなく、画像忠実度と画像-テキストアライメントの点で、
    最近のモデルを大幅に凌駕しています(バイリンガルプロンプトセットViLG-300の人間評価による)。
    目的:大規模な中国語テキストから画像への拡散モデルであるERNIE-ViLG 2.0を提案
    成果:画像忠実度と画像-テキストアライメントの点で、最近のモデルを大幅に凌駕した
    方法: Mixture-of-Denoising-Experts (MoDE)とKnowledge-Enhanced Diffusion Modelを適用
    固有名:ERNIE-ViLG 2.0
    著者所属:Baidu Inc., China.

    View Slide

  40. 背景:
    画像生成手法の中でも、拡散モデルは、テキストプロンプトを条件とした写実性の高い画像を生成できるため、
    注目されている。
    →しかし、既存の手法による拡散モデルの探求はまだ初期段階にある。
    テキストから画像への拡散モデルの原理と実装を深く掘り下げると、生成される画像の品質をさらに向上させる
    機会がまだ多い。
    既存手法例:
    ・LDM (Rombach et al., 2021),
    ・GLIDE (Nichol et al., 2022),
    ・DALL-E 2 (Ramesh et al., 2022),
    ・Imagen (Saharia et al., 2022) など
    既存手法の特徴:
    テキストプロンプトが与えられると、ガウスノイズを反復的なノイズ除去ステップを経てプロンプトに適合する
    画像に変換する。
    課題:
    各ノイズ除去ステップの学習プロセスにおいて、同一の処理をすると、モデルがシーン内のいくつかの重要な
    要素や相互作用を見逃す可能性がある。
    →その結果、特定の属性を持つ複数のオブジェクトを含むテキストプロンプトに対して、属性混乱問題などのテキス
    トと画像の不整合のリスクに直面する。

    View Slide

  41. 学習段階でテキストと視覚の知識を追加し、拡散モデルのきめ細かな意味認識を強化
    Knowledge-Enhanced Diffusion Model
    Mixture-of-Denoising-Experts (MoDE)
    テキスト側:
    (1)入力シーケンスに特別なトークンを挿入
    (2)注意層で特定の品詞タグを持つトークンの重みを
    増加させて学習過程を改善する。
    画像側:物体認識し、注目すべき領域に重みを付ける
    オリジナルのDDPMでは、タイムステップが異なっても一つのノイズ除去ネットワークを採択
    ⇒タイムステップ毎にノイズ除去ネットワークを使用する。
    ERNIE-ViLG 2.0モデル・アーキテクチャの説明図

    View Slide

  42. A green cup and
    a blue cell phone
    ERNIE-ViLG 2.0
    (提案手法) DALL-E 2 Stable Diffusion
    A wine glass
    on top of a dog
    犬の上に
    ワイングラスが乗っている
    緑のコップと
    青い携帯電話
    ERNIE-ViLG 2.0 と DALL-E 2/Stable Diffusion の ViLG-300 における定性的な比較例
    ViLG-300は、DrawBench (Saharia et al, 2022) (英語)とERNIE-ViLG (Zhang et al, 2021b) (中国語)で使用したプロンプトセットからなる
    16カテゴリー300のプロンプトを含んでいる。これらのプロンプトを手翻訳・校正して、最終的に中英並列セットを実現しました

    View Slide

  43. 9.一つの会場、二つの会議。中国とアメリカの引用ネットワークの分離
    (原文: One Venue, Two Conferences: The Separation of Chinese and American Citation Networks)
    https://arxiv.org/abs/2211.12424v1
    NeurIPSでは、アメリカと中国の研究機関が互いの地域の論文を引用する割合は、内輪で引用する割合よりも大幅に
    少ない。私たちは、この格差を定量化するために引用グラフを作成し、ヨーロッパの連結性と比較し、その原因と結
    果について議論しています。
    目的:米中の研究機関のそれぞれの論文引用数とその出典元の格差の原因と結果を議論する。
    成果:米欧中それぞれの論文出典元の格差の原因について議論した
    方法:米欧中での論文引用数とその出典元の格差のグラフを作成する
    固有名:ー
    著者所属:University of Edinburgh, Allen Institute of A.I., Brown University, New York University

    View Slide

  44. 結果
    中国の論文が他国で引用されない理由
    1.研究対象のトレンドが地域ごとで異なる(主に中国でのトレンドが他の地域に伝わらない)
    2.倫理的な問題に対する取り組みに温度差がある
    例:物体認識データセットDuke-MTMC(防犯カメラ画像)は学生の合意なしにデータ収集をしていたため現在は削除
    ⇔削除されているDuke-MTMCが中国の研究者によっていまだに使用されている
    +清華(せいか)大学では同様のデータセットMarket-1501を作成し、いまだに使用している
    →倫理的な問題からアメリカや欧州は中国のデータを使用しずらい
    どの国も自国の引用が多い
    アメリカの引用が最も多い どの国でもアメリカの引用が多い

    View Slide

  45. 10.対照的な復号化。最適化としての自由形式テキスト生成
    (原文: Contrastive Decoding: Open-ended Text Generation as Optimization)
    https://arxiv.org/abs/2210.15097v1
    尤度は学習損失としては有用であるが、言語モデル(LM)からオープンエンドな生成を導くには不十分な探索目的で
    ある。既存の生成アルゴリズムでは、支離滅裂な可能性の低い文字列と、短くて反復的な可能性の高い文字列の両方
    を避けなければならない。我々は、より信頼性の高い探索目的であるコントラストデコーディング(CD)を提案する。
    これは、大きな言語モデル(玄人と呼ばれる、例えばOPT-13b)と小さな言語モデル(素人と呼ばれる、例えば
    OPT-125m)での尤度の差を返すものである。CDは、大きなLMの失敗は小さなLMでより多く見られるという事実に
    着想を得ており、この違いはまさにどちらのテキストを優先すべきかを示している。CDは学習を必要とせず、大きい
    方のLMだけから復号するよりも高品質のテキストを生成します。また、モデルタイプ(OPTとGPT2)を超えて一般
    化し、自動評価と人間による評価で4つの強力なデコーディングアルゴリズムを大幅に上回った。
    目的:一貫性を損なわず、流暢で多様なオープンエンドテキストを生成するためのアルゴリズムを提案
    成果:高品質なテキストを生成し、自動評価と人間の評価で4つの強力なアルゴリズムを大きく上回った
    方法:対照的復号は異なるサイズの玄人モデル(LM)と素人モデル(LM)の対数尤度の差を最大化するトークンを検索す
    る。これにより高品質なテキストを生成。
    固有名:ー
    著者所属:ー

    View Slide

  46. オープンエンドテキスト生成タスクでは、明確な正解はない。与えられたプロンプトに対して流暢で一貫性のあるテキストを生
    成し、ライティング支援などの下流アプリに使われる。
    →一貫性を損なわず、流暢で多様なテキストを生成できる新しい探索目的である「対照的符号化(CD)」を提案する。
    対照的符号化(CD)
    大きな言語モデル(玄人)と小さな言語モデル(素人)を使用する。素人モデルの望ましくない振る舞いを除去し、玄人モデルの残り
    の良い振る舞いからテキストを生成する。
    →玄人と素人の対数尤度の差を最大にするトークンを選択する
    対照的符号化がうまくいく理由
    ①言語モデルの多くの失敗モード(短い、反復的、支離滅裂)が大きな言語モデルよりも小さな言語モデルでより一般的だから
    このような出力は尤度の差をとることで強調されなくなる。
    ②玄人モデルでは素人モデルで学習されていない知識などを持つものもあり、望ましい出力に確率密度を置く傾向がある。
    これらの文字列はCDによって強調される。
    対数尤度
    小さなモデル
    大きなモデル
    失敗モード
    He was born in Hawaii.
    He was born in Hawaii…
    He was born in Hawaii…
    博識のある文
    1961 to a Kenyan father,
    Barack Hassein Obama
    and a mother of
    American descent,
    Stanley Ann Dunham…
    小さなモデルは誤ったデータ
    サンプルの影響を受けやすい
    →これを差し引くことで望ましくない
    振る舞いを除外する


    View Slide

  47. 対照的符号化の設計
    使用方法:以下のCDを最大化するテキストを生成する。
    (1)𝑣ℎ𝑒𝑎𝑑
    (𝑥<𝑖
    )は閾値以上の確率を持つ尤もらしい入力に続く次のトークン集合
    →この尤度制限に基づいて、玄人モデルの十分に高い確率を持たないトークンを排除する
    誤検出に対応できる:𝑃𝐸𝑋𝑃
    = 3 ∗ 10−9, 𝑃𝐴𝑀𝐴
    = 8 ∗ 10−14などどちらも低い場合は
    log
    𝑃𝐸𝑋𝑃
    𝑃𝐴𝑀𝐴
    = log
    3 ∗ 10−9
    8 ∗ 10−14
    = 10.6
    という大きな値になってしまう。したがって、 𝑃𝐸𝑋𝑃
    の小さなものは排除する。
    (2)残りの玄人モデルの十分に高い確率と素人モデルの差分を使い、
    玄人モデルと素人モデルの確率の差が最も大きいトークンを選択する
    小さなモデル
    大きなモデル
    𝑥: トークン列
    𝑥𝑖
    : 𝑖番目のトークン
    𝑥<𝑖
    :𝑥𝑖
    より前のトークン列
    閾値

    View Slide

  48. 実験
    ・3つのドメイン(wikitext,Wikinews,story)
    ・2つのモデル
    GPT2-XL(玄人モデル)とGPT2-sm all(素人モデル)
    OPT-13b(玄人モデル)とOPT-125m(素人モデル)
    ・比較対象
    4つの符号ベースライン(nucleus sampling, top-k, typical decoding, SimCTG)
    結果
    3つのドメインと2つのモデルにおいて、他の手法よりcoherence※で流暢な文章を生成した
    ※coherenceは、「トピックが人間にとって分かりやすいか」を表す指標
    3つのドメイン

    View Slide

  49. View Slide