AI最新論文読み会2022年12月

AI最新論文読み会2022年12月 YAMAHA MOTOR CO.,LTD. ＊Yamamoto Atsushi Saitou Takashi Komaike Kunimune
（文献調査を上記で分担、今回の発表者＊）産業用ロボット| ヤマハ発動機 (yamaha-motor.co.jp) 2022国際ロボット展(iREX2022) - イベント | ヤマハ発動機株式会社 (yamaha-motor.com)

1. 簡単にアクセスできるテキストから画像への変換が、人口統計学的なステレオタイプを大規模に増幅する (原文: Easily Accessible Text-to-Image Generation Amplifies Demographic Stereotypes
at Large Scale) 2. InstructPix2Pix。画像編集の指示に従うことを学ぶ (原文: InstructPix2Pix: Learning to Follow Image Editing Instructions) 3. トランス推論の効率的なスケーリング (原文: Efficiently Scaling Transformer Inference) 4. BLOOM：176Bパラメータオープンアクセス多言語言語モデル (原文: BLOOM: A 176B-Parameter Open-Access Multilingual Language Model) 5.敵対的な政策がプロフェッショナルレベルの囲碁AIを打ち負かす (原文: Adversarial Policies Beat Professional-Level Go AIs) 6.インコンテキストラーニングによるアルゴリズム推論の教育 (原文: Teaching Algorithmic Reasoning via In-context Learning) 7.大規模言語モデルは人間レベルのプロンプトエンジニアである (原文: Large Language Models Are Human-Level Prompt Engineers) 8. ERNIE-ViLG 2.0:テキストから画像への拡散モデルの改良と知識拡張型Mixture-of-Denoising-Expertsの利用 (原文: ERNIE-ViLG 2.0: Improving Text-to-Image Diffusion Model with Knowledge-Enhanced Mixture-of-Denoising-Experts) 9.一つの会場、二つの会議。中国とアメリカの引用ネットワークの分離 (原文: One Venue, Two Conferences: The Separation of Chinese and American Citation Networks) 10.対照的な復号化。最適化としての自由形式テキスト生成 (原文: Contrastive Decoding: Open-ended Text Generation as Optimization) PaperWithCodeの10本を紹介【pickup】 https://ml-ocu.s3-ap-northeast-1.amazonaws.com/arxiv-translation/sanity/2022-11-25-top-social.txt

1.簡単にアクセスできるテキストから画像への変換が、人口統計学的なステレオタイプを大規模に増幅する (原文: Easily Accessible Text-to-Image Generation Amplifies Demographic Stereotypes at
Large Scale) https://arxiv.org/abs/2211.03759v1 機械学習モデルによって、ユーザーが書いたテキスト説明を自然な画像に変換できるようになった。これらのモデルはオンラインで誰でも利用でき、1日に数百万枚の画像を生成するために利用されている。我々はこれらのモデルを調査し、危険で複雑な固定観念を増幅することを発見した。さらに、増幅されたステレオタイプは予測が難しく、ユーザやモデルの所有者によって容易に緩和されないことがわかった。これらの画像生成モデルが、どの程度、ステレオタイプを永続させ、増幅させるのか、また、その大量展開は、深刻な懸念材料である目的：画像生成モデルが利用される際における固定概念への影響を調査する成果：画像生成モデルが利用される際に固定概念を増幅され、またその固定概念の予測が困難であることを確認した方法：生成された画像に固定概念が増幅されることを確認した固有名： - 著者所属：Stanford University, Columbia University, Bocconi University, University of Washington

例2 アメリカ人は立派な車・家アフリカ人はひどい状態の車・簡素な家課題：人種・性別・民族・国籍に言及しない単純な入力テキストがモデルに有害な偏見をもった画像を生成しうる例1「テロリスト」は顎鬚を生やした中東の男性の画像が生成される・画像生成モデルはオンライン画像で学習されており、このような危険なバイアスを持っている・このバイアスを持った画像生成モデルによって一日に何百万もの画像が新たに生み出されている →ユーザ・社会全体が生成された画像に対して
批判的な見方をするよう注意すべき画像生成(text2image) テキストを与えると、そのテキストの内容を描写した画像を描いてくれるAI

2. InstructPix2Pix：画像編集の指示に従うことを学ぶ (原文: InstructPix2Pix: Learning to Follow Image Editing Instructions)
https://arxiv.org/abs/2211.09800v1 我々は、人間の指示から画像を編集する手法を提案する。入力画像と、何をすべきかを指示する文章が与えられると、我々のモデルはその指示に従い画像を編集する。この問題の学習データを得るために、2つの大規模な事前学習済みモデル（言語モデル（GPT- 3）とテキスト-画像モデル（Stable Diffusion））の知識を組み合わせて、画像編集例の大規模データセットを生成する。生成されたデータを用いて学習した条件付き拡散モデルInstructPix2Pixは、推論時に実画像やユーザが書いた指示に対して汎化される。このモデルは、フォワードパスで編集を行い、例ごとの微調整や反転を必要としないため、数秒という速さで画像を編集することができる。また、様々な入力画像と記述された命令に対して、説得力のある編集結果を示す。目的：人間の指示で画像を編集する手法を提案成果：数秒で画像を編集でき、説得力のある編集結果を示す。方法：2つの大規模な事前学習済みモデル（言語モデル：GPT-3とテキスト-画像モデル：Stable Diffusion）の知識を組み合わせて、画像編集例の大規模データセットを生成する。生成されたデータを用いて条件付き拡散モデルInstructPix2Pixで学習する。固有名： InstructPix2Pix 著者所属： University of California, Berkeley

先行研究：・拡散に基づく生成モデルの例 DALL-E 2、 Imagen、 StableDiffusionなど・画像編集のための生成モデルの課題類似のテキストプロンプトが、類似の画像を生成するという保証はない。提案手法：既存のテキストベースの画像編集(入出力画像のテキストラベル、キャプション、説明文)とは異なり
モデルに実行させる動作を指示編集できるようにするものであるこの手法の利点：・ユーザが自然な文章でモデルに何をすべきかを正確に伝えることができる・ユーザは、入出力画像の間で変更したくない部位について余分な情報を提供する必要ない・指示は表現力が豊かで正確、かつ直感的に書くことができるため、ユーザーは変更すべき特定の物体や視覚的属性を容易に特定することができる

手法：（１）テキスト編集指示と編集前後の画像のペア学習データセットを生成し（図2a〜c）、（２）この生成データセットに対して画像編集拡散モデルを学習する（図2d）。『画像編集データセットの生成』と『そのデータセットに対する拡散モデルの学習』という2つの部分から構成 (1)画像編集データセットの生成 (2)そのデータセットに対する拡散モデルの学習

編集指示とペアのキャプション生成編集指示：「彼女にドラゴンに乗ってもらう」編集指示編集されたキャプション入力キャプション出力キャプション：「ドラゴンに乗る少女の写真」入力キャプション：「馬に乗る少女の写真」入力キャプションと出力キャプションのペアを次のステップで使う

ペアキャプションからのペア画像生成・事前に学習したtext2imageモデルを用いて、ペアキャプションを画像に変換する。 Prompt-to-Promptは、2つの画像間の類似性を制御できるパラメータを持っている。対応するキャプションは「馬に乗る少女の写真」と「ドラゴンに乗る少女の写真」課題 text2imageモデルが、条件付けプロンプトの非常に小さな変更であっても、画像の一貫性について保証しない ×馬→ドラゴンに変えてほしいだけなのに他も変わってる
①StableDiffusionはテキストから画像を生成する ②Prompt-to-Promptは入力テキストの一部を修正し、画像の対応箇所だけを編集する解決策(Prompt-to-Prompt) Prompt-to-Prompt を用いた場合

InstructPix2Pix ・生成されたデータセットで、文章から画像を編集する条件付き拡散モデルを学習・大規模なテキスト-画像潜在拡散モデルであるStable Diffusionがベースノイズ潜在量zt、ノイズを予測するネットワークεθ、画像条件付けcI、テキスト命令条件付けcT 潜在拡散のロスを最小化：計算量の削減：提案手法は入力xではなく、エンコーディングされた潜在変数z に対してDiffusion Processを実行する。
高解像度の画像生成：さらに、プロンプトなどの条件に応じた、条件付き画像生成の精度を高めるためU-Netベースのクロスアテンションを導入。

・sTを増加させると、画像に適用される編集が強くなる（出力がより指示と一致する）・sIを増加させると、入力画像の空間構造を保持するのに役立つ（出力がより入力画像と一致する） ※sTは5〜10、sIは1〜1.5程度が最適編集指示：彼をサイボーグにする・sIは入力画像との類似性を制御・sTは編集指示との整合性を制御画像条件付けcI、テキスト命令条件付けcTによる制御入力画像との類似性
編集指示の影響の強さ

画像を拡大火星に移動ネクタイを青に人を入れ替える失敗例様々な芸術的媒体に変身したモナリザ新しい文脈と主題を持つ「アダムの創造」成功例結果: 視点変更ができない
指定した物体を分離できない物体同士の再編成や入れ替えが困難

結論：ー適用範囲：スタイル、媒体、その他の文脈上の変更を含む、多種多様で魅力的な画像編集ー課題：物の数を数えることや空間推論に弱い（失敗例は、図13に示すとおりである。）例えば、「画像の左に移動させる」「位置を入れ替える」
「コップを2つテーブルに置き、1つを椅子に置く」ー課題への対応：・人間のフィードバックを取り入れたモデルの改善（例）人間ループ強化学習（人工知能のトレーニングループに人間を導入し）のような戦略を適用して、我々のモデルと人間の意図の間の整合性を向上

3.トランス推論の効率的なスケーリング (原文: Efficiently Scaling Transformer Inference) https://arxiv.org/abs/2211.05102v1 我々は、Transformerモデルのための効率的な生成推論の問題を、その最も困難な設定の1つである、厳しいレイテンシ目標と長いシーケンス長を持つ大規模なディープモデルにおいて研究している。大規模なTransformerモデルの推論における工学的トレードオフをより良く理解することは、これらのモデルのユースケースが応用分野全体で急速に増加しているため、重要である。我々は、ア
プリケーションの要件に基づいて、TPU v4スライスに最適化された最適な多次元分割技術を選択するために、推論効率のためのシンプルな分析モデルを開発します。これらの技術と低レベルの最適化を組み合わせることで、500B以上のパラメータモデルにおけるレイテンシとモデルFLOPS利用率（MFU）のトレードオフにおいて、FasterTransformerの一連のベンチマークを上回る新しいパレートフロンティアを達成しました。さらに、適切なパーティショニングにより、マルチクエリーアテンション（複数のクエリーヘッドが単一のキー／バリューヘッドを共有する）の低いメモリ要件により、32倍のコンテキスト長までスケーリングが可能であることを示しました。最後に、PaLM 540Bのパラメータモデルで2048トークンという長いコンテキスト長をサポートしながら、 int8重み量子化を用いたトークン生成時の低バッチサイズレイテンシを29ms/トークンとし、入力トークンの大規模バッチ処理時の76%MFUを達成しました。目的：大規模モデルの推論コストを効率化する成果：PaLM540Bのモデルにおいて低バッチサイズレイテンシ：29ms/トークンと大規模バッチ処理時に76％MFU を達成した方法：大規模モデルの推論時の要件に適した分割手法の分析モデルを開発した固有名：なし著者所属：Google

背景 https://github.com/google/BIG-bench モデルの規模が大きくなるほど、複数ドメインへ対応出来たり、汎用性が向上するしかし、以下の課題がある。 1．規模が大きくなるほど推論コストが増加するトレードオフが存在する 2．単一のチップで処理しきれないため、複数のチップで処理を分割する必要がある →この論文では推論コストをレイテンシー、スループット、モデルFLOPS使用率の観点から計測し、 TPUv4(GPU関係なし)にて規模の大きいモデルを推論する際の分割の手法を評価する ☆主にアーキテクチャの2つの部分を分割することによって高速化した

分割手法：順伝播層の分割チップ数やトークンのサイズによって最適な分割方法が変化する。この論文では以下の3種類の分割方法を挙げている。 ②2D weight-stationary ・一固まりのチップごとに重みを分割し、入力トークンを固まりごとに移動させる。・①と同様メモリ・演算レイテンシは減少する・①と異なり一固まりごとで重みを共有することで通信レイテンシーを効率化
③(1D / 2D) weight-gathered ・①②と異なり、重みではなく入力トークンを分割し、重みをチップ毎/固まり毎で移動させる・バッチサイズ・シーケンス長が大きい場合に通信レイテンシーを①②に比べ効率化 ①1D weight-stationary ・チップ数に応じて重みを分割し、入力トークンをチップ間で移動させる。・メモリ・演算レイテンシーは減少する・チップ数に応じて通信レイテンシーが増加する TPU 重み ☆バッチサイズ・シーケンス長が大きい場合有効 https://cloud.google.com/tpu/ docs/intro-to-tpu?hl=ja ※レイテンシー（latency）：アクションとその後の応答の間に経過する時間です。

評価：PaLM(言語モデル)でのケーススタディ条件：推論フレームワーク：JAX ハードウェア：256 TPU v4 モデル：PaLM540B 結果： ①2D vs
1D チップ数が64コの際はいずれの処理方法でもレイテンシーは95~100ms →チップ数が増えるにつれて2Dのレイテンシーが大きく減少する →まとまりごと扱ったおかげでレイテンシーが減った ②2D Weight Stationary vs 2D Weight Gathered 2D weight stationaryはバッチサイズによらずMFUが一定だが、 2D Weight Gatheredはバッチ数が増えるにつれてMFUが向上する ※レイテンシー（latency）：アクションとその後の応答の間に経過する時間です。チップ数 ※Model Flops Utilization:コンピュータがモデルを利用する計算性能

分割手法：アテンション層の分割アテンション層の分割も順伝播層の分割と同様の手法で可能しかしMulti-head attentionを用いて大きいバッチサイズ・長いテキストを推論する場合、 KVキャッシュを貯める・読み込むコストが非常に大きい →そのためMulti-query attentionを代わりに導入した K/Vを複製するため通信コストを抑えるヘッド毎→バッチ毎
にすることでバッチサイズが大きい場合に通信コストを抑える Multi-headに比べ赤枠部の処理が増えるが、バッチサイズが大きい場合は増加分の処理コストより、削減したメモリの方が非常に大きいため合計のコストは減少する

評価：FasterTransformerベンチマーク(早いモデル)比較比較対象 ①PaLM540B ②Megatron 530B ③FasterTransformer 8 ④FasterTransformer 16 ⑤FasterTransformer
32 結果： FasterTransformerではTP32が33%MFUにとどまっているにもかかわらず、TP16は44%MFUを達成している →テンソル処理の並列数の増加に伴いチップ間通信がボトルネックになっている本手法ではレイテンシーが小さいだけでなく、40%MFU 以上をいずれも達成している。レイテンシーは小さいほうがよく、 MFUは大きいほうが良いチップ数を増やしても早くなってない

4. BLOOM：176Bパラメータオープンアクセス多言語言語モデル (原文: BLOOM: A 176B-Parameter Open-Access Multilingual Language Model)
https://arxiv.org/abs/2211.05100v1 大規模言語モデル（LLM）は、わずかなデモや自然言語の指示に基づき、新しいタスクを実行できることが示されている。これらの能力により広く採用されるようになりましたが、ほとんどのLLMはリソースの豊富な組織によって開発され、一般には公開されていないことが多いのです。この強力な技術を民主化するための一歩として、何百人もの研究者が協力して設計・構築した176Bパラメータのオープンアクセス言語モデル「BLOOM」を紹介します。 BLOOMはデコーダのみのTransformer言語モデルで、46の自然言語と13のプログラミング言語（合計59）の数百のソースからなるデータセット、ROOTSコーパスで学習されました。BLOOMは、様々なベンチマークにおいて競争力のある性能を達成し、マルチタスクによるプロンプトの微調整を経て、より強力な結果を得ることができました。 LLMを用いた今後の研究と応用を促進するため、我々のモデルとコードをResponsible AI Licenseの下で一般に公開しています。目的：オープンアクセスできる大規模言語モデル「BLOOM」を紹介する成果： 1760億個のパラメータを持つ言語モデル「BLOOM」を公開した方法：数百人規模の研究者が協力し、多言語の大規模言語モデルを開発する固有名：BLOOM 著者所属：BigScience, Hugging Face, IDRIS, CNRS, GENCI, 他

研究背景大規模言語モデルの学習コストは高く、資金力のある組織でなければ手を出せなかった。最近まで、ほとんどの大規模言語モデルは一般公開されていなかった。例：「GPT-3」や「LaMDA」の言語モデルを一般に利用できるようにしていない(ソースコードもなし)ので、外部の研究者は、これらの言語モデルがどのように訓練されているかについてほとんど分かっていない。 →この論文ではオープンアクセス可能な大規模言語モデル「BLOOM」を紹介する。 (自由に利用できるように、60か国を超える様々な機関の研究者がボランティアで集まって開発したものでできる限り透明性を持つように設計されている) ※BLOOMの開発者たちは、この言語モデルがAIの通常の開発方法を根本的に変えることを期待している。
BLOOMとは・すでに利用可能になっており、ハギング・フェイスのWebサイトから、誰でも無料でダウンロードして研究に利用できる。・学習データセット 46の自然言語と13のプログラミング言語で学習(1.65テラバイト)スパコンで3.5か月間訓練・1760億個のパラメーター(入力データを望ましい出力に変換するための変数)を持つ (GPT-3の1750億個のパラメーター数よりも多い)

5. 敵対的な政策がプロフェッショナルレベルの囲碁AIを打ち負かす (原文: Adversarial Policies Beat Professional-Level Go AIs) https://arxiv.org/abs/2211.00241v1
我々は、最先端の囲碁対局AIシステムであるKataGoを、凍結したKataGoの犠牲者と対局する敵対的な政策を訓練することによって攻撃する。我々の攻撃は、探索を行わないKataGoに対して99%以上の勝率を達成し、KataGoが超人に近いほどの探索を行った場合には50%以上の勝率を達成しました。私たちの知る限り、これは人間のトッププロと同レベルの囲碁AIに対する初めてのエンド・ツー・エンド攻撃の成功例です。注目すべきは、敵対者がKataGoよりも優れた碁を打つことを学習して勝ったのではなく、人間のアマチュアにも簡単に勝てるという点です。むしろ、敵対者はKataGoをだまして、敵対者に有利な局面で早々にゲームを終了させることによって勝利するのです。この結果は、プロレベルのAIシステムであっても、意外な故障モードを持っている可能性があることを示しています。対局の例については、https://goattack.alignmentfund.org/ をご覧ください。目的：深層強化学習において敵対的ノイズによる脆弱性は存在するかを検証する成果：深層強化学習においても脆弱性があることを確認した方法：自己学習が最も得意とする囲碁においてSOTAであるKataGoに対してエンド2エンド攻撃を行う固有名：Adversarial Monte-Carlo Tree Search Sample/Recursive (A-MCTS-S/A-MCTS-R) 著者所属：MIT, UC Barkeley, FAR AI

背景深層学習による画像分類器では人間に近い精度を達成しているモデルであっても、敵対的ノイズによる脆弱性がある。 https://arxiv.org/pdf/1412.6572.pdf 囲碁などの推移的ゲームではself-playを用いた深層強化学習が用いられ、AlphaGoやKataGoなどプロの囲碁棋士に勝つAIが登場している self-play：エージェント同士で対戦させて切磋琢磨させることでエージェントを強くする手法
→self-playを用いた深層強化学習にも同様の脆弱性はあるのか？環境方策方策エージェントA エージェントB エージェントBは Aの方策をコピー状態s 状態s 行動a 報酬T 行動a 最新強化学習画像認識AIの脆弱性

提案手法一般的なSelf-playではエージェントは自身の方策ネットワークから相手の候補手をモデリングする →しかし、敵対的方策では被害者側のエージェントをモデリングすることは望ましくない (単純に強いAIができるため) 攻撃者は・自分の手番では自分の方策ネットワークを、相手の手番では相手の方策ネットワークを相互に先の手を探索する(A-MCTS-S) ・ランダムに初期化を行い、勝率が50%を超えたら相手をより強いエージェントに切り替える環境方策
方策攻撃者側被害者側被害者側の方策は学習しない攻撃者側は自分の手番の時のみを学習する攻撃者・被害者側共にベースはKataGo Adversarial MCTS Samples(A-MCTS-S)

評価：・被害者が探索なしのKataGoの場合、99.8%の勝率を達成した・被害者の探索回数が増えるにつれて攻撃者の方策の勝率は低下するただし、・被害者が探索ありでも攻撃者の探索回数を増やせば、攻撃者の勝率は向上する (2048回探索するKataGo(プロでも勝てないレベル)であっても勝率72.6%を達成) ・著者(最低級位相当)の素人でもA-MCTS(攻撃者)には勝利できる →提案手法は単純に囲碁が強くなっているわけではなく、被害者に対して強くなっている。

評価：攻撃者(敵対的方策)の戦略は 1．攻撃者は4つの角のうち、1つを囲う(10手目~30手目) 2．攻撃者は被害者の地の内側に石を置く(62手目) 3．攻撃者は自分の地を完全に囲った後、パスする(77手目) →この局面で被害者は優勢と判断出来ているが、パスしてしまう ⇒お互いがパスすると終局するルールで評価しているため攻撃者が勝つ (取れる石が残っている限りパスしないルールで対局
させると被害者が全勝している) ※この評価手法を含めて問題視されている黒：被害者(KataGo) 白：攻撃者 30手目 10手目 62手目 78手目(終局図) 30手目深層強化学習モデルであってもこのような脆弱性があることが確認できた。 ⇒金融システムや自動運転車などの高い安全性の求められる深層強化学習モデルにも同様の脆弱性があると考えられるため、よりロバストな学習方法を検討すべし

6.インコンテキストラーニングによるアルゴリズム推論の教育 (原文: Teaching Algorithmic Reasoning via In-context Learning) https://arxiv.org/abs/2211.09066v1 大規模言語モデル(LLM)は、モデルとデータサイズの拡大により、インコンテキスト学習の能力が向上していること
を示している。このような進歩にもかかわらず、LLMはまだアルゴリズム推論問題を解決することができない。最終的な答えとともに根拠を提供することで、多段階の推論問題においてさらなる改善が見られる一方で、Anilら2022は、パリティなどの単純なアルゴリズム推論タスクでさえ、解決にはほど遠いことを示した。本研究では、LLMにアルゴリズム推論をうまく教えるために、(1)アルゴリズムをスキルとして定式化する、(2)複数のスキルを同時に教える（スキル蓄積）、(3)スキルを組み合わせる方法を教える（スキル構成）、(4)スキルを道具として使う方法を教える、という4段階の鍵を特定し研究している。我々は、アルゴリズムプロンプトと呼ばれる文脈内学習によって、LLMにアルゴリズム推論を教えることが可能であることを示す。本アプローチを様々な算術・数量推論タスクで評価し、既存のプロンプティング手法よりも性能が大幅に向上することを実証する。特に、ロングパリティ、加算、乗算、減算において、既存のベースラインと比較して、それぞれ約10倍、9倍、5倍、2倍のエラー削減を達成した。目的：大規模言語言語モデル(LLM)に基本的なアルゴリズムをうまく教えるための手法を提案する成果：足し算、掛け算、引き算などの算術タスクで既存手法より大幅に正解率を上げた方法：アルゴリズムプロンプトというin-context学習手法を提案する固有名：ー著者所属：Google Research

プロンプトとは言語モデルに入力するテキスト（テキストプロンプト）のこと。インコンテキスト学習(In-context learning)とはプロンプト内に提示されるいくつかの例からなるプロンプトシーケンスでモデルに条件を付ける学習。これは重みの更新を必要とせず、基礎となるモデルの一般性を失わなうことなく、専門スキルを習得する。 http://ai.stanford.edu/blog/in-context-learning/ https://signal.diamond.jp/articles/-/1522 chatGPT

本研究では LLMにアルゴリズムやアルゴリズムの構成をin-context learningにより教える方法を検討する。本論文では大規模言語モデル(LLM)にアルゴリズム推定をうまく教えるために以下のステップを踏む。 (1)アルゴリズムをスキルとして教える (2)スキルの蓄積(複数のスキルを同時に教える) (3)問題解決のためのツールとしてのスキルの使用

(1)アルゴリズムをスキルとして教える既存手法：プロンプト情報がモデルに正確な解釈を十分に与えられていない・aはどのような数で構成されているか、bも同様・aとbのの1桁目の足し算、位上げの説明・同様に2桁目、3桁目の足し算の説明を順に含ませる。アルゴリズムプロンプト(提案手法) 学習時：a+b=cのcは5桁までに制限テスト時：最大19桁までの問題を解かせる(これはODDと見なせる)
他の手法と比べ、アルゴリズムプロンプトは非常に長い桁数の足し算でも正解率が高い(つまりODD汎化性をもつ→真の基本ルールをうまく学習できている)。なお、引き算、掛け算などでも同様に他の手法より最良の結果だった。提案手法(アルゴリズムプロンプト)：自然言語による説明と中間計算の両方を含んでいる →論理的解釈を大幅に増やし、その中でアルゴリズムのステップごとの計算を教える(論理的根拠を含ませる)。例題：足し算 a+b = c (a,b,cは正の整数) 質問と答えのペア自然言語による根拠(説明) 中間計算論理的多様性結果：他の手法との比較横軸：a+b=cのcの桁数縦軸：正解率

LLMがアルゴリズムプロンプトのアルゴリズムに従っているか確認 1)中間出力ステップの間違いが最終解答の間違いにつながっていること →最終解答が正しい問題は中間ステップも全て正しかった 2)プロンプトの間違いがLLMの推論結果に大きく影響すること →プロンプト(答えの根拠となる追加説明)から本当に学習しているならプロンプトの間違いのせいでモデルは正しいルールを導き出せないはず不規則な誤り：わざとプロンプトの中間計算の一部に間違いを入れた系統的な誤り：プロンプトのの全ての中間計算に間違えを入れた結果：・不規則な誤りは性能低下が小さかった
・系統的な誤りでは精度が0%近くまで低下するこの結果より、LLMがプロンプトの文脈内で指定されたアルゴリズムに従っていることがわかる。

(2)スキルの蓄積(複数のスキルを同時に教える) 1つ前のステップで単一アルゴリズムを教えることができることを示した。ここでは複数アルゴリズムを同時に学習し、問題を解く際に適用可能なアルゴリズム選択をするモデルの能力を研究する。例：足し引き算(足し算と引き算のアルゴリズムは異なる) a+b,-a+b,a-b,-a-b →LLMは足し算か引き算かで異なる計算経路をたどる能力を示す必要がある。 ▪足し算引き算を組み合わせたアルゴリズムプロンプトの性能 Single Algo:(1)の足し算のみのためのアルゴリズム
Comb Algo:足し算と引き算の両方の例を含むプロンプトを指示 Add-only:足し算のみのタスク(a+b=c) Sub-only:引き算のタスク(-a+b,a-b,-a-b)←つまり足し引き算 Single AlgoとComb Algoの比較 Single Algo-Add-only :一番高い comb Algo-Sub-only:足し算より低い→引き算の方が複雑なアルゴリズムだから Comb Algo-Add-only :引算アルゴリズムも加わっているが性能がほぼ変化しない

(3)問題解決のためのツールとしてのスキルの使用より大きな数学的推論問題を解けるようにする。以下のような問題は、数学的推論ステップと算術計算ステップに分かれる。 Q: トミーは 3 台のおもちゃの車を持っている。彼の隣人のジェシーも 3 台の車を持っている。ジェシーの兄はトミーとジェシーより5台多く車を持っている。
3人は合計で何台の車を持っているでしょうか？ A：トミーとジェシーは3+3=6 台の車を持っています。ジェシーの兄は5+6=11台の車を持っています。合わせて6+11=17台です。答えは17台です。データセットGSM8kの例（数学的推論問題：足し算問題）の質問と回答例・数学的推論ステップを行うためのモデルを１つ、算術計算ステップを行うためのモデルを１つ用意する・1つ目のモデルが特定のトークンを出力するように教える・これらのトークンを使い、足し算の質問を抽出して、2つ目のモデルに入力する・2つ目のモデルは足し算アルゴリズムを実行し、答えを1つ目のモデルに返す・1つ目のモデルは残りの問題の解答を続ける。実験結果 GSM8kデータセットで「アルゴリズムプロンプトあり」の方が足し算正解率が高いが論理正解率は悪くなっている(特定のトークンを使用することによる干渉)。 1つ目のモデルが出力する特定のトークンアルゴリズムツールを使用する場合と使用しない場合の GSM8k-Hard Addition データセットの性能算術計算ステップ数学的推論ステップ

7.大規模言語モデルは人間レベルのプロンプトエンジニアである (原文: Large Language Models Are Human-Level Prompt Engineers) https://arxiv.org/abs/2211.01910v1
大規模言語モデル（LLM）は、自然言語による指示を条件とすることで、汎用コンピュータとして素晴らしい能力を発揮してきた。しかし、タスクの性能はモデルの制御に用いるプロンプトの質に大きく依存し、最も効果的なプロンプトは人間が手作業で作成してきたものである。我々は、古典的なプログラム合成とプロンプト工学への人間のアプローチにヒントを得て、命令の自動生成と選択のための自動プロンプトエンジニア（APE）を提案する。本手法では、命令を「プログラム」として扱い、LLMによって提案された命令候補のプールを検索し、選択されたスコア関数を最大化することで最適化する。選択された命令の品質を評価するために、選択された命令の後に続く別のLLMのゼロショット性能を評価する。24の自然言語処理タスクで実験を行った結果、我々の自動生成した命令は、従来のLLMのベースラインを大きく上回り、19/24のタスクで人間のアノテータが生成した命令と同等以上の性能を達成することが分かった。また、APEの性能を調べるため、定性的・定量的な分析を行った。また、APEを用いたプロンプトは、真実性・情報性の高いモデルへの誘導や、標準的な文脈内学習プロンプトに前置することで数発学習性能を向上させることが可能であることを示す。私たちのウェブページ（https://sites.google.com/view/automatic-prompt- engineer）をご覧ください。目的：プロンプト(入力テキスト)の自動生成と選択のための自動プロンプトエンジニア（APE）を提案する成果：24の自然言語処理タスクで実験を行った結果、我々の自動生成した命令は、従来のLLMのベースラインを大きく上回った。方法：命令を「プログラム」として扱い、LLMによって提案された命令候補のプールを検索し、選択されたスコア関数を最大化することで最適化する。固有名：ー著者所属：ー

研究背景大規模言語モデル(LLM)は様々なタスクで驚くべき能力を発揮しているが、制御の問題(どうやって望むことをさせるか)がある。 →この答えは、in-context learningやプロンプトなどがある。しかし、平素なプロンプトは常に望ましい結果を出すとは限らないという事実がある。例1:Dalle-2 (tex2imageモデル)は、キーワード「artstation」をプロンプトの最後に追加すると、より高品質の画像を生成する →これはモデルがデジタルアーティスト向けのポートフォリオサイトであるartstationと高品質な作品を関連付けているため例2:「beautiful」という単語の前に「very」の数を増やすと、画像が改善される。 “A
beautiful painting of a mountain next to a waterfall.”と入力したときより以下のようにveryを多く付けたほうが綺麗。 “A very very very very very very very very very very very very beautiful painting of a mountain next to a waterfall. https://www.arinteli.com/what-is-prompt-engineering-and-why-is-it-important/ このようにユーザ(人)は特定のモデルとプロンプト(入力テキスト)の相性をほとんど知らないため、望ましい結果を得るためには様々なプロンプトでの試行錯誤が必要となる(これをプロンプトエンジニアリングという。LLMが高い品質を返すように質問の仕方を工夫すること)。 →本研究では、LLMを用いて効果的な命令を自動で生成し、選択する新しいアルゴリズムを提案する。

提案手法： LLMを用いて指定タスクに対するプロンプトを自動生成する。入力(Q,A) input:prove (証明する) output: disprove(反証する) input:on output: off
出力(プロンプト) write the antonym of the word(言葉の反意語を書け). 方法 2つのLLMを使用する。・プロンプトを提案するプロンプトモデル(LLM) ・提案されたプロンプトを点数付けする(ターゲットLLM) ①まず複数のプロンプト候補を提案する(プロンプトモデル(LLM)) ②次に選択したスコア関数に従って候補を絞り込む(ターゲットLLM) ③最終的に最もスコアの高いプロンプトを採用する。 ④再サンプリング(オプション) ④再サンプリング(オプション)つづき初期候補のサンプリングで適切な高い点数の候補が含まれていないために、適切な提案の集合uを生成できない場合がある。 →uを再サンプリングするための反復モンテカルロ検索を行う(最初の提案からサンプリングするだけでなく、現在の最良の候補を中心に局所的に検索空間を探索する)。

問題定義訓練データセット𝐷𝑡𝑟𝑎𝑖𝑛 = (𝑄(入力), 𝐴(出力) 𝑛 とプロンプトモデル(M)を使用する。 Mにプロンプト𝜌と𝑄(入力),を連結した[𝜌, 𝑄]を入力し、 𝐴(出力)を出力させたい。
このようなプロンプト𝜌∗を見つけたい。 LLM (プロンプトモデルM) プロンプト𝜌 𝑄(入力) 𝐴(出力) ブラックボックスあるサンプル(𝑄, 𝐴)ごとに対するスコア𝑓(𝜌, 𝑄, 𝐴)の期待値を最大にするプロンプト𝜌∗を求めたい。 1.提案の初期分布事前学習させたプロンプトモデル(M)を活用し、探索手順の指針となるプロンプト候補解の良い集合𝑢を提案する。 ※点数付けはexecution accuracyかlog probabilityを用いる。 2－9.効率的なサンプリング訓練データセット𝐷𝑡𝑟𝑎𝑖𝑛 のサブセットでプロンプト候補を評価する。点数が高い、高品質な候補には正確な計算を行い点数が低い、低品質な候補には計算コストを大幅に削減する

実験・24の指示誘導タスクについて評価した・各タスクについて、学習データから5つの入出力のペアをサンプリングして提案アルゴリズムを適用し、最適なプロンプト(命令)を選択する。そしてInstruct GPT(GPT-3改良版)上でその命令を実行し、命令の品質を評価した。 24の指示誘導タスク(例) APE(提案手法) は、24 個のタスクのうち 24
個すべてで人間レベル以上の性能を達成した。 Greedy:Honovichが提案したアルゴリズム探索・選択を持たないAPEとみなせる

8.ERNIE-ViLG 2.0:テキストから画像への拡散モデルの改良と知識拡張型Mixture-of-Denoising-Expertsの利用 (原文: ERNIE-ViLG 2.0: Improving Text-to-Image Diffusion Model with
Knowledge-Enhanced Mixture-of- Denoising-Experts) https://arxiv.org/abs/2210.15257v1 最近の拡散モデルの進歩は、テキストから画像への変換という一般的な技術に革命をもたらした。既存のアプローチは、テキスト条件を持つ写実的な高解像度画像を生成することができるが、解決すべきいくつかの未解決の問題が残っており、画像の忠実性とテキストの関連性のさらなる向上を制限している。本論文では、大規模な中国語テキストから画像への拡散モデルであるERNIE-ViLG 2.0を提案し、生成画像の品質を段階的に向上させる〜ことによって。 (1)シーン内の重要な要素に関するきめ細かいテキストと視覚の知識を取り入れる、(2)異なるノイズ除去ステージで異なるノイズ除去専門家を利用する、によって生成画像の品質を段階的に向上させる。ERNIE-ViLG 2.0は、MS- COCOにおいてゼロショットFIDスコア6.75を達成しただけでなく、画像忠実度と画像-テキストアライメントの点で、最近のモデルを大幅に凌駕しています（バイリンガルプロンプトセットViLG-300の人間評価による）。目的：大規模な中国語テキストから画像への拡散モデルであるERNIE-ViLG 2.0を提案成果：画像忠実度と画像-テキストアライメントの点で、最近のモデルを大幅に凌駕した方法： Mixture-of-Denoising-Experts (MoDE)とKnowledge-Enhanced Diffusion Modelを適用固有名：ERNIE-ViLG 2.0 著者所属：Baidu Inc., China.

背景：画像生成手法の中でも、拡散モデルは、テキストプロンプトを条件とした写実性の高い画像を生成できるため、注目されている。 →しかし、既存の手法による拡散モデルの探求はまだ初期段階にある。テキストから画像への拡散モデルの原理と実装を深く掘り下げると、生成される画像の品質をさらに向上させる機会がまだ多い。既存手法例: ・LDM (Rombach et
al., 2021), ・GLIDE (Nichol et al., 2022), ・DALL-E 2 (Ramesh et al., 2022), ・Imagen (Saharia et al., 2022) など既存手法の特徴：テキストプロンプトが与えられると、ガウスノイズを反復的なノイズ除去ステップを経てプロンプトに適合する画像に変換する。課題：各ノイズ除去ステップの学習プロセスにおいて、同一の処理をすると、モデルがシーン内のいくつかの重要な要素や相互作用を見逃す可能性がある。 →その結果、特定の属性を持つ複数のオブジェクトを含むテキストプロンプトに対して、属性混乱問題などのテキストと画像の不整合のリスクに直面する。

学習段階でテキストと視覚の知識を追加し、拡散モデルのきめ細かな意味認識を強化 Knowledge-Enhanced Diffusion Model Mixture-of-Denoising-Experts (MoDE) テキスト側：（1）入力シーケンスに特別なトークンを挿入（2）注意層で特定の品詞タグを持つトークンの重みを増加させて学習過程を改善する。
画像側：物体認識し、注目すべき領域に重みを付けるオリジナルのDDPMでは、タイムステップが異なっても一つのノイズ除去ネットワークを採択 ⇒タイムステップ毎にノイズ除去ネットワークを使用する。 ERNIE-ViLG 2.0モデル・アーキテクチャの説明図

A green cup and a blue cell phone ERNIE-ViLG 2.0
(提案手法) DALL-E 2 Stable Diffusion A wine glass on top of a dog 犬の上にワイングラスが乗っている緑のコップと青い携帯電話 ERNIE-ViLG 2.0 と DALL-E 2/Stable Diffusion の ViLG-300 における定性的な比較例 ViLG-300は、DrawBench (Saharia et al, 2022) (英語)とERNIE-ViLG (Zhang et al, 2021b) (中国語)で使用したプロンプトセットからなる 16カテゴリー300のプロンプトを含んでいる。これらのプロンプトを手翻訳・校正して、最終的に中英並列セットを実現しました

9.一つの会場、二つの会議。中国とアメリカの引用ネットワークの分離 (原文: One Venue, Two Conferences: The Separation of Chinese
and American Citation Networks) https://arxiv.org/abs/2211.12424v1 NeurIPSでは、アメリカと中国の研究機関が互いの地域の論文を引用する割合は、内輪で引用する割合よりも大幅に少ない。私たちは、この格差を定量化するために引用グラフを作成し、ヨーロッパの連結性と比較し、その原因と結果について議論しています。目的：米中の研究機関のそれぞれの論文引用数とその出典元の格差の原因と結果を議論する。成果：米欧中それぞれの論文出典元の格差の原因について議論した方法：米欧中での論文引用数とその出典元の格差のグラフを作成する固有名：ー著者所属：University of Edinburgh, Allen Institute of A.I., Brown University, New York University

結果中国の論文が他国で引用されない理由 1．研究対象のトレンドが地域ごとで異なる(主に中国でのトレンドが他の地域に伝わらない) 2．倫理的な問題に対する取り組みに温度差がある例:物体認識データセットDuke-MTMC(防犯カメラ画像)は学生の合意なしにデータ収集をしていたため現在は削除 ⇔削除されているDuke-MTMCが中国の研究者によっていまだに使用されている＋清華(せいか)大学では同様のデータセットMarket-1501を作成し、いまだに使用している →倫理的な問題からアメリカや欧州は中国のデータを使用しずらいどの国も自国の引用が多いアメリカの引用が最も多い
どの国でもアメリカの引用が多い

10.対照的な復号化。最適化としての自由形式テキスト生成 (原文: Contrastive Decoding: Open-ended Text Generation as Optimization) https://arxiv.org/abs/2210.15097v1
尤度は学習損失としては有用であるが、言語モデル（LM）からオープンエンドな生成を導くには不十分な探索目的である。既存の生成アルゴリズムでは、支離滅裂な可能性の低い文字列と、短くて反復的な可能性の高い文字列の両方を避けなければならない。我々は、より信頼性の高い探索目的であるコントラストデコーディング（CD）を提案する。これは、大きな言語モデル（玄人と呼ばれる、例えばOPT-13b）と小さな言語モデル（素人と呼ばれる、例えば OPT-125m）での尤度の差を返すものである。CDは、大きなLMの失敗は小さなLMでより多く見られるという事実に着想を得ており、この違いはまさにどちらのテキストを優先すべきかを示している。CDは学習を必要とせず、大きい方のLMだけから復号するよりも高品質のテキストを生成します。また、モデルタイプ（OPTとGPT2）を超えて一般化し、自動評価と人間による評価で4つの強力なデコーディングアルゴリズムを大幅に上回った。目的：一貫性を損なわず、流暢で多様なオープンエンドテキストを生成するためのアルゴリズムを提案成果：高品質なテキストを生成し、自動評価と人間の評価で4つの強力なアルゴリズムを大きく上回った方法：対照的復号は異なるサイズの玄人モデル(LM)と素人モデル(LM)の対数尤度の差を最大化するトークンを検索する。これにより高品質なテキストを生成。固有名：ー著者所属：ー

オープンエンドテキスト生成タスクでは、明確な正解はない。与えられたプロンプトに対して流暢で一貫性のあるテキストを生成し、ライティング支援などの下流アプリに使われる。 →一貫性を損なわず、流暢で多様なテキストを生成できる新しい探索目的である「対照的符号化（CD)」を提案する。対照的符号化(CD) 大きな言語モデル(玄人)と小さな言語モデル(素人)を使用する。素人モデルの望ましくない振る舞いを除去し、玄人モデルの残りの良い振る舞いからテキストを生成する。 →玄人と素人の対数尤度の差を最大にするトークンを選択する対照的符号化がうまくいく理由 ①言語モデルの多くの失敗モード(短い、反復的、支離滅裂)が大きな言語モデルよりも小さな言語モデルでより一般的だからこのような出力は尤度の差をとることで強調されなくなる。
②玄人モデルでは素人モデルで学習されていない知識などを持つものもあり、望ましい出力に確率密度を置く傾向がある。これらの文字列はCDによって強調される。対数尤度小さなモデル大きなモデル失敗モード He was born in Hawaii. He was born in Hawaii… He was born in Hawaii… 博識のある文 1961 to a Kenyan father, Barack Hassein Obama and a mother of American descent, Stanley Ann Dunham… 小さなモデルは誤ったデータサンプルの影響を受けやすい →これを差し引くことで望ましくない振る舞いを除外する ① ②

対照的符号化の設計使用方法：以下のCDを最大化するテキストを生成する。 (1)𝑣ℎ𝑒𝑎𝑑 (𝑥<𝑖 )は閾値以上の確率を持つ尤もらしい入力に続く次のトークン集合 →この尤度制限に基づいて、玄人モデルの十分に高い確率を持たないトークンを排除する誤検出に対応できる：𝑃𝐸𝑋𝑃 = 3 ∗
10−9, 𝑃𝐴𝑀𝐴 = 8 ∗ 10−14などどちらも低い場合は log 𝑃𝐸𝑋𝑃 𝑃𝐴𝑀𝐴 = log 3 ∗ 10−9 8 ∗ 10−14 = 10.6 という大きな値になってしまう。したがって、 𝑃𝐸𝑋𝑃 の小さなものは排除する。 (2)残りの玄人モデルの十分に高い確率と素人モデルの差分を使い、玄人モデルと素人モデルの確率の差が最も大きいトークンを選択する小さなモデル大きなモデル 𝑥: トークン列 𝑥𝑖 : 𝑖番目のトークン 𝑥<𝑖 :𝑥𝑖 より前のトークン列閾値

実験・3つのドメイン(wikitext,Wikinews,story) ・2つのモデル GPT2-XL(玄人モデル)とGPT2-sm all(素人モデル) OPT-13b(玄人モデル)とOPT-125m(素人モデル) ・比較対象 4つの符号ベースライン（nucleus sampling, top-k,
typical decoding, SimCTG）結果 3つのドメインと2つのモデルにおいて、他の手法よりcoherence※で流暢な文章を生成した ※coherenceは、「トピックが人間にとって分かりやすいか」を表す指標３つのドメイン

AI最新論文読み会2022年12月

AI最新論文読み会2022年12月

医療AI研究所@大阪公立大学

More Decks by 医療AI研究所@大阪公立大学

Other Decks in Science

Featured

Transcript

AI最新論文読み会2022年12月 YAMAHA MOTOR CO.,LTD. ＊Yamamoto Atsushi Saitou Takashi Komaike Kunimune

1. 簡単にアクセスできるテキストから画像への変換が、人口統計学的なステレオタイプを大規模に増幅する (原文: Easily Accessible Text-to-Image Generation Amplifies Demographic Stereotypes

1.簡単にアクセスできるテキストから画像への変換が、人口統計学的なステレオタイプを大規模に増幅する (原文: Easily Accessible Text-to-Image Generation Amplifies Demographic Stereotypes at

2. InstructPix2Pix：画像編集の指示に従うことを学ぶ (原文: InstructPix2Pix: Learning to Follow Image Editing Instructions)

画像を拡大火星に移動ネクタイを青に人を入れ替える失敗例様々な芸術的媒体に変身したモナリザ新しい文脈と主題を持つ「アダムの創造」成功例結果: 視点変更ができない

評価：PaLM(言語モデル)でのケーススタディ条件：推論フレームワーク：JAX ハードウェア：256 TPU v4 モデル：PaLM540B 結果： ①2D vs

評価：FasterTransformerベンチマーク(早いモデル)比較比較対象 ①PaLM540B ②Megatron 530B ③FasterTransformer 8 ④FasterTransformer 16 ⑤FasterTransformer

4. BLOOM：176Bパラメータオープンアクセス多言語言語モデル (原文: BLOOM: A 176B-Parameter Open-Access Multilingual Language Model)

5. 敵対的な政策がプロフェッショナルレベルの囲碁AIを打ち負かす (原文: Adversarial Policies Beat Professional-Level Go AIs) https://arxiv.org/abs/2211.00241v1

7.大規模言語モデルは人間レベルのプロンプトエンジニアである (原文: Large Language Models Are Human-Level Prompt Engineers) https://arxiv.org/abs/2211.01910v1

提案手法： LLMを用いて指定タスクに対するプロンプトを自動生成する。入力(Q,A) input:prove (証明する) output: disprove(反証する) input:on output: off

問題定義訓練データセット𝐷𝑡𝑟𝑎𝑖𝑛 = (𝑄(入力), 𝐴(出力) 𝑛 とプロンプトモデル(M)を使用する。 Mにプロンプト𝜌と𝑄(入力),を連結した[𝜌, 𝑄]を入力し、 𝐴(出力)を出力させたい。

8.ERNIE-ViLG 2.0:テキストから画像への拡散モデルの改良と知識拡張型Mixture-of-Denoising-Expertsの利用 (原文: ERNIE-ViLG 2.0: Improving Text-to-Image Diffusion Model with

A green cup and a blue cell phone ERNIE-ViLG 2.0

9.一つの会場、二つの会議。中国とアメリカの引用ネットワークの分離 (原文: One Venue, Two Conferences: The Separation of Chinese

10.対照的な復号化。最適化としての自由形式テキスト生成 (原文: Contrastive Decoding: Open-ended Text Generation as Optimization) https://arxiv.org/abs/2210.15097v1

実験・3つのドメイン(wikitext,Wikinews,story) ・2つのモデル GPT2-XL(玄人モデル)とGPT2-sm all(素人モデル) OPT-13b(玄人モデル)とOPT-125m(素人モデル) ・比較対象 4つの符号ベースライン（nucleus sampling, top-k,