Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AI最新論文読み会2022年3月

 AI最新論文読み会2022年3月

874ff503a00697a857e198a0ebb8f55f?s=128

ai.labo.ocu

March 02, 2022
Tweet

More Decks by ai.labo.ocu

Other Decks in Education

Transcript

  1. AI最新論文読み会2022年3月 SaitoMasaaki

  2. 自己紹介 最初、文字認識ソフト。 仕事では、推薦機能付きWEB作成が最初、その後画像AIが多い

  3. アジェンダ Archive Sanity (arxiv-sanity.com) からピックアップ した、arxiv.org の過去1ヶ月間の論文紹介。 ・一番気になった論文の紹介 ・top recentの論文トップ10

    リスト ・top hype の論文トップ10 リスト
  4. Archive Sanity? https://www.arxiv-sanity.com/top

  5. 目次

  6. Top10 Recent 1. LaMDA:対話アプリケーションのための言語モデル 2. VOS:仮想外れ値合成で「知らないこと」を学ぶ 3. Omnivore:一つのモデルで多くの視覚モダリティに対応 4. ETSformer:時系列予測のための指数平滑化トランスフォーマー

    5. Diversify and Disambiguate:不特定多数のデータからの学習 6. 自然言語生成のための典型的なデコーディング 7. たった2040枚の画像で視覚トランスフォーマーを育成 8. パッチがあれば大丈夫? 9. UniFormer:畳み込みと自己主張を統合した視覚認識システム 10. Block-NeRF:スケーラブルな大規模シーンのニューラルビュー合成
  7. • 1. Block-NeRF:スケーラブルな大規模シーン ニューラルビュー合成 Pickup • 2. VOS:仮想外れ値合成で「知らないこと」を学ぶ • 3.

    CLIPasso:意味的に認識されたオブジェクト スケッチ • 4. LaMDA:対話アプリケーション ため 言語モデル • 5. ディープラーニング 現代数学 • 6. 信頼性 測定か人相学 自動化か?A Comment on Safra, Chevallier, Grèzes, and Baumard (2020) • 7. StyleGAN-XL:StyleGANを大規模で多様なデータセットに拡張する • 8. SelfRecon:単眼映像からデジタル・アバターを自己再構築する技術 • 9. 訓練されたコンボリューション 訓練されたトランスフォーマーよりも優れているか? • 10. From data to functa: データポイント 関数であり、関数 ように扱うべきです。
  8. Pickup論文

  9. 10. Block-NeRF:スケーラブルな大規模シーンのニューラルビュー合成 (原文: Block-NeRF: Scalable Large Scene Neural View Synthesis)

    http://arxiv.org/abs/2202.05263v1 本研究では、大規模な環境を表現できるNeural Radiance Fieldsの一種であるBlock-NeRFを発表する。具体 的には、複数のブロックにまたがる都市規模のシーンをレンダリングするためにNeRFを拡張する場合、 シーンを個別に学習されたNeRFに分解することが重要であることを実証しました。この分解により、レ ンダリング時間とシーンサイズが切り離され、任意の大きさの環境へのレンダリングが可能になり、ブ ロックごとの環境の更新が可能になります。異なる環境条件の下で数ヶ月にわたって撮影されたデータ に対してNeRFがロバストになるように、いくつかのアーキテクチャ上の変更を採用しました。個々の NeRFに、外見の埋め込み、学習によるポーズの微調整、制御可能な露出を追加し、隣接するNeRF間の 外見を整える手順を導入して、シームレスに結合できるようにしました。そして、280万枚の画像から Block-NeRFのグリッドを構築し、サンフランシスコの近隣地域全体をレンダリングできる、これまでで 最大のニューラルシーン表現を作成した。 →
  10. None
  11. None
  12. None
  13. None
  14. None
  15. None
  16. None
  17. None
  18. None
  19. None
  20. Top recent: Best10

  21. 1. LaMDA:対話アプリケーションのための言語モデル (原文: LaMDA: Language Models for Dialog Applications) http://arxiv.org/abs/2201.08239v3

    私たちはLaMDAを紹介します。Language Models for Dialog Applicationsです。LaMDAは、対話に特化した Transformerベースのニューラル言語モデルのファミリーであり、最大137Bのパラメータを持ち、1.56T ワードの公開対話データとウェブテキストで事前学習されている。モデルのスケーリングだけでは品質 を向上させることができますが、安全性や事実に基づく根拠についてはあまり改善が見られません。本 論文では、注釈付きのデータを用いて微調整を行い、モデルが外部の知識ソースを参照できるようにす ることで、安全性と事実に基づく根拠という2つの重要な課題に対して大幅な改善をもたらすことを示 した。1つ目の課題である「安全性」とは、モデルの応答が、有害な提案や不当な偏見の防止など、一 連の人間の価値観と一致することを保証することです。安全性は、人間の価値観の例示に基づいた指標 を用いて定量化し、クラウドワーカーが注釈をつけた少量のデータで微調整したLaMDA分類器を用いて 回答候補をフィルタリングすることが、モデルの安全性を向上させる有望なアプローチであることがわ かりました。2つ目の課題であるファクトグラウンディングでは、モデルが情報検索システムや言語翻 訳機、計算機などの外部の知識源を参照できるようにします。本研究では、事実に基づいているかどう かを根拠づけ指標で定量化し、モデルが、単にもっともらしいと思われる回答ではなく、既知の情報源 に基づいた回答を生成できることを明らかにしました。最後に、教育やコンテンツ推薦の領域での LaMDAの使用を検討し、その有用性と役割の一貫性を分析した。 →
  22. None
  23. None
  24. None
  25. None
  26. None
  27. None
  28. None
  29. 2. VOS:仮想外れ値合成で「知らないこと」を学ぶ (原文: VOS: Learning What You Don't Know by

    Virtual Outlier Synthesis)http://arxiv.org/abs/2202.01197v3 OOD(Out-of-Distribution)検出は、ニューラルネットワークを安全に展開する上で重要であるため、最 近注目されています。しかし、モデルには未知のデータからの監視信号がないため、OODデータに対し て過信した予測を行ってしまうことが課題となっています。これまでのアプローチでは、モデルの正則 化のために実際の外れ値データセットに依存していましたが、これはコストがかかり、実際には入手で きないこともありました。本論文では、学習中にモデルの決定境界を正則化できる仮想外れ値を適応的 に合成することで、OODを検出する新しいフレームワークであるVOSを紹介します。具体的には、VOS は、特徴空間で推定されたクラス条件付き分布の低尤度領域から仮想外れ値をサンプリングする。また, IDデータと合成された外れ値データとの間の不確実性空間を対照的に形成する,新しい未知を考慮した 学習目的を導入している.VOSは、物体検出モデルと画像分類モデルの両方で最先端の性能を達成し、 従来の最良の手法と比較して、FPR95を最大7.87%削減しました。コードは https://github.com/deeplearning-wisc/vos で公開しています。 →
  30. None
  31. None
  32. None
  33. None
  34. None
  35. None
  36. 4. E former:時系列予測 ため 指数平滑化トランスフォーマー(Exponential moothing ransformers for im- series

    Forecasting (原文: E former: Exponential moothing ransformers for ime-series Forecasting) http://arxiv.org/abs/2202.01381v1 トランスフォーマー 近年、時系列予測 ために盛んに研究されている。しかし、従来 トランスフォーマー 、時 系列データ 特性を十分に活用するように設計されていないため、分解能力や解釈性に欠けるなど、いくつか 根 本的な限界があり、長期的な予測に 有効でも効率的でもありませんでした。本論文で 、時系列予測 ため ト ランスフォーマーを改良するために、指数平滑化 原理を利用した新しい時系列トランスフォーマーアーキテクチャ であるE Formerを提案します。特に、時系列予測における古典的な指数平滑化法にヒントを得て、新しい指数平 滑化注目(E A)と周波数注目(FA)を提案し、バニラ・トランスフォーマー 自己注目メカニズムを置き換えることで、 精度と効率 両方を向上させる。これらに基づいて、モジュール式分解ブロックを用いて ransformer アーキテク チャを再設計し、時系列データをレベル、成長、季節性など 解釈可能な時系列コンポーネントに分解することを学 習できるようにした。様々な時系列ベンチマークを用いた広範な実験により、提案手法 有効性と利点を検証する。 また、実装したコードとモデルを公開する予定です。
  37. 3. Omnivore:一つのモデルで多くの視覚モダリティに対応 (原文: Omnivore: A Single Model for Many Visual

    Modalities)http://arxiv.org/abs/2201.08377v1 これまでの研究では、異なる視覚モダリティを個別に研究し、画像、動画、3Dデータの認識用に別々の アーキテクチャを開発してきました。そこで本稿では,画像,動画,単視点の3Dデータを,全く同じモ デルパラメータで分類することができる単一のモデルを提案する.我々の「Omnivore」モデルは、変換 器ベースのアーキテクチャの柔軟性を活用し、異なるモダリティの分類タスクで共同で学習されます。 Omnivoreモデルは、学習が簡単で、既製の標準データセットを使用し、同じサイズのモダリティ別モデ ルと同等以上の性能を発揮します。Omnivoreモデルは、ImageNetでは86.0%、Kineticsでは84.1%、SUN RGB-Dでは67.1%を獲得しています。微調整の後、我々のモデルは様々な視覚タスクにおいて先行研究を 上回り、モダリティを超えて一般化する。Omnivoreは視覚表現を共有しているため、モダリティ間の対 応関係を知らなくても、クロスモダリティ認識が可能です。私たちの結果が、研究者が視覚モダリティ を一緒にモデル化する動機となることを願っています。 →
  38. None
  39. None
  40. None
  41. None
  42. None
  43. None
  44. None
  45. None
  46. 4. ETSformer:時系列予測のための指数平滑化トランスフォーマー (Exponential Smoothing Transformers for Tim-series Forecasting( 原文: ETSformer:

    Exponential Smoothing Transformers for Time-series Forecasting) http://arxiv.org/abs/2202.01381v1 トランスフォーマーは近年、時系列予測のために盛んに研究されている。しかし、従来のトランス フォーマーは、時系列データの特性を十分に活用するように設計されていないため、分解能力や解釈性 に欠けるなど、いくつかの根本的な限界があり、長期的な予測には有効でも効率的でもありませんでし た。本論文では、時系列予測のためのトランスフォーマーを改良するために、指数平滑化の原理を利用 した新しい時系列トランスフォーマーアーキテクチャであるETSFormerを提案します。特に、時系列予 測における古典的な指数平滑化法にヒントを得て、新しい指数平滑化注目(ESA)と周波数注目(FA) を提案し、バニラ・トランスフォーマーの自己注目メカニズムを置き換えることで、精度と効率の両方 を向上させる。これらに基づいて、モジュール式分解ブロックを用いてTransformerのアーキテクチャを 再設計し、時系列データをレベル、成長、季節性などの解釈可能な時系列コンポーネントに分解するこ とを学習できるようにした。様々な時系列ベンチマークを用いた広範な実験により、提案手法の有効性 と利点を検証する。また、実装したコードとモデルを公開する予定です。 →
  47. None
  48. None
  49. None
  50. None
  51. 5. Diversify and Disambiguate:不特定多数のデータからの学習 (原文: Diversify and Disambiguate: Learning From

    Underspecified Data)http://arxiv.org/abs/2202.03418v1 多くのデータセットはアンダースペックであり,これはそのデータに対して同じように実行可能なソ リューションが複数存在することを意味する.このようなデータセットは、単一の仮説を学習する手法 にとって問題となる。なぜならば、低い学習損失を達成した異なる関数は、異なる予測特徴に焦点を当 てることができるため、分布外のデータでは予測が大きく変化するからである。我々が提案するDivDis は、シンプルな2段階のフレームワークであり、まず、テスト分布からのラベルなしデータを活用して、 タスクに対する多様な仮説のコレクションを学習する。次に、ラベルの追加や関数の可視化などの最小 限の追加監視を用いて、発見された仮説の1つを選択することで曖昧さを解消する。DivDisは、画像分類 や自然言語処理の問題において、ロバストな特徴を利用した仮説を発見できることを実証しています。 →
  52. None
  53. None
  54. None
  55. 6. 自然言語生成のための典型的なデコーディング (原文: Typical Decoding for Natural Language Generation) http://arxiv.org/abs/2202.00666v2

    今日の言語モデルは、無数の自然言語コーパスで驚くほど低いパープレキシティを達成しているにもか かわらず、テキスト生成に使用すると性能不足になることがあります。この二律背反は、ここ数年、言 語生成コミュニティの頭を悩ませてきた。本研究では、自然言語をコミュニケーション・チャネルとし て抽象化することで、確率的言語生成の動作に新たな知見を与えることができると考えている。例えば、 高確率テキストがなぜ退屈で反復的になるのか、などである。人間は情報伝達の手段として言語を使用 し、効率的かつエラーを最小限に抑えるために、(おそらく無意識のうちに)この目標を念頭に置いて 文字列の各単語を選択します。私たちは、確率モデルからの生成がこのような行動を模倣するべきであ ると提案します。常に分布の高確率領域(シャノン情報量が少ない)から単語を選択するのではなく、 期待値に近い情報量を持つ単語の集合、すなわちモデルの条件付きエントロピーに近いものからサンプ リングするのである。この判断基準は、典型的なサンプリングと呼ばれる簡単で効率的な実装によって 実現できる。自動評価および人間による評価の結果,核酸やtop-kサンプリングと比較して,typicalサン プリングは品質の面で競争力のある性能を発揮し,退化した繰り返しの数を一貫して削減できることが わかった。 →
  56. None
  57. None
  58. None
  59. 7. たった2040枚の画像で視覚トランスフォーマーを育成 (原文: Training Vision Transformers with Only 2040 Images)

    http://arxiv.org/abs/2201.10728v1 Vision Transformers(ViTs)は、畳み込みニューラルネットワーク(CNN)に代わる視覚認識技術として 注目されている。ViTsはCNNと同等の結果を得ることができるが、一般的な畳み込みニューラルネット ワークの帰納的バイアスがないため、一般的なCNNよりもデータ量が多くなる。また、JFT-300Mや少な くともImageNetで事前学習されることが多く、限られたデータでViTsを学習することを研究している作 品は少ない。本論文では,限られたデータ(例:2040枚の画像)でViTを学習する方法を検討する.パ ラメトリックインスタンス判別に基づいた我々の手法は,特徴の整合性とインスタンスの類似性の両方 を捉えることができるという点で,他の手法よりも優れていることを理論的に示した.様々なViTバッ クボーンを持つ7つの小データセットを用いてゼロから学習したところ、最先端の結果を得ることがで きた。また、小データセットの転送能力を調査し、小データセットから学習した表現が大規模な ImageNetの学習を改善することさえできることを発見した。 →
  60. None
  61. None
  62. None
  63. 8. パッチがあれば大丈夫?(原文: Patches Are All You Need?)http://arxiv.org/abs/2201.09792v1 畳み込みネットワークは、長年にわたって視覚タスクの主要なアーキテクチャとなってきましたが、最 近の実験では、Vision Transformer(ViT)に代表されるTransformerベースのモデルが、いくつかの設定で

    その性能を上回る可能性が示されています。しかし、Transformerの自己注目層の実行時間が2次関数的 であるため、ViTは、より大きな画像サイズに適用するために、画像の小さな領域を単一の入力特徴に まとめるパッチ埋め込みを使用する必要があります。ここで疑問が生じます。ViTsの性能は、本質的に 強力なTransformerアーキテクチャによるものなのか、それとも入力表現としてパッチを使用しているこ とが少なくとも部分的には影響しているのか?具体的には、ConvMixerを提案します。ConvMixerは非常 にシンプルなモデルで、パッチを入力として直接操作し、空間次元とチャネル次元の混合を分離し、 ネットワーク全体のサイズと解像度を等しく保つという点で、ViTやさらに基本的なMLP-Mixerと精神的 に似ています。一方、ConvMixerでは、標準的な畳み込みを用いて混合ステップを実現しています。そ のシンプルさにもかかわらず、ConvMixerは、ViT、MLP-Mixer、およびそれらのいくつかのバリエーショ ンを、同様のパラメータ数とデータセットサイズで上回り、さらにResNetのような古典的なビジョンモ デルを上回ることを示しています。我々のコードは、https://github.com/locuslab/convmixer。 →
  64. None
  65. None
  66. None
  67. 9. UniFormer:畳み込みと自己主張を統合した視覚認識システム (原文: UniFormer: Unifying Convolution and Self-attention for Visual

    Recognition) http://arxiv.org/abs/2201.09450v1 局所的な冗長性と複雑なグローバルな依存性があるため、画像やビデオから識別表現を学習することは 困難な課題である。畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、こ こ数年で主流となったフレームワークである。CNNは、小さな近傍での畳み込みにより、局所的な冗長 性を効率的に減らすことができるが、受容野が限られているため、大域的な依存性を捉えることが難し い。一方、ViTは自己注意によって長距離依存性を効果的に捉えることができるが、すべてのトークン 間のブラインド類似性比較は高い冗長性をもたらす。これらの問題を解決するために、我々は新しい Unified transFormer (UniFormer)を提案します。典型的な変換器ブロックとは異なり、UniFormerブロック の関係アグリゲータは、浅い層と深い層でそれぞれローカルおよびグローバルなトークンアフィニティ を備えており、効率的かつ効果的な表現学習のために冗長性と依存性の両方に取り組むことができます。 最後に、UniFormerブロックを柔軟に積み重ねて新しい強力なバックボーンとし、画像からビデオまで、 また分類から密な予測まで、さまざまなビジョンタスクに採用しています。訓練データを追加すること なく、UniFormerはImageNet-1Kの分類で86.3のトップ1精度を達成しました。例えば、Kinetics-400/600で は82.9/84.8トップ1精度、Something-Something V1/V2ビデオ分類タスクでは60.9/71.2トップ1精度、COCO 物体検出タスクでは53.8ボックスAPと46.4マスクAP、ADE20Kセマンティックセグメンテーションタスク では50.8mIoU、COCO姿勢推定タスクでは77.4APを達成しています。コードは https://github.com/Sense- X/UniFormer で公開しています。 →
  68. None
  69. None
  70. None
  71. None
  72. Top hype: Best10

  73. 3. CLIPasso:意味的に認識されたオブジェクトのスケッチ(原文: CLIPasso: Semantically-Aware Object Sketching)http://arxiv.org/abs/2202.05822v1 線画はシンプルで最小限の性質を持つため、抽象化はスケッチの中心となります。抽象化には、オブ ジェクトやシーンの本質的な視覚的特性を特定することが必要であり、そのためには意味的な理解と高 レベルの概念の予備知識が必要です。そのため、抽象的な描写はアーティストにとって困難であり、機 械にとってはなおさらである。本研究では、幾何学的および意味論的な単純化により、さまざまなレベ

    ルの抽象度を達成できるオブジェクトスケッチ法を提案する。スケッチ生成手法は、学習のために明示 的なスケッチデータセットに依存することが多いが、我々はCLIP(Contrastive-Language-Image- Pretraining)の優れた能力を利用して、スケッチや画像から同様に意味的な概念を抽出する。スケッチ をB¥'ezier曲線の集合として定義し、微分可能なラスタライザを用いて、CLIPベースの知覚的損失に関し て、曲線のパラメータを直接最適化する。スケッチの抽象度は,ストローク数を変化させることで制御 する.生成されたスケッチは,対象物の認識可能性,基本的な構造,および本質的な視覚的構成要素を 維持しながら,複数のレベルの抽象化を示している. →
  74. None
  75. None
  76. None
  77. None
  78. None
  79. None
  80. None
  81. None
  82. None
  83. 5. ディープラーニングの現代数学 (原文: The Modern Mathematics of Deep Learning) http://arxiv.org/abs/2105.04026v1

    深層学習の数学的解析という新しい分野について説明します。この分野は、古典的な学習理論の枠組み の中では答えられなかった研究課題のリストに基づいて生まれた。これらの疑問は、オーバーパラメト リックなニューラルネットワークの優れた一般化能力、深層アーキテクチャにおける深さの役割、次元 の呪いが明らかにないこと、問題が非凸であるにもかかわらず最適化が驚くほどうまくいくこと、どの ような特徴が学習されるかを理解すること、なぜ深層アーキテクチャが物理的な問題で例外的にうまく いくのか、アーキテクチャのどの細かい側面が学習タスクの動作にどのように影響するのか、などであ る。本論文では、これらの問題に対する部分的な回答を得るための最新のアプローチの概要を紹介しま す。厳選されたアプローチについては、主要なアイデアをより詳細に説明する。 →
  84. None
  85. None
  86. 6. 信頼性の測定か人相学の自動化か? A Comment on Safra, Chevallier, Grèzes, and Baumard

    (2020)(原文: Measuring Trustworthiness or Automating Physiognomy? A Comment on Safra, Chevallier, Grèzes, and Baumard (2020)) http://arxiv.org/abs/2202.08674v1 対人信頼とは、他の個人に対する信頼性と脆弱性の表示を共有することであり、人間社会の発展に役 立っていると考えられる。Safra, Chevallier, Gr¥`ezes, and Baumard(2020)は、顔の特徴に基づいて歴史 上の肖像画の信頼度評価を生成する機械学習(ML)アルゴリズムを用いて、対人信頼の歴史的変遷を 研究しました。彼らは、紀元前1500年から2000年の間に描かれた肖像画の信頼度評価が時間とともに上 昇していることを報告し、これは社会の進歩を示すいくつかの指標と一致した対人信頼の広範な増加を 示していると主張しました。私たちは、これらの主張にはいくつかの方法論的・分析的な問題があり、 Safraらのアルゴリズムと人相学の疑似科学との間の厄介な類似点を強調しています。これらの問題の意 味するところと、現実の世界で起こりうる結果について、さらに詳しく説明します。 →
  87. None
  88. • 7. StyleGAN-XL:StyleGANを大規模で多様なデータセットに拡張する • (原文: StyleGAN-XL: Scaling StyleGAN to Large

    Diverse Datasets) • http://arxiv.org/abs/2202.00273v1 • コンピュータグラフィックスで 、フォトリアリスティックでコントロール可能なコンテンツ制作 た めに、データを中心としたアプローチが近年盛んに行われています。特にStyleGAN 、画質と制 御性に関する生成モデリング 新しい基準となっています。しかし、ImageNet ような大規模な 非構造化データセットで 、StyleGAN 性能 著しく低下します。StyleGAN 制御性を重視して 設計されているため、先行研究で 、そ 制限的な設計が多様なデータセットに適さないと疑わ れています。これに対し、我々 現在 学習戦略が主な制限要因であると考えています。最近 導入されたProjected GANパラダイムに従い、強力なニューラルネットワークプライアとプログレッ シブグロウイング戦略を活用して、ImageNet上で最新 StyleGAN3ジェネレーター トレーニン グに成功しました。我々 最終モデルであるStyleGAN-XL 、大規模な画像合成に関する新しい 最先端を設定し、こ ようなデータセット規模で$1024^2$ 解像度 画像を生成した最初 モ デルです。こ モデル 、肖像画や特定 オブジェクトクラスという狭い領域を超えて、画像を反 転・編集できることを実証しています。
  89. None
  90. None
  91. None
  92. None
  93. None
  94. • 8. SelfRecon:単眼映像からデジタル・アバターを自己再構築する技術 • (原文: SelfRecon: Self Reconstruction Your Digital

    Avatar from Monocular Video) • http://arxiv.org/abs/2201.12792v1 • 我々 ,単眼で自己回転している人間 映像から時空間コヒーレントな幾何学的形状を復元す るために,暗黙的な表現と明示的な表現を組み合わせた服を着た人間 体 再構成法 SelfReconを提案する.明示的手法で 、与えられたシーケンスに対して事前に定義されたテン プレート・メッシュを必要としますが、一方でテンプレート 特定 被写体に対して取得すること が困難です。また,固定されたトポロジーにより,再構成 精度や衣服 種類が制限される.暗 黙的手法 、任意 トポロジーをサポートし、連続的な幾何学的表現により高品質を実現します。 しかし、マルチフレーム情報を統合して、下流 アプリケーション ために一貫したレジストレー ション・シーケンスを生成すること 困難である。我々 、両方 表現 利点を組み合わせるこ とを提案する。明示的なメッシュ 差分マスクロスを利用して、全体的にまとまった形状を得る一 方で、微分可能なニューラルレンダリングを用いて暗黙的な表面 詳細を精緻化します。一方、 明示的なメッシュ 、そ トポロジー 変化を調整するために定期的に更新され、両方 表現を 密接にマッチさせるために一貫性損失が設計されます。既存 手法と比較して、SelfRecon 、 任意 服を着た人間 高忠実度な表面を、自己教師付き 最適化によって生成することができ ます。広範な実験結果により、実際に撮影された単眼動画でそ 有効性が実証されています。
  95. None
  96. None
  97. None
  98. None
  99. • 9. 訓練されたコンボリューション 訓練されたトランスフォーマーよりも優れているか? • (原文: Are Pre-trained Convolutions Better

    than Pre-trained Transformers?) • http://arxiv.org/abs/2105.03322v2 • 事前に学習された言語モデル 時代に 、モデルアーキテクチャとしてTransformerが事実上 選択肢となっています。最近 研究で 、完全な畳み込み(CNN)アーキテクチャに期待が寄せ られていますが、事前学習-微調整 パラダイムで 検討されていませんでした。言語モデル 文脈で 、畳み込みモデル 、事前学習されたTransformerに対抗できる か?本論文で 、こ 研究課題を調査し、いくつか 興味深い結果を示します。8つ データセット/タスクを対象とし た広範な実験 結果、CNNベース 事前学習済みモデル 、注意点 あるも 、特定 シナ リオにおいてTransformer対応モデルと競合し、それを上回ることがわかりました。全体として、本 稿で得られた知見 、事前学習とアーキテクチャ 進歩を混同して考える 誤りであり、両者 進歩 独立して考えるべきであることを示唆している。また、今回 研究により、オルタナティ ブ・アーキテクチャーに対して健全な楽観的見方ができるようになったと考えています。
  100. None
  101. • 10. From data to functa: データポイント 関数であり、関数 ように扱うべきです。 •

    (原文: From data to functa: Your data point is a function and you should treat • it like one) • http://arxiv.org/abs/2201.12204v1 • 深層学習で 、世界 測定値を離散的なグリッド、例え ピクセル 2Dグリッドで表現する が 一般的です。しかし、これら 測定値で表される基本的な信号 、例え 画像に描かれたシー ン ように連続的であることが多い。連続的な代替手段として、暗黙的なニューラル表現を用い てこれら 測定値を表現することができます。これ 、任意 入力空間位置に対して適切な測 定値を出力するように訓練されたニューラル関数です。こ 論文で 、こ アイデアを次 レベ ルに引き上げます。つまり、これら 関数をデータとして扱い、代わりに深層学習を実行するに 何が必要な か?ここで 、データを「functa」と呼び、functaに対する深層学習 フレーム ワークを提案しています。こ 考え方で 、データからファンクタへ 効率的な変換、ファンクタ コンパクトな表現、ファンクタ上で 下流 タスク 効率的な解決など、多く 課題があります。 本研究で 、これら 課題を克服するため 方法を説明し、画像、3D形状、神経放射場(NeRF)、 多様体上 データなど、幅広いデータモダリティに適用します。特に、生成モデリング、データイ ンピュテーション、新しいビュー 合成、分類など 典型的なタスクにおいて、こ アプローチが データモダリティに関わらず、様々な魅力的な特性を持つことを実証する。
  102. None
  103. None
  104. None
  105. None
  106. None
  107. None
  108. None
  109. DeepL Translator (deepl.com) https://www.deepl.com/en/translator