Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介

 論文紹介

Dive into code
Sprint 15

RYOSUKE FUJII

April 06, 2020
Tweet

Other Decks in Education

Transcript

  1. Sequence to Sequence Learning with Neural Networks The Microsoft Sentence

    Completion Challenge :58.9% accuracy 単語ベクトルを獲得する隠れ層一層のモデルが提案 同じ文脈で登場する単語は似た意味を持つという分布仮説をベース学習後に 入力重みの行列からある単語に対応する行を取り出すと、その行ベクトルが 単語の分散表現になっています。深層学習を用いる自然言語処理では、この ように獲得した分散表現が翻訳、要約、対話等の様々なタスクへの入力とし て用いられます。 単語のベクトル表現を使って簡単な代数演算を行うことで答えを得る。 “bigがbiggerに似ているのと同じ意味でsmallに似ている単語は何ですか?”とい う質問に対して、単語のベクトル表現を使って簡単な代数演算を行うこと で、ベクトルX = vector("big" -vector("big") + vector("small")を計算することがで きる。 様々なモデルを用いて得られた単語のベクトル表現の品質を、構文的・意味 的言語課題の集合において研究した。 Word2Vecの元となった論文。 CBOW(Continuous Bag-of-Words)モデルとSkip-gramモデルの二つの提案。 Efficient Estimation of Word Representations in Vector Space Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean (Submitted on 16 Jan 2013 (v1), last revised 7 Sep 2013 (this version, v3)) どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? どうやって有効だと検証した? CBoW 次に読むべき論文は? Skip-gram skip gram は(ボキャブラリー中の)任意の単語を与えたときに「その周辺に 来る単語の確率」を計算し、この確率は、「入力単語に対して関連のある単 語」を知ることができる。 skip gramモデルのゴールはモデルそのものの構築ではなく、中間層の重みを獲 得すること
  2. Neural Machine Translation by Jointly Learning to Align and Translate

    Encoder-DecoderモデルでEncoder、Decorder共に(Long Short-Term Memory)が 使用されている。 入力→Encoder→Decoder→出力の流れで学習し、EncoderとDecoderは中間層の みを共有している。 Encoderは入力データの圧縮、Decoderは出力データの生成に特化している。 文章を入力として文章を出力することができる。 例)フランス語→英語 長い文章でもうまく機能する。 deep LSTMが標準的なSMTより優ったことを示した。 Seq2seq ディープニューラルネットワーク(DNN)では実現できなかったシーケンス構 造に対する仮定を最小限にしたシーケンス学習の一般的なエンドツーエンド アプローチを提示した。 Sequence to Sequence Learning with Neural Networks Ilya Sutskeverl, Oriol Vinyals, Quoc V. Le (Submitted on 10 Sep 2014 (v1), last revised 14 Dec 2014 (this version, v3)) どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? どうやって有効だと検証した? 次に読むべき論文は? 英語からフランス語への翻訳 データセット:WMT-14 BLEU score of 34.8
  3. Attention Is All You Need BLEU Scoreで検証。 エンコーダデコーダモデルはencoderへのinputサイズ(この論文では50)の半分を超える長 さの文章を学習できないのに対して、Additional Attentionの場合は50単語に近づいても性

    能が劣化しない。 固定長ベクトルの使用が、この基本的なエンコーダデコーダアーキテクチャの性能を向 上させる上でのボトルネックになっていることを推測し、これらの部分をハードセグメ ントとして明示的に形成することなく、原文の中から目的語の予測に関連する部分を自 動的に(ソフトに)探索するモデルを可能にすることによって、これを拡張することを 提案した。 従来のEncoder-Decoderモデルの弱点である、「Encode結果が固定長であるために、長文 を入力すると情報量が圧縮されすぎる」という問題を解決するための機構。 「入力と出力のどの単語が関連しているのか」を学習させることで対応している。 Attentionについての論文。 固定長ベクトルの使用が、この基本的なエンコーダデコーダアーキテクチャ の性能を向上させる上でのボトルネックになっていることを推測し、これら の部分をハードセグメントとして明示的に形成することなく、原文の中から 目的語の予測に関連する部分を自動的に(ソフトに)探索するモデルを可能 にすることによって、これを拡張することを提案する。 Neural Machine Translation by Jointly Learning to Align and Translate Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio (Submitted on 1 Sep 2014 (v1), last revised 19 May 2016 (this version, v7)) どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? どうやって有効だと検証した? 次に読むべき論文は? 入力側 xj: j番目の入力単語 hj: j番目の入力に対応する隠れ層 入力側はバイディレクショナル RNN になっており、隠 れ層には順方向のものと逆方向のものがあります。それ ぞれ矢印の向きで表現されています。 出力側 yt: t番目の出力単語 st : t番目の出力単語に対応する隠れ層 AttentionMechanism αij: i番目の単語に対してj番目の単語が関連している確率 もしくは結びつきの強さ
  4. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding WMT

    2014の英語からドイツ語への翻訳タスク:28.4 BLEUを達成、アンサンブ ルを含む既存の最良の結果を2 BLEU以上改善した。 Transformerは基本的な大枠はエンコーダ-デコーダモデルでself-attention層と Position-wise全結合層を使用している。 Self-Attentionを用いている。 文中のある単語の意味を理解する時に、文中の単語のどれに注目すれば良い かを表すスコアのこと AttentionとはQuery Q とKey K とValue V の3つのベクトルで計算される。各単語がそれぞ れのQueryとKeyとValueのベクトルを持っている。 QueryとKeyでAttentionスコアを計算し、そのAttentionスコアを使ってValueを 加重和すると、Attentionを適用した単語の潜在表現が手に入る。 短時間の訓練で高いBLEUスコアを達成した。 翻訳タスクにおいて、Seq2seq(RNNベースEncoder-Decoderモデル)よりも早くて 精度が高い。 並列化がかなりしやすく訓練時間が圧倒的に削減できる。 Transformerは他のタスクにも汎用性が高い。 RNNとエンコーダ-デコーダモデルの訓練時に並列処理ができないという大き な欠点を指摘し、RNN や CNN を使わず Attention のみ使用したニューラル機械 翻訳 Transformer を提案している. Attention Is All You Need Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin (Submitted on 12 Jun 2017 (v1), last revised 6 Dec 2017 (this version, v5)) どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? どうやって有効だと検証した? 次に読むべき論文は?
  5. どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? BERTの構造 どうやって有効だと検証した? 次に読むべき論文は? new state-of-the-art results on

    eleven natural language processing tasks, including GLUE:80.5% (7.7%), MultiNLI accuracy 86.7% (4.6%) SQuAD v1.1 question answering Test F1 to 93.2 (1.5 point up) SQuAD v2.0 Test F1 to 83.1 (5.1 point up) マスクされた言語モデル(Masked language model)によって事前学習させる。 my dog is hairy → my dog is [MASK] 次文予測(next sentence prediction)を行う。学習データの2つの文章のうち、 後者が50%の確率で前者と無関係な文章に置き換えらる。 IsNext /NotNextで判定をします。 入力:[CLS] the man went to [MASK] store [SEP] /he bought a gallon [MASK] milk [SEP] 判定:IsNext 入力:[CLS] the man went to [MASK] store [SEP]/penguin [MASK] are flight #less birds [SEP] 判定:NotNext 既存手法よりも精度が高い。 文法上の構造を理解することができる 深い双方向的な表現を可能とした言語表現モデル( BERT:Bidirectional Encoder Representations from Transformers)の提案。 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova (Submitted on 11 Oct 2018 (v1), last revised 24 May 2019 (this version, v2)) 日付