論文紹介

Sequence to Sequence Learning with Neural Networks The Microsoft Sentence
Completion Challenge :58.9% accuracy 単語ベクトルを獲得する隠れ層一層のモデルが提案同じ文脈で登場する単語は似た意味を持つという分布仮説をベース学習後に入力重みの行列からある単語に対応する行を取り出すと、その行ベクトルが単語の分散表現になっています。深層学習を用いる自然言語処理では、このように獲得した分散表現が翻訳、要約、対話等の様々なタスクへの入力として用いられます。単語のベクトル表現を使って簡単な代数演算を行うことで答えを得る。 “bigがbiggerに似ているのと同じ意味でsmallに似ている単語は何ですか？”という質問に対して、単語のベクトル表現を使って簡単な代数演算を行うことで、ベクトルX = vector("big" -vector("big") + vector("small")を計算することができる。様々なモデルを用いて得られた単語のベクトル表現の品質を、構文的・意味的言語課題の集合において研究した。 Word2Vecの元となった論文。 CBOW（Continuous Bag-of-Words）モデルとSkip-gramモデルの二つの提案。 Efficient Estimation of Word Representations in Vector Space Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean (Submitted on 16 Jan 2013 (v1), last revised 7 Sep 2013 (this version, v3)) どんなもの？先行研究と比べて何がすごい？技術の手法や肝は？どうやって有効だと検証した？ CBoW 次に読むべき論文は？ Skip-gram skip gram は（ボキャブラリー中の）任意の単語を与えたときに「その周辺に来る単語の確率」を計算し、この確率は、「入力単語に対して関連のある単語」を知ることができる。 skip gramモデルのゴールはモデルそのものの構築ではなく、中間層の重みを獲得すること

Neural Machine Translation by Jointly Learning to Align and Translate
Encoder-DecoderモデルでEncoder、Decorder共に（Long Short-Term Memory）が使用されている。入力→Encoder→Decoder→出力の流れで学習し、EncoderとDecoderは中間層のみを共有している。 Encoderは入力データの圧縮、Decoderは出力データの生成に特化している。文章を入力として文章を出力することができる。例）フランス語→英語長い文章でもうまく機能する。 deep LSTMが標準的なSMTより優ったことを示した。 Seq2seq ディープニューラルネットワーク（DNN）では実現できなかったシーケンス構造に対する仮定を最小限にしたシーケンス学習の一般的なエンドツーエンドアプローチを提示した。 Sequence to Sequence Learning with Neural Networks Ilya Sutskeverl, Oriol Vinyals, Quoc V. Le (Submitted on 10 Sep 2014 (v1), last revised 14 Dec 2014 (this version, v3)) どんなもの？先行研究と比べて何がすごい？技術の手法や肝は？どうやって有効だと検証した？次に読むべき論文は？英語からフランス語への翻訳データセット：WMT-14 BLEU score of 34.8

Attention Is All You Need BLEU Scoreで検証。エンコーダデコーダモデルはencoderへのinputサイズ(この論文では50)の半分を超える長さの文章を学習できないのに対して、Additional Attentionの場合は50単語に近づいても性
能が劣化しない。固定長ベクトルの使用が、この基本的なエンコーダデコーダアーキテクチャの性能を向上させる上でのボトルネックになっていることを推測し、これらの部分をハードセグメントとして明示的に形成することなく、原文の中から目的語の予測に関連する部分を自動的に（ソフトに）探索するモデルを可能にすることによって、これを拡張することを提案した。従来のEncoder-Decoderモデルの弱点である、「Encode結果が固定長であるために、長文を入力すると情報量が圧縮されすぎる」という問題を解決するための機構。「入力と出力のどの単語が関連しているのか」を学習させることで対応している。 Attentionについての論文。固定長ベクトルの使用が、この基本的なエンコーダデコーダアーキテクチャの性能を向上させる上でのボトルネックになっていることを推測し、これらの部分をハードセグメントとして明示的に形成することなく、原文の中から目的語の予測に関連する部分を自動的に（ソフトに）探索するモデルを可能にすることによって、これを拡張することを提案する。 Neural Machine Translation by Jointly Learning to Align and Translate Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio (Submitted on 1 Sep 2014 (v1), last revised 19 May 2016 (this version, v7)) どんなもの？先行研究と比べて何がすごい？技術の手法や肝は？どうやって有効だと検証した？次に読むべき論文は？入力側 xj: j番目の入力単語 hj: j番目の入力に対応する隠れ層入力側はバイディレクショナル RNN になっており、隠れ層には順方向のものと逆方向のものがあります。それぞれ矢印の向きで表現されています。出力側 yt: t番目の出力単語 st : t番目の出力単語に対応する隠れ層 AttentionMechanism αij: i番目の単語に対してj番目の単語が関連している確率もしくは結びつきの強さ

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding WMT
2014の英語からドイツ語への翻訳タスク：28.4 BLEUを達成、アンサンブルを含む既存の最良の結果を2 BLEU以上改善した。 Transformerは基本的な大枠はエンコーダ-デコーダモデルでself-attention層と Position-wise全結合層を使用している。 Self-Attentionを用いている。文中のある単語の意味を理解する時に、文中の単語のどれに注目すれば良いかを表すスコアのこと AttentionとはQuery Q とKey K とValue V の3つのベクトルで計算される。各単語がそれぞれのQueryとKeyとValueのベクトルを持っている。 QueryとKeyでAttentionスコアを計算し、そのAttentionスコアを使ってValueを加重和すると、Attentionを適用した単語の潜在表現が手に入る。短時間の訓練で高いBLEUスコアを達成した。翻訳タスクにおいて、Seq2seq(RNNベースEncoder-Decoderモデル)よりも早くて精度が高い。並列化がかなりしやすく訓練時間が圧倒的に削減できる。 Transformerは他のタスクにも汎用性が高い。 RNNとエンコーダ-デコーダモデルの訓練時に並列処理ができないという大きな欠点を指摘し、RNN や CNN を使わず Attention のみ使用したニューラル機械翻訳 Transformer を提案している． Attention Is All You Need Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin (Submitted on 12 Jun 2017 (v1), last revised 6 Dec 2017 (this version, v5)) どんなもの？先行研究と比べて何がすごい？技術の手法や肝は？どうやって有効だと検証した？次に読むべき論文は？

どんなもの？先行研究と比べて何がすごい？技術の手法や肝は？ BERTの構造どうやって有効だと検証した？次に読むべき論文は？ new state-of-the-art results on
eleven natural language processing tasks, including GLUE:80.5% (7.7%), MultiNLI accuracy 86.7% (4.6%) SQuAD v1.1 question answering Test F1 to 93.2 (1.5 point up) SQuAD v2.0 Test F1 to 83.1 (5.1 point up) マスクされた言語モデル（Masked language model）によって事前学習させる。 my dog is hairy → my dog is [MASK] 次文予測（next sentence prediction）を行う。学習データの2つの文章のうち、後者が50%の確率で前者と無関係な文章に置き換えらる。 IsNext /NotNextで判定をします。入力：[CLS] the man went to [MASK] store [SEP] ／he bought a gallon [MASK] milk [SEP] 判定：IsNext 入力：[CLS] the man went to [MASK] store [SEP]／penguin [MASK] are flight #less birds [SEP] 判定：NotNext 既存手法よりも精度が高い。文法上の構造を理解することができる深い双方向的な表現を可能とした言語表現モデル（ BERT：Bidirectional Encoder Representations from Transformers）の提案。 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova （Submitted on 11 Oct 2018 (v1), last revised 24 May 2019 (this version, v2)) 日付

論文紹介

論文紹介

RYOSUKE FUJII

Other Decks in Education

Featured

Transcript

Sequence to Sequence Learning with Neural Networks The Microsoft Sentence

Neural Machine Translation by Jointly Learning to Align and Translate

Attention Is All You Need BLEU Scoreで検証。エンコーダデコーダモデルはencoderへのinputサイズ(この論文では50)の半分を超える長さの文章を学習できないのに対して、Additional Attentionの場合は50単語に近づいても性

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding WMT

どんなもの？先行研究と比べて何がすごい？技術の手法や肝は？ BERTの構造どうやって有効だと検証した？次に読むべき論文は？ new state-of-the-art results on

論文紹介

論文紹介

RYOSUKE FUJII

Other Decks in Education

Featured

Transcript

Sequence to Sequence Learning with Neural Networks The Microsoft Sentence

Neural Machine Translation by Jointly Learning to Align and Translate

Attention Is All You Need BLEU Scoreで検証。 エンコーダデコーダモデルはencoderへのinputサイズ(この論文では50)の半分を超える長 さの文章を学習できないのに対して、Additional Attentionの場合は50単語に近づいても性

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding WMT

どんなもの？ 先行研究と比べて何がすごい？ 技術の手法や肝は？ BERTの構造 どうやって有効だと検証した？ 次に読むべき論文は？ new state-of-the-art results on

Attention Is All You Need BLEU Scoreで検証。エンコーダデコーダモデルはencoderへのinputサイズ(この論文では50)の半分を超える長さの文章を学習できないのに対して、Additional Attentionの場合は50単語に近づいても性

どんなもの？先行研究と比べて何がすごい？技術の手法や肝は？ BERTの構造どうやって有効だと検証した？次に読むべき論文は？ new state-of-the-art results on