文献紹介_201910_Do Neural NLP Models Know Numbers? Probing Numeracy in Embeddings

- 文献紹介 2019 Oct. 28 - Do Neural NLP Models
Know Numbers? Probing Numeracy in Embeddings 長岡技術科学大学  自然言語処理研究室  多田太郎 

About the paper 2 Authors： Conference：　　EMNLP2019 (https://arxiv.org/abs/1909.07940)

Abstract ・複雑な推論タスクでは、数字を理解して扱うことが重要・現在、ほとんどのNLPモデルは、テキスト内の数値を他のトークンと同じ方法で処理・数値推論が含まれるタスクのSOTAモデルを検証 →数値をどう扱うのが良いのか調査 3

Introduction ・既存のモデルは複雑な推論を行なうことができない（特に数値）・最近のいくつかのデータ・セットには数値の比較やソート等を必要とする例が含まれる・最初のステップとして数値の大小関係を理解する必要がある　ex. 「23」が「twenty-two」より大きい値を表すこと・既存のニューラルモデルがどのくらい、どのように数値について学習しているか調査 4

Numeracy Case Study: DROP QA 5 数値推論を必要とするタスクを用いて既存モデルを検証・DROP Dataset：カウント、ソート、加算などの数値推論が含まれる
・モデル： NAQANet (Dua et al., 2019) 　※DROPのSOTAモデル数値の大きさや、明示的な比較を実行するための補助コンポーネントは含まれていない計算能力を必要とする質問、比較の質問と最上級を答える質問に焦点を当てる

Numeracy Case Study: DROP QA 6 DROP Datasetの一例

Numeracy Case Study: DROP QA 7 比較および最上級の質問　大小関係、どちらかなど（DROP Dataset のvalidation
set をフィルタリングし使用）

Numeracy Case Study: DROP QA 8 さっきの例だと、、、 Which player had
a touchdown longer than 20 yards? （1）すべてのタッチダウン距離を抽出（2）20ヤード超え（3）タッチダウンしたプレーヤー複数の手順が必要となるタスクで精度低　→タスク自体が難しい

Numeracy Case Study: DROP QA 9 NAQANetによって正しく回答された例（最上級の質問）結構出来てる！！

Numeracy Case Study: DROP QA 10 どこまで出来るのか？ストレステスト・大きい数値：　正のランダムな整数を生成し、その値を各パラグラフの数値に乗算または加算・単語形式：
　パラグラフ内のすべての数字を置き換え（例：「75」→「seventy-five」）　DROP内の数値は小さいため、範囲[0, 100]の整数の単語置換で実施

Numeracy Case Study: DROP QA 11

Numeracy Case Study: DROP QA 12 トレーニング範囲内の数値をよく理解している？（しかし範囲に依存？）

Numeracy Case Study: DROP QA 13 NAQANetは、期待以上の数値推論機能を備えていた　→この精度を可能にするものは何か？結果はモデルが以下２点を学習できることを示している　比較アルゴリズム
　質問と回答（教師データ）のみから数値の読み取りと理解数値情報のソースはトークンの埋め込み　→つまりNAQANetモデルの文字レベルの畳み込みとGloVeの埋め込み　→これらの埋め込みについて調査

Probing Numeracy of Embeddings 14 数について評価するために3つのタスクを実施

Probing Numeracy of Embeddings 15 Training and Evaluation ・トレーニング範囲内の値での精度をみる・最初に範囲を選択し（実験毎に範囲指定）、指定整数の範囲をシャッフル
・80％をトレーニングセット、20％をテストセットに分割

Probing Numeracy of Embeddings 16 文字レベルの精度高 BERTが大きいレンジで精度低サブワード手法
の影響？数値の値がそのまま埋め込み表現の値　　　↓ 大きいレンジだと精度低

Probing Numeracy of Embeddings 17 Pre-trainedで精度高

Probing Numeracy of Embeddings 18

Probing Numeracy of Embeddings 19 BERTの結果が低い　→sub-word piece による影響の可能性あり word2vecとGloVeは、OOVがあるため、
浮動小数点ではテストしない

Probing Numeracy of Embeddings 20 NAQANet の実験でトレーニング範囲外の値に苦労している結果がみられた　→NAQANet 特性か、一般的な問題か？トレーニングの範囲外の値に対して実験を行い検証
冒頭のNAQANetでの実験結果の解析

Probing Numeracy of Embeddings 21 トレーニングの範囲外の値でList Maximum トレーニング： [0,150] テスト：
[151,160], [151,180], [151,200] 全ての手法で、精度が下がる結果特にトークンベクトルで大きく下がった

Probing Numeracy of Embeddings 22 トレーニングの範囲外の値でDecoding と Addition トレーニング：[-500,500]（青）テスト：[2000、2000]（赤）
どの埋め込み方法も範囲外の値には対応出来ず

Probing Numeracy of Embeddings 23 トレーニングの範囲外の値でDecoding と Addition トレーニング：[-500,500]（青）テスト：[2000、2000]（赤）
どの埋め込み方法も範囲外の値には対応出来ず Trask et al. (2018) でもモデルがトレーニング範囲外の値への対応が難しいことに触れている　→彼らはニューラルモデル自体に起因すると考察している

Probing Numeracy of Embeddings 24 範囲外の値を補う疑似データトレーニングデータの例を複製し、冒頭の実験で行なった加算および乗算の手法を使用

Conclusion 25 ・DROPデータ・セットを用いて既存モデルの数字の学習について調査　（DROPのSOTAモデルと各種分散表現モデル）・Pretrained Embeddingsが自然に数値（単語→数字）をエンコードすることを確認・トレーニングデータ外の値をニューラルモデルで推定することは困難

文献紹介_201910_Do Neural NLP Models Know Numbers? ...

文献紹介_201910_Do Neural NLP Models Know Numbers? Probing Numeracy in Embeddings

T.Tada

More Decks by T.Tada

Other Decks in Technology

Featured

Transcript

- 文献紹介 2019 Oct. 28 - Do Neural NLP Models

About the paper 2 Authors： Conference：　　EMNLP2019 (https://arxiv.org/abs/1909.07940)

Numeracy Case Study: DROP QA 5 数値推論を必要とするタスクを用いて既存モデルを検証・DROP Dataset：カウント、ソート、加算などの数値推論が含まれる

Numeracy Case Study: DROP QA 6 DROP Datasetの一例

Numeracy Case Study: DROP QA 7 比較および最上級の質問　大小関係、どちらかなど（DROP Dataset のvalidation

Numeracy Case Study: DROP QA 8 さっきの例だと、、、 Which player had

Numeracy Case Study: DROP QA 9 NAQANetによって正しく回答された例（最上級の質問）結構出来てる！！

Numeracy Case Study: DROP QA 10 どこまで出来るのか？ストレステスト・大きい数値：　正のランダムな整数を生成し、その値を各パラグラフの数値に乗算または加算・単語形式：

Numeracy Case Study: DROP QA 11

Numeracy Case Study: DROP QA 12 トレーニング範囲内の数値をよく理解している？（しかし範囲に依存？）

Numeracy Case Study: DROP QA 13 NAQANetは、期待以上の数値推論機能を備えていた　→この精度を可能にするものは何か？結果はモデルが以下２点を学習できることを示している　比較アルゴリズム

Probing Numeracy of Embeddings 14 数について評価するために3つのタスクを実施

Probing Numeracy of Embeddings 15 Training and Evaluation ・トレーニング範囲内の値での精度をみる・最初に範囲を選択し（実験毎に範囲指定）、指定整数の範囲をシャッフル

Probing Numeracy of Embeddings 16 文字レベルの精度高 BERTが大きいレンジで精度低サブワード手法

Probing Numeracy of Embeddings 17 Pre-trainedで精度高

Probing Numeracy of Embeddings 18

Probing Numeracy of Embeddings 19 BERTの結果が低い　→sub-word piece による影響の可能性あり word2vecとGloVeは、OOVがあるため、

Probing Numeracy of Embeddings 20 NAQANet の実験でトレーニング範囲外の値に苦労している結果がみられた　→NAQANet 特性か、一般的な問題か？トレーニングの範囲外の値に対して実験を行い検証

Probing Numeracy of Embeddings 21 トレーニングの範囲外の値でList Maximum トレーニング： [0,150] テスト：

Probing Numeracy of Embeddings 22 トレーニングの範囲外の値でDecoding と Addition トレーニング：[-500,500]（青）テスト：[2000、2000]（赤）

Probing Numeracy of Embeddings 23 トレーニングの範囲外の値でDecoding と Addition トレーニング：[-500,500]（青）テスト：[2000、2000]（赤）

Probing Numeracy of Embeddings 24 範囲外の値を補う疑似データトレーニングデータの例を複製し、冒頭の実験で行なった加算および乗算の手法を使用