Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Character Eyes: Seeing Language through Character-Level Taggers

katsutan
October 15, 2019

Character Eyes: Seeing Language through Character-Level Taggers

文献紹介
https://www.aclweb.org/anthology/W19-4811.pdf

長岡技術科学大学
自然言語処理研究室

勝田 哲弘

katsutan

October 15, 2019
Tweet

More Decks by katsutan

Other Decks in Technology

Transcript

  1. Character Eyes: Seeing Language through
    Character-Level Taggers
    Proceedings of the Second BlackboxNLP Workshop on Analyzing and Interpreting Neural
    Networks for NLP, pages 95–102 Florence, Italy, August 1, 2019.
    長岡技術科学大学 自然言語処理研究室
    勝田 哲弘
    2019/10/15
    文献紹介

    View Slide

  2. Introduction
    • この論文が注目しているもの
    • サブワードのベクトル表現
    • 文字レベルモデルの利点
    • 単語単位では低頻度で学習できない場合も対応できる
    • 現状
    • 言語知識(morphology and orthography)のエンコードを説明できない
    • Bi-LSTMの文字エンコーダーを分析する
    2

    View Slide

  3. Tagging Task
    • 評価を行うモデルはLSTM tagging models Ling et al. (2015)
    • Char-LSTM → Word-Bi-LSTM → two-layer perceptron → softmax
    • 各単語の隠れ層パーセプトロンに送られてタグスコアを生成
    • morphosyntactic attribute tagging Pinter et al. (2017)
    • 独自のperceptron + softmax scaffoldingを使用
    3

    View Slide

  4. Language Selection
    • 2つの形態学的特性に基づいて言語を選択
    • 24のデータセットはすべて、Universal Dependencies
    (UD) version 2.3 (Nivre et al., 2018)から取得
    • 言語特性はWorld Atlas of Language Structures
    (Bickel and Nichols, 2013; Dryer, 2013)
    • Affixation.
    • UDで利用可能なすべての言語を選択
    • Suffixing以外も含まれる
    • Morphological Synthesis
    4

    View Slide

  5. Technical Setup
    • データセット
    • 複数のtreebankがある言語では最も大きいものを使用
    • ‘http’ を含む単語は ‘URL’に置換
    • ‘@’を含む単語は ‘EMAIL’に置換
    • Hyperparameters
    • bidirectional character-level LSTM
    • hidden state: 128, character embedding size: 256
    • word-level bidirectional LSTM
    • 2layers, hidden state 128, dropout 0.5
    • MLP
    • Size: tagset size, 活性化関数: tanh
    5

    View Slide

  6. Results
    • Word embeddingなしで同等の精度
    • Char embedが256と大きいことに起因
    6

    View Slide

  7. Analysis
    • モデルの分析
    • 言語情報をどのようにエンコードしているのか?
    • Metrics
    • 各文字ごとの隠れ層の出力を観察 average absolute, max absolute
    7

    View Slide

  8. Analysis
    • 相互情報(MI)に基づく language-level metric: PDI
    • base metricの範囲は同じサイズのB個のビンに分割
    • 各単語からのbase activationsはT POSタグカテゴリごとに合計され、正規化されて結合
    確率分布が生成される
    • PDIが高いと異なる単語に対して異なる活性化を行っている
    • タスクとしては優れた分類器になっている
    8

    View Slide

  9. Analysis
    • 言語は各ユニットに1つずつ dhのPDI scoresを生成
    • さらに2つの language-level metricsを定義
    • sum of PDI values:
    • the relative importance of forward and backward units:
    9

    View Slide

  10. PDI Patterns
    • Introflexive languagesは文字系列からPOSま
    たはmorphosyntacticを学習することが難しい
    ため全体的に低い
    10

    View Slide

  11. Asymmetric Directionality
    • LSTMの方向性に関する調査
    • 不均衡なモデルは、言語特性と統計メトリック
    に基づいて言語に異なる影響を与えるという
    仮説をテスト
    • forward and unitsのサイズを変える
    • LSTMユニットの隠れ層が最終状態に
    近い形態の検出に優れている
    • 単方向LSTMと双方向LSTMの2つの一般的
    な手法の間に実質的な妥協点がない
    11

    View Slide

  12. Conclusion
    • 文字レベルのBi-LSTMモデルは多くの言語で意味のある単語表現を計算
    するが、その方法は各言語のtypological propertiesによって異なる
    • この観察結果は、モデル選択の動機になる
    • agglutinative languagesは単一方向の分析を強く好む
    • 今後、メトリックにさらなる制御を導入する
    • タグの分布やインスタンスの数などのデータセット属性、および収束率や初期化の効
    果などの学習関連のプロパティを組み込む
    12

    View Slide