Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Character Eyes: Seeing Language through Character-Level Taggers
Search
katsutan
October 15, 2019
Technology
1
150
Character Eyes: Seeing Language through Character-Level Taggers
文献紹介
https://www.aclweb.org/anthology/W19-4811.pdf
長岡技術科学大学
自然言語処理研究室
勝田 哲弘
katsutan
October 15, 2019
Tweet
Share
More Decks by katsutan
See All by katsutan
What does BERT learn about the structure of language?
katsutan
0
180
Simple and Effective Paraphrastic Similarity from Parallel Translations
katsutan
0
160
Simple task-specific bilingual word embeddings
katsutan
0
180
Retrofitting Contextualized Word Embeddings with Paraphrases
katsutan
0
200
Improving Word Embeddings Using Kernel PCA
katsutan
0
180
Better Word Embeddings by Disentangling Contextual n-Gram Information
katsutan
0
240
Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications
katsutan
0
220
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings
katsutan
0
240
DSGAN: Generative Adversarial Training for Distant Supervision Relation Extraction
katsutan
0
220
Other Decks in Technology
See All in Technology
[AWS Expert Online for JAWS-UG]AWS SAW を使ったトラブルシューティング効率化のススメ
furuton
0
170
PHPerKaigi 2024 - PHP 本体のバグを見つけたら適切に報告しよう
zeriyoshi
0
760
第131回 雲勉【オンライン】AWSを9年触ってきて経験した落とし穴、ハマったポイント
iret
6
480
滑空スポーツ講習会2023 航空安全講習会 第4回 日常整備に役立ちそうな雑情報 / JSA Safety Seminar 2023 glider maintenance
jsaseminar
0
110
Command-line interface tool design / PHPerKaigi 2024
k1low
4
1k
『LeanとDevOpsの科学』をきちんと解読する 〜Four Keys だけじゃ絶対もったいなくなる話〜
bonotake
27
6.5k
Automate your changelogs! Release Drafter
onenashev
PRO
2
410
二刀流でWinActorを活用してみた話
tamai_63
0
120
DevOps Topologies 10 years on: what have we learned about silos, collaboration, and flow? - Matthew Skelton, Conflux
matthewskelton
PRO
2
420
Skaffoldを用いたGKEアプリケーションの CD(Continuous Development)
kojake_300
1
120
Feature Flag Deep Dive
biwashi
20
5k
5分で理解するWebAssemblyのWebの外の話 PHPはマイコンの夢を見るか?
usuyuki
3
200
Featured
See All Featured
Building Effective Engineering Teams - LeadDev
addyosmani
25
1.6k
Intergalactic Javascript Robots from Outer Space
tanoku
266
26k
The Power of CSS Pseudo Elements
geoffreycrofte
58
4.9k
Infographics Made Easy
chrislema
237
17k
Visualization
eitanlees
135
14k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
225
51k
What’s in a name? Adding method to the madness
productmarketing
PRO
14
2.5k
Git: the NoSQL Database
bkeepers
PRO
421
63k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
0
3.2k
The Language of Interfaces
destraynor
150
22k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
14
1.3k
Fashionably flexible responsive web design (full day workshop)
malarkey
397
65k
Transcript
Character Eyes: Seeing Language through Character-Level Taggers Proceedings of the
Second BlackboxNLP Workshop on Analyzing and Interpreting Neural Networks for NLP, pages 95–102 Florence, Italy, August 1, 2019. 長岡技術科学大学 自然言語処理研究室 勝田 哲弘 2019/10/15 文献紹介
Introduction • この論文が注目しているもの • サブワードのベクトル表現 • 文字レベルモデルの利点 • 単語単位では低頻度で学習できない場合も対応できる •
現状 • 言語知識(morphology and orthography)のエンコードを説明できない • Bi-LSTMの文字エンコーダーを分析する 2
Tagging Task • 評価を行うモデルはLSTM tagging models Ling et al. (2015)
• Char-LSTM → Word-Bi-LSTM → two-layer perceptron → softmax • 各単語の隠れ層パーセプトロンに送られてタグスコアを生成 • morphosyntactic attribute tagging Pinter et al. (2017) • 独自のperceptron + softmax scaffoldingを使用 3
Language Selection • 2つの形態学的特性に基づいて言語を選択 • 24のデータセットはすべて、Universal Dependencies (UD) version 2.3
(Nivre et al., 2018)から取得 • 言語特性はWorld Atlas of Language Structures (Bickel and Nichols, 2013; Dryer, 2013) • Affixation. • UDで利用可能なすべての言語を選択 • Suffixing以外も含まれる • Morphological Synthesis 4
Technical Setup • データセット • 複数のtreebankがある言語では最も大きいものを使用 • ‘http’ を含む単語は ‘URL’に置換
• ‘@’を含む単語は ‘EMAIL’に置換 • Hyperparameters • bidirectional character-level LSTM • hidden state: 128, character embedding size: 256 • word-level bidirectional LSTM • 2layers, hidden state 128, dropout 0.5 • MLP • Size: tagset size, 活性化関数: tanh 5
Results • Word embeddingなしで同等の精度 • Char embedが256と大きいことに起因 6
Analysis • モデルの分析 • 言語情報をどのようにエンコードしているのか? • Metrics • 各文字ごとの隠れ層の出力を観察 average
absolute, max absolute 7
Analysis • 相互情報(MI)に基づく language-level metric: PDI • base metricの範囲は同じサイズのB個のビンに分割 •
各単語からのbase activationsはT POSタグカテゴリごとに合計され、正規化されて結合 確率分布が生成される • PDIが高いと異なる単語に対して異なる活性化を行っている • タスクとしては優れた分類器になっている 8
Analysis • 言語は各ユニットに1つずつ dhのPDI scoresを生成 • さらに2つの language-level metricsを定義 •
sum of PDI values: • the relative importance of forward and backward units: 9
PDI Patterns • Introflexive languagesは文字系列からPOSま たはmorphosyntacticを学習することが難しい ため全体的に低い 10
Asymmetric Directionality • LSTMの方向性に関する調査 • 不均衡なモデルは、言語特性と統計メトリック に基づいて言語に異なる影響を与えるという 仮説をテスト • forward
and unitsのサイズを変える • LSTMユニットの隠れ層が最終状態に 近い形態の検出に優れている • 単方向LSTMと双方向LSTMの2つの一般的 な手法の間に実質的な妥協点がない 11
Conclusion • 文字レベルのBi-LSTMモデルは多くの言語で意味のある単語表現を計算 するが、その方法は各言語のtypological propertiesによって異なる • この観察結果は、モデル選択の動機になる • agglutinative languagesは単一方向の分析を強く好む
• 今後、メトリックにさらなる制御を導入する • タグの分布やインスタンスの数などのデータセット属性、および収束率や初期化の効 果などの学習関連のプロパティを組み込む 12