Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Character Eyes: Seeing Language through Charact...
Search
katsutan
October 15, 2019
Technology
1
180
Character Eyes: Seeing Language through Character-Level Taggers
文献紹介
https://www.aclweb.org/anthology/W19-4811.pdf
長岡技術科学大学
自然言語処理研究室
勝田 哲弘
katsutan
October 15, 2019
Tweet
Share
More Decks by katsutan
See All by katsutan
What does BERT learn about the structure of language?
katsutan
0
190
Simple and Effective Paraphrastic Similarity from Parallel Translations
katsutan
0
170
Simple task-specific bilingual word embeddings
katsutan
0
190
Retrofitting Contextualized Word Embeddings with Paraphrases
katsutan
0
220
Improving Word Embeddings Using Kernel PCA
katsutan
0
200
Better Word Embeddings by Disentangling Contextual n-Gram Information
katsutan
0
270
Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications
katsutan
0
240
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings
katsutan
0
260
DSGAN: Generative Adversarial Training for Distant Supervision Relation Extraction
katsutan
0
240
Other Decks in Technology
See All in Technology
AWSサービスアップデート2025年2月分
yuobayashi
3
130
空が堕ち、大地が割れ、海が涸れた日~もしも愛用しているフレームワークが開発停止したら?~ #phperkaigi 2025
77web
2
810
痒い所に手が届く!要約モデルのつくり方
sakusakumura
1
280
SLI/SLO・ラプソディあるいは組織への適用の旅
nwiizo
3
520
英語と日本語の文字をComposeでキレイに並べよう
tomoya_shibata
1
130
AWSにおけるサイバー攻撃の傾向と具体的な対策
yuobayashi
8
750
入社半年で PTE に! 元海外在住者が語る Google Cloud × G-genで 成長する秘訣
risatube
PRO
0
130
Scala meets WebAssembly
tanishiking
0
160
RF問の対策をした話
bata_24
0
130
Autonomous Database サービス・アップデート (FY25)
oracle4engineer
PRO
1
550
大人の学び - マイクの持ち方について
kawaguti
PRO
3
650
Webブラウザのセキュリティ対策に役立つぞ!!~DevToolsの使い方~
masakiokuda
0
150
Featured
See All Featured
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
49k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
47
5.3k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
14
1k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
666
120k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
30
4.7k
Building a Scalable Design System with Sketch
lauravandoore
462
33k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.4k
KATA
mclloyd
29
14k
Side Projects
sachag
452
42k
Unsuck your backbone
ammeep
669
57k
The Cult of Friendly URLs
andyhume
78
6.3k
Transcript
Character Eyes: Seeing Language through Character-Level Taggers Proceedings of the
Second BlackboxNLP Workshop on Analyzing and Interpreting Neural Networks for NLP, pages 95–102 Florence, Italy, August 1, 2019. 長岡技術科学大学 自然言語処理研究室 勝田 哲弘 2019/10/15 文献紹介
Introduction • この論文が注目しているもの • サブワードのベクトル表現 • 文字レベルモデルの利点 • 単語単位では低頻度で学習できない場合も対応できる •
現状 • 言語知識(morphology and orthography)のエンコードを説明できない • Bi-LSTMの文字エンコーダーを分析する 2
Tagging Task • 評価を行うモデルはLSTM tagging models Ling et al. (2015)
• Char-LSTM → Word-Bi-LSTM → two-layer perceptron → softmax • 各単語の隠れ層パーセプトロンに送られてタグスコアを生成 • morphosyntactic attribute tagging Pinter et al. (2017) • 独自のperceptron + softmax scaffoldingを使用 3
Language Selection • 2つの形態学的特性に基づいて言語を選択 • 24のデータセットはすべて、Universal Dependencies (UD) version 2.3
(Nivre et al., 2018)から取得 • 言語特性はWorld Atlas of Language Structures (Bickel and Nichols, 2013; Dryer, 2013) • Affixation. • UDで利用可能なすべての言語を選択 • Suffixing以外も含まれる • Morphological Synthesis 4
Technical Setup • データセット • 複数のtreebankがある言語では最も大きいものを使用 • ‘http’ を含む単語は ‘URL’に置換
• ‘@’を含む単語は ‘EMAIL’に置換 • Hyperparameters • bidirectional character-level LSTM • hidden state: 128, character embedding size: 256 • word-level bidirectional LSTM • 2layers, hidden state 128, dropout 0.5 • MLP • Size: tagset size, 活性化関数: tanh 5
Results • Word embeddingなしで同等の精度 • Char embedが256と大きいことに起因 6
Analysis • モデルの分析 • 言語情報をどのようにエンコードしているのか? • Metrics • 各文字ごとの隠れ層の出力を観察 average
absolute, max absolute 7
Analysis • 相互情報(MI)に基づく language-level metric: PDI • base metricの範囲は同じサイズのB個のビンに分割 •
各単語からのbase activationsはT POSタグカテゴリごとに合計され、正規化されて結合 確率分布が生成される • PDIが高いと異なる単語に対して異なる活性化を行っている • タスクとしては優れた分類器になっている 8
Analysis • 言語は各ユニットに1つずつ dhのPDI scoresを生成 • さらに2つの language-level metricsを定義 •
sum of PDI values: • the relative importance of forward and backward units: 9
PDI Patterns • Introflexive languagesは文字系列からPOSま たはmorphosyntacticを学習することが難しい ため全体的に低い 10
Asymmetric Directionality • LSTMの方向性に関する調査 • 不均衡なモデルは、言語特性と統計メトリック に基づいて言語に異なる影響を与えるという 仮説をテスト • forward
and unitsのサイズを変える • LSTMユニットの隠れ層が最終状態に 近い形態の検出に優れている • 単方向LSTMと双方向LSTMの2つの一般的 な手法の間に実質的な妥協点がない 11
Conclusion • 文字レベルのBi-LSTMモデルは多くの言語で意味のある単語表現を計算 するが、その方法は各言語のtypological propertiesによって異なる • この観察結果は、モデル選択の動機になる • agglutinative languagesは単一方向の分析を強く好む
• 今後、メトリックにさらなる制御を導入する • タグの分布やインスタンスの数などのデータセット属性、および収束率や初期化の効 果などの学習関連のプロパティを組み込む 12