Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Baseline Needs More Love: On Simple Word-Embedd...
Search
katsutan
April 08, 2019
Technology
0
210
Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated Pooling Mechanisms
文献紹介
長岡技術科学大学
勝田 哲弘
katsutan
April 08, 2019
Tweet
Share
More Decks by katsutan
See All by katsutan
What does BERT learn about the structure of language?
katsutan
0
190
Simple and Effective Paraphrastic Similarity from Parallel Translations
katsutan
0
170
Simple task-specific bilingual word embeddings
katsutan
0
190
Retrofitting Contextualized Word Embeddings with Paraphrases
katsutan
0
210
Character Eyes: Seeing Language through Character-Level Taggers
katsutan
1
170
Improving Word Embeddings Using Kernel PCA
katsutan
0
190
Better Word Embeddings by Disentangling Contextual n-Gram Information
katsutan
0
260
Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications
katsutan
0
240
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings
katsutan
0
260
Other Decks in Technology
See All in Technology
AWSエンジニアに捧ぐLangChainの歩き方
tsukuboshi
1
330
プロダクト観点で考えるデータ基盤の育成戦略 / Growth Strategy of Data Analytics Platforms from a Product Perspective
yamamotoyuta
0
410
Autify Company Deck
autifyhq
2
41k
Fintech SREの挑戦 PCI DSS対応をスマートにこなすインフラ戦略/Fintech SRE’s Challenge: Smart Infrastructure Strategies for PCI DSS Compliance
maaaato
0
330
AIをプロダクトに実装するならAPIで分離しよう 〜タクシーアプリ『GO』のアーキテクチャ実例紹介〜
74th
2
130
Kubernetes x k6 で負荷試験基盤を開発して 負荷試験を民主化した話 / Kubernetes x k6
sansan_randd
0
510
Kubernetesでメールの大量配信をしている話/k8sjp-20250205
hfukamachi
0
220
Fin-JAWS第38回reInvent2024_全金融系セッションをライトにまとめてみた
mhrtech
1
160
EDRからERM: PFN-SIRTが関わるセキュリティとリスクへの取り組み
pfn
PRO
0
130
Active Directory の保護
eurekaberry
6
3.3k
Classmethod AI Talks(CATs) #15 司会進行スライド(2025.02.06) / classmethod-ai-talks-aka-cats_moderator-slides_vol15_2025-02-06
shinyaa31
0
120
Power BI は、レポート テーマにこだわろう!テーマのティア表付き
ohata_ds
0
140
Featured
See All Featured
Site-Speed That Sticks
csswizardry
3
310
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
3
290
BBQ
matthewcrist
86
9.4k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
28
9.3k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
20
2.4k
Building Better People: How to give real-time feedback that sticks.
wjessup
366
19k
Into the Great Unknown - MozCon
thekraken
34
1.6k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
27
1.5k
Imperfection Machines: The Place of Print at Facebook
scottboms
267
13k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
6
530
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
59k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
8
1.3k
Transcript
Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated
Pooling Mechanisms Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Long Papers), pages 440–450 Melbourne, Australia, July 15 - 20, 2018. 文献紹介: 長岡技術科学大学 勝田 哲弘
Abstract • Simple Word-Embedding-based Models (SWEMs)と word-embedding-based RNN/CNN modelsの比較 ◦
SWEMsが多くの場合で同等、優れた精度を示す • Parameter freeのpoolingを活用するモデル ◦ hierarchical pooling ◦ parameter数が少なく済む 2
Introduction • Word embeddingは各単語を固定長のベクトルとして表現し、可変長テキ ストのモデル化によく利用されている ◦ 加算などの簡易的なものからRNN、CNNなど • RNN、CNNはパラメータが多く、計算コストが高い •
SWEMは語順情報が明示的でない、計算コストは低い • 計算コストと表現力はトレードオフ 3
Introduction • 単語分散表現で実行される単純なpooling処理が自然言語処理にいつ、 なぜ有効なのかを調査する • 3つの異なるタスク(17のデータセット)で評価 4
Simple Word-Embedding Model (SWEM) パラメータを持たないモデル • Average-Pooling(一番単純なモデル) • Max Pooling(CNNでのmax-over-time
pooling に近い) • Hierarchical Pooling ◦ ウィンドウ幅nでavg-poolingを行い、その上にmax-pooling 5
Parameters & Computation Comparison 6
Experiments • タスク: ◦ 文書分類(トピック分類、感情分類、オントロジー分類 ) ◦ テキストマッチング ◦ 文分類
◦ 17データセット • モデル ◦ GloVe ◦ MLP ◦ Adam 7
Document Categorization 8
Interpreting model predictions 殆どの値が0付近に集中する タスクがテキスト中のあるキーワードに依 存していることを示唆 各次元ごとに選択された単語は関連性や 共通のトピックに対応する 9
Interpreting model predictions 10
Importance of word-order information 11
Text Sequence Matching 12
Short Sentence Processing 13
Extension to other languages • Sogou news corpus(a Chinese dataset
represented by Pinyin) ◦ SWEM-concat accuracy : 91.3% ◦ SWEM-hier (window size of 5) accuracy : 96.2% ◦ CNN (95.6%) and LSTM (95.2%) • より語順に敏感な中国語においても最高精度に匹敵する 14
Conclusions 17のデータセットでSWEM、CNN、LSTMのモデル間の比較を行った • 単純なプーリングは長い文書の表現に効果的、短い文にはCNN/LSTMが 最適 • 感情分類はトピック分類よりも語順に敏感である、hierarchical poolingは CNN/LSTMと同等の結果が得られる •
NLI、QAでは単純なpoolingが優れた精度を出す • SWEM Max Poolingでは、分散表現の各次元にトピックと対応付けられる ような意味的パターンが見られた 15