Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SNLP presentation 20190928
Search
Atsushi Sumita
September 28, 2019
Research
0
370
SNLP presentation 20190928
Presentation by Atsushi Sumita (Univ. Tokyo, Miyao lab, M1)
Atsushi Sumita
September 28, 2019
Tweet
Share
More Decks by Atsushi Sumita
See All by Atsushi Sumita
LLMによるデータ構造化の精度管理
yummydum
1
220
Redshift Serverless vs Snowflake 徹底比較!
yummydum
1
2.6k
最強?のデータ組織アーキテクチャ
yummydum
2
630
データチームの境界を考える
yummydum
0
1.1k
データを開発するためのDataOps
yummydum
1
1.1k
Jupyter Notebook Ops
yummydum
1
230
Other Decks in Research
See All in Research
視覚から身体性を持つAIへ: 巧緻な動作の3次元理解
tkhkaeio
0
190
一般道の交通量減少と速度低下についての全国分析と熊本市におけるケーススタディ(20251122 土木計画学研究発表会)
trafficbrain
0
160
製造業主導型経済からサービス経済化における中間層形成メカニズムのパラダイムシフト
yamotty
0
480
ブレグマン距離最小化に基づくリース表現量推定:バイアス除去学習の統一理論
masakat0
0
140
第二言語習得研究における 明示的・暗示的知識の再検討:この分類は何に役に立つか,何に役に立たないか
tam07pb915
0
1.1k
[チュートリアル] 電波マップ構築入門 :研究動向と課題設定の勘所
k_sato
0
250
Proposal of an Information Delivery Method for Electronic Paper Signage Using Human Mobility as the Communication Medium / ICCE-Asia 2025
yumulab
0
170
Thirty Years of Progress in Speech Synthesis: A Personal Perspective on the Past, Present, and Future
ktokuda
0
160
[IBIS 2025] 深層基盤モデルのための強化学習驚きから理論にもとづく納得へ
akifumi_wachi
19
9.6k
20251023_くまもと21の会例会_「車1割削減、渋滞半減、公共交通2倍」をめざして.pdf
trafficbrain
0
180
2025-11-21-DA-10th-satellite
yegusa
0
110
生成AI による論文執筆サポート・ワークショップ ─ サーベイ/リサーチクエスチョン編 / Workshop on AI-Assisted Paper Writing Support: Survey/Research Question Edition
ks91
PRO
0
140
Featured
See All Featured
Amusing Abliteration
ianozsvald
0
100
SEOcharity - Dark patterns in SEO and UX: How to avoid them and build a more ethical web
sarafernandez
0
120
Beyond borders and beyond the search box: How to win the global "messy middle" with AI-driven SEO
davidcarrasco
1
53
Paper Plane
katiecoart
PRO
0
46k
The Organizational Zoo: Understanding Human Behavior Agility Through Metaphoric Constructive Conversations (based on the works of Arthur Shelley, Ph.D)
kimpetersen
PRO
0
240
Breaking role norms: Why Content Design is so much more than writing copy - Taylor Woolridge
uxyall
0
170
Joys of Absence: A Defence of Solitary Play
codingconduct
1
290
Ethics towards AI in product and experience design
skipperchong
2
190
Optimising Largest Contentful Paint
csswizardry
37
3.6k
Writing Fast Ruby
sferik
630
62k
Odyssey Design
rkendrick25
PRO
1
500
Between Models and Reality
mayunak
1
190
Transcript
SNLP発表資料 東大 宮尾研 M1 隅田 敦
自己紹介 東大宮尾研究室M1の隅田です. Probingに興味があります ◦ BERTのなかみってどうなってるんだろ~ ◦ 問いがふわふわなのでより具体的/特定的に定式化したい ◦ 興味が近い人は是非話しかけて下さい! YANSで奨励賞を頂きました!
◦ 表彰はされなかったので今宣伝… ◦ まだまだ未熟な研究なのでブラッシュアップしていきたいです!
読む人:東大宮尾研 M1 隅田 敦 (図表は論文や著者発表資料から抜粋)
概要 各次元に一つのsenseが対応する単語埋め込みを提案 senseとは? ◦ ここでは単語の集まりから想起される意味と定義 ◦ 数学的には,単語上の多項分布で表現 ◦ トピックモデルと似た発想 何が嬉しいのか?
◦ 各次元が解釈可能なものとなる ◦ 多義語をうまく表現することが出来る
抽出されたSenseの例
単語共起行列の生成過程 以下の生成過程を仮定する. まず各単語についてsense上の多項分布 を生成 次に以下を2n回繰り返す. • からsense を生成 • が定める多項分布
から単語cを生成 →の前後個のcontext wordを生成. これで単語共起行列Cが生成される. 個の上の多項分布
Word2senseの構成 変分推論でと を推定 ◦ 推定はマルチコアCPU1個で5時間 ◦ はやい ◦ の埋め込み の第次元目:
◦ 第一項:wがある単語のcontext wordの時に,zがwを生成している確率 ◦ 第二項:前述の生成モデルにおいてwのcontext wordを生成する際にzが選ばれる確率 他にもいくつか後処理を行う ◦ 似た単語の分布を持つsenseを階層クラスタリングでmerge ◦ スパースになるよう絶対値上位個の次元以外は0に置き換え,正規化
実験結果 Word similarity ◦ Word2vec, Word2GM, Word2senseで比較 ◦ 全体として,最も精度が良いのはw2v ◦
とはいえword2senseはw2vに匹敵
実験結果 Word entailment ◦ Word2GM, Word2senseで比較 ◦ Word2senseが良い性能を示した
実験結果 Downstream taskで精度評価 ◦ News classification ◦ Noun phrase chunking
◦ Sentiment analysis ◦ Question classification 大体既存手法に匹敵する精度
実験結果: word intrusion task Word intrusion task ◦ 単語の集合から仲間外れ(intruder) を識別出来るか?
◦ 各senseで高いweightを割り当てら れている単語上位4個を抽出 ◦ ランダムに選んだ単語(intruder)と 合わせた5個をアノテーターに出題 ◦ 人間が仲間外れを識別出来るなら 解釈性が高いと判断する
WordCtx2sense 多義語について,文脈からどの意味なのかを判定したい 文脈Tのsenseと単語埋め込みのsenseのintersectionを推定する 文脈Tの単語がより少数のsenseから生成されていると仮定 ◦ 更新後の埋め込みを , = 1,2, …
とする 元のembeddingをTに基づいて更新する ◦ の中で非零な成分が最大でも個となるようにmultiplicative weight updateを使用
WordCtx2sense 文脈Tの単語の生成過程を次のように仮定する ◦ を選び,ここから確率分布 = を得る ◦ から個の単語を生成し,を得る Log perplexity
を最大化するよう を学習し,元のembeddingを更新 ◦ 初期値は元のembeddingとし,KL距離を正則化項として追加
実験結果:Word Sense Induction 多義語が含まれた文書群を,意味ごとにクラスタリングするタスク 各文章毎にを学習し, ∗ = k をクラスターのラベルとする 評価指標は次の二つ
ある二つのinstanceが同じクラスターに属するか否かに関するF-score V-score : homogeneityとcoverageの調和平均 ◦ Homogeneity : 同じラベルを持つinstanceが同じクラスターに入っている割合 ◦ Coverage : 同じクラスターに入っているinstanceが同じラベルを持つ割合
実験結果:Word Sense Induction 既存手法の性能を上回る 特にSemEval-2010においては既存 手法を大きく上回る性能
実験結果:Contextual similarity 文脈付きの単語の組の類似度を推定するタスク アノテーターに1~10で類似度を答えてもらい,その平均をground truthとする この類似度との相関で評価を行う MSSG以外の全てのモデルより高性能
まとめ 各次元が解釈可能,スパース, 多義語を表現出来る単語埋め込みを提案 こうした性質がありながらも,様々なタスクで既存手法と同等あるいはそれ以上の性能を発揮 さらに文脈毎にどの意味で単語が用いられているのかを推定可能
読む人:東大 宮尾研 M1 隅田 敦 (図表は論文や著者発表資料から抜粋)
概要 Pretrain then fine tuningは様々なNLPタスクにおいて有効 ◦ 学習が安定/簡単 ◦ 汎化性能が高い しかし,これが何故なのかはまだよくわかっていない
Lossを可視化することで理由を探る ◦ ここではpretrain modelとしてBERTを分析対象にした
Lossの可視化:一次元の場合 Fine tuningで得た最終的なパラメタへの方向を1 = 1 − 0 とする 損失関数を初期点0 と訓練後パラメータへの方向1
に関して線形補完 ◦ i.e. 0 と1 の内分点で損失関数をプロットする
Lossの可視化 : 二次元の場合 二つのデータセットでfine tuningして得たパラメータへの方向1 と2 を軸として 可視化 それぞれの方向に対して1Dの場合と同じ線形補完を行う
※ Li, H., Xu, Z., Taylor, G., Studer, C., &
Goldstein, T. (2018). Visualizing the loss landscape of neural nets. より
Lossの可視化 : Optimization trajectory 最適化の軌跡を可視化する 第エポック時のパラメータへの方向 を2Dに射影 ◦ 第エポックの座標が( ,
) 高次元空間の角度とノルムを二次元にそのまま持ってくる
訓練済みBERTは良い初期点である 事前訓練済みのBERTからfine tuningする場合と,BERTのweightをランダムに初期化して学習を した場合とを比較 Fine tuningで得た局所解の周辺は滑らか Fine tuningのloss surfaceは最適化が容易な形をしている 得た局所解周辺は滑らかで広いので過学習しづらい
• エポック数を増やしてもdev dataにおけるlossが高まりづらい
None
丘を越えている
MRPCのloss landscapeとoptimization trajectory エポック数を増やしても局所 解付近が十分広く滑らかなの で他の局所解に移りづらい
Fine tuningすると汎化しやすい 局所解付近が滑らかなほど汎化性能が高いという議論がある 汎化誤差のloss surfaceが訓練データのloss surfaceと整合的 ◦ 同じように滑らかな局所解に落ちていく
None
下層ほど一般的で転移可能性が高い 層ごとに違う情報を保持している説 ある層の訓練結果の方向を考える: 可視化してみると,下層のパラメタは動かしてもあまりロスが動かない 一方で上層のパラメタは動かすと精度に悪影響を及ぼす
None
まとめ BERTでfine tuningするのが何故有効なのかについて,可視化により調べた結果, ◦ より幅広い局所解が見つかるので, ◦ 学習が容易で汎化性能も良い ◦ 過学習しづらい ◦
訓練データのloss surfaceとテストデータのloss surfaceに整合性がある ◦ 下層ほど一般的で転移可能性の高い特徴量が含まれている といった事実が示唆された.
議論 可視化することで直感的な理解が可能になる 一方で結果の評価がやや主観的になってしまう ◦ “Loss surfaceが滑らか”とは? 曲率とかで定量的に測れると良いのかも? ◦ 汎化性能との関連も定量的に測ってみたいところ