Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Speaker Deck
PRO
Sign in
Sign up for free
Man is to computer programmer as woman is to homemaker? debiasing word embeddings.
Kaito Sugimoto
May 22, 2020
Research
1
71
Man is to computer programmer as woman is to homemaker? debiasing word embeddings.
演習III 論文紹介
内容に問題や不備がある場合は、お手数ですが hellorusk1998 [at] gmail.com までご連絡お願いいたします。
Kaito Sugimoto
May 22, 2020
Tweet
Share
More Decks by Kaito Sugimoto
See All by Kaito Sugimoto
Unified Interpretation of Softmax Cross-Entropy and Negative Sampling: With Case Study for Knowledge Graph Embedding
hellorusk
0
31
Modeling Mathematical Notation Semantics in Academic Papers
hellorusk
0
15
Detecting Causal Language Use in Science Findings / Measuring Correlation-to-Causation Exaggeration in Press Releases
hellorusk
0
12
Efficient Domain Adaptation of Language Models via Adaptive Tokenization
hellorusk
0
71
SimCSE: Simple Contrastive Learning of Sentence Embeddings
hellorusk
0
140
Automated Concatenation of Embeddings for Structured Prediction
hellorusk
0
48
Assessing Phrasal Representation and Composition in Transformers
hellorusk
0
24
OAG-BERT: Pre-train Heterogeneous Entity-augmented Academic Language Models
hellorusk
0
31
PU (Positive-Unlabeled) Learning
hellorusk
0
420
Other Decks in Research
See All in Research
行政のオープンネスとフェアネスーデジタル庁でDXに取り組む 『民間採用人材』の視点からー
halsk
0
560
計算情報学研究室 (数理情報学第7研究室)紹介スライド
ssakaue
0
140
AI最新論文読み会2022年4月
ailaboocu
1
350
深層学習によるセマンティックセグメンテーションとその最新動向
hf149
0
990
Celebrate UTIG: Staff and Student Awards 2022
utig
0
180
Making CRDTs Byzantine fault tolerant
ept
0
270
第12回チャンピオンズミーティング・アリエス杯ラウンド1集計 / Umamusume Aries 2022 Round1
kitachan_black
0
1.5k
自然言語処理とVision-and-Language / A Tutorial on NLP & Vision-and-Language
kyoun
12
5.4k
Natural language processing tells us the shape of language
eumesy
PRO
0
340
Stack-chanで始めるROS音声対話ロボット
yoshipon
1
230
[IR Reading 2022春 論文紹介] Personalized Transfer of User Preferences for Cross-domain Recommendation (WSDM 2022) /IR-Reading-2022-spring
koheishinden
PRO
0
130
GovTechとマーケットデザイン発表資料(CA森脇)
daimoriwaki
0
160
Featured
See All Featured
Rails Girls Zürich Keynote
gr2m
86
12k
Designing on Purpose - Digital PM Summit 2013
jponch
106
5.6k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
12
920
Designing Experiences People Love
moore
130
22k
Unsuck your backbone
ammeep
659
55k
Writing Fast Ruby
sferik
612
57k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
315
19k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
237
19k
The Power of CSS Pseudo Elements
geoffreycrofte
46
3.9k
A Tale of Four Properties
chriscoyier
149
21k
The MySQL Ecosystem @ GitHub 2015
samlambert
238
11k
Java REST API Framework Comparison - PWX 2021
mraible
PRO
11
4.7k
Transcript
Man is to computer programmer as woman is to homemaker?
debiasing word embeddings. 演習 III 論文紹介 杉本 海人 2020/05/22 1 / 14
分散表現(単語埋め込み) • 単語を実ベクトルにする: w ∈ Rd • ある単語の意味は, その周囲の文脈によって決まる(分布仮説) •
手法 1 カウントベース 周囲の単語をカウントした共起行列を作り, SVD(特異値分解) などで次元 を削減する 2 推論ベース Word2Vec(2013). 周囲の単語から元の単語を推論する問題 (CBOW) や元の単語から周囲の 単語を推論する問題 (skip-gram) を解く • 両者は別物ではなくある面では同じだったりする • 両者のハイブリッド: GloVe(2014). 2 / 14
分散表現のメリット 1 ベクトルの方向の近さ ≒ 意味の近さ • cos( − − →
dog, − → cat) > cos( − − → dog, − − − − − − − − − − − → programming) 2 analogy 問題が解ける • − − → king − − − − → man + − − − − − → woman ≈ − − − − → queen • − − − − − → France − − − − → Paris + − − − − → Tokyo ≈ − − − − → Japan 3 / 14
分散表現は性差別主義者? • − − − − − − − −
− − → homemaker(家政担当者), − − − − → nurse(看護師), − − − − − − − − − − → receptionist(受付), − − − − − − → librarian(司書) などが − → he よりも − − → she に近い • − − − − − − → maestro(音楽家), − − − − − − → skipper(船長), − − − − − − → protege(弟子), − − − − − − − − − − → philosopher(哲学者) などが − − → she よりも − → he に近い • − − − − − − − − − − − − − − − − − − − − → computer programmer − − − − → man + − − − − − → woman ≈ − − − − − − − − − − → homemaker • − − − − − − − − → carpentry (大工) −− − − → man + − − − − − → woman ≈ − − − − − → sewing (裁縫) • − − − − − − − − − − − → conservatism − − − − → man + − − − − − → woman ≈ − − − − − − − → feminism 4 / 14
分散表現は性差別主義者? • Indirect bias: − − − − − −
− − − − → bookkeeper(簿記) や − − − − − − − − − − → receptionist(受付) は − − − − − → football よ りも − − − − − → softball に近い ⇒ 本来 gender-netural であるべき単語の"意味"が ゆがめられている(Google News であっても) ⇒ そのような分散表現を使った人工知能が普及することで, 暗黙的な 差別が助長する可能性がある 5 / 14
論文の流れ • 分散表現はジェンダーバイアスを含有する • クラウドソーシングを使って, "不当に女性/男性に結び付けられ る言葉"などの偏見を実際に調査し, 分散表現が持つバイアスと傾向が一致することを確認 • 分散表現が含むジェンダーバイアスを定量的に評価する方法を
提案(後述) • ジェンダーバイアスを除去するアルゴリズム (debiasing algorithm) を提案し, それを使っても分散表現としての有用性が失われていないこと を確認(後述) 6 / 14
Gender direction 分散表現のうち性別に関する情報が詰まっている方向 g ∈ Rd 論文では, 以下の 10 個の
gender-specific な単語ベクトルの差を主成分 分析したところ, 第 1 主成分方向の寄与率が支配的だったので, その方 向を g とした. 7 / 14
Direct bias の評価 DirectBiasc = 1 |N| ∑ w∈N |cos(
ì w, g)|c N は gender-neutral な(であるべき)単語の集合 327 種類の職業の単語を N としたところ DirectBias1 = 0.08 8 / 14
Indirect bias の評価 Q. − − − − − −
− − − − → receptionist(受付) が − − − − − → football よりも − − − − − → softball に近いのは, どれほど ジェンダーバイアスによるものなのか? ある単語ベクトル w(||w|| = 1), その g への正射影を wg, g と直交する 方向 w⊥ = w − wg として, (w, v) = w · v − w⊥·v⊥ ||w⊥||||v⊥|| w · v つまり, g 方向成分を取り除くことで 2 つの単語ベクトルの内積がど の程度減るか? を表す ( − − − − − − − − − − → receptionist, − − − − − → softball) = 67% 9 / 14
Debiasing Step1: Identify gender subspace 先ほど gender direction を求めたように主成分分析を行い, バイアス方
向の部分空間 B を計算する Step2a: Hard debiasing gender-neutral な単語について, B への射影が 0 になるようにする (neutralize) gender-neutral な単語から等距離であるべき単語のペア((grandmother, grandfather) など)について, 等距離になるようにする (equalize) 10 / 14
Debiasing 1 1FAT* 2018 tutorial slides 11 / 14
Debiasing Step2b: Soft debiasing 分散表現を格納した行列 W を T をかけて線形変換して, TW
が debiased になってほしい. T を求めるために, 以下のように考える 線形変換後も各単語の分散表現間の内積をできるだけそのままにし つつ, gender-neutral な単語についてはバイアス方向の射影をできるだけ小 さくする これは罰則項付き最適化問題のような形で立式できる 12 / 14
Results 13 / 14
Results Q. Indirect bias については? − − − − −
→ softball- − − − − − → football 方向の analogy は, − − − − − − − − − − → receptionist のような職業に関するものが候補に出てこなくなった ( − − − − − → softball であれば − − − − − → pitcher など, − − − − − → football であれば − − − − − − − − → midfielder など, 語義 に関連性のあるものが代わりに出てくるようになった) 14 / 14