Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
【論文紹介】Man is to computer programmer as woman is...
Search
Kaito Sugimoto
May 22, 2020
Research
1
210
【論文紹介】Man is to computer programmer as woman is to homemaker? debiasing word embeddings.
演習III 論文紹介
内容に問題や不備がある場合は、お手数ですが hellorusk1998 [at] gmail.com までご連絡お願いいたします。
Kaito Sugimoto
May 22, 2020
Tweet
Share
More Decks by Kaito Sugimoto
See All by Kaito Sugimoto
ChatGPTを活用した病院検索体験の改善 〜病院探しをもっと楽しく〜
hellorusk
0
100
【論文紹介】Word Acquisition in Neural Language Models
hellorusk
0
210
【論文紹介】Toward Interpretable Semantic Textual Similarity via Optimal Transport-based Contrastive Sentence Learning
hellorusk
0
240
【論文紹介】Unified Interpretation of Softmax Cross-Entropy and Negative Sampling: With Case Study for Knowledge Graph Embedding
hellorusk
0
440
【論文紹介】Modeling Mathematical Notation Semantics in Academic Papers
hellorusk
0
210
【論文紹介】Detecting Causal Language Use in Science Findings / Measuring Correlation-to-Causation Exaggeration in Press Releases
hellorusk
0
140
【論文紹介】Efficient Domain Adaptation of Language Models via Adaptive Tokenization
hellorusk
0
400
【論文紹介】SimCSE: Simple Contrastive Learning of Sentence Embeddings
hellorusk
0
880
【論文紹介】Automated Concatenation of Embeddings for Structured Prediction
hellorusk
0
240
Other Decks in Research
See All in Research
Building Height Estimation Using Shadow Length in Satellite Imagery
satai
2
190
Weekly AI Agents News! 1月号 アーカイブ
masatoto
1
160
2024/10/30 産総研AIセミナー発表資料
keisuke198619
1
450
SpectralMamba: Efficient Mamba for Hyperspectral Image Classification
satai
2
150
CoRL2024サーベイ
rpc
1
1.5k
Satellite Sunroof: High-res Digital Surface Models and Roof Segmentation for Global Solar Mapping
satai
2
130
複数データセットを用いた動作認識
yuyay
0
110
Global Evidence Summit (GES) 参加報告
daimoriwaki
0
240
Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment
satai
2
120
Zipf 白色化:タイプとトークンの区別がもたらす良質な埋め込み空間と損失関数
eumesy
PRO
8
1.3k
20241115都市交通決起集会 趣旨説明・熊本事例紹介
trafficbrain
0
990
Elix, CBI2024, スポンサードセッション, Molecular Glue研究の展望:近年の進展とAI活用の可能性
elix
0
130
Featured
See All Featured
A better future with KSS
kneath
238
17k
Building Applications with DynamoDB
mza
93
6.2k
Building Your Own Lightsaber
phodgson
104
6.2k
[RailsConf 2023] Rails as a piece of cake
palkan
53
5.2k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
3.7k
Typedesign – Prime Four
hannesfritz
40
2.5k
Automating Front-end Workflow
addyosmani
1368
200k
Rails Girls Zürich Keynote
gr2m
94
13k
Site-Speed That Sticks
csswizardry
4
380
Raft: Consensus for Rubyists
vanstee
137
6.8k
Visualization
eitanlees
146
15k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
10
1.3k
Transcript
Man is to computer programmer as woman is to homemaker?
debiasing word embeddings. 演習 III 論文紹介 杉本 海人 2020/05/22 1 / 14
分散表現(単語埋め込み) • 単語を実ベクトルにする: w ∈ Rd • ある単語の意味は, その周囲の文脈によって決まる(分布仮説) •
手法 1 カウントベース 周囲の単語をカウントした共起行列を作り, SVD(特異値分解) などで次元 を削減する 2 推論ベース Word2Vec(2013). 周囲の単語から元の単語を推論する問題 (CBOW) や元の単語から周囲の 単語を推論する問題 (skip-gram) を解く • 両者は別物ではなくある面では同じだったりする • 両者のハイブリッド: GloVe(2014). 2 / 14
分散表現のメリット 1 ベクトルの方向の近さ ≒ 意味の近さ • cos( − − →
dog, − → cat) > cos( − − → dog, − − − − − − − − − − − → programming) 2 analogy 問題が解ける • − − → king − − − − → man + − − − − − → woman ≈ − − − − → queen • − − − − − → France − − − − → Paris + − − − − → Tokyo ≈ − − − − → Japan 3 / 14
分散表現は性差別主義者? • − − − − − − − −
− − → homemaker(家政担当者), − − − − → nurse(看護師), − − − − − − − − − − → receptionist(受付), − − − − − − → librarian(司書) などが − → he よりも − − → she に近い • − − − − − − → maestro(音楽家), − − − − − − → skipper(船長), − − − − − − → protege(弟子), − − − − − − − − − − → philosopher(哲学者) などが − − → she よりも − → he に近い • − − − − − − − − − − − − − − − − − − − − → computer programmer − − − − → man + − − − − − → woman ≈ − − − − − − − − − − → homemaker • − − − − − − − − → carpentry (大工) −− − − → man + − − − − − → woman ≈ − − − − − → sewing (裁縫) • − − − − − − − − − − − → conservatism − − − − → man + − − − − − → woman ≈ − − − − − − − → feminism 4 / 14
分散表現は性差別主義者? • Indirect bias: − − − − − −
− − − − → bookkeeper(簿記) や − − − − − − − − − − → receptionist(受付) は − − − − − → football よ りも − − − − − → softball に近い ⇒ 本来 gender-netural であるべき単語の"意味"が ゆがめられている(Google News であっても) ⇒ そのような分散表現を使った人工知能が普及することで, 暗黙的な 差別が助長する可能性がある 5 / 14
論文の流れ • 分散表現はジェンダーバイアスを含有する • クラウドソーシングを使って, "不当に女性/男性に結び付けられ る言葉"などの偏見を実際に調査し, 分散表現が持つバイアスと傾向が一致することを確認 • 分散表現が含むジェンダーバイアスを定量的に評価する方法を
提案(後述) • ジェンダーバイアスを除去するアルゴリズム (debiasing algorithm) を提案し, それを使っても分散表現としての有用性が失われていないこと を確認(後述) 6 / 14
Gender direction 分散表現のうち性別に関する情報が詰まっている方向 g ∈ Rd 論文では, 以下の 10 個の
gender-specific な単語ベクトルの差を主成分 分析したところ, 第 1 主成分方向の寄与率が支配的だったので, その方 向を g とした. 7 / 14
Direct bias の評価 DirectBiasc = 1 |N| ∑ w∈N |cos(
ì w, g)|c N は gender-neutral な(であるべき)単語の集合 327 種類の職業の単語を N としたところ DirectBias1 = 0.08 8 / 14
Indirect bias の評価 Q. − − − − − −
− − − − → receptionist(受付) が − − − − − → football よりも − − − − − → softball に近いのは, どれほど ジェンダーバイアスによるものなのか? ある単語ベクトル w(||w|| = 1), その g への正射影を wg, g と直交する 方向 w⊥ = w − wg として, (w, v) = w · v − w⊥·v⊥ ||w⊥||||v⊥|| w · v つまり, g 方向成分を取り除くことで 2 つの単語ベクトルの内積がど の程度減るか? を表す ( − − − − − − − − − − → receptionist, − − − − − → softball) = 67% 9 / 14
Debiasing Step1: Identify gender subspace 先ほど gender direction を求めたように主成分分析を行い, バイアス方
向の部分空間 B を計算する Step2a: Hard debiasing gender-neutral な単語について, B への射影が 0 になるようにする (neutralize) gender-neutral な単語から等距離であるべき単語のペア((grandmother, grandfather) など)について, 等距離になるようにする (equalize) 10 / 14
Debiasing 1 1FAT* 2018 tutorial slides 11 / 14
Debiasing Step2b: Soft debiasing 分散表現を格納した行列 W を T をかけて線形変換して, TW
が debiased になってほしい. T を求めるために, 以下のように考える 線形変換後も各単語の分散表現間の内積をできるだけそのままにし つつ, gender-neutral な単語についてはバイアス方向の射影をできるだけ小 さくする これは罰則項付き最適化問題のような形で立式できる 12 / 14
Results 13 / 14
Results Q. Indirect bias については? − − − − −
→ softball- − − − − − → football 方向の analogy は, − − − − − − − − − − → receptionist のような職業に関するものが候補に出てこなくなった ( − − − − − → softball であれば − − − − − → pitcher など, − − − − − → football であれば − − − − − − − − → midfielder など, 語義 に関連性のあるものが代わりに出てくるようになった) 14 / 14