Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
【論文紹介】Man is to computer programmer as woman is...
Search
Kaito Sugimoto
May 22, 2020
Research
1
250
【論文紹介】Man is to computer programmer as woman is to homemaker? debiasing word embeddings.
演習III 論文紹介
内容に問題や不備がある場合は、お手数ですが hellorusk1998 [at] gmail.com までご連絡お願いいたします。
Kaito Sugimoto
May 22, 2020
Tweet
Share
More Decks by Kaito Sugimoto
See All by Kaito Sugimoto
ChatGPTを活用した病院検索体験の改善 〜病院探しをもっと楽しく〜
hellorusk
0
130
【論文紹介】Word Acquisition in Neural Language Models
hellorusk
0
290
【論文紹介】Toward Interpretable Semantic Textual Similarity via Optimal Transport-based Contrastive Sentence Learning
hellorusk
0
260
【論文紹介】Unified Interpretation of Softmax Cross-Entropy and Negative Sampling: With Case Study for Knowledge Graph Embedding
hellorusk
0
520
【論文紹介】Modeling Mathematical Notation Semantics in Academic Papers
hellorusk
0
280
【論文紹介】Detecting Causal Language Use in Science Findings / Measuring Correlation-to-Causation Exaggeration in Press Releases
hellorusk
0
160
【論文紹介】Efficient Domain Adaptation of Language Models via Adaptive Tokenization
hellorusk
0
470
【論文紹介】SimCSE: Simple Contrastive Learning of Sentence Embeddings
hellorusk
0
1k
【論文紹介】Automated Concatenation of Embeddings for Structured Prediction
hellorusk
0
280
Other Decks in Research
See All in Research
Towards a More Efficient Reasoning LLM: AIMO2 Solution Summary and Introduction to Fast-Math Models
analokmaus
2
950
Adaptive Experimental Design for Efficient Average Treatment Effect Estimation and Treatment Choice
masakat0
0
130
Stealing LUKS Keys via TPM and UUID Spoofing in 10 Minutes - BSides 2025
anykeyshik
0
140
電通総研の生成AI・エージェントの取り組みエンジニアリング業務向けAI活用事例紹介
isidaitc
1
1.1k
IMC の細かすぎる話 2025
smly
2
700
「どう育てるか」より「どう働きたいか」〜スクラムマスターの最初の一歩〜
hirakawa51
0
960
Creation and environmental applications of 15-year daily inundation and vegetation maps for Siberia by integrating satellite and meteorological datasets
satai
3
420
GPUを利用したStein Particle Filterによる点群6自由度モンテカルロSLAM
takuminakao
0
420
20250725-bet-ai-day
cipepser
2
490
なめらかなシステムと運用維持の終わらぬ未来 / dicomo2025_coherently_fittable_system
monochromegane
0
4.1k
令和最新技術で伝統掲示板を再構築: HonoX で作る型安全なスレッドフロート型掲示板 / かろっく@calloc134 - Hono Conference 2025
calloc134
0
350
能動適応的実験計画
masakat0
2
880
Featured
See All Featured
Learning to Love Humans: Emotional Interface Design
aarron
274
41k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
48
9.7k
4 Signs Your Business is Dying
shpigford
185
22k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
132
19k
Site-Speed That Sticks
csswizardry
13
920
Java REST API Framework Comparison - PWX 2021
mraible
34
8.9k
Docker and Python
trallard
46
3.6k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
253
22k
Making Projects Easy
brettharned
120
6.4k
The World Runs on Bad Software
bkeepers
PRO
72
11k
What’s in a name? Adding method to the madness
productmarketing
PRO
24
3.7k
Building a Scalable Design System with Sketch
lauravandoore
463
33k
Transcript
Man is to computer programmer as woman is to homemaker?
debiasing word embeddings. 演習 III 論文紹介 杉本 海人 2020/05/22 1 / 14
分散表現(単語埋め込み) • 単語を実ベクトルにする: w ∈ Rd • ある単語の意味は, その周囲の文脈によって決まる(分布仮説) •
手法 1 カウントベース 周囲の単語をカウントした共起行列を作り, SVD(特異値分解) などで次元 を削減する 2 推論ベース Word2Vec(2013). 周囲の単語から元の単語を推論する問題 (CBOW) や元の単語から周囲の 単語を推論する問題 (skip-gram) を解く • 両者は別物ではなくある面では同じだったりする • 両者のハイブリッド: GloVe(2014). 2 / 14
分散表現のメリット 1 ベクトルの方向の近さ ≒ 意味の近さ • cos( − − →
dog, − → cat) > cos( − − → dog, − − − − − − − − − − − → programming) 2 analogy 問題が解ける • − − → king − − − − → man + − − − − − → woman ≈ − − − − → queen • − − − − − → France − − − − → Paris + − − − − → Tokyo ≈ − − − − → Japan 3 / 14
分散表現は性差別主義者? • − − − − − − − −
− − → homemaker(家政担当者), − − − − → nurse(看護師), − − − − − − − − − − → receptionist(受付), − − − − − − → librarian(司書) などが − → he よりも − − → she に近い • − − − − − − → maestro(音楽家), − − − − − − → skipper(船長), − − − − − − → protege(弟子), − − − − − − − − − − → philosopher(哲学者) などが − − → she よりも − → he に近い • − − − − − − − − − − − − − − − − − − − − → computer programmer − − − − → man + − − − − − → woman ≈ − − − − − − − − − − → homemaker • − − − − − − − − → carpentry (大工) −− − − → man + − − − − − → woman ≈ − − − − − → sewing (裁縫) • − − − − − − − − − − − → conservatism − − − − → man + − − − − − → woman ≈ − − − − − − − → feminism 4 / 14
分散表現は性差別主義者? • Indirect bias: − − − − − −
− − − − → bookkeeper(簿記) や − − − − − − − − − − → receptionist(受付) は − − − − − → football よ りも − − − − − → softball に近い ⇒ 本来 gender-netural であるべき単語の"意味"が ゆがめられている(Google News であっても) ⇒ そのような分散表現を使った人工知能が普及することで, 暗黙的な 差別が助長する可能性がある 5 / 14
論文の流れ • 分散表現はジェンダーバイアスを含有する • クラウドソーシングを使って, "不当に女性/男性に結び付けられ る言葉"などの偏見を実際に調査し, 分散表現が持つバイアスと傾向が一致することを確認 • 分散表現が含むジェンダーバイアスを定量的に評価する方法を
提案(後述) • ジェンダーバイアスを除去するアルゴリズム (debiasing algorithm) を提案し, それを使っても分散表現としての有用性が失われていないこと を確認(後述) 6 / 14
Gender direction 分散表現のうち性別に関する情報が詰まっている方向 g ∈ Rd 論文では, 以下の 10 個の
gender-specific な単語ベクトルの差を主成分 分析したところ, 第 1 主成分方向の寄与率が支配的だったので, その方 向を g とした. 7 / 14
Direct bias の評価 DirectBiasc = 1 |N| ∑ w∈N |cos(
ì w, g)|c N は gender-neutral な(であるべき)単語の集合 327 種類の職業の単語を N としたところ DirectBias1 = 0.08 8 / 14
Indirect bias の評価 Q. − − − − − −
− − − − → receptionist(受付) が − − − − − → football よりも − − − − − → softball に近いのは, どれほど ジェンダーバイアスによるものなのか? ある単語ベクトル w(||w|| = 1), その g への正射影を wg, g と直交する 方向 w⊥ = w − wg として, (w, v) = w · v − w⊥·v⊥ ||w⊥||||v⊥|| w · v つまり, g 方向成分を取り除くことで 2 つの単語ベクトルの内積がど の程度減るか? を表す ( − − − − − − − − − − → receptionist, − − − − − → softball) = 67% 9 / 14
Debiasing Step1: Identify gender subspace 先ほど gender direction を求めたように主成分分析を行い, バイアス方
向の部分空間 B を計算する Step2a: Hard debiasing gender-neutral な単語について, B への射影が 0 になるようにする (neutralize) gender-neutral な単語から等距離であるべき単語のペア((grandmother, grandfather) など)について, 等距離になるようにする (equalize) 10 / 14
Debiasing 1 1FAT* 2018 tutorial slides 11 / 14
Debiasing Step2b: Soft debiasing 分散表現を格納した行列 W を T をかけて線形変換して, TW
が debiased になってほしい. T を求めるために, 以下のように考える 線形変換後も各単語の分散表現間の内積をできるだけそのままにし つつ, gender-neutral な単語についてはバイアス方向の射影をできるだけ小 さくする これは罰則項付き最適化問題のような形で立式できる 12 / 14
Results 13 / 14
Results Q. Indirect bias については? − − − − −
→ softball- − − − − − → football 方向の analogy は, − − − − − − − − − − → receptionist のような職業に関するものが候補に出てこなくなった ( − − − − − → softball であれば − − − − − → pitcher など, − − − − − → football であれば − − − − − − − − → midfielder など, 語義 に関連性のあるものが代わりに出てくるようになった) 14 / 14