Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
【論文紹介】Man is to computer programmer as woman is...
Search
Kaito Sugimoto
May 22, 2020
Research
1
210
【論文紹介】Man is to computer programmer as woman is to homemaker? debiasing word embeddings.
演習III 論文紹介
内容に問題や不備がある場合は、お手数ですが hellorusk1998 [at] gmail.com までご連絡お願いいたします。
Kaito Sugimoto
May 22, 2020
Tweet
Share
More Decks by Kaito Sugimoto
See All by Kaito Sugimoto
ChatGPTを活用した病院検索体験の改善 〜病院探しをもっと楽しく〜
hellorusk
0
100
【論文紹介】Word Acquisition in Neural Language Models
hellorusk
0
220
【論文紹介】Toward Interpretable Semantic Textual Similarity via Optimal Transport-based Contrastive Sentence Learning
hellorusk
0
240
【論文紹介】Unified Interpretation of Softmax Cross-Entropy and Negative Sampling: With Case Study for Knowledge Graph Embedding
hellorusk
0
440
【論文紹介】Modeling Mathematical Notation Semantics in Academic Papers
hellorusk
0
220
【論文紹介】Detecting Causal Language Use in Science Findings / Measuring Correlation-to-Causation Exaggeration in Press Releases
hellorusk
0
140
【論文紹介】Efficient Domain Adaptation of Language Models via Adaptive Tokenization
hellorusk
0
400
【論文紹介】SimCSE: Simple Contrastive Learning of Sentence Embeddings
hellorusk
0
890
【論文紹介】Automated Concatenation of Embeddings for Structured Prediction
hellorusk
0
240
Other Decks in Research
See All in Research
Tiaccoon: コンテナネットワークにおいて複数トランスポート方式で統一的なアクセス制御
hiroyaonoe
0
430
Weekly AI Agents News! 12月号 論文のアーカイブ
masatoto
0
200
LLM 시대의 Compliance: Safety & Security
huffon
0
600
Batch Processing Algorithm for Elliptic Curve Operations and Its AVX-512 Implementation
herumi
0
120
Gemini と Looker で営業DX をドライブする / Driving Sales DX with Gemini and Looker
sansan_randd
0
130
A Segment Anything Model based weakly supervised learning method for crop mapping using Sentinel-2 time series images
satai
3
140
複数データセットを用いた動作認識
yuyay
0
120
Whoisの闇
hirachan
3
310
Retrieval of Hurricane Rain Rate From SAR Images Based on Artificial Neural Network
satai
3
140
アプリケーションから知るモデルマージ
maguro27
0
260
Global Evidence Summit (GES) 参加報告
daimoriwaki
0
240
新規のC言語処理系を実装することによる 組込みシステム研究にもたらす価値 についての考察
zacky1972
1
330
Featured
See All Featured
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
29
1k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
10
1.3k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
33
2.1k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
160
15k
Building Adaptive Systems
keathley
40
2.4k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
Making the Leap to Tech Lead
cromwellryan
133
9.1k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
28
9.3k
Building Better People: How to give real-time feedback that sticks.
wjessup
367
19k
For a Future-Friendly Web
brad_frost
176
9.6k
Building an army of robots
kneath
303
45k
Transcript
Man is to computer programmer as woman is to homemaker?
debiasing word embeddings. 演習 III 論文紹介 杉本 海人 2020/05/22 1 / 14
分散表現(単語埋め込み) • 単語を実ベクトルにする: w ∈ Rd • ある単語の意味は, その周囲の文脈によって決まる(分布仮説) •
手法 1 カウントベース 周囲の単語をカウントした共起行列を作り, SVD(特異値分解) などで次元 を削減する 2 推論ベース Word2Vec(2013). 周囲の単語から元の単語を推論する問題 (CBOW) や元の単語から周囲の 単語を推論する問題 (skip-gram) を解く • 両者は別物ではなくある面では同じだったりする • 両者のハイブリッド: GloVe(2014). 2 / 14
分散表現のメリット 1 ベクトルの方向の近さ ≒ 意味の近さ • cos( − − →
dog, − → cat) > cos( − − → dog, − − − − − − − − − − − → programming) 2 analogy 問題が解ける • − − → king − − − − → man + − − − − − → woman ≈ − − − − → queen • − − − − − → France − − − − → Paris + − − − − → Tokyo ≈ − − − − → Japan 3 / 14
分散表現は性差別主義者? • − − − − − − − −
− − → homemaker(家政担当者), − − − − → nurse(看護師), − − − − − − − − − − → receptionist(受付), − − − − − − → librarian(司書) などが − → he よりも − − → she に近い • − − − − − − → maestro(音楽家), − − − − − − → skipper(船長), − − − − − − → protege(弟子), − − − − − − − − − − → philosopher(哲学者) などが − − → she よりも − → he に近い • − − − − − − − − − − − − − − − − − − − − → computer programmer − − − − → man + − − − − − → woman ≈ − − − − − − − − − − → homemaker • − − − − − − − − → carpentry (大工) −− − − → man + − − − − − → woman ≈ − − − − − → sewing (裁縫) • − − − − − − − − − − − → conservatism − − − − → man + − − − − − → woman ≈ − − − − − − − → feminism 4 / 14
分散表現は性差別主義者? • Indirect bias: − − − − − −
− − − − → bookkeeper(簿記) や − − − − − − − − − − → receptionist(受付) は − − − − − → football よ りも − − − − − → softball に近い ⇒ 本来 gender-netural であるべき単語の"意味"が ゆがめられている(Google News であっても) ⇒ そのような分散表現を使った人工知能が普及することで, 暗黙的な 差別が助長する可能性がある 5 / 14
論文の流れ • 分散表現はジェンダーバイアスを含有する • クラウドソーシングを使って, "不当に女性/男性に結び付けられ る言葉"などの偏見を実際に調査し, 分散表現が持つバイアスと傾向が一致することを確認 • 分散表現が含むジェンダーバイアスを定量的に評価する方法を
提案(後述) • ジェンダーバイアスを除去するアルゴリズム (debiasing algorithm) を提案し, それを使っても分散表現としての有用性が失われていないこと を確認(後述) 6 / 14
Gender direction 分散表現のうち性別に関する情報が詰まっている方向 g ∈ Rd 論文では, 以下の 10 個の
gender-specific な単語ベクトルの差を主成分 分析したところ, 第 1 主成分方向の寄与率が支配的だったので, その方 向を g とした. 7 / 14
Direct bias の評価 DirectBiasc = 1 |N| ∑ w∈N |cos(
ì w, g)|c N は gender-neutral な(であるべき)単語の集合 327 種類の職業の単語を N としたところ DirectBias1 = 0.08 8 / 14
Indirect bias の評価 Q. − − − − − −
− − − − → receptionist(受付) が − − − − − → football よりも − − − − − → softball に近いのは, どれほど ジェンダーバイアスによるものなのか? ある単語ベクトル w(||w|| = 1), その g への正射影を wg, g と直交する 方向 w⊥ = w − wg として, (w, v) = w · v − w⊥·v⊥ ||w⊥||||v⊥|| w · v つまり, g 方向成分を取り除くことで 2 つの単語ベクトルの内積がど の程度減るか? を表す ( − − − − − − − − − − → receptionist, − − − − − → softball) = 67% 9 / 14
Debiasing Step1: Identify gender subspace 先ほど gender direction を求めたように主成分分析を行い, バイアス方
向の部分空間 B を計算する Step2a: Hard debiasing gender-neutral な単語について, B への射影が 0 になるようにする (neutralize) gender-neutral な単語から等距離であるべき単語のペア((grandmother, grandfather) など)について, 等距離になるようにする (equalize) 10 / 14
Debiasing 1 1FAT* 2018 tutorial slides 11 / 14
Debiasing Step2b: Soft debiasing 分散表現を格納した行列 W を T をかけて線形変換して, TW
が debiased になってほしい. T を求めるために, 以下のように考える 線形変換後も各単語の分散表現間の内積をできるだけそのままにし つつ, gender-neutral な単語についてはバイアス方向の射影をできるだけ小 さくする これは罰則項付き最適化問題のような形で立式できる 12 / 14
Results 13 / 14
Results Q. Indirect bias については? − − − − −
→ softball- − − − − − → football 方向の analogy は, − − − − − − − − − − → receptionist のような職業に関するものが候補に出てこなくなった ( − − − − − → softball であれば − − − − − → pitcher など, − − − − − → football であれば − − − − − − − − → midfielder など, 語義 に関連性のあるものが代わりに出てくるようになった) 14 / 14