$30 off During Our Annual Pro Sale. View Details »

【論文紹介】Man is to computer programmer as woman is to homemaker? debiasing word embeddings.

【論文紹介】Man is to computer programmer as woman is to homemaker? debiasing word embeddings.

演習III 論文紹介
内容に問題や不備がある場合は、お手数ですが hellorusk1998 [at] gmail.com までご連絡お願いいたします。

Kaito Sugimoto

May 22, 2020
Tweet

More Decks by Kaito Sugimoto

Other Decks in Research

Transcript

  1. Man is to computer programmer as
    woman is to homemaker?
    debiasing word embeddings.
    演習 III  論文紹介
    杉本 海人
    2020/05/22
    1 / 14

    View Slide

  2. 分散表現(単語埋め込み)
    • 単語を実ベクトルにする: w ∈ Rd
    • ある単語の意味は, その周囲の文脈によって決まる(分布仮説)
    • 手法
    1
    カウントベース
    周囲の単語をカウントした共起行列を作り, SVD(特異値分解) などで次元
    を削減する
    2
    推論ベース
    Word2Vec(2013).
    周囲の単語から元の単語を推論する問題 (CBOW) や元の単語から周囲の
    単語を推論する問題 (skip-gram) を解く
    • 両者は別物ではなくある面では同じだったりする
    • 両者のハイブリッド: GloVe(2014).
    2 / 14

    View Slide

  3. 分散表現のメリット
    1
    ベクトルの方向の近さ ≒ 意味の近さ
    • cos(



    dog,


    cat) > cos(



    dog,












    programming)
    2
    analogy 問題が解ける




    king − −



    man + −





    woman ≈ −




    queen







    France −




    Paris +





    Tokyo ≈





    Japan
    3 / 14

    View Slide

  4. 分散表現は性差別主義者?












    homemaker(家政担当者),





    nurse(看護師),











    receptionist(受付),







    librarian(司書) などが


    he よりも



    she に近い








    maestro(音楽家),







    skipper(船長),







    protege(弟子),











    philosopher(哲学者)
    などが



    she よりも


    he に近い






















    computer programmer − −



    man + −





    woman ≈











    homemaker










    carpentry (大工) −−



    man + −





    woman ≈






    sewing (裁縫)













    conservatism − −



    man + −





    woman ≈








    feminism
    4 / 14

    View Slide

  5. 分散表現は性差別主義者?
    • Indirect bias:











    bookkeeper(簿記) や











    receptionist(受付) は






    football よ
    りも






    softball に近い
    ⇒ 本来 gender-netural であるべき単語の"意味"が
    ゆがめられている(Google News であっても)
    ⇒ そのような分散表現を使った人工知能が普及することで, 暗黙的な
    差別が助長する可能性がある
    5 / 14

    View Slide

  6. 論文の流れ
    • 分散表現はジェンダーバイアスを含有する
    • クラウドソーシングを使って, "不当に女性/男性に結び付けられ
    る言葉"などの偏見を実際に調査し,
    分散表現が持つバイアスと傾向が一致することを確認
    • 分散表現が含むジェンダーバイアスを定量的に評価する方法を
    提案(後述)
    • ジェンダーバイアスを除去するアルゴリズム (debiasing
    algorithm) を提案し,
    それを使っても分散表現としての有用性が失われていないこと
    を確認(後述)
    6 / 14

    View Slide

  7. Gender direction
    分散表現のうち性別に関する情報が詰まっている方向 g ∈ Rd
    論文では, 以下の 10 個の gender-specific な単語ベクトルの差を主成分
    分析したところ, 第 1 主成分方向の寄与率が支配的だったので, その方
    向を g とした.
    7 / 14

    View Slide

  8. Direct bias の評価
    DirectBiasc
    =
    1
    |N|

    w∈N
    |cos( ì
    w, g)|c
    N は gender-neutral な(であるべき)単語の集合
    327 種類の職業の単語を N としたところ DirectBias1
    = 0.08
    8 / 14

    View Slide

  9. Indirect bias の評価
    Q.











    receptionist(受付) が






    football よりも






    softball に近いのは, どれほど
    ジェンダーバイアスによるものなのか?
    ある単語ベクトル w(||w|| = 1), その g への正射影を wg, g と直交する
    方向 w⊥ = w − wg
    として,
    (w, v) =
    w · v − w⊥·v⊥
    ||w⊥||||v⊥||
    w · v
    つまり, g 方向成分を取り除くことで 2 つの単語ベクトルの内積がど
    の程度減るか? を表す
    (











    receptionist,






    softball) = 67%
    9 / 14

    View Slide

  10. Debiasing
    Step1: Identify gender subspace
    先ほど gender direction を求めたように主成分分析を行い, バイアス方
    向の部分空間 B を計算する Step2a: Hard debiasing
    gender-neutral な単語について, B への射影が 0 になるようにする
    (neutralize)
    gender-neutral な単語から等距離であるべき単語のペア((grandmother,
    grandfather) など)について, 等距離になるようにする (equalize)
    10 / 14

    View Slide

  11. Debiasing
    1
    1FAT* 2018 tutorial slides
    11 / 14

    View Slide

  12. Debiasing
    Step2b: Soft debiasing
    分散表現を格納した行列 W を T をかけて線形変換して, TW が
    debiased になってほしい.
    T を求めるために, 以下のように考える
    線形変換後も各単語の分散表現間の内積をできるだけそのままにし
    つつ,
    gender-neutral な単語についてはバイアス方向の射影をできるだけ小
    さくする
    これは罰則項付き最適化問題のような形で立式できる
    12 / 14

    View Slide

  13. Results
    13 / 14

    View Slide

  14. Results
    Q. Indirect bias については?






    softball-






    football 方向の analogy は,











    receptionist のような職業に関するものが候補に出てこなくなった







    softball であれば






    pitcher など,






    football であれば









    midfielder など, 語義
    に関連性のあるものが代わりに出てくるようになった)
    14 / 14

    View Slide