Upgrade to Pro — share decks privately, control downloads, hide ads and more …

アノテーションのバイアス排除に関する2020年代の研究動向

kuri8ive
July 20, 2022

 アノテーションのバイアス排除に関する2020年代の研究動向

社内LT会で発表した資料です。
内容はアノテーションのバイアス排除に関する近年の研究をざっくり紹介したものです。

kuri8ive

July 20, 2022
Tweet

More Decks by kuri8ive

Other Decks in Research

Transcript

  1. アノテーションのバイアス排除に関する
    2020年代の研究動向
    栗本真太郎(@kuri8ive)
    2022年7月20日
    2022年夏の Official Account 開発室 LT大会
    Ad Data Science Team

    View full-size slide

  2. 2/19
    「いかにバイアスを排除し
    アノテーションの質を高めるか?」に
    関連する近年の研究をざっくり紹介するもの
    これはなに

    View full-size slide

  3. バイアス排除の難しさを感じさせる研究群
    CSCW'20, SIGIR'20, HCOMP'20,
    ICCV'21, FaccT'22, NAACL'22

    View full-size slide

  4. 4/19
    えらい人の都合 in データ
    多くの研究はアノテーターの主観に焦点を当てているが本当にそれが問題?
    → 上位にいる他者の関心、価値、優先順位に深く影響されていた
    Between Subjectivity and Imposition: Power Dynamics in Data Annotation for Computer Vision (CSCW'20)

    View full-size slide

  5. 5/19
    素人でも玄人並みのアノテーションは可能?
    政治的発言の誤報識別タスクで概ね専門家と類似したアノテーション結果
    また、ワーカーのグループ化が有用であることも示唆
    → ただし、暗黙的な政治的志向が真偽の判断品質に影響するので注意
    (明示的な政治スタンスとは関係なく)
    Can The Crowd Identify Misinformation Objectively? The Effects of Judgment Scale and Assessor's Background (SIGIR'20)

    View full-size slide

  6. 6/19
    違う視点を知ればバイアスは軽減できる?
    違う視点を持つ人と一緒にアノテーションをしてもあまり変化はなし
    → 単に違う視点を知るだけではバイアス軽減には至らない
    Does Exposure to Diverse Perspectives Mitigate Biases in Crowdwork? An Explorative Study (HCOMP'20)

    View full-size slide

  7. 7/19
    肌の色が違えばいろいろ違ったものに
    画像に存在するバイアスを「肌の色が明るい人 or 暗い人」で調査
    → キャプションの正確さ、感情や単語の選択に違い
    また、キャプションシステムが最新かどうかで大きな差
    Understanding and Evaluating Racial Biases in Image Captioning (ICCV'21)

    View full-size slide

  8. 8/19
    うーんたぶんこれは真実かな(N回目)
    公開されているクラウドソーシングデータの系統的探索分析を実施
    → 認知バイアスのほか、科学に対する信念が影響する可能性を示唆
    また、一般的に真実性を過大評価する傾向
    The Effects of Crowd Worker Biases in Fact-Checking Tasks (FaccT'22)

    View full-size slide

  9. 9/19
    言論の有害性の評価において
    アノテーターのアイデンティティや信条が強く影響
    → 特に、保守的だったり人種差別的信念のスコアが高いアノテーターは
    黒人へのヘイトスピーチを無害と評価する一方、アフリカ英語を有害と評価
    "標準"じゃないのは有害?
    Annotators with Attitudes: How Annotator Beliefs And Identities Bias Toxic Language Detection (NAACL'22)

    View full-size slide

  10. バイアス排除に挑戦している研究群
    VLDB'20, CVPR'21, IJCAI'21, NerIPS'21,
    CHIIR'22, IJCV'22, CHI'22, ICML'22

    View full-size slide

  11. 11/19
    MCMCに基づく類似アイテムの混同検出手法を提案し
    品質が改善されることを実験で示した
    → 単純な警告であっても早期に混同のリスクを警告することで
    大幅に改善できることも示した
    いつ頭こんがらがったか教えて〜
    Detecting and Preventing Confused Labels in Crowdsourced Data (VLDB'20)

    View full-size slide

  12. 12/19
    GANを用いて現実的な画像を生成したのち、潜在空間において摂動を与える
    → 各保護属性に対してバランスの取れた学習データを生成
    GANで公平さの補正をかける
    Fair Attribute Classification Through Latent Space De-Biasing (CVPR'21)

    View full-size slide

  13. 13/19
    ラベルに加えて、アノテーターとタスクの値も同時にEMアルゴリズムで推論
    → アノテーターが多い、確証バイアスが大きい場合などでより正確に推測
    より確証バイアスを考慮した回答統合
    Accounting for Confirmation Bias in Crowdsourced Label Aggregation (IJCAI'21)

    View full-size slide

  14. 14/19
    ラベルを定義する固有の属性とバイアスを引き起こす周辺属性を分離し、
    多様な固有属性サンプルを合成
    → 各アイテムの非本質的な部分で学習してしまうことを防ぐ
    余分な情報をあえてつける
    Learning Debiased Representation via Disentangled Feature Augmentation (NeurIPS'21)

    View full-size slide

  15. 15/19
    Webページの質判断にどういった要因が影響するか
    → 時間帯や曜日が大きく影響することを示し
    影響を軽減するための方策を指南
    アノテーションに効いてくるバイオリズム
    The Crowd is Made of People: Observations from Large-Scale Crowd Labelling (CHIIR'22)

    View full-size slide

  16. 16/19
    (1)オブジェクト、(2)人物、(3)地理の3つの次元に沿って
    潜在的な偏りを可視化するツールを開発
    → 「ではどうすればよいか?」も提案し、早期のバイアス軽減へ
    どれくらい偏ってるか、見れば分かるよね?
    REVISE: A Tool for Measuring and Mitigating Bias in Visual Datasets (IJCV'22)

    View full-size slide

  17. 17/19
    逐次的な意思決定において、
    アンカリングの影響を捕捉し提示アイテムを動的に決定する手法を提案
    → リアルタイムでバイアスを軽減しながらの評価収集を実現
    さっき見たものの影響をどけたい
    AI-Moderated Decision-Making: Capturing and Balancing Anchoring Bias in Sequential Decision Tasks (CHI'22)

    View full-size slide

  18. 18/19
    画像内の顔に難読化処理を施す
    → 人種等の(不必要な)影響を軽減しつつ、
    難読化済みデータで学習したモデルの性能低下は1%以下程度に抑えられた
    XX人がいるから〇〇を避けるために
    A Study of Face Obfuscation in ImageNet (ICML'22)

    View full-size slide

  19. 完全じゃなくともバイアスを踏まえたデータ収集をやっていき
    https://alu.jp/series/僕たちがやりました/crop/HVt9jvtSrrrYDT8TbZ27

    View full-size slide