Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
アノテーションのバイアス排除に関する2020年代の研究動向
Search
kuri8ive
July 20, 2022
Research
2
1.3k
アノテーションのバイアス排除に関する2020年代の研究動向
社内LT会で発表した資料です。
内容はアノテーションのバイアス排除に関する近年の研究をざっくり紹介したものです。
kuri8ive
July 20, 2022
Tweet
Share
More Decks by kuri8ive
See All by kuri8ive
利用シーンを意識した推薦システム〜SpotifyとAmazonの事例から〜
kuri8ive
1
210
精度を無視しない推薦多様化の評価指標
kuri8ive
1
470
文化が形作る音楽推薦の消費と、その逆
kuri8ive
0
280
"多様な推薦"はユーザーの目にどう映るか
kuri8ive
4
610
LLMとの共同執筆は文章の多様性を減らすか?
kuri8ive
4
1.1k
推薦結果への説明付加はいつどんなものが嬉しいか
kuri8ive
2
380
広告設定をより制御できるようになるとユーザーはどう反応しどう感じるか
kuri8ive
2
430
説明の偏り・見せ方が推薦結果の選択にどう影響するか
kuri8ive
3
1.1k
正確な推薦は無条件に信頼できるか?
kuri8ive
3
1.3k
Other Decks in Research
See All in Research
クラウドのテレメトリーシステム研究動向2025年
yuukit
3
960
RHO-1: Not All Tokens Are What You Need
sansan_randd
1
130
業界横断 副業・兼業者の実態調査
fkske
0
190
EarthSynth: Generating Informative Earth Observation with Diffusion Models
satai
3
110
データxデジタルマップで拓く ミラノ発・地域共創最前線
mapconcierge4agu
0
180
在庫管理のための機械学習と最適化の融合
mickey_kubo
3
1.1k
Type Theory as a Formal Basis of Natural Language Semantics
daikimatsuoka
1
240
ノンパラメトリック分布表現を用いた位置尤度場周辺化によるRTK-GNSSの整数アンビギュイティ推定
aoki_nosse
0
320
数理最適化と機械学習の融合
mickey_kubo
15
8.9k
Self-supervised audiovisual representation learning for remote sensing data
satai
3
230
AIによる画像認識技術の進化 -25年の技術変遷を振り返る-
hf149
6
3.6k
実行環境に中立なWebAssemblyライブマイグレーション機構/techtalk-2025spring
chikuwait
0
230
Featured
See All Featured
Building Better People: How to give real-time feedback that sticks.
wjessup
367
19k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
35
2.4k
The Art of Programming - Codeland 2020
erikaheidi
54
13k
Git: the NoSQL Database
bkeepers
PRO
430
65k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
138
34k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
Automating Front-end Workflow
addyosmani
1370
200k
Why Our Code Smells
bkeepers
PRO
336
57k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
7
740
GraphQLの誤解/rethinking-graphql
sonatard
71
11k
Java REST API Framework Comparison - PWX 2021
mraible
31
8.7k
Transcript
アノテーションのバイアス排除に関する 2020年代の研究動向 栗本真太郎(@kuri8ive) 2022年7月20日 2022年夏の Official Account 開発室 LT大会 Ad
Data Science Team
2/19 「いかにバイアスを排除し アノテーションの質を高めるか?」に 関連する近年の研究をざっくり紹介するもの これはなに
バイアス排除の難しさを感じさせる研究群 CSCW'20, SIGIR'20, HCOMP'20, ICCV'21, FaccT'22, NAACL'22
4/19 えらい人の都合 in データ 多くの研究はアノテーターの主観に焦点を当てているが本当にそれが問題? → 上位にいる他者の関心、価値、優先順位に深く影響されていた Between Subjectivity and
Imposition: Power Dynamics in Data Annotation for Computer Vision (CSCW'20)
5/19 素人でも玄人並みのアノテーションは可能? 政治的発言の誤報識別タスクで概ね専門家と類似したアノテーション結果 また、ワーカーのグループ化が有用であることも示唆 → ただし、暗黙的な政治的志向が真偽の判断品質に影響するので注意 (明示的な政治スタンスとは関係なく) Can The Crowd
Identify Misinformation Objectively? The Effects of Judgment Scale and Assessor's Background (SIGIR'20)
6/19 違う視点を知ればバイアスは軽減できる? 違う視点を持つ人と一緒にアノテーションをしてもあまり変化はなし → 単に違う視点を知るだけではバイアス軽減には至らない Does Exposure to Diverse Perspectives
Mitigate Biases in Crowdwork? An Explorative Study (HCOMP'20)
7/19 肌の色が違えばいろいろ違ったものに 画像に存在するバイアスを「肌の色が明るい人 or 暗い人」で調査 → キャプションの正確さ、感情や単語の選択に違い また、キャプションシステムが最新かどうかで大きな差 Understanding and
Evaluating Racial Biases in Image Captioning (ICCV'21)
8/19 うーんたぶんこれは真実かな(N回目) 公開されているクラウドソーシングデータの系統的探索分析を実施 → 認知バイアスのほか、科学に対する信念が影響する可能性を示唆 また、一般的に真実性を過大評価する傾向 The Effects of Crowd
Worker Biases in Fact-Checking Tasks (FaccT'22)
9/19 言論の有害性の評価において アノテーターのアイデンティティや信条が強く影響 → 特に、保守的だったり人種差別的信念のスコアが高いアノテーターは 黒人へのヘイトスピーチを無害と評価する一方、アフリカ英語を有害と評価 "標準"じゃないのは有害? Annotators with Attitudes:
How Annotator Beliefs And Identities Bias Toxic Language Detection (NAACL'22)
バイアス排除に挑戦している研究群 VLDB'20, CVPR'21, IJCAI'21, NerIPS'21, CHIIR'22, IJCV'22, CHI'22, ICML'22
11/19 MCMCに基づく類似アイテムの混同検出手法を提案し 品質が改善されることを実験で示した → 単純な警告であっても早期に混同のリスクを警告することで 大幅に改善できることも示した いつ頭こんがらがったか教えて〜 Detecting and Preventing
Confused Labels in Crowdsourced Data (VLDB'20)
12/19 GANを用いて現実的な画像を生成したのち、潜在空間において摂動を与える → 各保護属性に対してバランスの取れた学習データを生成 GANで公平さの補正をかける Fair Attribute Classification Through Latent
Space De-Biasing (CVPR'21)
13/19 ラベルに加えて、アノテーターとタスクの値も同時にEMアルゴリズムで推論 → アノテーターが多い、確証バイアスが大きい場合などでより正確に推測 より確証バイアスを考慮した回答統合 Accounting for Confirmation Bias in
Crowdsourced Label Aggregation (IJCAI'21)
14/19 ラベルを定義する固有の属性とバイアスを引き起こす周辺属性を分離し、 多様な固有属性サンプルを合成 → 各アイテムの非本質的な部分で学習してしまうことを防ぐ 余分な情報をあえてつける Learning Debiased Representation via
Disentangled Feature Augmentation (NeurIPS'21)
15/19 Webページの質判断にどういった要因が影響するか → 時間帯や曜日が大きく影響することを示し 影響を軽減するための方策を指南 アノテーションに効いてくるバイオリズム The Crowd is Made
of People: Observations from Large-Scale Crowd Labelling (CHIIR'22)
16/19 (1)オブジェクト、(2)人物、(3)地理の3つの次元に沿って 潜在的な偏りを可視化するツールを開発 → 「ではどうすればよいか?」も提案し、早期のバイアス軽減へ どれくらい偏ってるか、見れば分かるよね? REVISE: A Tool for
Measuring and Mitigating Bias in Visual Datasets (IJCV'22)
17/19 逐次的な意思決定において、 アンカリングの影響を捕捉し提示アイテムを動的に決定する手法を提案 → リアルタイムでバイアスを軽減しながらの評価収集を実現 さっき見たものの影響をどけたい AI-Moderated Decision-Making: Capturing and
Balancing Anchoring Bias in Sequential Decision Tasks (CHI'22)
18/19 画像内の顔に難読化処理を施す → 人種等の(不必要な)影響を軽減しつつ、 難読化済みデータで学習したモデルの性能低下は1%以下程度に抑えられた XX人がいるから〇〇を避けるために A Study of Face
Obfuscation in ImageNet (ICML'22)
完全じゃなくともバイアスを踏まえたデータ収集をやっていき https://alu.jp/series/僕たちがやりました/crop/HVt9jvtSrrrYDT8TbZ27