Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
アノテーションのバイアス排除に関する2020年代の研究動向
Search
kuri8ive
July 20, 2022
Research
2
1.3k
アノテーションのバイアス排除に関する2020年代の研究動向
社内LT会で発表した資料です。
内容はアノテーションのバイアス排除に関する近年の研究をざっくり紹介したものです。
kuri8ive
July 20, 2022
Tweet
Share
More Decks by kuri8ive
See All by kuri8ive
利用シーンを意識した推薦システム〜SpotifyとAmazonの事例から〜
kuri8ive
1
210
精度を無視しない推薦多様化の評価指標
kuri8ive
1
470
文化が形作る音楽推薦の消費と、その逆
kuri8ive
0
280
"多様な推薦"はユーザーの目にどう映るか
kuri8ive
4
610
LLMとの共同執筆は文章の多様性を減らすか?
kuri8ive
4
1.1k
推薦結果への説明付加はいつどんなものが嬉しいか
kuri8ive
2
380
広告設定をより制御できるようになるとユーザーはどう反応しどう感じるか
kuri8ive
2
430
説明の偏り・見せ方が推薦結果の選択にどう影響するか
kuri8ive
3
1.1k
正確な推薦は無条件に信頼できるか?
kuri8ive
3
1.3k
Other Decks in Research
See All in Research
Pix2Poly: A Sequence Prediction Method for End-to-end Polygonal Building Footprint Extraction from Remote Sensing Imagery
satai
3
490
2025年度人工知能学会全国大会チュートリアル講演「深層基盤モデルの数理」
taiji_suzuki
24
15k
NLP2025参加報告会 LT資料
hargon24
1
320
Combinatorial Search with Generators
kei18
0
350
A multimodal data fusion model for accurate and interpretable urban land use mapping with uncertainty analysis
satai
3
230
RapidPen: AIエージェントによるペネトレーションテスト 初期侵入全自動化の研究
laysakura
0
1.6k
言語モデルによるAI創薬の進展 / Advancements in AI-Driven Drug Discovery Using Language Models
tsurubee
2
380
Google Agent Development Kit (ADK) 入門 🚀
mickey_kubo
2
1.1k
GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization
satai
3
250
SSII2025 [SS2] 横浜DeNAベイスターズの躍進を支えたAIプロダクト
ssii
PRO
7
3.6k
ASSADS:ASMR動画に合わせて撫でられる感覚を提示するシステムの開発と評価 / ec75-shimizu
yumulab
1
400
ウッドスタックチャン:木材を用いた小型エージェントロボットの開発と印象評価 / ec75-sato
yumulab
1
420
Featured
See All Featured
The Pragmatic Product Professional
lauravandoore
35
6.7k
Build your cross-platform service in a week with App Engine
jlugia
231
18k
Art, The Web, and Tiny UX
lynnandtonic
299
21k
StorybookのUI Testing Handbookを読んだ
zakiyama
30
5.9k
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
357
30k
Code Review Best Practice
trishagee
69
18k
Optimising Largest Contentful Paint
csswizardry
37
3.3k
Statistics for Hackers
jakevdp
799
220k
Practical Orchestrator
shlominoach
189
11k
For a Future-Friendly Web
brad_frost
179
9.8k
The Art of Programming - Codeland 2020
erikaheidi
54
13k
Transcript
アノテーションのバイアス排除に関する 2020年代の研究動向 栗本真太郎(@kuri8ive) 2022年7月20日 2022年夏の Official Account 開発室 LT大会 Ad
Data Science Team
2/19 「いかにバイアスを排除し アノテーションの質を高めるか?」に 関連する近年の研究をざっくり紹介するもの これはなに
バイアス排除の難しさを感じさせる研究群 CSCW'20, SIGIR'20, HCOMP'20, ICCV'21, FaccT'22, NAACL'22
4/19 えらい人の都合 in データ 多くの研究はアノテーターの主観に焦点を当てているが本当にそれが問題? → 上位にいる他者の関心、価値、優先順位に深く影響されていた Between Subjectivity and
Imposition: Power Dynamics in Data Annotation for Computer Vision (CSCW'20)
5/19 素人でも玄人並みのアノテーションは可能? 政治的発言の誤報識別タスクで概ね専門家と類似したアノテーション結果 また、ワーカーのグループ化が有用であることも示唆 → ただし、暗黙的な政治的志向が真偽の判断品質に影響するので注意 (明示的な政治スタンスとは関係なく) Can The Crowd
Identify Misinformation Objectively? The Effects of Judgment Scale and Assessor's Background (SIGIR'20)
6/19 違う視点を知ればバイアスは軽減できる? 違う視点を持つ人と一緒にアノテーションをしてもあまり変化はなし → 単に違う視点を知るだけではバイアス軽減には至らない Does Exposure to Diverse Perspectives
Mitigate Biases in Crowdwork? An Explorative Study (HCOMP'20)
7/19 肌の色が違えばいろいろ違ったものに 画像に存在するバイアスを「肌の色が明るい人 or 暗い人」で調査 → キャプションの正確さ、感情や単語の選択に違い また、キャプションシステムが最新かどうかで大きな差 Understanding and
Evaluating Racial Biases in Image Captioning (ICCV'21)
8/19 うーんたぶんこれは真実かな(N回目) 公開されているクラウドソーシングデータの系統的探索分析を実施 → 認知バイアスのほか、科学に対する信念が影響する可能性を示唆 また、一般的に真実性を過大評価する傾向 The Effects of Crowd
Worker Biases in Fact-Checking Tasks (FaccT'22)
9/19 言論の有害性の評価において アノテーターのアイデンティティや信条が強く影響 → 特に、保守的だったり人種差別的信念のスコアが高いアノテーターは 黒人へのヘイトスピーチを無害と評価する一方、アフリカ英語を有害と評価 "標準"じゃないのは有害? Annotators with Attitudes:
How Annotator Beliefs And Identities Bias Toxic Language Detection (NAACL'22)
バイアス排除に挑戦している研究群 VLDB'20, CVPR'21, IJCAI'21, NerIPS'21, CHIIR'22, IJCV'22, CHI'22, ICML'22
11/19 MCMCに基づく類似アイテムの混同検出手法を提案し 品質が改善されることを実験で示した → 単純な警告であっても早期に混同のリスクを警告することで 大幅に改善できることも示した いつ頭こんがらがったか教えて〜 Detecting and Preventing
Confused Labels in Crowdsourced Data (VLDB'20)
12/19 GANを用いて現実的な画像を生成したのち、潜在空間において摂動を与える → 各保護属性に対してバランスの取れた学習データを生成 GANで公平さの補正をかける Fair Attribute Classification Through Latent
Space De-Biasing (CVPR'21)
13/19 ラベルに加えて、アノテーターとタスクの値も同時にEMアルゴリズムで推論 → アノテーターが多い、確証バイアスが大きい場合などでより正確に推測 より確証バイアスを考慮した回答統合 Accounting for Confirmation Bias in
Crowdsourced Label Aggregation (IJCAI'21)
14/19 ラベルを定義する固有の属性とバイアスを引き起こす周辺属性を分離し、 多様な固有属性サンプルを合成 → 各アイテムの非本質的な部分で学習してしまうことを防ぐ 余分な情報をあえてつける Learning Debiased Representation via
Disentangled Feature Augmentation (NeurIPS'21)
15/19 Webページの質判断にどういった要因が影響するか → 時間帯や曜日が大きく影響することを示し 影響を軽減するための方策を指南 アノテーションに効いてくるバイオリズム The Crowd is Made
of People: Observations from Large-Scale Crowd Labelling (CHIIR'22)
16/19 (1)オブジェクト、(2)人物、(3)地理の3つの次元に沿って 潜在的な偏りを可視化するツールを開発 → 「ではどうすればよいか?」も提案し、早期のバイアス軽減へ どれくらい偏ってるか、見れば分かるよね? REVISE: A Tool for
Measuring and Mitigating Bias in Visual Datasets (IJCV'22)
17/19 逐次的な意思決定において、 アンカリングの影響を捕捉し提示アイテムを動的に決定する手法を提案 → リアルタイムでバイアスを軽減しながらの評価収集を実現 さっき見たものの影響をどけたい AI-Moderated Decision-Making: Capturing and
Balancing Anchoring Bias in Sequential Decision Tasks (CHI'22)
18/19 画像内の顔に難読化処理を施す → 人種等の(不必要な)影響を軽減しつつ、 難読化済みデータで学習したモデルの性能低下は1%以下程度に抑えられた XX人がいるから〇〇を避けるために A Study of Face
Obfuscation in ImageNet (ICML'22)
完全じゃなくともバイアスを踏まえたデータ収集をやっていき https://alu.jp/series/僕たちがやりました/crop/HVt9jvtSrrrYDT8TbZ27