論文紹介 Discovering and Categorising Language Biases in Reddit / web-socialmedia-study-5th

読み手：石原祥太郎（日本経済新聞社）第五回ウェブ・ソーシャルメディア論文読み会 2023 年 5 月 18 日 ICWSM 2021
[paper] [video]

2 本論文の概要 • 特定コーパスの言語バイアスを発見・分類する、単語分散表現を用いたデータ駆動型アプローチを提案（掲示板サイト Reddit と Google News）
• あらかじめ定義された偏った概念（バイアス）を証明するのではなく、探索的に分析する枠組み • 発展版がジャーナルに IEEE Transactions on Knowledge and Data Engineering (Volume: 35, Issue: 4, 01 April 2023)

3 読み手の紹介 • 大学新聞での 4 年間の記者・編集長などを経て、日経新聞でデータ分析・機能開発・研究に従事 • 大規模言語モデル (LLMs)
とニュースメディア ◦ LLMs による閲覧時間推定 (BigData 2022 I&G) ◦ LLMs の時系列性能劣化 (AACL 2022) ◦ LLMs からの訓練データ抽出（ANLP2023） • 機械学習コンテストに関する書籍 * 3

4 • 第 2 回計算社会科学会大会で優秀賞 ◦ 単語分散表現による言語の通時変化の定量化：11年分の日英ニュース記事を用いた社会的事象の分析 • IC2S2
2023 ポスター採択（現地参加予定） ◦ Quantifying Diachronic Language Change via Word Embeddings: Analysis of Social Events using 11 Years News Articles in Japanese and English • 人工知能学会全国大会 2023（同僚の研究） ◦ 6 月 7 日 (水) 09:00-09:20 [2H1-OS-3a-01] 政治資金収支報告書の OCR による政治資金データベースへの試み計算社会科学関連

5 なぜ本論文を選んだか • 単語分散表現によるテキストマイニングを題材とした研究として、丁寧な分析で汎用性がある ◦ 目的やデータセットを置き換えても使えそう ◦ 計算社会科学での論文の雰囲気を知れそう ◦
バイアス自体の報告は論文参照 • Reddit は近年の ChatGPT の台頭で LLMs の訓練セットとして注目を集めている

6 本論文紹介の目次 • 前提知識：単語分散表現とは？ • 提案するアプローチ：バイアスの発見・分類 • 実験： ◦ Google
News で学習されたモデル ◦ Reddit で学習されたモデル • 議論（私見も含めて）

• 単語の意味は周辺の単語によって決まるという分布仮説に基づき、単語をベクトル空間上に埋め込む • Word2Vec：ニューラルネットワークによるモデル化 • 類似度測定やアナロジーが可能に単語分散表現
7 コーパス単語分散表現

8 類似度推定・アナロジー • 分散表現のコサイン類似度を単語の類似度と仮定 • 加減算での単語類推ができる可能性 man woman king ????
car automobile θ

skip-gram：中心のある単語から周辺の単語を予測し、単語分散表現を獲得 • 乾杯はコロナビールで •
新型コロナで療養中単語分散表現はコーパスの写し鏡 (?) 9 コーパス 2019 コーパス 2020 単語分散表現互いに異なる単語分散表現が得られる

10 素朴なアプローチ • とある単語の分散表現 w について、事前に定義した特定の 2 単語の分散表現 c1
, c2 を用いる ◦ たとえば w: 医師、c1 : 男性、c2 : 女性 • 正であるほど c1 、負であるほど c2 に寄っていると考える

11 素朴なアプローチの例 c2 : woman c1 : man w 0.6
? 0.1 ?

13 関連する研究 2 種類 1. あらかじめ定義されたバイアスを証明する研究 ◦ 心理学や社会科学などで知られる定義を利用 2. 単語分散表現から偏った単語を発見する研究
◦ 多くの単語を探索して列挙 ※ 詳細はジャーナル版の Section 2 を参照

14 関連する研究 2 種類と課題 1. あらかじめ定義されたバイアスを証明する研究 ◦ 事前の定義が必要 2. 単語分散表現から偏った単語を発見する研究
◦ 何を意味するか、コミュニティ（コーパス）でどの程度重要なのかを説明していない ◦ コミュニティの言語の識別と理解の両方を支援する自動化手法が必要

15 本論文の貢献 • 特定の概念に偏った単語を発見し、その偏りを比較するためにカテゴリ分類する一連のアプローチを提案 • あるコミュニティで特定の概念に最も偏った単語は何か、どの意味カテゴリに属しているかを知ることができる

16 提案する (一連の) アプローチ 1. 単語分散表現を学習し、2 つの概念を選択 2. 各概念に対し、上位 n
個の偏った単語を選択 3. これらの単語を k-means クラスタリング 4. 各クラスタへのタグ付け（分類）

17 Step 1：概念の選択 • 男性：T1 = {he, son, him, father,
male} • 女性：T2 = {she, daughter, her, mother, female} => T1 に属する単語の分散表現の平均を C1 と見なす => T2 も同様

18 Step 1（素朴なアプローチの再掲） • とある単語の分散表現 w について、事前に定義した特定の 2 単語の分散表現
c1 , c2 を用いる ◦ たとえば w: 医師、c1 : 男性、c2 : 女性 • 正であるほど c1 、負であるほど c2 に寄っていると考える

19 Step 2：上位 n 個の偏った単語 • 名詞と形容詞のみに限定 • 偏った単語の集合を S1
, S2 とする T1 T2

20 Step 2（素朴なアプローチの再掲） c2 : woman c1 : man w
0.6 ? 0.1 ?

21 Step 3：k-means クラスタリング • k の値の設定はケースバイケース T1

22 Step 4：各クラスタへのタグ付け • UCREL Semantic Analysis System (USAS) を利用
◦ テキスト意味解析とタグ付けのフレームワーク ◦ 21 の主要な談話分野とより細かいカテゴリの多層構造を持つ ◦ People, Ethics, Relationship: sexual など

24 実験対象 • Google News で学習されたモデル ◦ 著名な学習済みモデル ◦ バイアスに関する先行研究が再現するか検証
• Reddit で学習されたモデル ◦ Reddit に関する分析は少なく、新規性の貢献も

25 Google News での検証 • 先行研究が報告していたバイアスを再現 ◦ 男性：キャリア、数学・理科などの単語 ◦ 女性：家族、芸術などの単語

26 Reddit • 米国発の掲示板サイト（2005 年〜） • さまざまな話題について議論が交わされている • 匿名で投稿可能だが、比較的治安が良い印象 •
多くの研究の題材になっており、近年は対話コーパスとしても注目を集めている

27 報告した Reddit 内ページとバイアス • /r/TheRedPill：性別について • /r/DatingAdvice：性別について • /r/Athesm：宗教について
• /r/The_Donald：民族について

29 提案するアプローチの限界 1. 単語の出現頻度を考慮しないため、発見された単語がコミュニティを代表しない可能性がある 2. 手動での処理が残っている（クラスタ数 k など） 3.
概念 (T1 , T2 ) とコミュニティで実際に使用されている言語との間の関連付けができない ※ 詳細はジャーナル版の Section 2 も参照

30 本論文を読んだ感想 • 一般的な手法の組み合わせだが、一連のアプローチとしてまとめている ◦ 著名な対象を分析して有用性を示し、新しめの対象を分析して新規性を出している実験設計 • 定性的な考察が多く、興味深い
• 自分でも、目的やデータセットを置き換えて手を動かしやすそう

論文紹介 Discovering and Categorising Language Bias...

論文紹介 Discovering and Categorising Language Biases in Reddit / web-socialmedia-study-5th

Shotaro Ishihara

More Decks by Shotaro Ishihara

Other Decks in Research

Featured

Transcript

読み手：石原祥太郎（日本経済新聞社）第五回ウェブ・ソーシャルメディア論文読み会 2023 年 5 月 18 日 ICWSM 2021

2 本論文の概要 • 特定コーパスの言語バイアスを発見・分類する、単語分散表現を用いたデータ駆動型アプローチを提案（掲示板サイト Reddit と Google News）

3 読み手の紹介 • 大学新聞での 4 年間の記者・編集長などを経て、日経新聞でデータ分析・機能開発・研究に従事 • 大規模言語モデル (LLMs)

4 • 第 2 回計算社会科学会大会で優秀賞 ◦ 単語分散表現による言語の通時変化の定量化：11年分の日英ニュース記事を用いた社会的事象の分析 • IC2S2

5 なぜ本論文を選んだか • 単語分散表現によるテキストマイニングを題材とした研究として、丁寧な分析で汎用性がある ◦ 目的やデータセットを置き換えても使えそう ◦ 計算社会科学での論文の雰囲気を知れそう ◦

6 本論文紹介の目次 • 前提知識：単語分散表現とは？ • 提案するアプローチ：バイアスの発見・分類 • 実験： ◦ Google

• 単語の意味は周辺の単語によって決まるという分布仮説に基づき、単語をベクトル空間上に埋め込む • Word2Vec：ニューラルネットワークによるモデル化 • 類似度測定やアナロジーが可能に単語分散表現

8 類似度推定・アナロジー • 分散表現のコサイン類似度を単語の類似度と仮定 • 加減算での単語類推ができる可能性 man woman king ????

skip-gram：中心のある単語から周辺の単語を予測し、単語分散表現を獲得 • 乾杯はコロナビールで •

10 素朴なアプローチ • とある単語の分散表現 w について、事前に定義した特定の 2 単語の分散表現 c1

11 素朴なアプローチの例 c2 : woman c1 : man w 0.6

12 本論文紹介の目次 • 前提知識：単語分散表現とは？ • 提案するアプローチ：バイアスの発見・分類 • 実験： ◦ Google

13 関連する研究 2 種類 1. あらかじめ定義されたバイアスを証明する研究 ◦ 心理学や社会科学などで知られる定義を利用 2. 単語分散表現から偏った単語を発見する研究

14 関連する研究 2 種類と課題 1. あらかじめ定義されたバイアスを証明する研究 ◦ 事前の定義が必要 2. 単語分散表現から偏った単語を発見する研究

16 提案する (一連の) アプローチ 1. 単語分散表現を学習し、2 つの概念を選択 2. 各概念に対し、上位 n

17 Step 1：概念の選択 • 男性：T1 = {he, son, him, father,

18 Step 1（素朴なアプローチの再掲） • とある単語の分散表現 w について、事前に定義した特定の 2 単語の分散表現

19 Step 2：上位 n 個の偏った単語 • 名詞と形容詞のみに限定 • 偏った単語の集合を S1

20 Step 2（素朴なアプローチの再掲） c2 : woman c1 : man w

21 Step 3：k-means クラスタリング • k の値の設定はケースバイケース T1

22 Step 4：各クラスタへのタグ付け • UCREL Semantic Analysis System (USAS) を利用

23 本論文紹介の目次 • 前提知識：単語分散表現とは？ • 提案するアプローチ：バイアスの発見・分類 • 実験： ◦ Google

24 実験対象 • Google News で学習されたモデル ◦ 著名な学習済みモデル ◦ バイアスに関する先行研究が再現するか検証

25 Google News での検証 • 先行研究が報告していたバイアスを再現 ◦ 男性：キャリア、数学・理科などの単語 ◦ 女性：家族、芸術などの単語

26 Reddit • 米国発の掲示板サイト（2005 年〜） • さまざまな話題について議論が交わされている • 匿名で投稿可能だが、比較的治安が良い印象 •

27 報告した Reddit 内ページとバイアス • /r/TheRedPill：性別について • /r/DatingAdvice：性別について • /r/Athesm：宗教について

28 本論文紹介の目次 • 前提知識：単語分散表現とは？ • 提案するアプローチ：バイアスの発見・分類 • 実験： ◦ Google

29 提案するアプローチの限界 1. 単語の出現頻度を考慮しないため、発見された単語がコミュニティを代表しない可能性がある 2. 手動での処理が残っている（クラスタ数 k など） 3.