Slide 1

Slide 1 text

読み手:石原祥太郎(日本経済新聞社) 第五回ウェブ・ソーシャルメディア論文読み会 2023 年 5 月 18 日 ICWSM 2021 [paper] [video]

Slide 2

Slide 2 text

2 本論文の概要 ● 特定コーパスの言語バイアスを発見・分類する、 単語分散表現を用いたデータ駆動型アプローチを 提案(掲示板サイト Reddit と Google News) ● あらかじめ定義された偏った概念(バイアス)を 証明するのではなく、探索的に分析する枠組み ● 発展版がジャーナルに IEEE Transactions on Knowledge and Data Engineering (Volume: 35, Issue: 4, 01 April 2023)

Slide 3

Slide 3 text

3 読み手の紹介 ● 大学新聞での 4 年間の記者・編集長などを経て、 日経新聞でデータ分析・機能開発・研究に従事 ● 大規模言語モデル (LLMs) とニュースメディア ○ LLMs による閲覧時間推定 (BigData 2022 I&G) ○ LLMs の時系列性能劣化 (AACL 2022) ○ LLMs からの訓練データ抽出(ANLP2023) ● 機械学習コンテストに関する書籍 * 3

Slide 4

Slide 4 text

4 ● 第 2 回計算社会科学会大会で優秀賞 ○ 単語分散表現による言語の通時変化の定量化:11年分の日英ニュース記事 を用いた社会的事象の分析 ● IC2S2 2023 ポスター採択(現地参加予定) ○ Quantifying Diachronic Language Change via Word Embeddings: Analysis of Social Events using 11 Years News Articles in Japanese and English ● 人工知能学会全国大会 2023(同僚の研究) ○ 6 月 7 日 (水) 09:00-09:20 [2H1-OS-3a-01] 政治資金収支報告書の OCR による政治資金データベースへの試み 計算社会科学関連

Slide 5

Slide 5 text

5 なぜ本論文を選んだか ● 単語分散表現によるテキストマイニングを題材と した研究として、丁寧な分析で汎用性がある ○ 目的やデータセットを置き換えても使えそう ○ 計算社会科学での論文の雰囲気を知れそう ○ バイアス自体の報告は論文参照 ● Reddit は近年の ChatGPT の台頭で LLMs の訓練 セットとして注目を集めている

Slide 6

Slide 6 text

6 本論文紹介の目次 ● 前提知識:単語分散表現とは? ● 提案するアプローチ:バイアスの発見・分類 ● 実験: ○ Google News で学習されたモデル ○ Reddit で学習されたモデル ● 議論(私見も含めて)

Slide 7

Slide 7 text

● 単語の意味は周辺の単語によって 決まるという分布仮説に基づき、 単語をベクトル空間上に埋め込む ● Word2Vec:ニューラルネットワー クによるモデル化 ● 類似度測定やアナロジーが可能に 単語分散表現 7 コーパス 単語分散表現

Slide 8

Slide 8 text

8 類似度推定・アナロジー ● 分散表現のコサイン類似度を単語の類似度と仮定 ● 加減算での単語類推ができる可能性 man woman king ???? car automobile θ

Slide 9

Slide 9 text

skip-gram:中心のある単語から 周辺の単語を予測し、単語分散 表現を獲得 ● 乾杯 は コロナ ビール で ● 新型 コロナ で 療養 中 単語分散表現はコーパスの写し鏡 (?) 9 コーパス 2019 コーパス 2020 単語分散表現 互いに異なる単語分散表現が得られる

Slide 10

Slide 10 text

10 素朴なアプローチ ● とある単語の分散表現 w について、事前に定義し た特定の 2 単語の分散表現 c1 , c2 を用いる ○ たとえば w: 医師、c1 : 男性、c2 : 女性 ● 正であるほど c1 、負であるほど c2 に寄っていると 考える

Slide 11

Slide 11 text

11 素朴なアプローチの例 c2 : woman c1 : man w 0.6 ? 0.1 ?

Slide 12

Slide 12 text

12 本論文紹介の目次 ● 前提知識:単語分散表現とは? ● 提案するアプローチ:バイアスの発見・分類 ● 実験: ○ Google News で学習されたモデル ○ Reddit で学習されたモデル ● 議論(私見も含めて)

Slide 13

Slide 13 text

13 関連する研究 2 種類 1. あらかじめ定義されたバイアスを証明する研究 ○ 心理学や社会科学などで知られる定義を利用 2. 単語分散表現から偏った単語を発見する研究 ○ 多くの単語を探索して列挙 ※ 詳細はジャーナル版の Section 2 を参照

Slide 14

Slide 14 text

14 関連する研究 2 種類と課題 1. あらかじめ定義されたバイアスを証明する研究 ○ 事前の定義が必要 2. 単語分散表現から偏った単語を発見する研究 ○ 何を意味するか、コミュニティ(コーパス) で どの程度重要なのかを説明していない ○ コミュニティの言語の識別と理解の両方を支援 する自動化手法が必要

Slide 15

Slide 15 text

15 本論文の貢献 ● 特定の概念に偏った単語を発見し、その偏りを比 較するためにカテゴリ分類する一連のアプローチ を提案 ● あるコミュニティで特定の概念に最も偏った単語 は何か、どの意味カテゴリに属しているかを知る ことができる

Slide 16

Slide 16 text

16 提案する (一連の) アプローチ 1. 単語分散表現を学習し、2 つの概念を選択 2. 各概念に対し、上位 n 個の偏った単語を選択 3. これらの単語を k-means クラスタリング 4. 各クラスタへのタグ付け(分類)

Slide 17

Slide 17 text

17 Step 1:概念の選択 ● 男性:T1 = {he, son, him, father, male} ● 女性:T2 = {she, daughter, her, mother, female} => T1 に属する単語の分散表現の平均を C1 と見なす => T2 も同様

Slide 18

Slide 18 text

18 Step 1(素朴なアプローチの再掲) ● とある単語の分散表現 w について、事前に定義し た特定の 2 単語の分散表現 c1 , c2 を用いる ○ たとえば w: 医師、c1 : 男性、c2 : 女性 ● 正であるほど c1 、負であるほど c2 に寄っていると 考える

Slide 19

Slide 19 text

19 Step 2:上位 n 個の偏った単語 ● 名詞と形容詞のみに限定 ● 偏った単語の集合を S1 , S2 とする T1 T2

Slide 20

Slide 20 text

20 Step 2(素朴なアプローチの再掲) c2 : woman c1 : man w 0.6 ? 0.1 ?

Slide 21

Slide 21 text

21 Step 3:k-means クラスタリング ● k の値の設定はケースバイケース T1

Slide 22

Slide 22 text

22 Step 4:各クラスタへのタグ付け ● UCREL Semantic Analysis System (USAS) を利用 ○ テキスト意味解析とタグ付けのフレームワーク ○ 21 の主要な談話分野とより細かいカテゴリの多 層構造を持つ ○ People, Ethics, Relationship: sexual など

Slide 23

Slide 23 text

23 本論文紹介の目次 ● 前提知識:単語分散表現とは? ● 提案するアプローチ:バイアスの発見・分類 ● 実験: ○ Google News で学習されたモデル ○ Reddit で学習されたモデル ● 議論(私見も含めて)

Slide 24

Slide 24 text

24 実験対象 ● Google News で学習されたモデル ○ 著名な学習済みモデル ○ バイアスに関する先行研究が再現するか検証 ● Reddit で学習されたモデル ○ Reddit に関する分析は少なく、新規性の貢献も

Slide 25

Slide 25 text

25 Google News での検証 ● 先行研究が報告していたバイアスを再現 ○ 男性:キャリア、数学・理科などの単語 ○ 女性:家族、芸術などの単語

Slide 26

Slide 26 text

26 Reddit ● 米国発の掲示板サイト(2005 年〜) ● さまざまな話題について議論が交わされている ● 匿名で投稿可能だが、比較的治安が良い印象 ● 多くの研究の題材になっており、近年は対話コー パスとしても注目を集めている

Slide 27

Slide 27 text

27 報告した Reddit 内ページとバイアス ● /r/TheRedPill:性別について ● /r/DatingAdvice:性別について ● /r/Athesm:宗教について ● /r/The_Donald:民族について

Slide 28

Slide 28 text

28 本論文紹介の目次 ● 前提知識:単語分散表現とは? ● 提案するアプローチ:バイアスの発見・分類 ● 実験: ○ Google News で学習されたモデル ○ Reddit で学習されたモデル ● 議論(私見も含めて)

Slide 29

Slide 29 text

29 提案するアプローチの限界 1. 単語の出現頻度を考慮しないため、発見された単 語がコミュニティを代表しない可能性がある 2. 手動での処理が残っている(クラスタ数 k など) 3. 概念 (T1 , T2 ) とコミュニティで実際に使用されて いる言語との間の関連付けができない ※ 詳細はジャーナル版の Section 2 も参照

Slide 30

Slide 30 text

30 本論文を読んだ感想 ● 一般的な手法の組み合わせだが、一連のアプロー チとしてまとめている ○ 著名な対象を分析して有用性を示し、新しめの 対象を分析して新規性を出している実験設計 ● 定性的な考察が多く、興味深い ● 自分でも、目的やデータセットを置き換えて手を 動かしやすそう