線形判別分析のPU学習による朝日歌壇短歌の分析

線形判別分析のPU学習による朝日歌壇短歌の分析言語処理学会第31回年次大会（NLP2025）加藤真大（みずほ第一FT）・浦川通・田口雄哉・新妻巧朗・田森秀明（朝日新聞社メディア研究開発センター）羽根田賢和・坂口慶祐（東北大学）・持橋大地（統計数理研究所）

朝日歌壇 ◼朝日俳壇・朝日歌壇： • 朝日新聞の一世紀を超えて続く俳句と短歌の投稿欄． • 毎週7千～8千通のはがきで俳句や短歌が読者から送られてくる． • そのなかから現代の俳壇・歌壇を代表する選者が選んだ作品を掲載． • 現在の歌壇の選者：永田和宏氏・馬場あき子氏・佐佐木幸綱氏・高野公彦氏
• 本研究では永田和宏氏と馬場あき子氏が選んだ短歌に注目． ◼朝日歌壇に掲載される短歌（永田氏と馬場氏に選ばれる短歌）の特徴を分析． 2

研究の概要 ◼研究の目的：朝日歌壇に掲載されている短歌の特徴の理解． • 朝日歌壇に掲載されている短歌と掲載されない短歌との比較． • 問題点：掲載されなかった短歌のデータがない． → 比較の対象には，生成モデルから作成された短歌を用いる． ◼生成短歌：
• 生成短歌 = 朝日歌壇に掲載されない短歌ではない． • 朝日歌壇に投稿されていたら掲載されるような短歌から，掲載されないような短歌まで幅広い短歌が含まれている． → 朝日歌壇短歌を正例，生成短歌を負例とする分析は望ましくない． 3 比較朝日歌壇短歌生成短歌正例（掲載される）短歌負例（掲載されない）短歌

研究の概要 ◼短歌を文埋め込みでベクトルに変換． → 朝日歌壇短歌と生成短歌に対してFisherの線形判別分析を適用． • 分類問題を通じて文埋め込みベクトルを低次元空間に射影． ◼PU学習：正例データとラベルなしデータを用いる学習 • 朝日歌壇短歌：正例データ •
生成短歌：正例と負例が混在するラベルなしデータ • 一部のラベルが観測できない設定． ◼従来の線形判別分析をPU 学習の枠組みに拡張して分析． 4 比較朝日歌壇短歌生成短歌正例（掲載される）短歌負例（掲載されない）短歌

朝日歌壇短歌と生成短歌 ◼朝日歌壇に掲載された短歌を，それ以外の短歌との比較を通じて分析する． ◼朝日歌壇短歌： • 選者のうち永田氏と馬場氏によって選ばれた短歌に着目． • ひらがなとカタカナが90%を占める短歌を除外した23,743 首を分析に使用． • 永田氏は9,454
首，馬場氏は14,432首． ◼生成短歌： • 生成モデルには，羽根田ら(2024)で提案されているモデルを使用． • 生成モデルから10,000首を生成． • ひらがなとカタカナが90%を占めている短歌と，短歌の体裁をなしていない短歌を除外 → 残った9,694 首を分析に使用． 5

文埋め込みベクトルへの変換 ◼短歌を文埋め込みで数値情報に変換． • 文埋め込みにはuSIFを利用． • uSIFで用いる単語埋め込みには朝日新聞単語ベクトルを利用． ◼文埋め込みベクトルを用いて，定量的に各選者が選ぶ短歌の違いについて調査． ➢短歌がどの選者によって選ばれたかという分類問題を考える．（クラス1）永田氏に選ばれる短歌．（クラス2）馬場氏に選ばれる短歌．
（クラス3）永田氏にも馬場氏にも選ばれない短歌 ← 観測できない． → Fisherの線形判別分析（Linear Discriminant Analysis；LDA）を用いて分類を行う． • データをよりよく分類する低次元データに射影することで分類を行う方法． 6 生成短歌はどのクラスも含みうる．

Fisherの線形判別分析 ◼Fisherの線形判別分析（Linear Discriminant Analysis；LDA）：異なるクラス（選者）のデータ（短歌のベクトル）をできるだけ分離して，同じクラスのデータをできるだけ近接させるようなデータの射影を求めることで分類する手法. • この射影によって得られる低次元ベクトルを用いて文埋め込みベクトルを解釈する. 7
射影軸1 射影軸2 永田氏に選ばれる短歌馬場氏に選ばれる短歌二人から選ばれない短歌

PU学習 ◼ 朝日歌壇短歌に掲載される短歌と，掲載されない短歌に分類したい． • 生成短歌は朝日歌壇に掲載されない短歌？ ◼ PU学習（正例データとラベルなしデータからの学習）の枠組み使用． • 二値分類問題：正例クラス（𝑌
= 1）と負例クラス（𝑌 = 2）． • 通常の機械学習：正例データと負例データを用いる学習． • PU学習：：正例データとラベルなしデータを用いる学習． • 多クラス分類（本研究）： • 永田選（クラス1）と馬場選（クラス2）短歌． • 二人に選ばれなかった短歌（クラス3）は観測できない． • 生成短歌は三つのクラスを含むラベルなしデータ． ➢ LDAをPU学習の枠組みに拡張した手法（PU-LDA）を提案． 8 正例負例ラベルなし通常の学習 PU学習

PU-LDAを用いる朝日歌壇短歌の分析 ➢PU-LDA を用いて朝日歌壇短歌と生成短歌を分析する．（クラス1）永田氏に選ばれる短歌．（クラス2）馬場氏に選ばれる短歌．（クラス3）永田氏にも馬場氏にも選ばれない短歌 ← 観測できない． ◼PU-LDAはクラス事前分布と呼ばれるハイパーパラメータに依存． •
クラス事前分布𝜋𝑘 (𝑘 = 1,2,3) は，生成短歌にクラス𝑘の短歌が含まれる割合を意味する． • 例：𝜋1 = 0.1，𝜋2 = 0.1，𝜋3 = 0.8 の場合： • 生成短歌全体のうち10%の短歌が永田選に，10%の短歌が馬場選に選ばれると仮定． • 残りの80%の短歌が永田氏にも馬場氏にも選ばれないと仮定． • この比率は未知であり，生成短歌がどれだけ朝日歌壇に近いかに関する分析者の仮定． 9 生成短歌はどのクラスも含みうる．正例負例

PU-LDAを用いる朝日歌壇短歌の分析 ➢クラス事前分布が𝝅𝟏 = 𝝅𝟐 = 𝟎. 𝟒𝟗の事例を分析．（論文では他の値も検証） • 生成短歌の49%が永田氏に，
49%が馬場氏によって選ばれるという仮定． → 生成短歌のほとんど（98%）が歌壇に掲載される． • 生成短歌と朝日歌壇短歌に大きな差がないという仮定． → 生成短歌にしか見られない特徴を強く抽出． ➢分類結果： • 射影軸上において生成短歌の群が他の選者の短歌の群に重なるように分布 10 • 𝑥軸は射影軸1 に，𝑦軸は射影軸2 に対応．

PU-LDAを用いる朝日歌壇短歌の分析 ➢ 𝜋1 = 𝜋2 = 0.49の場合： • ほとんどの生成短歌が歌壇に掲載される．
➢ 𝜋1 = 𝜋2 = 0.01の場合： • ほとんどの生成短歌が歌壇に掲載されない． 11

PU-LDAを用いる朝日歌壇短歌の分析 ➢射影値の値が大きい/小さい順に短歌を並べる． • より特徴的な短歌を調査． ◼射影軸1の解釈． • 朝日歌壇に掲載されない短歌と掲載される短歌（永田選または馬場選）に分類する軸． 12

PU-LDAを用いる朝日歌壇短歌の分析 ◼射影軸1 の値が小さい短歌の特徴： • 掲載されない短歌に分類される． • 短歌内で使用される語彙が少ないことや，同じ単語が繰り返されることが挙げられる．例：僕にも分からない僕らにも分からないけれど僕には分かる例：寝苦しい夜と夏バテで寝苦しくて冷房つけずに寝る •
短歌内の話題の広がりが乏しい． 13

PU-LDAを用いる朝日歌壇短歌の分析 ◼射影軸1の値が大きい短歌の特徴： • 永田氏や馬場氏に選ばれるような短歌． • 短歌内で話題の広がりがあり，使用される単語も豊富． 14

PU-LDAを用いる朝日歌壇短歌の分析 ◼射影軸1のその他の特徴： • 射影軸1 の値が小さい短歌には「夏」に関連する短歌が多い． • 原因として，生成短歌が「夏」に関する語を生成しやすい傾向があることが考えられる． • 永田選には政治的な内容が多く，馬場選には動物や畜産に関する内容が多い傾向がある． •
これらの偏りが結果に影響を与えている可能性． 15

PU-LDAを用いる朝日歌壇短歌の分析 ◼射影軸2の解釈： • 短歌を馬場選と永田選に分ける軸． 16

PU-LDAを用いる朝日歌壇短歌の分析 ◼射影軸2 の値が大きい短歌の特徴： • 馬場氏に選ばれやすい短歌． • 動物や自然に関する単語が多く含まれている． • 馬場選の特徴であると考えられる． 17

PU-LDAを用いる朝日歌壇短歌の分析 ◼射影軸2 の値が小さい短歌の特徴： • 永田氏に選ばれやすい短歌． • 政治に関する単語が多い． • 永田選の特徴であると考えられる． ➢このような分析を論文内ではクラス事前分布を変えながら行った．
18

まとめ ◼本研究の目的：永田氏と馬場氏に選ばれて朝日歌壇に掲載される短歌の特徴の分析． ◼比較のためのデータ：羽根田ら(2024)の生成モデルから生成された短歌． ◼短歌データに対して文埋め込みを施し，線形判別分析（LDA）を行った． ◼生成短歌には，歌壇に掲載されそうな短歌と，掲載されない短歌が混ざって存在している． ◼LDAをPU学習的に拡張． • PU 学習におけるLDA の新手法（PU-LDA）を開発した．
◼PU-LDAを通じて，朝日歌壇に掲載されている短歌と掲載されない短歌の特徴を分析． • 掲載されない短歌の特徴として，語彙や話題の広がりの乏しさがある可能性． • 掲載される短歌における特徴的な話題（動物・政治）． 19

参考文献 • Elkan and K. Noto, “Learning classifiers from only
positive and unlabeled data,” in International Conference on Knowledge Discovery and Data Mining. Association for Computing Machinery, 2008, p. 213–220. • S. Arora, Y. Liang, and T. Ma, “A simple but tough-to-beat baseline for sentence embeddings,” in International Conference on Learning Representations (ICLR), 2017. • Fisher, R. A.: The Use of Multiple Measurements in Taxonomic Problems, Annals of Eugenics, Vol. 7, No. 2, pp. 179–188 (1936). • 羽根田賢和，浦川通，田口雄哉，田森秀明，坂口慶祐，“RLHF を用いた「面白い」短歌の自動生成の試み”，言語処理学会第30 回年次大会論文集，2024． • 新妻巧朗，田口雄哉，田森秀明: 計量テキスト分析のための文埋め込みによる探索的カテゴリ化，言語処理学会第 30 回年次大会，pp. 494–499 (2024). 20

参考資料：文埋め込み ◼ 文埋め込み（Text embedding）： ➢ Smoothed Inverse Frequency （SIF, Arora
et al., 2017）： • 文中の単語のベクトルを適切に重みづけて文埋め込みベクトルを得る． • unsupervised Smoothed Inverse Frequency (uSIF, Ethayarajh et al., 2018)： • SIFのハイパーパラメータの設定もアルゴリズムに含めてSIF を改良したもの． ◼ 本研究では，朝日新聞単語ベクトルとuSIFを用いて文ベクトルを得る． ➢ 朝日新聞単語ベクトル (田口 et al., 2017)． • 朝日新聞社が保有する1984年8月から2017年8月までに掲載された記事のうち，約800万記事(延べ約 23億単語)を用いて単語ベクトルを学習． ◼ 朝日新聞単語ベクトルは300次元の単語ベクトル． → uSIFと朝日新聞単語ベクトルを用いて得られる文埋め込みベクトルも300次元になる． 21

参考資料： PU-LDA ◼ 従来のLDAをPU学習の設定に拡張．提案法をPU-LDAと呼ぶことにする． 22 ➢ 従来のLDA（2クラス）： • 短歌𝒙𝑖 とラベル（どの選者が選んだか）𝑦𝑖
∈ {1,2}． • 線形分類器 𝑓 𝒙 : = ቊ 1, 𝑾⊤ 𝒙 ≥ 0 2, 𝑾⊤ 𝒙 < 0 を考える． • クラス間分散の最大化でパラメータ𝑾を求める． • 短歌全体の𝒙𝑖 の平均ベクトルを𝒎とする． • 選者𝑘が選んだ短歌𝒙𝑖 の平均ベクトル：𝒎𝑘 ． • クラス内共分散𝑆𝑊 ≔ σ𝑘=1 2 σ𝑖:𝑦𝑖=𝑘 𝒙𝑖 − 𝒎𝑘 ሺ ሻ 𝒙𝑖 − 𝒎𝑘 ⊤． • クラス間共分散𝑆𝐵 ≔ ሺ𝒎2 − 𝒎1 ሻ 𝒎2 − 𝒎1 ⊤． • 𝐽 𝑾 : = tr 𝑾𝑆𝑊 𝑾 −1 𝑾⊤𝑆𝐵 𝑾 を最大化することでパラメータ𝑾を求める． ➢ PU-LDA （2クラス）： ◼ 負例データを観測できない = 𝒎2 を直接計算できない． • 正例の平均𝒎1 ：正例データのサンプル平均によって近似可能 • 課題は負例の平均𝒎2 を計算すること． ✓ 𝒎2 はラベルなしデータの平均𝒎から正例データの平均𝒎1 を引くことで計算可能： • 𝒎2 = ሺ𝒎 − 𝜋1 𝒎1 ሻ/𝜋2 • ここで，𝜋1 と𝜋2 はクラス事前分布． • データ全体に占めるクラス1とクラス2の割合． • 本研究では既知とする． • この𝒎2 を従来のLDAの𝒎2 の代わりに用いてLDAを実行． → 多クラス分類の設定にも拡張可能．

参考資料： PU-LDA ◼ 短歌𝒙𝑖 の正例 𝑝 𝑥 𝑦 = +1
，負例 𝑝ሺ𝑥 ∣ 𝑦 = 2ሻ ，およびラベルなし（混合）データ 𝑝ሺ𝑥ሻ. • 負例データ 𝑝ሺ𝑥 ∣ 𝑦 = 2ሻ を直接観測できなくても，正例データとラベルなしデータで復元できる． 23 23 正例データ 𝑝ሺ𝑥 ∣ 𝑦 = 1ሻ ラベルなしデータの分布 𝑝ሺ𝑥ሻ = 正例データと負例データの混合. スケール調整調整された正例データ 𝜋1 𝑝ሺ𝑥 ∣ 𝑦 = 1ሻ − 復元された負例データ 𝜋2 𝑝ሺ𝑥 ∣ 𝑦 = 2ሻ 𝑝ሺ𝑦 = 1ሻ𝑝 𝑥 𝑦 = 1 = 𝑝 𝑥 − 𝑝 𝑦 = 1 𝑝ሺ𝑥 ∣ 𝑦 = 1ሻ

参考資料： PU-LDAを用いる朝日歌壇短歌の分析 ➢ 𝜋1 = 𝜋2 = 𝜋 = 0.01の場合：
• 生成短歌の限られた一部（2%）のみが朝日歌壇に掲載されることを仮定． • 分析生成短歌と朝日歌壇短歌の違いが大きいと仮定． → 朝日歌壇短歌にしか見られない特徴を抽出． ➢ 分類結果： • 生成短歌の群が他の選者の短歌の群から離れるように分布している． • LDA で得られた射影軸上において，生成短歌の群が他の選者の短歌の群から離れるように分布． • 具体的な短歌については表2 に示す． 24  PU-LDA を用いる朝日歌壇短歌の分類． • 𝑥軸は射影軸1 に，𝑦軸は射影軸2 に対応． • 生成短歌は永田選・馬場選から離れた位置に分布．

線形判別分析のPU学習による朝日歌壇短歌の分析

線形判別分析のPU学習による朝日歌壇短歌の分析

MasaKat0

More Decks by MasaKat0

Other Decks in Research

Featured

Transcript

PU-LDAを用いる朝日歌壇短歌の分析 ➢クラス事前分布が𝝅𝟏 = 𝝅𝟐 = 𝟎. 𝟒𝟗の事例を分析．（論文では他の値も検証） • 生成短歌の49%が永田氏に，

PU-LDAを用いる朝日歌壇短歌の分析 ➢ 𝜋1 = 𝜋2 = 0.49の場合： • ほとんどの生成短歌が歌壇に掲載される．

PU-LDAを用いる朝日歌壇短歌の分析 ◼射影軸1の値が大きい短歌の特徴： • 永田氏や馬場氏に選ばれるような短歌． • 短歌内で話題の広がりがあり，使用される単語も豊富． 14

PU-LDAを用いる朝日歌壇短歌の分析 ◼射影軸2の解釈： • 短歌を馬場選と永田選に分ける軸． 16

PU-LDAを用いる朝日歌壇短歌の分析 ◼射影軸2 の値が大きい短歌の特徴： • 馬場氏に選ばれやすい短歌． • 動物や自然に関する単語が多く含まれている． • 馬場選の特徴であると考えられる． 17

参考文献 • Elkan and K. Noto, “Learning classifiers from only

参考資料：文埋め込み ◼ 文埋め込み（Text embedding）： ➢ Smoothed Inverse Frequency （SIF, Arora

参考資料： PU-LDA ◼ 従来のLDAをPU学習の設定に拡張．提案法をPU-LDAと呼ぶことにする． 22 ➢ 従来のLDA（2クラス）： • 短歌𝒙𝑖 とラベル（どの選者が選んだか）𝑦𝑖

参考資料： PU-LDA ◼ 短歌𝒙𝑖 の正例 𝑝 𝑥 𝑦 = +1

参考資料： PU-LDAを用いる朝日歌壇短歌の分析 ➢ 𝜋1 = 𝜋2 = 𝜋 = 0.01の場合：

線形判別分析のPU学習による 朝日歌壇短歌の分析

線形判別分析のPU学習による 朝日歌壇短歌の分析

More Decks by MasaKat0

Other Decks in Research

Featured

Transcript

線形判別分析のPU学習による朝日歌壇短歌の分析

線形判別分析のPU学習による朝日歌壇短歌の分析