論文紹介: Generative Models are Unsupervised Predictors of Page Quality: A Colossal-Scale Study (WSDM 2021)

Dara Bahri, Yi Tay, Che Zheng, Cliff Brunk, Donald Metzler,
Andrew Tomkins (Google Research) Generative Models are Unsupervised Predictors of Page Quality: A Colossal-Scale Study (WSDM 2021 Best Paper Award Runner-Up) 論⽂紹介する⼈筑波⼤学加藤研究室 D2 中野優 https://sites.google.com/view/yu-nakano 図表は基本的に論⽂より引⽤

• ⾃動⽣成された⽂章かどうかを識別するように学習した識別モデルは Web ページの品質推定モデルとしてそのまま利⽤できることを実証 • 5 億ページのデータセットで低品質と判定されたページを幅広く分析どんな論⽂？ 2 ⽣成モデルが
⾃動⽣成した⽂章⼈⼿で作成された Web ページの⽂章識別モデル例: RoBERTa ⽣成 0.9 0.2 ⽣成モデル例: GPT-2 ⾃動⽣成である確率このモデルを Web ページの品質を推定するモデルとしてそのまま利⽤ → Web ページの質についての教師データが不要！

巨⼤なニューラル⾔語モデルによるテキスト⽣成が研究されている GPT-2 や GPT-3 では⾼品質なテキストを⽣成できると話題に背景: 巨⼤なニューラル⾔語モデルによるテキスト⽣成 3 図は https://github.com/thunlp/PLMpapers/blob/master/PLMfamily.jpg
より

⾼品質な⾃動⽣成⽂章はフェイクニュースなど悪⽤の危険性がある →⾃動⽣成された⽂章かそうでないかを識別する⼿法が開発されている例: (RoBERTa-based) OpenAI GPT-2 Detector, Grover, GLTR 背景:
悪⽤の脅威と⾃動⽣成⽂章の識別 4 ⽣成モデルが⾃動⽣成した⽂章⼈⼿で作成された Web ページの⽂章識別モデル例: RoBERTa ⽣成 0.9 0.2 ⽣成モデル例: GPT-2 ⾃動⽣成である確率

⾃動⽣成かそうでないかを識別するように学習したモデルをそのまま Web ページの品質を推定するモデルとして利⽤本論⽂における Web ページの品質=テキストの(⾔語的な)品質 (ドメインやリンク，画像などは考慮しないことに注意）提案: 教師なしの品質推定モデル
5 ⾃動⽣成かそうでないかを識別するように学習したモデル例: RoBERTa 0.9 0.2 スコア (⾃動⽣成である確率) ⾃動⽣成 →低品質⾃動⽣成ではない →⾼品質 Web ページ⾃動⽣成である確率をそのまま⽤いるので品質に関する教師データが不要

データセット • Web500M ‒ CommonCrawl (Web ページのデータセット) から 5
億の英語記事をサンプリング • GPT-2-Output, Gorver-Output ‒ GPT-2 / Grover が⽣成したテキスト ‒ テキスト⽣成モデルはハイパラによって質が⼤きく異なるため複数の設定を利⽤データセットと使⽤する(既存の)識別モデル 6 識別モデル • OpenAI (GPT-2 Detector) ‒ RoBERTa-large を fine-tuning • GLTR LR ‒ ⽣成モデルは次に出現する確率が⾼い単語を出⼒するので，⾃動⽣成された⽂章のほぼすべての単語は⾔語モデルでの確率が⾼いのでは？というアイデアを利⽤ ‒ 上記のアイデアから特徴量を作成しロジスティクス回帰で識別 • Spam Baseline ‒ スパム判定(≒質の判定)のデータセットで教師あり学習したモデル

• 品質推定モデルによって品質が推定された記事について⼈⼿で品質を評価 ‒ それぞれのモデルで品質が⾼ (上位 0.0~0.5%)/中(50~50.5%)/低(99.5~100.0%) と推定された記事をそれぞれ 35 個ずつ（計
105 個）サンプリング ‒ サンプリングした記事に対して⼈⼿で⾼/中/低の 3 段階で品質をアノテーション • 推定された品質と⼈⼿で判定した品質を相関係数と Cohenʼs kappa で⽐較品質の推定に関する⼈⼿評価 7 相関係数 Cohenʼs kappa RoBERTa ロジスティクス回帰ベースラインベースラインベースライン⼿法と⽐較して提案⼿法は⾼い相関係数を⽰した →提案⼿法は⼈⼿と同様に品質を判定できている OpenAI (RoBERTa) は GLTR LR と⽐較して⼈⼿評価と⾼い⼀致率を⽰した RoBERTa ロジスティクス回帰

• Web500k の 5 億ページにおける低品質記事の分析 ‒ 品質の推定には OpenAI (GPT-2 Detector)
を⽤いる • 分析内容 ‒ 時系列での低品質記事の増減 ‒ 記事の⻑さの分析（本発表では割愛） ‒ カテゴリごとの低品質記事の分布 ‒ 低品質記事における頻出単語と記事の傾向低品質記事の分析 8

低品質記事は 2019 年以降⼤きな伸び →⾔語モデルによる⾃動⽣成が⾏われている可能性？低品質記事の分析: 時系列での低品質記事の増減 9 • データセット中の低品質記事の割合を時間ごとに図⽰

• Google Cloud Natural Language API で記事にカテゴリを付与 • 記事カテゴリごとの品質スコアの分布を可視化低品質記事の分析:
記事カテゴリごとの分析 10 低⾼品質カテゴリ: Adult 低品質に偏る傾向似た傾向のカテゴリ: Game, Book/Literature 低⾼品質カテゴリ: Science ⾼品質に偏る傾向似た傾向のカテゴリ: Law/Government 低⾼品質カテゴリ:Health 両端に偏り似た傾向のカテゴリ: People/Society

• 低品質と判定された記事の代表的なもの ‒ 機械翻訳された⽂章 ‒ Essay Farms: ⾃動的に⽣成された essay を学⽣に売りつけるサイト
‒ キーワードを並べて検索エンジン最適化を試みようとする記事 ‒ 画像ホスティングサービスのページ ‒ NSFW (Not-Safe-for-Work): 職場や学校などのフォーマルな環境下での閲覧に適さない記事 (カテゴリ: Adult など) 低品質記事の分析: 頻出単語と記事の傾向 11 ⾼品質記事: 有名 Web サイトがよく出現低品質記事

⾃動⽣成された⽂章かどうかを識別するように学習した識別モデルは Web ページの品質推定モデルとしてそのまま利⽤できることを実証 • 感想 ‒ あるドメインの⽣成モデルが使えれば，それを⽤いて対応するドメインのコーパス全体の質の推定が⾏える可能性があるというのは⾯⽩い ‒ たとえば
SciBERT を使えば論⽂の(テキストの)質の推定ができそう？ • Top-tier 国際会議 vs それ以外で質は異なるのか？ • OpenReview などから Clarity など Presentation に関する査読コメントを収集し，それと推定された質は合致するのか？まとめ 12

⾃動⽣成かどうかの識別の性能 (main focus ではない) 13 accuracy GLTR LR (ロジスティクス回帰) OpenAI
(RoBERTa) • ⾃動⽣成かどうかの識別性能 ‒ 評価指標: accuracy • 結果: OpenAI のほうが性能がよい ‒ さらに下図右側のように well-separated

論文紹介: Generative Models are Unsupervised Predic...

論文紹介: Generative Models are Unsupervised Predictors of Page Quality: A Colossal-Scale Study (WSDM 2021)

Yu Nakano / 中野優

More Decks by Yu Nakano / 中野優

Other Decks in Research

Featured

Transcript

Dara Bahri, Yi Tay, Che Zheng, Cliff Brunk, Donald Metzler,

⾼品質な⾃動⽣成⽂章はフェイクニュースなど悪⽤の危険性がある →⾃動⽣成された⽂章かそうでないかを識別する⼿法が開発されている例: (RoBERTa-based) OpenAI GPT-2 Detector, Grover, GLTR 背景:

データセット • Web500M ‒ CommonCrawl (Web ページのデータセット) から 5

• 品質推定モデルによって品質が推定された記事について⼈⼿で品質を評価 ‒ それぞれのモデルで品質が⾼ (上位 0.0~0.5%)/中(50~50.5%)/低(99.5~100.0%) と推定された記事をそれぞれ 35 個ずつ（計

• Web500k の 5 億ページにおける低品質記事の分析 ‒ 品質の推定には OpenAI (GPT-2 Detector)

低品質記事は 2019 年以降⼤きな伸び →⾔語モデルによる⾃動⽣成が⾏われている可能性？低品質記事の分析: 時系列での低品質記事の増減 9 • データセット中の低品質記事の割合を時間ごとに図⽰

• Google Cloud Natural Language API で記事にカテゴリを付与 • 記事カテゴリごとの品質スコアの分布を可視化低品質記事の分析:

• 低品質と判定された記事の代表的なもの ‒ 機械翻訳された⽂章 ‒ Essay Farms: ⾃動的に⽣成された essay を学⽣に売りつけるサイト

⾃動⽣成かどうかの識別の性能 (main focus ではない) 13 accuracy GLTR LR (ロジスティクス回帰) OpenAI