Slide 1

Slide 1 text

Dara Bahri, Yi Tay, Che Zheng, Cliff Brunk, Donald Metzler, Andrew Tomkins (Google Research) Generative Models are Unsupervised Predictors of Page Quality: A Colossal-Scale Study (WSDM 2021 Best Paper Award Runner-Up) 論⽂紹介する⼈ 筑波⼤学加藤研究室 D2 中野優 https://sites.google.com/view/yu-nakano 図表は基本的に論⽂より引⽤

Slide 2

Slide 2 text

• ⾃動⽣成された⽂章かどうかを識別するように学習した識別モデルは Web ページの品質推定モデルとしてそのまま利⽤できることを実証 • 5 億ページのデータセットで低品質と判定されたページを幅広く分析 どんな論⽂? 2 ⽣成モデルが ⾃動⽣成した⽂章 ⼈⼿で作成された Web ページの⽂章 識別モデル 例: RoBERTa ⽣成 0.9 0.2 ⽣成モデル 例: GPT-2 ⾃動⽣成で ある確率 このモデルを Web ページの品質を 推定するモデルとしてそのまま利⽤ → Web ページの質についての教師データが不要!

Slide 3

Slide 3 text

巨⼤なニューラル⾔語モデルによるテキスト⽣成が研究されている GPT-2 や GPT-3 では⾼品質なテキストを⽣成できると話題に 背景: 巨⼤なニューラル⾔語モデルによるテキスト⽣成 3 図は https://github.com/thunlp/PLMpapers/blob/master/PLMfamily.jpg より

Slide 4

Slide 4 text

⾼品質な⾃動⽣成⽂章はフェイクニュースなど悪⽤の危険性がある →⾃動⽣成された⽂章かそうでないかを識別する⼿法が開発されている 例: (RoBERTa-based) OpenAI GPT-2 Detector, Grover, GLTR 背景: 悪⽤の脅威と⾃動⽣成⽂章の識別 4 ⽣成モデルが ⾃動⽣成した⽂章 ⼈⼿で作成された Web ページの⽂章 識別モデル 例: RoBERTa ⽣成 0.9 0.2 ⽣成モデル 例: GPT-2 ⾃動⽣成で ある確率

Slide 5

Slide 5 text

⾃動⽣成かそうでないかを識別するように学習したモデルを そのまま Web ページの品質を推定するモデルとして利⽤ 本論⽂における Web ページの品質=テキストの(⾔語的な)品質 (ドメインやリンク,画像などは考慮しないことに注意) 提案: 教師なしの品質推定モデル 5 ⾃動⽣成かそうでないかを 識別するように学習したモデル 例: RoBERTa 0.9 0.2 スコア (⾃動⽣成で ある確率) ⾃動⽣成 →低品質 ⾃動⽣成ではない →⾼品質 Web ページ ⾃動⽣成である確率をその まま⽤いるので品質に関する 教師データが不要

Slide 6

Slide 6 text

データセット • Web500M ‒ CommonCrawl (Web ページのデータ セット) から 5 億の英語記事をサンプ リング • GPT-2-Output, Gorver-Output ‒ GPT-2 / Grover が⽣成したテキスト ‒ テキスト⽣成モデルはハイパラに よって質が⼤きく異なるため複数の 設定を利⽤ データセットと使⽤する(既存の)識別モデル 6 識別モデル • OpenAI (GPT-2 Detector) ‒ RoBERTa-large を fine-tuning • GLTR LR ‒ ⽣成モデルは次に出現する確率が⾼い 単語を出⼒するので,⾃動⽣成された ⽂章のほぼすべての単語は⾔語モデル での確率が⾼いのでは?というアイデ アを利⽤ ‒ 上記のアイデアから特徴量を作成し ロジスティクス回帰で識別 • Spam Baseline ‒ スパム判定(≒質の判定)のデータ セットで教師あり学習したモデル

Slide 7

Slide 7 text

• 品質推定モデルによって品質が推定された記事について⼈⼿で品質を評価 ‒ それぞれのモデルで品質が⾼ (上位 0.0~0.5%)/中(50~50.5%)/低(99.5~100.0%) と 推定された記事をそれぞれ 35 個ずつ(計 105 個)サンプリング ‒ サンプリングした記事に対して⼈⼿で ⾼/中/低 の 3 段階で品質をアノテーション • 推定された品質と⼈⼿で判定した品質を相関係数と Cohenʼs kappa で⽐較 品質の推定に関する⼈⼿評価 7 相関係数 Cohenʼs kappa RoBERTa ロジスティクス回帰 ベースライン ベースライン ベースライン⼿法と⽐較して 提案⼿法は⾼い相関係数を⽰した →提案⼿法は⼈⼿と同様に品質を判定できている OpenAI (RoBERTa) は GLTR LR と⽐較して ⼈⼿評価と⾼い⼀致率を⽰した RoBERTa ロジスティクス回帰

Slide 8

Slide 8 text

• Web500k の 5 億ページにおける低品質記事の分析 ‒ 品質の推定には OpenAI (GPT-2 Detector) を⽤いる • 分析内容 ‒ 時系列での低品質記事の増減 ‒ 記事の⻑さの分析(本発表では割愛) ‒ カテゴリごとの低品質記事の分布 ‒ 低品質記事における頻出単語と記事の傾向 低品質記事の分析 8

Slide 9

Slide 9 text

低品質記事は 2019 年以降⼤きな伸び →⾔語モデルによる⾃動⽣成が⾏われている可能性? 低品質記事の分析: 時系列での低品質記事の増減 9 • データセット中の低品質記事の割合を時間ごとに図⽰

Slide 10

Slide 10 text

• Google Cloud Natural Language API で記事にカテゴリを付与 • 記事カテゴリごとの品質スコアの分布を可視化 低品質記事の分析: 記事カテゴリごとの分析 10 低 ⾼ 品質 カテゴリ: Adult 低品質に偏る傾向 似た傾向のカテゴリ: Game, Book/Literature 低 ⾼ 品質 カテゴリ: Science ⾼品質に偏る傾向 似た傾向のカテゴリ: Law/Government 低 ⾼ 品質 カテゴリ:Health 両端に偏り 似た傾向のカテゴリ: People/Society

Slide 11

Slide 11 text

• 低品質と判定された記事の代表的なもの ‒ 機械翻訳された⽂章 ‒ Essay Farms: ⾃動的に⽣成された essay を学⽣に売りつけるサイト ‒ キーワードを並べて検索エンジン最適化を試みようとする記事 ‒ 画像ホスティングサービスのページ ‒ NSFW (Not-Safe-for-Work): 職場や学校などのフォーマルな環境下での 閲覧に適さない記事 (カテゴリ: Adult など) 低品質記事の分析: 頻出単語と記事の傾向 11 ⾼品質記事: 有名 Web サイトがよく出現 低品質記事

Slide 12

Slide 12 text

⾃動⽣成された⽂章かどうかを識別するように学習した識別モデルは Web ページの品質推定モデルとしてそのまま利⽤できることを実証 • 感想 ‒ あるドメインの⽣成モデルが使えれば,それを⽤いて対応するドメインの コーパス全体の質の推定が⾏える可能性があるというのは⾯⽩い ‒ たとえば SciBERT を使えば論⽂の(テキストの)質の推定ができそう? • Top-tier 国際会議 vs それ以外で質は異なるのか? • OpenReview などから Clarity など Presentation に関する査読コメントを収集し, それと推定された質は合致するのか? まとめ 12

Slide 13

Slide 13 text

⾃動⽣成かどうかの識別の性能 (main focus ではない) 13 accuracy GLTR LR (ロジスティクス回帰) OpenAI (RoBERTa) • ⾃動⽣成かどうかの識別性能 ‒ 評価指標: accuracy • 結果: OpenAI のほうが性能がよい ‒ さらに下図右側のように well-separated