大規模言語データの前処理とLLM-as-a-Judge の活用

Slide 1

Slide 1 text

⼤規模⾔語データの前処理と LLM-as-a-Judge の活⽤ 2024/07/11 ChatGPT Meetup Tokyo #8 Yudai Yamamoto (@yyo616)

Slide 2

Slide 2 text

👦 ⾃⼰紹介⼭本雄⼤ (@yyo616) AIエンジニア - NTT Communications - Moderation 周りの研究開発とプロダクト開発 - 4⽉まで Cybozu でフロントエンドエンジニア - 最近は刃⽛にハマり中 @yyo616

Slide 3

Slide 3 text

少し前まで GENIAC 松尾研 LLM開発プロジェクトに参加今⽇はその際に取り組んだ内容をもとに話します💪

Slide 4

Slide 4 text

🧐 松尾研 LLM開発プロジェクトとは GENIAC 松尾研 LLM開発プロジェクト

Slide 5

Slide 5 text

🧭 LLMの開発⼯程 1 データセットの整備⼤量のテキストデータを収集し、品質の⾼いデータを得るための前処理を⾏う 2 モデルの構築・学習 3 指⽰チューニング様々なタスクのデータを指⽰と回答のようなつながった⽂章として⾔語モデルに与え追加学習させることで、⾔語モデルの対話性能を向上させる⼤量のテキストデータを利⽤し、学習を⾏うことで⾔語理解能⼒を獲得させる

Slide 6

Slide 6 text

🧭 データセットの整備チームに所属 • それぞれの⼯程ごとにサブチームに分かれることになった • ⾃分はデータセットの整備チームに所属 • チームの活動内容としてはデータの選定、ライセンス調査、前処理など 1 データセットの整備⼤量のテキストデータを収集し、品質の⾼いデータを得るための前処理を⾏う 2 モデルの構築・学習⼤量のテキストデータを利⽤し、学習を⾏うことで⾔語理解能⼒を獲得させる 3 指⽰チューニング様々なタスクのデータを指⽰と回答のようなつながった⽂章として⾔語モデルに与え追加学習させることで、⾔語モデルの対話性能を向上させる担当

Slide 7

Slide 7 text

💪Try, Cleaning その頃は⽬の前に⽴ちはだかる⾼い壁を知るよしもなかった...

Slide 8

Slide 8 text

😩 ⼤規模⾔語コーパスは汚い • 事前学習では Common Crawl や C4 のようなデータセットを⽤いることが多い • ある程度の前処理は⾏われているデータセットもあるが実際は結構汚い • データの品質はモデル性能に関わるので磨き上げたい Textbooks Are All You Need The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data

Slide 9

Slide 9 text

🧹 定番の前処理を実施 • まず論⽂やブログによく書いてあるようなルールベースの前処理を実施 • テキスト正規化、テキストチャンキング、重複削除など • 性的・差別的・暴⼒的などの有害カテゴリのコンテンツ除去 • 個⼈情報のマスキング A Survey of Large Language Models

Slide 10

Slide 10 text

💻 実装には HojiChar を利⽤ • 前処理コードの実装には主に HojiChar を利⽤ • Common Crawl のようなデータに対しての前処理⽤ライブラリ • 処理操作のシーケンスを宣⾔的に記⼊できる • ⽇本語にも対応

Slide 11

Slide 11 text

📊 結果 • 前処理したデータの質がイマイチに⾒えた • 多様なデータに対してルールベースの前処理は厳しい登録されている NGワードが⽂章中に⼀定以上の割合で含まれる場合に排除する → 逆にNGワードリストに含まれない単語には対応できない有害コンテンツを排除するためのモジュール例

Slide 12

Slide 12 text

🧐 機械学習ベースのフィルタリングを試みる

Slide 13

Slide 13 text

🧭 機械学習ベースのフィルタリング • どのような⼿段でフィルタリングするか • 分類器による分類 • フィルタリング⽤のAPIの利⽤ • Perplexity を利⽤した判定 → LLM as a judge「Ask LLM」という⼿法を採⽤

Slide 14

Slide 14 text

🧠 Ask LLM とは • 事前学習データを代理LLMを利⽤し品質フィルタリング • 事前学習データセットC4に対して、サンプリング20%でも下流タスクの性能を 33%向上 • Flan-T5-XL(3B)という⽐較的⼩さな代理LLMでも有効 How to Train Data-Efficient LLMs

Slide 15

Slide 15 text

🧠 Ask LLM とは Ask-LLM論⽂紹介: How to Train Data-Efficient LLMs

Slide 16

Slide 16 text

🧭 Ask LLM の採⽤理由 • 品質フィルタリングとして他⼿法に⽐べて優秀 • いくつかの予備実験で⽇本語データにおける有効性が確認できた • フィルタリングに要する時間が現実的な範囲に収まった • 他チームとの差別化 • メンバー(@susumuota)の尽⼒ Ask-LLM論⽂紹介: How to Train Data-Efficient LLMs

Slide 17

Slide 17 text

📊 品質フィルタリングの結果とPJの感想 • 結果としては定性的にはうまくいっていそう • 時間とコストの都合上、定量的に測ることはできなかった • 今後もデータエンジニアリングにLLMを利⽤する事例は増えていく • 広告系のテキストを低品質データとみなすかどうか • 広告系のテキストは全データのうち、結構な割合を占める • 有害とまでは⾔い切れないが、⽣成能⼒に悪影響を与える可能性は考えられそう • 結局LLMにとっての良いデータセットの基準がよくわからない • 現状は良さそうなデータを⼈間基準で選んでいる状況 • 多くの場合、選定に明確な根拠があるわけではない • しかも前処理の効能を学習結果から測るのはLLMの学習コストの点から⼤変

Slide 18

Slide 18 text

ご清聴ありがとうございました 🙇