Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLMの事前学習のためのテキストデータの収集と構築

Shun Kiyono
February 12, 2025
570

 LLMの事前学習のためのテキストデータの収集と構築

第13回 Data-Centric AI勉強会 ~Data-centric AI入門 著者LT大会

Shun Kiyono

February 12, 2025
Tweet

Transcript

  1. 問題③:Webデータは重複だらけ • Webデータには多くの重複が存在 • MITやApacheなどのライセンス条文 • 一箇所の単語を変えた広告 • 「{宮城, 長崎,

    青森} 県での引越しなら…」 • ブログサービスの初期定型文 • etc • 重複はLLMの学習に悪影響 • 文書間で単語の一致率を計算し,類似するものは削除 • 近似アルゴリズムの手を借りる • 詳細は本書で解説 9