Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【第3回】関東Kaggler会「NLPの変遷とNLPコンペの最新事情 〜進化する技術と変化する...

takaito
February 16, 2025
510

【第3回】関東Kaggler会「NLPの変遷とNLPコンペの最新事情 〜進化する技術と変化する戦い方〜」

【第3回】関東Kaggler会のLT: 「NLPの変遷とNLPコンペの最新事情 〜進化する技術と変化する戦い方」の資料となります.
講演などの依頼はDMにお待ちしております!

takaito

February 16, 2025
Tweet

Transcript

  1. 1 自己紹介 名前: 高野 海斗 略歴: 2021年3月: 博士後期課程 修了 (理工学博士)

    2021年4月: 資産運用会社 入社 (クオンツ) 専門分野: 自然言語処理,モデル開発,リサーチ 2024年のデータ分析コンペの成果: 金1銀3銅3 2024年のリサーチのアウトプット: ・ 査読付き論文: 2 ・ 国際会議: 2 ・ 国内学会: 12 (受賞: 1)
  2. 6 〜2012年までの特徴 ✔ 単語への分割や正規化が重要 (日本語はどのような形態素解析(分割)をするかが結果を大きく左右される) ✔ 頻度情報に変換するという特徴から文脈の考慮は不可能(フレーズへの拡張などで対応していた) ✔ スパースなデータであることから,モデルの学習には大量のデータが必要 ✔

    次元圧縮したベクトルを用いた類似文検索や教師無しクラスタリングが主流 ✔ 単語の共起に着目した分析も主流 ✔ 教師あり学習による文の分類はSVMなどを用いることが大半 日銀のワーキングペーパーより抜粋 景気ウォッチャーのテキスト分析 https://www.boj.or.jp/research/wps_rev/lab/lab21j02.htm
  3. 7 2013年〜2018年: 深層学習モデル ✔ Neural Network: SVMから深層学習モデルに切り替えることで精度の向上が報告される ✔ word2vec: 単語の共起をNeural

    Networkで埋め込むことで単語をベクトル化 一部の単語において演算が可能であることが報告される Efficient Estimation of Word Representations in Vector Space (2013) ✔ Encoder-Decoder: 入力層のモデルと出力層のモデルを分けて考えられるように変化 ✔ Attention: 自動翻訳の研究において,どの単語に注力すべきかをモデルが加味できるような仕組みを開発 Effective Approaches to Attention-based Neural Machine Translation (2015) ✔ Transformer: 現在のBERTやLLMの基礎となっているモデル構造 Attention Is All You Need (2017)
  4. 10 2018年〜2022年: BERTモデル ✔ BERTモデル: TransformerのEncoder部分を活用したモデル BERT: Pre-training of Deep

    Bidirectional Transformers for Language Understanding (2018) ✔ BERTモデルは大量のデータを用いて,パラメータを事前に学習させておくことが可能なモデルである ✔ パラメータの事前学習により,対象言語の単語の出現構造や文法などをすでにモデルは学習している ✔ 少量の教師ありデータがあれば,高精度な分類や回帰が可能なモデルを開発できるようになった BERT (初期状態) BERT (特化モデル) BERT (初期状態) BERT (事前学習済み) BERT (特化モデル) 大量のデータが学習に必要 少量のデータで 学習可能 大量のデータが 学習に必要 公開されている 従来 BERT登場後
  5. 11 2018年〜2022年の特徴 ✔ BERTモデルのFine-Tuningによる分類や回帰が主流になった ✔ 様々なBERTの派生形モデルが誕生 (RoBERTa,DeBERTa) ✔ ドメインや言語に特化したBERTモデルも誕生 ・

    東北大の乾研究室が日本語BERTを公開 ・ 金融に特化したBERT(FinBERT)や医療ドメインに特化したBERT(MedBERT)など ✔ 文脈を考慮した分類や回帰が可能になり,形態素解析などもただ使う場合はあまり考える必要がなくなった ✔ Fine-TuningにはGPUが必要であることから,一般ユーザーが誰でも使用できる状況ではなかった
  6. 12 2023年〜現在: 大規模言語モデル (LLM) ✔ GPTモデル: TransformerのDecoder部分を活用したモデル ✔ 現在のLLMの大半はGPTモデルのレイヤーや次元を非常に大きくしたモデルとなっている ✔

    大量のデータで大量のパラメータを学習させることで,様々なことをモデルが学習している ✔ LLMは非常に汎用的なモデルとなったことで,タスク次第ではFine-Tuningすら不要になった ✔ 入力に適切な指示を与えることで様々なタスクを解決することが可能になった ・ 翻訳,文章の要約,キーワード抽出,タグの付与,極性の分析,誤植の修正,レポートの生成など
  7. 13 2023年〜現在の特徴 ✔ webツールやAPIの普及により,誰でも簡単に高性能な言語モデルを使用することが可能になった ✔ 汎用的なモデルであり生成モデルでもあることから,様々なタスクを解決することができる ✔ RAG (Retrieval Augmented

    Generation)と呼ばれるタスクを解くために適切なテキストを入力に加える 方法が生成の性能を大きく改善することができるため,データの蓄積やその検索方法が重要になった
  8. 14 KaggleのNLPタグありNLPコンペ コンペ名 主催者 終了時期 タスク Eedi - Mining Misconceptions

    in Mathematics The Learning Agency Lab 2024 検索(推薦) LLM 20 Questions Kaggle 2024 生成(推論,プロンプトエンジニアリング) USPTO - Explainable AI for Patent Professionals US Patent and Trademark Office 2024 生成? Learning Agency Lab - Automated Essay Scoring 2.0 The Learning Agency Lab 2024 回帰 AI Mathematical Olympiad - Progress Prize 1 AI|MO 2024 生成(推論) LLM Prompt Recovery Kaggle 2024 生成(プロンプトエンジニアリング) Linking Writing Processes to Writing Quality The Learning Agency Lab 2024 回帰 CommonLit - Evaluate Student Summaries The Learning Agency Lab 2023 回帰 Kaggle - LLM Science Exam Kaggle 2023 生成,検索 Feedback Prize - English Language Learning The Learning Agency Lab 2022 回帰 Feedback Prize - Predicting Effective Arguments Georgia State University 2022 分類 Google AI4Code – Understand Code in Python Notebooks Google and X 2022 ? U.S. Patent Phrase to Phrase Matching Satsyil Corp 2022 ? NBME - Score Clinical Patient Notes National Board of Medical Examiners 2022 抽出 Feedback Prize - Evaluating Student Writing Georgia State University 2022 抽出 Jigsaw Rate Severity of Toxic Comments Jigsaw/Conversation AI 2022 回帰 Google QUEST Q&A Labeling Google 2020 Jigsaw Unintended Bias in Toxicity Classification Jigsaw/Conversation AI 2019 分類 Gendered Pronoun Resolution Google Research 2019 分類
  9. 15 KaggleのNLPタグなしNLPコンペ コンペ名 主催者 終了時期 タスク Santa 2024 - The

    Perplexity Permutation Puzzle Kaggle 2025 単語の並び替え? LMSYS - Chatbot Arena Human Preference Predictions LMSYS Org 2024 分類 The Learning Agency Lab - PII Data Detection The Learning Agency Lab 2024 抽出 LLM - Detect AI Generated Text The Learning Agency Lab 2024 分類 Bengali.AI Speech Recognition Bengali.AI 2023 音声認識 Learning Equality - Curriculum Recommendations The Learning Agency Lab 2023 検索 chaii - Hindi and Tamil Question Answering Google 2021 CommonLit Readability Prize CommonLit 2021 回帰 Tweet Sentiment Extraction Kaggle 2020 抽出
  10. 16 【余談】KaggleのNLPタグなしNLPコンペ コンペ名 主催者 終了時期 タスク Santa 2024 - The

    Perplexity Permutation Puzzle Kaggle 2025 単語の並び替え? LMSYS - Chatbot Arena Human Preference Predictions LMSYS Org 2024 分類 The Learning Agency Lab - PII Data Detection The Learning Agency Lab 2024 抽出 LLM - Detect AI Generated Text The Learning Agency Lab 2024 分類 Bengali.AI Speech Recognition Bengali.AI 2023 音声認識 Learning Equality - Curriculum Recommendations The Learning Agency Lab 2023 検索 chaii - Hindi and Tamil Question Answering Google 2021 CommonLit Readability Prize CommonLit 2021 回帰 Tweet Sentiment Extraction Kaggle 2020 抽出 NLPコンペだと思っていたがNLPタグがついておらず
  11. 17 KaggleのNLPコンペ(時系列) コンペ名 主催者 終了時期 タスク Santa 2024 - The

    Perplexity Permutation Puzzle Kaggle 2025 単語の並び替え? Eedi - Mining Misconceptions in Mathematics The Learning Agency Lab 2024 検索(推薦) LLM 20 Questions Kaggle 2024 生成(推論,プロンプトエンジニアリング) LMSYS - Chatbot Arena Human Preference Predictions LMSYS Org 2024 分類 USPTO - Explainable AI for Patent Professionals US Patent and Trademark Office 2024 生成? Learning Agency Lab - Automated Essay Scoring 2.0 The Learning Agency Lab 2024 回帰 AI Mathematical Olympiad - Progress Prize 1 AI|MO 2024 生成(推論) LLM Prompt Recovery Kaggle 2024 生成(プロンプトエンジニアリング) The Learning Agency Lab - PII Data Detection The Learning Agency Lab 2024 抽出 LLM - Detect AI Generated Text The Learning Agency Lab 2024 分類 Linking Writing Processes to Writing Quality The Learning Agency Lab 2024 回帰 Bengali.AI Speech Recognition Bengali.AI 2023 音声認識 CommonLit - Evaluate Student Summaries The Learning Agency Lab 2023 回帰 Kaggle - LLM Science Exam Kaggle 2023 生成,検索 Learning Equality - Curriculum Recommendations The Learning Agency Lab 2023 検索 Feedback Prize - English Language Learning The Learning Agency Lab 2022 回帰 Feedback Prize - Predicting Effective Arguments Georgia State University 2022 分類 Google AI4Code – Understand Code in Python Notebooks Google and X 2022 ? U.S. Patent Phrase to Phrase Matching Satsyil Corp 2022 ? NBME - Score Clinical Patient Notes National Board of Medical Examiners 2022 抽出 Feedback Prize - Evaluating Student Writing Georgia State University 2022 抽出 Jigsaw Rate Severity of Toxic Comments Jigsaw/Conversation AI 2022 回帰 chaii - Hindi and Tamil Question Answering Google 2021 CommonLit Readability Prize CommonLit 2021 回帰 Google QUEST Q&A Labeling Google 2020 Tweet Sentiment Extraction Kaggle 2020 抽出 Jigsaw Unintended Bias in Toxicity Classification Jigsaw/Conversation AI 2019 分類 Gendered Pronoun Resolution Google Research 2019 分類
  12. 18 BERTとLLM コンペ名 主催者 終了時期 タスク Santa 2024 - The

    Perplexity Permutation Puzzle Kaggle 2025 単語の並び替え? Eedi - Mining Misconceptions in Mathematics The Learning Agency Lab 2024 検索(推薦) LLM 20 Questions Kaggle 2024 生成(推論,プロンプトエンジニアリング) LMSYS - Chatbot Arena Human Preference Predictions LMSYS Org 2024 分類 USPTO - Explainable AI for Patent Professionals US Patent and Trademark Office 2024 生成? Learning Agency Lab - Automated Essay Scoring 2.0 The Learning Agency Lab 2024 回帰 AI Mathematical Olympiad - Progress Prize 1 AI|MO 2024 生成(推論) LLM Prompt Recovery Kaggle 2024 生成(プロンプトエンジニアリング) The Learning Agency Lab - PII Data Detection The Learning Agency Lab 2024 抽出 LLM - Detect AI Generated Text The Learning Agency Lab 2024 分類 Linking Writing Processes to Writing Quality The Learning Agency Lab 2024 回帰 Bengali.AI Speech Recognition Bengali.AI 2023 音声認識 CommonLit - Evaluate Student Summaries The Learning Agency Lab 2023 回帰 Kaggle - LLM Science Exam Kaggle 2023 生成,検索 Learning Equality - Curriculum Recommendations The Learning Agency Lab 2023 検索 Feedback Prize - English Language Learning The Learning Agency Lab 2022 回帰 Feedback Prize - Predicting Effective Arguments Georgia State University 2022 分類 Google AI4Code – Understand Code in Python Notebooks Google and X 2022 ? U.S. Patent Phrase to Phrase Matching Satsyil Corp 2022 ? NBME - Score Clinical Patient Notes National Board of Medical Examiners 2022 抽出 Feedback Prize - Evaluating Student Writing Georgia State University 2022 抽出 Jigsaw Rate Severity of Toxic Comments Jigsaw/Conversation AI 2022 回帰 chaii - Hindi and Tamil Question Answering Google 2021 CommonLit Readability Prize CommonLit 2021 回帰 Google QUEST Q&A Labeling Google 2020 Tweet Sentiment Extraction Kaggle 2020 抽出 Jigsaw Unintended Bias in Toxicity Classification Jigsaw/Conversation AI 2019 分類 Gendered Pronoun Resolution Google Research 2019 分類 LLM BERT
  13. 19 コンペをピックアップ コンペ名 主催者 終了時期 タスク Santa 2024 - The

    Perplexity Permutation Puzzle Kaggle 2025 単語の並び替え? LLM 20 Questions Kaggle 2024 生成(推論,プロンプトエンジニアリング) USPTO - Explainable AI for Patent Professionals US Patent and Trademark Office 2024 生成? Eedi - Mining Misconceptions in Mathematics The Learning Agency Lab 2024 検索(推薦) AI Mathematical Olympiad - Progress Prize 1 AI|MO 2024 生成(推論) Kaggle - LLM Science Exam Kaggle 2023 生成,検索 LLM Prompt Recovery Kaggle 2024 生成(プロンプトエンジニアリング) LMSYS - Chatbot Arena Human Preference Predictions LMSYS Org 2024 分類 Learning Agency Lab - Automated Essay Scoring 2.0 The Learning Agency Lab 2024 回帰 The Learning Agency Lab - PII Data Detection The Learning Agency Lab 2024 抽出 LLM - Detect AI Generated Text The Learning Agency Lab 2024 分類 Linking Writing Processes to Writing Quality The Learning Agency Lab 2024 回帰 CommonLit - Evaluate Student Summaries The Learning Agency Lab 2023 回帰 Feedback Prize - English Language Learning The Learning Agency Lab 2022 回帰 Feedback Prize - Predicting Effective Arguments Georgia State University 2022 分類 NBME - Score Clinical Patient Notes National Board of Medical Examiners 2022 抽出 Feedback Prize - Evaluating Student Writing Georgia State University 2022 抽出 CommonLit Readability Prize CommonLit 2021 回帰 Jigsaw Unintended Bias in Toxicity Classification Jigsaw/Conversation AI 2019 分類
  14. 20 BERT全盛期 コンペ名 主催者 終了時期 タスク Santa 2024 - The

    Perplexity Permutation Puzzle Kaggle 2025 単語の並び替え? LLM 20 Questions Kaggle 2024 生成(推論,プロンプトエンジニアリング) USPTO - Explainable AI for Patent Professionals US Patent and Trademark Office 2024 生成? Eedi - Mining Misconceptions in Mathematics The Learning Agency Lab 2024 検索(推薦) AI Mathematical Olympiad - Progress Prize 1 AI|MO 2024 生成(推論) Kaggle - LLM Science Exam Kaggle 2023 生成,検索 LLM Prompt Recovery Kaggle 2024 生成(プロンプトエンジニアリング) LMSYS - Chatbot Arena Human Preference Predictions LMSYS Org 2024 分類 Learning Agency Lab - Automated Essay Scoring 2.0 The Learning Agency Lab 2024 回帰 The Learning Agency Lab - PII Data Detection The Learning Agency Lab 2024 抽出 LLM - Detect AI Generated Text The Learning Agency Lab 2024 分類 Linking Writing Processes to Writing Quality The Learning Agency Lab 2024 回帰 CommonLit - Evaluate Student Summaries The Learning Agency Lab 2023 回帰 Feedback Prize - English Language Learning The Learning Agency Lab 2022 回帰 Feedback Prize - Predicting Effective Arguments Georgia State University 2022 分類 NBME - Score Clinical Patient Notes National Board of Medical Examiners 2022 抽出 Feedback Prize - Evaluating Student Writing Georgia State University 2022 抽出 CommonLit Readability Prize CommonLit 2021 回帰 Jigsaw Unintended Bias in Toxicity Classification Jigsaw/Conversation AI 2019 分類
  15. 21 分類タスクコンペでもLLMが必須の時代に突入 コンペ名 主催者 終了時期 タスク Santa 2024 - The

    Perplexity Permutation Puzzle Kaggle 2025 単語の並び替え? LLM 20 Questions Kaggle 2024 生成(推論,プロンプトエンジニアリング) USPTO - Explainable AI for Patent Professionals US Patent and Trademark Office 2024 生成? Eedi - Mining Misconceptions in Mathematics The Learning Agency Lab 2024 検索(推薦) AI Mathematical Olympiad - Progress Prize 1 AI|MO 2024 生成(推論) Kaggle - LLM Science Exam Kaggle 2023 生成,検索 LLM Prompt Recovery Kaggle 2024 生成(プロンプトエンジニアリング) LMSYS - Chatbot Arena Human Preference Predictions LMSYS Org 2024 分類 Learning Agency Lab - Automated Essay Scoring 2.0 The Learning Agency Lab 2024 回帰 The Learning Agency Lab - PII Data Detection The Learning Agency Lab 2024 抽出 LLM - Detect AI Generated Text The Learning Agency Lab 2024 分類 Linking Writing Processes to Writing Quality The Learning Agency Lab 2024 回帰 CommonLit - Evaluate Student Summaries The Learning Agency Lab 2023 回帰 Feedback Prize - English Language Learning The Learning Agency Lab 2022 回帰 Feedback Prize - Predicting Effective Arguments Georgia State University 2022 分類 NBME - Score Clinical Patient Notes National Board of Medical Examiners 2022 抽出 Feedback Prize - Evaluating Student Writing Georgia State University 2022 抽出 CommonLit Readability Prize CommonLit 2021 回帰 Jigsaw Unintended Bias in Toxicity Classification Jigsaw/Conversation AI 2019 分類
  16. 22 LLMによる推論が上位入賞に必須なコンペ コンペ名 主催者 終了時期 タスク Santa 2024 - The

    Perplexity Permutation Puzzle Kaggle 2025 単語の並び替え? LLM 20 Questions Kaggle 2024 生成(推論,プロンプトエンジニアリング) USPTO - Explainable AI for Patent Professionals US Patent and Trademark Office 2024 生成? Eedi - Mining Misconceptions in Mathematics The Learning Agency Lab 2024 検索(推薦) AI Mathematical Olympiad - Progress Prize 1 AI|MO 2024 生成(推論) Kaggle - LLM Science Exam Kaggle 2023 生成,検索 LLM Prompt Recovery Kaggle 2024 生成(プロンプトエンジニアリング) LMSYS - Chatbot Arena Human Preference Predictions LMSYS Org 2024 分類 Learning Agency Lab - Automated Essay Scoring 2.0 The Learning Agency Lab 2024 回帰 The Learning Agency Lab - PII Data Detection The Learning Agency Lab 2024 抽出 LLM - Detect AI Generated Text The Learning Agency Lab 2024 分類 Linking Writing Processes to Writing Quality The Learning Agency Lab 2024 回帰 CommonLit - Evaluate Student Summaries The Learning Agency Lab 2023 回帰 Feedback Prize - English Language Learning The Learning Agency Lab 2022 回帰 Feedback Prize - Predicting Effective Arguments Georgia State University 2022 分類 NBME - Score Clinical Patient Notes National Board of Medical Examiners 2022 抽出 Feedback Prize - Evaluating Student Writing Georgia State University 2022 抽出 CommonLit Readability Prize CommonLit 2021 回帰 Jigsaw Unintended Bias in Toxicity Classification Jigsaw/Conversation AI 2019 分類
  17. 23 【参考】lucrarea コンペ名 主催者 終了時期 タスク Santa 2024 - The

    Perplexity Permutation Puzzle Kaggle 2025 単語の並び替え? LLM 20 Questions Kaggle 2024 生成(推論,プロンプトエンジニアリング) USPTO - Explainable AI for Patent Professionals US Patent and Trademark Office 2024 生成? Eedi - Mining Misconceptions in Mathematics The Learning Agency Lab 2024 検索(推薦) AI Mathematical Olympiad - Progress Prize 1 AI|MO 2024 生成(推論) Kaggle - LLM Science Exam Kaggle 2023 生成,検索 LLM Prompt Recovery Kaggle 2024 生成(プロンプトエンジニアリング) LMSYS - Chatbot Arena Human Preference Predictions LMSYS Org 2024 分類 Learning Agency Lab - Automated Essay Scoring 2.0 The Learning Agency Lab 2024 回帰 The Learning Agency Lab - PII Data Detection The Learning Agency Lab 2024 抽出 LLM - Detect AI Generated Text The Learning Agency Lab 2024 分類 Linking Writing Processes to Writing Quality The Learning Agency Lab 2024 回帰 CommonLit - Evaluate Student Summaries The Learning Agency Lab 2023 回帰 Feedback Prize - English Language Learning The Learning Agency Lab 2022 回帰 Feedback Prize - Predicting Effective Arguments Georgia State University 2022 分類 NBME - Score Clinical Patient Notes National Board of Medical Examiners 2022 抽出 Feedback Prize - Evaluating Student Writing Georgia State University 2022 抽出 CommonLit Readability Prize CommonLit 2021 回帰 Jigsaw Unintended Bias in Toxicity Classification Jigsaw/Conversation AI 2019 分類
  18. 24 【参考】エチレンさん無双 コンペ名 主催者 終了時期 タスク Santa 2024 - The

    Perplexity Permutation Puzzle Kaggle 2025 単語の並び替え? LLM 20 Questions Kaggle 2024 生成(推論,プロンプトエンジニアリング) USPTO - Explainable AI for Patent Professionals US Patent and Trademark Office 2024 生成? Eedi - Mining Misconceptions in Mathematics The Learning Agency Lab 2024 検索(推薦) AI Mathematical Olympiad - Progress Prize 1 AI|MO 2024 生成(推論) Kaggle - LLM Science Exam Kaggle 2023 生成,検索 LLM Prompt Recovery Kaggle 2024 生成(プロンプトエンジニアリング) LMSYS - Chatbot Arena Human Preference Predictions LMSYS Org 2024 分類 Learning Agency Lab - Automated Essay Scoring 2.0 The Learning Agency Lab 2024 回帰 The Learning Agency Lab - PII Data Detection The Learning Agency Lab 2024 抽出 LLM - Detect AI Generated Text The Learning Agency Lab 2024 分類 Linking Writing Processes to Writing Quality The Learning Agency Lab 2024 回帰 CommonLit - Evaluate Student Summaries The Learning Agency Lab 2023 回帰 Feedback Prize - English Language Learning The Learning Agency Lab 2022 回帰 Feedback Prize - Predicting Effective Arguments Georgia State University 2022 分類 NBME - Score Clinical Patient Notes National Board of Medical Examiners 2022 抽出 Feedback Prize - Evaluating Student Writing Georgia State University 2022 抽出 CommonLit Readability Prize CommonLit 2021 回帰 Jigsaw Unintended Bias in Toxicity Classification Jigsaw/Conversation AI 2019 分類
  19. 26 撤退はまだ早い!!! ✔ クラウドサービスの充実 ⇒ GPUのクラウドサービスに関しては,以下の記事が参考になるかも ・ Kaggleコンペを想定したクラウドサービスの候補とユースケースについて (Bilzardさん) ・

    貸せ、RunpodはKaggleでこう使う (杏仁まぜそばさん) ✔ かなりきつい戦いであるが, RTX4090くらいのGPUさえあれば入賞の可能性もある ⇒ RTX3090x1でKaggle LLMコンペは戦えるのか? (ゆめねこさん) ✔ 効率賞という戦い方もある ⇒ Eediも効率賞があり,切り替えてこちらで戦うような戦略もある(業務活用で重宝する知見が得られる) ✔ 最後はGPUを買う覚悟を決める(入賞して賞金で取り返す!) ⇒ RTX5090は手が出る価格帯にもかかわらず,メモリも性能も申し分ないものが手に入るようになりつつある