【第3回】関東Kaggler会「NLPの変遷とNLPコンペの最新事情〜進化する技術と変化する戦い方〜」

2025/2/15 (土) 第3回関東kaggler会 LT NLPの変遷とNLPコンペの最新事情〜進化する技術と変化する戦い方〜 takaito

1 自己紹介名前: 高野海斗略歴: 2021年3月: 博士後期課程修了 (理工学博士)
2021年4月: 資産運用会社入社 (クオンツ) 専門分野: 自然言語処理，モデル開発，リサーチ 2024年のデータ分析コンペの成果: 金1銀3銅3 2024年のリサーチのアウトプット: ・査読付き論文: 2 ・国際会議: 2 ・国内学会: 12 (受賞: 1)

2 自己紹介最近はatmaCupだけでなく，kaggleでもnotebookを公開することで，コミュニティ貢献できるよう活動中 (Ristさん主催イベント「Kaggleは業務の役にたつ」での corochannさんの招待講演がきっかけ)

3 Today's Lightning Talk ① NLP分野の技術の変遷を簡単に振り返る ② NLPコンペを列挙しつつ，直近を中心に簡単に紹介 ③ これからのNLPコンペの戦い方を考える
NLP (Natural Language Processing): 自然言語処理

4 NLP分野の技術の変遷〜2012年: 単語の頻度情報活用 2013年〜2018年: 深層学習モデル 2018年〜2022年: BERTモデル 2023年〜現在: 大規模言語モデル
(LLM)，生成モデル

5 〜2012年: 単語の頻度情報活用 ✔ テキスト情報をそのままモデルに入力することはできないため，数値情報に変換する必要がある ✔ 単語の出現頻度情報をカウントすることで，ベクトルに変換する手法が基本になっている ✔ 単純な頻度情報から発展し，特定の文書にしか登場しない単語の重みを大きくする方法などが提案された (TF-idf:
Term Frequency - Inverse Document Frequencyなど) ✔ 単語の出現はスパースであるため，次元圧縮することが有効であることも多い (PCA，SVDなど)

6 〜2012年までの特徴 ✔ 単語への分割や正規化が重要 (日本語はどのような形態素解析(分割)をするかが結果を大きく左右される) ✔ 頻度情報に変換するという特徴から文脈の考慮は不可能（フレーズへの拡張などで対応していた） ✔ スパースなデータであることから，モデルの学習には大量のデータが必要 ✔
次元圧縮したベクトルを用いた類似文検索や教師無しクラスタリングが主流 ✔ 単語の共起に着目した分析も主流 ✔ 教師あり学習による文の分類はSVMなどを用いることが大半日銀のワーキングペーパーより抜粋景気ウォッチャーのテキスト分析 https://www.boj.or.jp/research/wps_rev/lab/lab21j02.htm

7 2013年〜2018年: 深層学習モデル ✔ Neural Network: SVMから深層学習モデルに切り替えることで精度の向上が報告される ✔ word2vec: 単語の共起をNeural
Networkで埋め込むことで単語をベクトル化一部の単語において演算が可能であることが報告される Efficient Estimation of Word Representations in Vector Space (2013) ✔ Encoder-Decoder: 入力層のモデルと出力層のモデルを分けて考えられるように変化 ✔ Attention: 自動翻訳の研究において，どの単語に注力すべきかをモデルが加味できるような仕組みを開発 Effective Approaches to Attention-based Neural Machine Translation (2015) ✔ Transformer: 現在のBERTやLLMの基礎となっているモデル構造 Attention Is All You Need (2017)

8 【参考】 Transformerモデル Attention Is All You Need (2017)より抜粋

9 2013年〜2018年の特徴 ✔ 画像データを対象で先行していた深層学習モデルが自然言語処理にも多大な影響を与えた ✔ 研究の先端も目紛るしく変化 ✔ word2vecが与えた影響は大きく，簡単に使用可能なword2vecを用いたテキスト分析が主流になった ✔ Googleなどが筆頭にモデル構造の研究を行い，Google翻訳の精度が大きく向上
✔ GPU環境の整備や大量のデータが必要になるため，一般ユーザーの深層学習モデルの使用はそこまで進まず

10 2018年〜2022年: BERTモデル ✔ BERTモデル: TransformerのEncoder部分を活用したモデル BERT: Pre-training of Deep
Bidirectional Transformers for Language Understanding (2018) ✔ BERTモデルは大量のデータを用いて，パラメータを事前に学習させておくことが可能なモデルである ✔ パラメータの事前学習により，対象言語の単語の出現構造や文法などをすでにモデルは学習している ✔ 少量の教師ありデータがあれば，高精度な分類や回帰が可能なモデルを開発できるようになった BERT (初期状態) BERT (特化モデル) BERT (初期状態) BERT (事前学習済み) BERT (特化モデル) 大量のデータが学習に必要少量のデータで学習可能大量のデータが学習に必要公開されている従来 BERT登場後

11 2018年〜2022年の特徴 ✔ BERTモデルのFine-Tuningによる分類や回帰が主流になった ✔ 様々なBERTの派生形モデルが誕生 (RoBERTa，DeBERTa) ✔ ドメインや言語に特化したBERTモデルも誕生・
東北大の乾研究室が日本語BERTを公開・金融に特化したBERT(FinBERT)や医療ドメインに特化したBERT(MedBERT)など ✔ 文脈を考慮した分類や回帰が可能になり，形態素解析などもただ使う場合はあまり考える必要がなくなった ✔ Fine-TuningにはGPUが必要であることから，一般ユーザーが誰でも使用できる状況ではなかった

12 2023年〜現在: 大規模言語モデル (LLM) ✔ GPTモデル: TransformerのDecoder部分を活用したモデル ✔ 現在のLLMの大半はGPTモデルのレイヤーや次元を非常に大きくしたモデルとなっている ✔
大量のデータで大量のパラメータを学習させることで，様々なことをモデルが学習している ✔ LLMは非常に汎用的なモデルとなったことで，タスク次第ではFine-Tuningすら不要になった ✔ 入力に適切な指示を与えることで様々なタスクを解決することが可能になった・翻訳，文章の要約，キーワード抽出，タグの付与，極性の分析，誤植の修正，レポートの生成など

13 2023年〜現在の特徴 ✔ webツールやAPIの普及により，誰でも簡単に高性能な言語モデルを使用することが可能になった ✔ 汎用的なモデルであり生成モデルでもあることから，様々なタスクを解決することができる ✔ RAG (Retrieval Augmented
Generation)と呼ばれるタスクを解くために適切なテキストを入力に加える方法が生成の性能を大きく改善することができるため，データの蓄積やその検索方法が重要になった

14 KaggleのNLPタグありNLPコンペコンペ名主催者終了時期タスク Eedi - Mining Misconceptions
in Mathematics The Learning Agency Lab 2024 検索（推薦） LLM 20 Questions Kaggle 2024 生成（推論，プロンプトエンジニアリング） USPTO - Explainable AI for Patent Professionals US Patent and Trademark Office 2024 生成？ Learning Agency Lab - Automated Essay Scoring 2.0 The Learning Agency Lab 2024 回帰 AI Mathematical Olympiad - Progress Prize 1 AI|MO 2024 生成（推論） LLM Prompt Recovery Kaggle 2024 生成（プロンプトエンジニアリング） Linking Writing Processes to Writing Quality The Learning Agency Lab 2024 回帰 CommonLit - Evaluate Student Summaries The Learning Agency Lab 2023 回帰 Kaggle - LLM Science Exam Kaggle 2023 生成，検索 Feedback Prize - English Language Learning The Learning Agency Lab 2022 回帰 Feedback Prize - Predicting Effective Arguments Georgia State University 2022 分類 Google AI4Code – Understand Code in Python Notebooks Google and X 2022 ？ U.S. Patent Phrase to Phrase Matching Satsyil Corp 2022 ？ NBME - Score Clinical Patient Notes National Board of Medical Examiners 2022 抽出 Feedback Prize - Evaluating Student Writing Georgia State University 2022 抽出 Jigsaw Rate Severity of Toxic Comments Jigsaw/Conversation AI 2022 回帰 Google QUEST Q&A Labeling Google 2020 Jigsaw Unintended Bias in Toxicity Classification Jigsaw/Conversation AI 2019 分類 Gendered Pronoun Resolution Google Research 2019 分類

15 KaggleのNLPタグなしNLPコンペコンペ名主催者終了時期タスク Santa 2024 - The
Perplexity Permutation Puzzle Kaggle 2025 単語の並び替え？ LMSYS - Chatbot Arena Human Preference Predictions LMSYS Org 2024 分類 The Learning Agency Lab - PII Data Detection The Learning Agency Lab 2024 抽出 LLM - Detect AI Generated Text The Learning Agency Lab 2024 分類 Bengali.AI Speech Recognition Bengali.AI 2023 音声認識 Learning Equality - Curriculum Recommendations The Learning Agency Lab 2023 検索 chaii - Hindi and Tamil Question Answering Google 2021 CommonLit Readability Prize CommonLit 2021 回帰 Tweet Sentiment Extraction Kaggle 2020 抽出

16 【余談】KaggleのNLPタグなしNLPコンペコンペ名主催者終了時期タスク Santa 2024 - The
Perplexity Permutation Puzzle Kaggle 2025 単語の並び替え？ LMSYS - Chatbot Arena Human Preference Predictions LMSYS Org 2024 分類 The Learning Agency Lab - PII Data Detection The Learning Agency Lab 2024 抽出 LLM - Detect AI Generated Text The Learning Agency Lab 2024 分類 Bengali.AI Speech Recognition Bengali.AI 2023 音声認識 Learning Equality - Curriculum Recommendations The Learning Agency Lab 2023 検索 chaii - Hindi and Tamil Question Answering Google 2021 CommonLit Readability Prize CommonLit 2021 回帰 Tweet Sentiment Extraction Kaggle 2020 抽出 NLPコンペだと思っていたがNLPタグがついておらず

17 KaggleのNLPコンペ（時系列）コンペ名主催者終了時期タスク Santa 2024 - The
Perplexity Permutation Puzzle Kaggle 2025 単語の並び替え？ Eedi - Mining Misconceptions in Mathematics The Learning Agency Lab 2024 検索（推薦） LLM 20 Questions Kaggle 2024 生成（推論，プロンプトエンジニアリング） LMSYS - Chatbot Arena Human Preference Predictions LMSYS Org 2024 分類 USPTO - Explainable AI for Patent Professionals US Patent and Trademark Office 2024 生成？ Learning Agency Lab - Automated Essay Scoring 2.0 The Learning Agency Lab 2024 回帰 AI Mathematical Olympiad - Progress Prize 1 AI|MO 2024 生成（推論） LLM Prompt Recovery Kaggle 2024 生成（プロンプトエンジニアリング） The Learning Agency Lab - PII Data Detection The Learning Agency Lab 2024 抽出 LLM - Detect AI Generated Text The Learning Agency Lab 2024 分類 Linking Writing Processes to Writing Quality The Learning Agency Lab 2024 回帰 Bengali.AI Speech Recognition Bengali.AI 2023 音声認識 CommonLit - Evaluate Student Summaries The Learning Agency Lab 2023 回帰 Kaggle - LLM Science Exam Kaggle 2023 生成，検索 Learning Equality - Curriculum Recommendations The Learning Agency Lab 2023 検索 Feedback Prize - English Language Learning The Learning Agency Lab 2022 回帰 Feedback Prize - Predicting Effective Arguments Georgia State University 2022 分類 Google AI4Code – Understand Code in Python Notebooks Google and X 2022 ？ U.S. Patent Phrase to Phrase Matching Satsyil Corp 2022 ？ NBME - Score Clinical Patient Notes National Board of Medical Examiners 2022 抽出 Feedback Prize - Evaluating Student Writing Georgia State University 2022 抽出 Jigsaw Rate Severity of Toxic Comments Jigsaw/Conversation AI 2022 回帰 chaii - Hindi and Tamil Question Answering Google 2021 CommonLit Readability Prize CommonLit 2021 回帰 Google QUEST Q&A Labeling Google 2020 Tweet Sentiment Extraction Kaggle 2020 抽出 Jigsaw Unintended Bias in Toxicity Classification Jigsaw/Conversation AI 2019 分類 Gendered Pronoun Resolution Google Research 2019 分類

18 BERTとLLM コンペ名主催者終了時期タスク Santa 2024 - The
Perplexity Permutation Puzzle Kaggle 2025 単語の並び替え？ Eedi - Mining Misconceptions in Mathematics The Learning Agency Lab 2024 検索（推薦） LLM 20 Questions Kaggle 2024 生成（推論，プロンプトエンジニアリング） LMSYS - Chatbot Arena Human Preference Predictions LMSYS Org 2024 分類 USPTO - Explainable AI for Patent Professionals US Patent and Trademark Office 2024 生成？ Learning Agency Lab - Automated Essay Scoring 2.0 The Learning Agency Lab 2024 回帰 AI Mathematical Olympiad - Progress Prize 1 AI|MO 2024 生成（推論） LLM Prompt Recovery Kaggle 2024 生成（プロンプトエンジニアリング） The Learning Agency Lab - PII Data Detection The Learning Agency Lab 2024 抽出 LLM - Detect AI Generated Text The Learning Agency Lab 2024 分類 Linking Writing Processes to Writing Quality The Learning Agency Lab 2024 回帰 Bengali.AI Speech Recognition Bengali.AI 2023 音声認識 CommonLit - Evaluate Student Summaries The Learning Agency Lab 2023 回帰 Kaggle - LLM Science Exam Kaggle 2023 生成，検索 Learning Equality - Curriculum Recommendations The Learning Agency Lab 2023 検索 Feedback Prize - English Language Learning The Learning Agency Lab 2022 回帰 Feedback Prize - Predicting Effective Arguments Georgia State University 2022 分類 Google AI4Code – Understand Code in Python Notebooks Google and X 2022 ？ U.S. Patent Phrase to Phrase Matching Satsyil Corp 2022 ？ NBME - Score Clinical Patient Notes National Board of Medical Examiners 2022 抽出 Feedback Prize - Evaluating Student Writing Georgia State University 2022 抽出 Jigsaw Rate Severity of Toxic Comments Jigsaw/Conversation AI 2022 回帰 chaii - Hindi and Tamil Question Answering Google 2021 CommonLit Readability Prize CommonLit 2021 回帰 Google QUEST Q&A Labeling Google 2020 Tweet Sentiment Extraction Kaggle 2020 抽出 Jigsaw Unintended Bias in Toxicity Classification Jigsaw/Conversation AI 2019 分類 Gendered Pronoun Resolution Google Research 2019 分類 LLM BERT

19 コンペをピックアップコンペ名主催者終了時期タスク Santa 2024 - The
Perplexity Permutation Puzzle Kaggle 2025 単語の並び替え？ LLM 20 Questions Kaggle 2024 生成（推論，プロンプトエンジニアリング） USPTO - Explainable AI for Patent Professionals US Patent and Trademark Office 2024 生成？ Eedi - Mining Misconceptions in Mathematics The Learning Agency Lab 2024 検索（推薦） AI Mathematical Olympiad - Progress Prize 1 AI|MO 2024 生成（推論） Kaggle - LLM Science Exam Kaggle 2023 生成，検索 LLM Prompt Recovery Kaggle 2024 生成（プロンプトエンジニアリング） LMSYS - Chatbot Arena Human Preference Predictions LMSYS Org 2024 分類 Learning Agency Lab - Automated Essay Scoring 2.0 The Learning Agency Lab 2024 回帰 The Learning Agency Lab - PII Data Detection The Learning Agency Lab 2024 抽出 LLM - Detect AI Generated Text The Learning Agency Lab 2024 分類 Linking Writing Processes to Writing Quality The Learning Agency Lab 2024 回帰 CommonLit - Evaluate Student Summaries The Learning Agency Lab 2023 回帰 Feedback Prize - English Language Learning The Learning Agency Lab 2022 回帰 Feedback Prize - Predicting Effective Arguments Georgia State University 2022 分類 NBME - Score Clinical Patient Notes National Board of Medical Examiners 2022 抽出 Feedback Prize - Evaluating Student Writing Georgia State University 2022 抽出 CommonLit Readability Prize CommonLit 2021 回帰 Jigsaw Unintended Bias in Toxicity Classification Jigsaw/Conversation AI 2019 分類

20 BERT全盛期コンペ名主催者終了時期タスク Santa 2024 - The

21 分類タスクコンペでもLLMが必須の時代に突入コンペ名主催者終了時期タスク Santa 2024 - The

22 LLMによる推論が上位入賞に必須なコンペコンペ名主催者終了時期タスク Santa 2024 - The

23 【参考】lucrarea コンペ名主催者終了時期タスク Santa 2024 - The

24 【参考】エチレンさん無双コンペ名主催者終了時期タスク Santa 2024 - The

25 NLPコンペの現在(2024年年末時点) ✔ 分類や生成において，量子化したLLM (2B~14Bくらい)のQlora tuningが主流になりつつある ✔ メモリの大きい高性能なGPUを持っているユーザーが有利であるのは事実 ✔ prize圏内では，A100×8の環境でLLMをfine-tuningしているようなことも（流石にまだレアケース）
✔ コンペによってはNotebookでL4×4が使用可能なものも出てきており，推論で使えるLLMも大きくなっている高性能なGPUをもっていないユーザーは NLPコンペから撤退せざるを得ないのか...?

26 撤退はまだ早い！！！ ✔ クラウドサービスの充実 ⇒ GPUのクラウドサービスに関しては，以下の記事が参考になるかも・ Kaggleコンペを想定したクラウドサービスの候補とユースケースについて (Bilzardさん) ・
貸せ、RunpodはKaggleでこう使う (杏仁まぜそばさん) ✔ かなりきつい戦いであるが， RTX4090くらいのGPUさえあれば入賞の可能性もある ⇒ RTX3090x1でKaggle LLMコンペは戦えるのか？ (ゆめねこさん) ✔ 効率賞という戦い方もある ⇒ Eediも効率賞があり，切り替えてこちらで戦うような戦略もある（業務活用で重宝する知見が得られる） ✔ 最後はGPUを買う覚悟を決める（入賞して賞金で取り返す！） ⇒ RTX5090は手が出る価格帯にもかかわらず，メモリも性能も申し分ないものが手に入るようになりつつある

27 おわりに ✔ LLMの人気も相まってNLP人材は不足気味 ⇒ NLPコンペで技術を学ぶことは業務での活躍が期待できるかも...? ✔ LLMの活用には，従来の技術を身に着けることも重要（例: LLM Detect
AI，Eediなど） ✔ コンペの楽しみ方はいろいろ（効率賞，ディスカッション，RAG用のデータ生成など）

【第3回】関東Kaggler会「NLPの変遷とNLPコンペの最新事情〜進化する技術と変化する...

【第3回】関東Kaggler会「NLPの変遷とNLPコンペの最新事情〜進化する技術と変化する戦い方〜」

takaito

More Decks by takaito

Featured

Transcript

2025/2/15 (土) 第3回関東kaggler会 LT NLPの変遷とNLPコンペの最新事情〜進化する技術と変化する戦い方〜 takaito

1 自己紹介名前: 高野海斗略歴: 2021年3月: 博士後期課程修了 (理工学博士)

2 自己紹介最近はatmaCupだけでなく，kaggleでもnotebookを公開することで，コミュニティ貢献できるよう活動中 (Ristさん主催イベント「Kaggleは業務の役にたつ」での corochannさんの招待講演がきっかけ)

3 Today's Lightning Talk ① NLP分野の技術の変遷を簡単に振り返る ② NLPコンペを列挙しつつ，直近を中心に簡単に紹介 ③ これからのNLPコンペの戦い方を考える

4 NLP分野の技術の変遷〜2012年: 単語の頻度情報活用 2013年〜2018年: 深層学習モデル 2018年〜2022年: BERTモデル 2023年〜現在: 大規模言語モデル

7 2013年〜2018年: 深層学習モデル ✔ Neural Network: SVMから深層学習モデルに切り替えることで精度の向上が報告される ✔ word2vec: 単語の共起をNeural

8 【参考】 Transformerモデル Attention Is All You Need (2017)より抜粋

10 2018年〜2022年: BERTモデル ✔ BERTモデル: TransformerのEncoder部分を活用したモデル BERT: Pre-training of Deep

11 2018年〜2022年の特徴 ✔ BERTモデルのFine-Tuningによる分類や回帰が主流になった ✔ 様々なBERTの派生形モデルが誕生 (RoBERTa，DeBERTa) ✔ ドメインや言語に特化したBERTモデルも誕生・

12 2023年〜現在: 大規模言語モデル (LLM) ✔ GPTモデル: TransformerのDecoder部分を活用したモデル ✔ 現在のLLMの大半はGPTモデルのレイヤーや次元を非常に大きくしたモデルとなっている ✔

14 KaggleのNLPタグありNLPコンペコンペ名主催者終了時期タスク Eedi - Mining Misconceptions

15 KaggleのNLPタグなしNLPコンペコンペ名主催者終了時期タスク Santa 2024 - The

16 【余談】KaggleのNLPタグなしNLPコンペコンペ名主催者終了時期タスク Santa 2024 - The

17 KaggleのNLPコンペ（時系列）コンペ名主催者終了時期タスク Santa 2024 - The

18 BERTとLLM コンペ名主催者終了時期タスク Santa 2024 - The

19 コンペをピックアップコンペ名主催者終了時期タスク Santa 2024 - The

20 BERT全盛期コンペ名主催者終了時期タスク Santa 2024 - The

21 分類タスクコンペでもLLMが必須の時代に突入コンペ名主催者終了時期タスク Santa 2024 - The

22 LLMによる推論が上位入賞に必須なコンペコンペ名主催者終了時期タスク Santa 2024 - The

23 【参考】lucrarea コンペ名主催者終了時期タスク Santa 2024 - The

24 【参考】エチレンさん無双コンペ名主催者終了時期タスク Santa 2024 - The

26 撤退はまだ早い！！！ ✔ クラウドサービスの充実 ⇒ GPUのクラウドサービスに関しては，以下の記事が参考になるかも・ Kaggleコンペを想定したクラウドサービスの候補とユースケースについて (Bilzardさん) ・

27 おわりに ✔ LLMの人気も相まってNLP人材は不足気味 ⇒ NLPコンペで技術を学ぶことは業務での活躍が期待できるかも...? ✔ LLMの活用には，従来の技術を身に着けることも重要（例: LLM Detect

【第3回】関東Kaggler会「NLPの変遷とNLPコンペの最新事情 〜進化する技術と変化する...

【第3回】関東Kaggler会「NLPの変遷とNLPコンペの最新事情 〜進化する技術と変化する戦い方〜」

More Decks by takaito

Featured

Transcript

【第3回】関東Kaggler会「NLPの変遷とNLPコンペの最新事情〜進化する技術と変化する...

【第3回】関東Kaggler会「NLPの変遷とNLPコンペの最新事情〜進化する技術と変化する戦い方〜」