Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Kaggleで鍛えたスキルの実務での活かし方 競技とプロダクト開発のリアル

Avatar for Recruit Recruit PRO
February 27, 2026

 Kaggleで鍛えたスキルの実務での活かし方 競技とプロダクト開発のリアル

2026/2/27に、RECRUIT TECH CONFERENCE 2026で発表した阿内・羽鳥・中間の資料になります。

Avatar for Recruit

Recruit PRO

February 27, 2026
Tweet

More Decks by Recruit

Other Decks in Technology

Transcript

  1. Agenda 1. 自己紹介 2. トピック1「Kaggle関連実績紹介」 a. 個人の実績紹介 b. 会社の実績紹介 3.

    トピック2「こぼれ話」(対談) a. コンペを始めたきっかけ b. 思い出に残るハプニングや修羅場、印象的な出来事 4. トピック3「Kaggleの学びをどう仕事に活かしているか」 a. Two-Towerモデルと近似最近傍探索による候補生成の事例 b. 設計・レビューの向上/モデル案件の正しさ・全体設計への応用
  2. Agenda 1. 自己紹介 2. トピック1「Kaggle関連実績紹介」 a. 個人の実績紹介 b. 会社の実績紹介 3.

    トピック2「こぼれ話」(対談) a. コンペを始めたきっかけ b. 思い出に残るハプニングや修羅場、印象的な出来事 4. トピック3「Kaggleの学びをどう仕事に活かしているか」 a. Two-Towerモデルと近似最近傍探索による候補生成の事例 b. 設計・レビューの向上/モデル案件の正しさ・全体設計への応用
  3. 阿内 宏武 オセロ / ギター 経歴 / Career 2016年にリクルートに新卒入社。 2021年までDSとして『ゼクシィ』・『カーセン

    サー』等の販促領域を担当 現在はHR領域のデータサイエンスグループの マネジャー Kaggle Master https://www.kaggle.com/kannahashimoto 趣味 / Hobbies (株)インディードリクルートテクノロ ジーズ データサイエンス部 エージェントサービ ス・ダイレクトスカウトデータサイエンス グループ
  4. 羽鳥 冬星 ストリートファイター6、Kaggle 経歴 / Career 2015年にリクルートに新卒入社。 シニアデータサイエンティスト DSとしてHR領域を中心として 複数の領域のレコメンドモデルの改善に取り組む

    Kaggle Master https://www.kaggle.com/toseihatori 趣味 / Hobbies (株)リクルート プロダクト開発 データ推進室 データテクノロジーユニット アジリティテクノロジー部 アジリティアナリティクスグループ
  5. 中間 康文 アニメ・漫画・ゲーム・野球・釣り 経歴 / Career 2021年にリクルートに新卒入社。 DSとして、HR領域の各プロダクトにおける レコメンドシステムの改善に取り組む。 Two-Towerモデルと近似最近傍探索による候補

    生成ロジック導入の案件が、リクルートのナレッ ジ共有イベント(FORUM)に選出される。 Kaggle Grandmaster。 https://www.kaggle.com/yasufuminakama 趣味 / Hobbies (株)インディードリクルートテクノロ ジーズ データサイエンス部 オンラインプラット フォームデータサイエンスグループ
  6. Agenda 1. 自己紹介 2. トピック1「Kaggle関連実績紹介」 a. 個人の実績紹介 b. 会社の実績紹介 3.

    トピック2「こぼれ話」(対談) a. コンペを始めたきっかけ b. 思い出に残るハプニングや修羅場、印象的な出来事 4. トピック3「Kaggleの学びをどう仕事に活かしているか」 a. Two-Towerモデルと近似最近傍探索による候補生成の事例 b. 設計・レビューの向上/モデル案件の正しさ・全体設計への応用
  7. Agenda 1. 自己紹介 2. トピック1「Kaggle関連実績紹介」 a. 個人の実績紹介 b. 会社の実績紹介 3.

    トピック2「こぼれ話」(対談) a. コンペを始めたきっかけ b. 思い出に残るハプニングや修羅場、印象的な出来事 4. トピック3「Kaggleの学びをどう仕事に活かしているか」 a. Two-Towerモデルと近似最近傍探索による候補生成の事例 b. 設計・レビューの向上/モデル案件の正しさ・全体設計への応用
  8. リクルートのKaggler事情 直近実績 ・LLM 20 Questions 11th🏆 ・ISIC 2024 - Skin Cancer

    Detection with 3D-TBP 5th🏆 ・RecSys Challenge 2025 1st🏆 conpass振り返りイベント RecSys Challenge 2025
  9. Agenda 1. 自己紹介 2. トピック1「Kaggle関連実績紹介」 a. 個人の実績紹介 b. 会社の実績紹介 3.

    トピック2「こぼれ話」(対談) a. コンペを始めたきっかけ b. 思い出に残るハプニングや修羅場、印象的な出来事 4. トピック3「Kaggleの学びをどう仕事に活かしているか」 a. Two-Towerモデルと近似最近傍探索による候補生成の事例 b. 設計・レビューの向上/モデル案件の正しさ・全体設計への応用
  10. Agenda 1. 自己紹介 2. トピック1「Kaggle関連実績紹介」 a. 個人の実績紹介 b. 会社の実績紹介 3.

    トピック2「こぼれ話」(対談) a. コンペを始めたきっかけ b. 思い出に残るハプニングや修羅場、印象的な出来事 4. トピック3「Kaggleの学びをどう仕事に活かしているか」 a. Two-Towerモデルと近似最近傍探索による候補生成の事例 b. 設計・レビューの向上/モデル案件の正しさ・全体設計への応用
  11. 思い出に残るハプニングや修羅場、印象的な出来事 • 阿内 ◦ ラストsubmissionの選択を朝やろうと言っていたのにリーダーが起きな い ◦ 初参加ではしっかりPublic激強notebookを何も考えずにコピペして痛い 目に会う •

    羽鳥 ◦ 朝5時まで実装 & 提出をした結果めちゃくちゃshake downしてしまった ◦ 阿内さんと同じチームで何度もコンペに出て「もうちょっとで金メダル だったのに」を100回繰り返した • 中間 ◦ 複数人チームで、各自の予測ファイルから最終予測ファイルを作るとき に、締切ギリギリまで粘ってやりがち
  12. Agenda 1. 自己紹介 2. トピック1「Kaggle関連実績紹介」 a. 個人の実績紹介 b. 会社の実績紹介 3.

    トピック2「こぼれ話」(対談) a. コンペを始めたきっかけ b. 思い出に残るハプニングや修羅場、印象的な出来事 4. トピック3「Kaggleの学びをどう仕事に活かしているか」 a. Two-Towerモデルと近似最近傍探索による候補生成の事例 b. 設計・レビューの向上/モデル案件の正しさ・全体設計への応用
  13. Two-Towerモデルと近似最近傍探索による候補生成 • 計算効率の改善 ◦ 求職者と求人票をTwo-Towerモデルでembeddingに変換 ◦ 近似最近傍探索により、各求職者に近い求人票を指定件数だけ取得 ◦ 計算量をコントロールできる •

    精度の改善 ◦ 計算効率を維持しながら、候補生成の精度を改善することができる ▪ 特徴量を追加しても全体の計算効率はほとんど変わらない ▪ 機械学習モデルで改善しやすく、質的な改善が見込める ▪ コールドスタート問題にも対処
  14. Kaggleの学びがどう活きたか? • Kaggleで培われるのは手の速さと手数の多さ ◦ 手の速さ ▪ ベースライン作成 • Notebooks Grandmasterなので慣れている&基本的なコードは流用できる

    ▪ 実験サイクル • configで特徴量やパラメータなど根本的な変更以外すぐ実験できる構成を採用 • 短納期での性能改善が求められた中、数週間でオフライン検証50回以上 ◦ 手数の多さ ▪ ネットワーク構造 • シンプルなものから始めて改善 ▪ 特徴量の処理方法 • 数値特徴量の処理は様々な処理を試す • カテゴリ特徴量のembeddingサイズは機械的に決定する • 順位のあるカテゴリ特徴量は重み付け含めてモデルに反映する ▪ 母集団 • クリックや応募など一通り試す
  15. オフライン検証 1st-stageの候補生成の精度はRecallで評価 1. 学習データと評価データを用意 a. 行動が発生した求職者×求人票ペアのリスト b. 学習/評価は時系列の前後で分割 2. 学習データを使ってTwo-Towerモデルを学習

    3. 評価データの全求職者と全求人票に対して埋め込みベクトルを計算 4. 近似最近傍探索で取得した求人票に対するRecallを計算 オフライン検証において、+5%以上の改善を確認
  16. Agenda 1. 自己紹介 2. トピック1「Kaggle関連実績紹介」 a. 個人の実績紹介 b. 会社の実績紹介 3.

    トピック2「こぼれ話」(対談) a. コンペを始めたきっかけ b. 思い出に残るハプニングや修羅場、印象的な出来事 4. トピック3「Kaggleの学びをどう仕事に活かしているか」 a. Two-Towerモデルと近似最近傍探索による候補生成の事例 b. 設計・レビュー力の向上/モデル案件の正しさ・全体設計への応用
  17. 設計・レビューの向上/モデル案件の正しさ・全体設計への応用 • 阿内: ◦ Kaggleで勝敗を分けるのが、いかに正しいオフライン評価を行うか ◦ 正しいオフライン評価とは、オンライン評価と相関するような検証方法を設計&実行す ること ▪ オンライン評価

    = KaggleでいうとPrivateLeaderBoardはKaggle側だけが持って いる正解データによる評価。ビジネスの現場だとA/Bテスト等で実際に得られる データで行う評価 ◦ この設計にすごく力を入れてきたので実際にもこの観点で指摘できることは多い
  18. 設計・レビューの向上/モデル案件の正しさ・全体設計への応用 • 羽鳥 • 「これ怪しい」センサーが働く ◦ CVスコアが良すぎる → validation設計に誤りがあるかも。validationに過度にfit したハイパーパラメータチューニングがされているかも

    ◦ 特徴量重要度の上位に不自然なものがある → 特徴量作成時にリークしてるかも • 評価指標の妥当性判断 ◦ RMSE -> 大きい値に敏感、MAPE -> 小さい値に敏感 ▪ どちらを案件の評価基準にするべきか ▪ 例えば売上予測の案件などでは、RMSEでモデル選択をすると大手企業の予 測値が良いモデルが選ばれがちで、MAPEでモデル選択をすると小規模企業 の予測値が良いモデルが選ばれがち ▪ 案件状況・ビジネス目的に沿った評価指標を考える必要がある
  19. 設計・レビューの向上/モデル案件の正しさ・全体設計への応用 • アンチパターンの理解 ◦ GBDT系 ▪ 学習率をチューニングパラメータにしない ▪ (初手から)欠損埋めをしない ▪

    (初手から)特徴量の標準化をしない ▪ (初手から)外れ値の除去をしない ◦ validation構築・評価系 ▪ 時系列データをシャッフルしてtrain, validation分割しない ▪ holdoutをみながらチューニングしない ◦ その他 ▪ (設計上不適切な場合)IDを特徴量に含めない ▪ 本番推論時に使えない特徴量を使わない ▪ いきなり複雑なモデルから始めない
  20. セッションに関連した資料のご紹介 • セッションに関連した資料 ◦ Two-Towerモデルと近似最近傍探索による候補生成ロジックの導入 ▪ https://blog.recruit.co.jp/data/articles/two-tower-model/ ▪ https://speakerdeck.com/recruitengineers/techcon2025-naka ma-wakatsuki(※RECRUIT

    TECH CONFERENCE 2025の資料) ◦ 【解法紹介】RecSys Challenge 2025 で優勝しました ▪ https://blog.recruit.co.jp/data/articles/recsys-challenge-2025/ ◦ atmaCup#16 in collaboration with RECRUIT 開催の裏側 ▪ https://blog.recruit.co.jp/data/articles/atmacup_2023/ ※2025年4月より「HR・人材」領域のサービスは Indeed Japan株式会社または株式会社インディードリクルートパートナーズが提供しております。