Upgrade to Pro — share decks privately, control downloads, hide ads and more …

スタートアップで初めての機械学習プロジェクトをリードするということ

Avatar for crazysrot crazysrot
October 28, 2025

 スタートアップで初めての機械学習プロジェクトをリードするということ

Avatar for crazysrot

crazysrot

October 28, 2025
Tweet

Other Decks in Programming

Transcript

  1. ミツモアが解決するペイン 依頼者からの電話対応 本業以外の負荷高 依頼内容を各事業者に 都度説明し手間がかかる 労力大・時間がかかる 1. 事業者探し 2.個別依頼 3.

    面談・現地 調査 4. 見積もり受領 5. 仕事 依頼 数日~ 数週間 見積作成のためだけに訪問 現地調査のために都度待機 複雑な見積もりプロセス が 生産性向上のボトルネックに 依頼者 事業者
  2. ミツモアが提供するソリューション ベストな 見積もり&事業者 条件設定 依頼者 事業者 カンタン!早い! 集客も見積も 自動でとても楽! 最短1分で事業者が見つかる

    最大5社の見積もりを比べて選べる 機械学習を駆使し、自動で案件選定&見積作成 ぴったりマッチの実現で、GMVを最大化 百人百用の依頼パターン にぴったりな事業者と見積りを提供 希望を入力
  3. マッチング機械学習化ロードマップ Airbnbの軌跡を参考にロードマップをしき、初期はStep2までをスコープにおいた Step 1 Step 5 事業者の実績変数 Step 2 Step

    3 Step 4 事業者の実績変数 ユーザ変数 事業者の実績変数 ユーザ変数 Query変数 Diversity Low intent Re-rank https://medium.com/airbnb-engineering/machine-learning-powered-search-ranking-of-airbnb-experiences-110b4b1a0789 Airbnb ミツモア
  4. 最終的に作ったもの アルゴリズム:XGBoost 2値分類 VertexAIにてエンドポイントを提供 説明変数: 1st Model : 31 (6th

    Model : 200弱) 事業者変数、依頼者変数 Code:Python Monitoring : Redash 機械学習置換率: 1st Model:10%台 (6th Model:50%超) ミッションを体現するコンセプトで設計 期待売上 = firstprice * predicted paid rate 現在取り⼊れている主要なビジネスロジック ‧外れ値対応 ‧リスクが⾼いマッチングの抑制 ‧サービス別特性 ‧⾮アクティブ事業者の抑制 Post Processing コンセプト 日本のGDPを増やし 明日がもっといい日になる と思える社会に Model
  5. Post Processing迷⾛期 オフライン検証の限界 - Post processing時点で予期せぬ悪影響が発⽣し、⼤幅な調整が必要だった 理論と現実のギャップ - 理論的に正しい設計でも、実際の環境では想定外の動作をすることが判明 外れ値への対応

    - 予測モデルの精度が低い外れ値に近い部分で、追加の制約設定が必要に 制約のバランス - 厳しすぎる制約は多様性‧コンセプトを失い、緩すぎると不適切なマッチングが発⽣
  6. 主な学び 細かい調整や詳細な説得は不要 スピード重視の「Done is better than perfect」の思想 綿密な調査より実践投⼊して検証 PDCAが何よりも重要 Post

    Processingは難しい 理論と実践のギャップ、外れ値処理の課題 ビジネス理解はとても重要 技術以上にドメイン知識が結果を左右する EDAはとても重要 時間がなくても省略せず、データを深く理解する必要性
  7. スタートアップと巨⼤企業の差(主観) 特徴 スタートアップ 巨⼤企業 開発サイクル 検証⽅法 失敗の影響 プロセス 環境の特徴 改善サイクル

    ⾼速PDCA重視 "Done is better than perfect"思想 ABテスト重視 実環境での即時検証 ユーザー数が少なく影響が限定的 失敗から学習して素早く修正 EDAを最⼩限に抑える 実装優先のアプローチ カオスを受け⼊れる 曖昧さに対応できる柔軟性 数週間〜1ヶ⽉ 計画的かつ慎重なアプローチ 完成度と品質を重視 徹底的なオフライン検証 段階的な本番展開 ⼤規模ユーザーへの影響⼤ 失敗のコストが⾮常に⾼い 詳細なEDAと検証 体系的な分析プロセス 構造化された環境 明確な役割と責任 数ヶ⽉〜1年
  8. 4年間に歩んだこと モデル進化の歩み(2021年〜2024年) モデルの進化概要 初期は⾼速リリース重視のアプローチにて5thモデルまで突き進んだ。 5thモデルではビジネス制約を適切に実装。 最新の6thモデルでは初めて本格的なEDAを実施し、 過去の知⾒を活かした⼤幅な改善を実現しました。 ⾼速リリースの価値 初期の速さ重視の姿勢が多くの実践的な学びを早期にもたらしました 1st

    2nd 3.5 2021/11/29 初期モデル リリース 3rd 2021/12/24 2022/01/26 2022/03/04 確定申告 特化型 説明変数 ⼤幅アップデート 変数の リバイス 4th 5th 2022/04/19 2022/06/07 ランク学習導⼊ →即時撤退 6th 2024/03/11 アルゴリズム ハック対策 モデル改修 EDAを活⽤した 他、Post ProcessingやSmart Pricingなどのトライは常に実施 新たな変数‧仕組みの試験導⼊や ビジネスロジックの改修は常に実施しています
  9. 各モデル摘要 1st (2021年11⽉): 初のML導⼊。基本的な特徴量設計とXGBoostモデルの実装 2nd (2021年12⽉): 確定申告特化型。ユーザー体験が異なるため別モデルで検証 3rd (2022年1⽉): 説明変数の⼤幅アップデートによる精度向上

    3.5 (2022年3⽉): 3rdモデルに劣化する変数があったためリバイス 4th (2022年3⽉): ランク学習導⼊も結果がとてつもなく悪く即時撤退 5th (2022年6⽉): アルゴリズムハックを防ぐ改善を実施。説明変数の数2倍弱 6th (2024年3⽉): EDAを初めてまともに実施して⼤幅に全体的に改修
  10. やりたいことはたくさんある Query Feature Engineering - 特徴量の追加と精緻化 Diversity - 多様性を考慮した推薦システム User

    feature リベンジ - リピーターが増えてきたことにより、ユーザー特性の活⽤期待が⾼まる ビジネス制約の実装 - 集中の抑制など MLOps - モデル運⽤の⾃動化と効率化