スタートアップで初めての機械学習プロジェクトをリードするということ

スタートアップで初めての機械学習プロジェクトをリードするということ 2025-10-23 Recommendation Industry Talks #8 Yuki Furuta

プロフィール詳細分析コンサルティング会社にてデータサイエンティストとして従事したのち、2021年8⽉に1⼈⽬データ正社員ポジションにてミツモア⼊社データ周り全般を担当するグループのマネージャ趣味：息⼦とサッカー crazysrot

最近がんばっていること分析業務すべてにAIをCopilotさせる取り組み特にtext2sqlに特化した分析のAI Agentを内製弊社Tech blogにて発信中!!

会社紹介株式会社ミツモアミツモアのミッション Our Mission 日本のGDPを増やし明日がもっといい日になると思える社会に

会社紹介株式会社ミツモア我々は、３つのプロダクトを通してサービス産業の生産性向上を追い求めます。日本人が使える、世界基準でよいプロダクトを作る生産性向上のために To Improve Productivity

本発表に関連するプロダクト詳細見積もりプラットフォームくらしからビジネスまで、 600種類以上のサービスでプロが見つかる日本で唯一の自動見積もりプラットフォーム

ミツモアが解決するペイン依頼者からの電話対応本業以外の負荷高依頼内容を各事業者に都度説明し手間がかかる労力大・時間がかかる 1. 事業者探し 2.個別依頼 3.
面談・現地調査 4. 見積もり受領 5. 仕事依頼数日~ 数週間見積作成のためだけに訪問現地調査のために都度待機複雑な見積もりプロセスが生産性向上のボトルネックに依頼者事業者

ミツモアが提供するソリューションベストな見積もり&事業者条件設定依頼者事業者カンタン！早い！集客も見積も自動でとても楽！最短１分で事業者が見つかる
最大５社の見積もりを比べて選べる機械学習を駆使し、自動で案件選定&見積作成ぴったりマッチの実現で、GMVを最大化百人百用の依頼パターンにぴったりな事業者と見積りを提供希望を入力

今⽇の話の概要 4年前にマッチングアルゴリズムに機械学習を導⼊した（ことがとてもエキセントリックだった）話

そもそも当時はどういった状態だったのか当時整理したフローを引っ張り出しました

そもそも当時はどういった状態だったのかルールベースの限界データ基盤導⼊済みテスト環境 JavaScriptによる四則演算ベースの実装が拡張性に課題 BigQuery分析基盤は整っているがMLへの転⽤は未検証事業の成⻑段階 PMF達成済みで売上‧データ増加フェーズに突⼊ ABテスト基盤は活⽤中ロードマップ前の課題
精度向上の限界経営層の期待と現実のギャップ技術負債の蓄積

マッチング機械学習化ロードマップ Airbnbの軌跡を参考にロードマップをしき、初期はStep2までをスコープにおいた Step 1 Step 5 事業者の実績変数 Step 2 Step
3 Step 4 事業者の実績変数ユーザ変数事業者の実績変数ユーザ変数 Query変数 Diversity Low intent Re-rank https://medium.com/airbnb-engineering/machine-learning-powered-search-ranking-of-airbnb-experiences-110b4b1a0789 Airbnb ミツモア

いざ出陣

発表者⼊社 @2021-08-24 ⼊社後は、しばらくほとんどが事業の可視化業務

Kick Oﬀ Meeting にて @2021-10-01 事前に⽤意した分析設計について答え合わせ特徴量エンジニアリングのためのヒアリング期限？？？？？

早すぎる期限の要望 MTGでの発⾔（うろ覚え）: 役員クラス: 「これって今⽉とかにリリースできたりしないですかね？(ワクワク)」発表者: 「えっと....」（いままでならデータ⾒て、いろいろちゃんと確認して、バッファ乗っけて...）発表者: 「1stのあと最速で動けるように並列でやってみます」返事をすることができませんでした
（CTOに助けてもらいました）役員クラス: 「1stリリースの後、確定申告シーズンに向けてすぐ次作って欲しいです！！」迫る納期プレッシャー

スタートアップについて

"スタートアップの思想 Done is better than perfect 完璧を⽬指すよりも、まずは形にすることが⼤切

リリース重視のプロジェクト進⾏⾼速でリリースをして、まずコンセプトが問題ないかを確認その後にブラッシュアップしていく思想の存在 MLプロジェクトは⼯数がかかることが多く、このような進め⽅は発表者の経験上皆無だった (最近だと⽣成AIの台頭により、MLの開発サイクルも⾼速化している?) 「Done is better than perfect」の精神

リリースまでの動き爆速リリースとの戦い

やらないといけないことは盛りだくさん... インフラどうするかモデルはどう作るか特徴量エンジニアリングどうするかビジネスとの合意どうするか推論データはどうやって作るか組み込み開発どうするかテストどうするか施策の効果検証どうするか etc

インフラについて Google Cloud のVertex AIを選択理由：以前触れた経験があったためフルマネージドサービスで管理コストが低い SREチームと相談し、Rest APIでの検討も⾏ったがフルマネージドが最適と判断最終的に迅速な導⼊を重視して決定

モデルはどう作るか Vertex AIの制約によりXGBoost⼀択短期リリースを優先するための技術選定

特徴量エンジニアリング⽅針 EDAをしないという意思決定データ探索よりも迅速なリリースを優先とにかく時間がないスタートアップの⾼速リリースサイクルに合わせた開発⽅針限られた知⾒で変数設計発表者が⼊社から会社の全部⾨の事業数値を出すアナリストも兼務⼊社からわずかな時間で得られた知⾒のみを絞り出し変数設計を無理やり実⾏

ビジネスとの合意形成全体的な合意主要売上のサービスのみサンプル抽出 Before/Afterを隅々まで確認細かい精度の確認は実施せず SHAPは出したが、ビジネス側との詳細な共有は限定的

推論データ作成既存のBigQueryを活⽤しdbtにて事前バッチ処理を⾏なったデータセット作成 Hourlyで更新するデータパイプライン増築による対応推論時に最⼤数時間のラグがある状態現在も同じ⼿法を採⽤し続けている事前処理済みデータにより推論機能の負荷を軽減

組み込み開発マッチングのログ取得リアルタイム変数の取得 BigQuery変数の取得推論API周辺の実装エラーハンドリング新しい変数候補のログ取得 ABテスト可能な形で実装その他いろいろ

テスト⽅針考慮漏れが多発したテストフェーズほとんどが未計画で都度設計に追われました... エラーハンドリングの不⾜異常値の処理⽅法データ不⾜時の挙動エンジニアへの感謝 "ソフトウェアエンジニアってすごいな" プロダクション環境の品質を保つための細やかな配慮に感銘急ピッチな開発の中でも
⾼品質を維持するために必須ですね

施策の効果検証⽅法既存のABテスト仕組みを最⼤限活⽤データ分析基盤からのインサイト抽出サービス別の効果検証と改善サイクル確⽴ 40回以上のABテスト実施と効果測定次期モデル開発のための詳細分析実施

Kick oﬀ前の想定と実績の差分

最終的に作ったものアルゴリズム：XGBoost 2値分類 VertexAIにてエンドポイントを提供説明変数： 1st Model : 31 (6th
Model : 200弱) 事業者変数、依頼者変数 Code：Python Monitoring : Redash 機械学習置換率： 1st Model：10%台 (6th Model：50%超) ミッションを体現するコンセプトで設計期待売上 = ﬁrstprice * predicted paid rate 現在取り⼊れている主要なビジネスロジック ‧外れ値対応 ‧リスクが⾼いマッチングの抑制 ‧サービス別特性 ‧⾮アクティブ事業者の抑制 Post Processing コンセプト日本のGDPを増やし明日がもっといい日になると思える社会に Model

システムアーキテクチャ変遷 Before After

リリースして起きたこと実際の運⽤で⾒えた課題と気づき

舞い上がり期 noteの記事に記載したように、成約率が急上昇☝☝☝ カナリーリリースで不⽤品回収サービスのみで実施

絶望期 ▶ 不⽤品回収サービスで顕著な成果が出たと勘違い実際には初期段階の効果確認で事前に検知できていた課題があったデータの検証不⾜による過剰な楽観視

Post Processing迷⾛期オフライン検証の限界 - Post processing時点で予期せぬ悪影響が発⽣し、⼤幅な調整が必要だった理論と現実のギャップ - 理論的に正しい設計でも、実際の環境では想定外の動作をすることが判明外れ値への対応
- 予測モデルの精度が低い外れ値に近い部分で、追加の制約設定が必要に制約のバランス - 厳しすぎる制約は多様性‧コンセプトを失い、緩すぎると不適切なマッチングが発⽣

ABテスト祭り期サービス別に効果検証を実施計40回のABテストをサービス別などで実施それぞれ勝ち負けのジャッジと事後分析を実施分析は、2ndモデル以降で活⽤するため念⼊りに実施改めてEDAを含む分析が⼤事だと実感検証後17/40が勝ちでPoC⾃体は成功と判断し、改善フェーズに突⼊

脇⽬振らず期 1stモデルリリース後、すぐに次の開発フェーズへ「スピード感あって楽しい！！！」「1stモデルの良し悪しを噛み締める時間もなく、次の開発に移りました」成功や失敗を過度に分析せず、常に前に進む⽂化がスタートアップの強み改善サイクルが数週間単位で回るスピード感スピード重視の開発サイクル

おさらいここまでの流れを振り返りまとめる

主な学び細かい調整や詳細な説得は不要スピード重視の「Done is better than perfect」の思想綿密な調査より実践投⼊して検証 PDCAが何よりも重要 Post
Processingは難しい理論と実践のギャップ、外れ値処理の課題ビジネス理解はとても重要技術以上にドメイン知識が結果を左右する EDAはとても重要時間がなくても省略せず、データを深く理解する必要性

スタートアップと巨⼤企業の差（主観）特徴スタートアップ巨⼤企業開発サイクル検証⽅法失敗の影響プロセス環境の特徴改善サイクル
⾼速PDCA重視 "Done is better than perfect"思想 ABテスト重視実環境での即時検証ユーザー数が少なく影響が限定的失敗から学習して素早く修正 EDAを最⼩限に抑える実装優先のアプローチカオスを受け⼊れる曖昧さに対応できる柔軟性数週間〜1ヶ⽉計画的かつ慎重なアプローチ完成度と品質を重視徹底的なオフライン検証段階的な本番展開⼤規模ユーザーへの影響⼤失敗のコストが⾮常に⾼い詳細なEDAと検証体系的な分析プロセス構造化された環境明確な役割と責任数ヶ⽉〜1年

その後現在までの軌跡を紹介

4年間に歩んだことモデル進化の歩み（2021年〜2024年）モデルの進化概要初期は⾼速リリース重視のアプローチにて5thモデルまで突き進んだ。 5thモデルではビジネス制約を適切に実装。最新の6thモデルでは初めて本格的なEDAを実施し、過去の知⾒を活かした⼤幅な改善を実現しました。⾼速リリースの価値初期の速さ重視の姿勢が多くの実践的な学びを早期にもたらしました 1st
2nd 3.5 2021/11/29 初期モデルリリース 3rd 2021/12/24 2022/01/26 2022/03/04 確定申告特化型説明変数⼤幅アップデート変数のリバイス 4th 5th 2022/04/19 2022/06/07 ランク学習導⼊ →即時撤退 6th 2024/03/11 アルゴリズムハック対策モデル改修 EDAを活⽤した他、Post ProcessingやSmart Pricingなどのトライは常に実施新たな変数‧仕組みの試験導⼊やビジネスロジックの改修は常に実施しています

各モデル摘要 1st (2021年11⽉): 初のML導⼊。基本的な特徴量設計とXGBoostモデルの実装 2nd (2021年12⽉): 確定申告特化型。ユーザー体験が異なるため別モデルで検証 3rd (2022年1⽉): 説明変数の⼤幅アップデートによる精度向上
3.5 (2022年3⽉): 3rdモデルに劣化する変数があったためリバイス 4th (2022年3⽉): ランク学習導⼊も結果がとてつもなく悪く即時撤退 5th (2022年6⽉): アルゴリズムハックを防ぐ改善を実施。説明変数の数2倍弱 6th (2024年3⽉): EDAを初めてまともに実施して⼤幅に全体的に改修

今後やっていきたいこと

やりたいことはたくさんある Query Feature Engineering - 特徴量の追加と精緻化 Diversity - 多様性を考慮した推薦システム User
feature リベンジ - リピーターが増えてきたことにより、ユーザー特性の活⽤期待が⾼まるビジネス制約の実装 - 集中の抑制など MLOps - モデル運⽤の⾃動化と効率化

We are hiring! データアナリストデータサイエンティストデータエンジニアデータ系各職種にて募集中

最後に：今後も挑戦は続くご清聴ありがとうございました

スタートアップで初めての機械学習プロジェクトをリードするということ

スタートアップで初めての機械学習プロジェクトをリードするということ

More Decks by crazysrot

Other Decks in Programming

Featured

Transcript