Upgrade to Pro — share decks privately, control downloads, hide ads and more …

巨人の肩の上で踊れ 〜Virtual Try-On APIに学ぶAI時代の教訓と戦い方

巨人の肩の上で踊れ 〜Virtual Try-On APIに学ぶAI時代の教訓と戦い方

2025.08.21 NTTドコモグループ合同開催のGoogle Cloud Next Tokyo RecapでのLT登壇

詳細は以下の記事に記載。
https://zenn.dev/tsuruo/articles/21783916dd0283

More Decks by ツルオカ - Hideki Tsuruoka

Other Decks in Technology

Transcript

  1. 鶴岡 秀樹 • ドコモ経企、技術部隊「hands」にて開発・⽀援・育成 • ⼦会社含むdocomo STARTUP事業の技術⽀援を10件以上 • Flutter活⽤でドコモ新規事業のローンチ、他部研修講師 •

    Zenn執筆(2.2K Likes)、OSS、イベント登壇・運営、技術顧問 など • Perfume が好き(P.T.A. 2012年~) / 2児の⽗ @h_tsuruo htsuruo ツルオカ ヒデキ
  2. 7 docomo STARTUP ドコモグループ社員のアイデアを事業化する新規事業創出プログラム これまでに500以上のアイデアが提出 ⼦会社: 4社、スピンアウト企業: 8社 ※2025年8⽉現在 •

    本業と兼務で事業検証を進め、スピンアウト⽬指してVC資⾦調達を実施 • AFFILIATEコースまたはマイナー出資スピンアウトのSTARTUPコースでEXIT
  3. • ⽬的: AIの最前線、Google Cloud製品のAI統合による進化、AIエージェントの実利⽤ケースを知る、など • 参加セッション: 10個、ブース: ほぼ全部、Quiz Challenge: GKE、ガラポン:

    当選、ハンズオン系は抽選で参加できず • 所感: Agentspaceの企業導⼊の実例、浸透ノウハウ、Agent Engineとの接続、などのブース系は特に多かった印象。 Next Tokyoʼ25の参加⽬的と所感 8 ↑招待コードでガラポン。当選してスケッチ ブックGET。 ↑Quiz Challengeで認定資格の 簡易版みたいなクイズ。正答率 70%以上でバッジがもらえる。全 7個でコレクトしている⼈も。 ↑業務調整ができたので、Day1(6h), Day2(8h)とほぼフル参加。お祭り感。
  4. 10 カスタムエージェント統合による Develop(ADK)→Deploy(Agent Engine)→UI(Agentspace)の⼀ 気通貫した構成はさすがGoogleと 感⼼した BigQueryのData Science Agent, Data

    Engineering Agent便利すぎる。SQL書かなく てもビジネスユースでデータを引っ 張って可視化できる未来 ⽣成AIを社内普及させるために⼈ 事評価としてAI認定制度を導⼊。 伊藤忠商事の事例で、浸透させる ⽅法として「賢く使おうとしない」 のメッセージも印象的。 ノバセル社 元CTOによるリアルな 現場の話。1on1でマネジャーから 「なぜ今週AIを使わなかったか」 問われる環境。⽣成AIサービスの 選定スタンスも、モデルベンダー ベット話やフットワーク軽く保つ 話もどれも⾯⽩かった。
  5. • 2025年5⽉に発表された、ショッピング検索結果の⾐服をバーチャルに試着できる機能(略称: VTON) ◦ ユーザーは⾃分の全⾝写真をアップロードするだけでECの服を擬似的に試着可能 • オンラインショッピングの課題として常に挙げられてきたのが「実際に着てみないと分からない」という問題を解消 Google I/Oʼ25で発表された「Try it

    On」 12 Try it On Expo - Google Try it On લఏ஌ࣝ ファッションEC業界の常識を変える、検索から試着、購⼊までの購⼊体 験を、断⽚的な技術ではなくプロダクトとして再現。イノベーションとは まさに創造的破壊だと思い知らされる。 最近ロールアウトされている、Google検索のAI Modeで夏服を探した後に、サイ ズとカラーを選んで試着する。その後、Track PriceでAIエージェントが価格の値 下がりをウォッチ。閾値を超えるとプッシュ通知でお知らせ。最後はそのまま Google Payで⽀払いというユーザー体験。
  6. • 現在は⽶国しか利⽤できず試着アイテムもトップスのみだが、社内版ではすでにアクセサリーやキャップも展開しているとのこと • 前⽇に突貫でデモアプリを開発して展⽰したらしい(この展⽰は⽇本が初めて) Expo: Virtual Try-On AI 13 ウェディングドレスのような「試着するのに労⼒や時間がかかる」ユースケースにも

    ぴったり。ブライダル担当者⽈く、1時間に1組で2,3着試すのが現在のオペレーショ ン上限界だが、VTONでいろいろ試した上で、本当に気に⼊ったドレスのみ袖を通 すみたいなことで、より選択肢も増えるし楽しいドレス選び体験になる、など。 Try it On
  7. • 機械学習の業界では2010年代から存在している歴史の⻑い研究領域(従来はGANアプローチが主流) • 2017年のTransformerの登場により(主にDiffusionモデル)、技術的ブレイクスルーが発⽣ • ただし、すべてのモデルがアカデミック⽤途で商⽤利⽤可能なライセンスは存在しない(例: 推論はMITだが学習しているデータがCC等) Virtual Try-Onの技術的背景 14

    Overview of IDM‒VTONより引⽤ ⼈物画像からポージングや⾻格を抽出し、服画像からカラーや質感など ディテールまで抽出、それらをマスクした画像を⽣成。マスク部分に対し て、拡散モデルでノイズを取り除きながら、元の⼈物のポーズや形、着せ たい服の情報を参照して画像を⽣成していくのが基本的なアプローチ。 2017年以降、この分野の論⽂ が活発に登場し始めた。最新の 研究の多くは、Stable Diffusionに代表される拡散モ デルの強⼒な画像⽣成能⼒を活 ⽤しているものがほとんど。 TryOnDiffusion: Google Researchが2023年に CVPRにて発表。
  8. • 前述のGoogleはじめ、国内外でECやエンタメなど様々なプロダクトが登場 バーチャル試着の業界トレンド 15 株式会社XYZが提供しているAI試着アプ リ。若者に⼈気のブランド「Younger Song」に導⼊。ベータ版で試験運⽤期間 を経て2025年5⽉にに正式リリース。 ref Mirror

    Mirror AI 元MetaおよびAppleのDorian Darganと、元 Google DeepMindのJim Winkensによって共同設 ⽴され、テック愛好家や投資家の間で急速に注⽬を 集めている。実店舗での試着体験とオンラインショッ ピングの間のギャップを埋めることを⽬指す。利⽤に はウェイティングリストの登録または友⼈招待での参 加が必要。 NVIDIAも出資する新進気鋭のシリコンバレー企業。2025年 7⽉11⽇にD&Dでワードローブのアイテムから仮想試着がで きる「The Studio」をローンチ。 Doji NewLook
  9. • Vertex AI上のImagen APIのサブセットとして提供。2025年内のGA(?) ◦ 6⽇の昼頃、ブースで担当者に話を聞いて「年内にはAPIがでる」という話を聞いて驚いていたらあっという間にPreview版が公開された • 膨⼤なトレーニングと⾼度な推論マシンが必要だった仮想試着がAPI化によって⺠主化される未来へ Imagen APIでVirtual

    Try-OnがAPIとして利⽤可能に(現在Preview) 16 Expo - Google Try it On 2025年8⽉21⽇現在はPreviewだが、利⽤は可能。Imagen APIの1つとして提供され ている。モデルバージョンは`virtual-try-on-preview-08-04`。 https://cloud.google.com/vertex-ai/generative-ai/docs/model-reference/ virtual-try-on-api リクエストもシンプルで、base64エンコードされた「⼈」と「服」の画像(ま たはCloud Stroage経由でも可)とパラメータ指定で画像が出⼒
  10. • ⼊出⼒: base64はバイナリサイズが⼤きくなる点が懸念だったが、⼊⼒も出⼒もCloud Storage経由で渡せる点も良い • 価格: Previewなので公表されていないが、Imagen 4が画像1枚あたり$0.06なのでその付近で提供される可能性が⾼い Virtual Try-On

    API 叩いてみた 17 PostmanのmacOSデスク トップアプリにて実⾏ リクエストを投げてから1枚の画像を⽣成するのに約30秒。5,6回試してみたも 30秒付近だったので、⼤体それくらいを意識しておけば良い。 Person Product Try-On Google AIはセーフティ基準が厳格だが、パラメータに`personGeneration`が⽤ 意されており、`allow_all`指定することで⼦どもも対象にできる。さらに、画像に 服意外のものが映り込んでいてもしっかり認識される。 シナリオ)近々同僚の結婚式を控えているので、娘の⾐装選び
  11. 内製VTONモデルとGoogleのタイムライン 19 2025年8⽉ 2025年5⽉ 2024年9⽉ 2023年5⽉ • DIIと開発体制を構築 • 商⽤利⽤可能なモデルに

    向け論⽂調査から開始 Imagen APIで Virtual Try-On APIが Preview公開 Google I/Oʼ25で Try it Onでの ショッピング 試着をプロダクト化 (⽶国版のみ) バーチャル試着の経過を Google Blogにて公開 • 動機: 開発当時は事業活⽤できる商⽤ライセンスのモデルが存在しなかった(→商⽤利⽤できるモデルを作ろうで発⾜) • DIIチームの強⼒な技術⼒でかなり良いモデルが出来上がったが、事業投⼊するための社内調整や事務⼿続きに⾜踏み ◦ むしろこの短期間でGoogle同等のモデルが作れたと思うと、DIIのAIチームの凄さが実感できる ⾮表⽰ ⾮表⽰ ⾮表⽰
  12. まとめと教訓 20 • Googleの研究開発のスピードとクオリティの⾼さを再認識。特にAIによりこのスピードは今後も指数的に加速する。 • 実はGoogle Cloud Next Tokyoは今回が初参加だったが、業務都合とか抜きにして定点観測しないと痛い⽬⾒る。 •

    巨⼈の肩の上で踊れ ◦ R&Dをやめろ、ではない。変化する時代に合わせ、私たち開発者はより価値のある場所に注⼒しよう ◦ いかにして巨⼤プラットフォームの⼒を活⽤して本質的な価値創造に集中すべきか • 予⾒できなかったか? ◦ 2023年時点の情報は⾒落としていた。Google Researchからの論⽂も後からでていた。盲⽬だった。 ◦ わずか1年の研究開発でさえこのスピード感なので、R&D投資の意思決定は今後も益々難しくなるだろう。 • 無駄⾜だったのか? ◦ No。葛藤はあるけど取り組み⾃体で学べたことも多いし、優位性はまだ探せるので無駄だとは思わない。 • 破壊されるスタートアップたち ◦ バーチャル試着を競合優位性としてサービス提供してきたスタートアップは⾟いだろう ◦ イノベーションはいつだって創造的破壊の連続