Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AWS Device Farmを使った GenAIモバイルアプリの自動テストについて

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for WHIsaiyo WHIsaiyo
February 15, 2026
7

AWS Device Farmを使った GenAIモバイルアプリの自動テストについて

Avatar for WHIsaiyo

WHIsaiyo

February 15, 2026
Tweet

More Decks by WHIsaiyo

Transcript

  1. AWS Device Farmを使った GenAIモバイルアプリの自動テストについて Deliver GenAl Mobile Apps and Models

    at scale: A Testing Architecture (DVT323) レポート AWS re:Invent 2025 株式会社 Works Human Intelligence 星 七花(ほしなな)
  2. 星 七花 (ほしなな) 経歴 Qiita 仕事 モバイルアプリケーション開発 ( バックエンド >

    フロントエンド > インフラ ) 2023/04:株式会社Works Human Intelligence 新卒入社 2023/08:新製品Webアプリケーション開発部門 2024/10:COMPANY Me(モバイルアプリ)開発部門 2025/06:2025 Japan AWS Jr.Champions 2025 Japan All AWS Certifications Engineers about me キックボクシング・茶道・謎解き 趣味
  3. 星 七花 (ほしなな) 経歴 Qiita 仕事 モバイルアプリケーション開発 ( バックエンド >

    フロントエンド > インフラ ) 2023/04:株式会社Works Human Intelligence 新卒入社 2023/08:新製品Webアプリケーション開発部門 2024/10:COMPANY Me(モバイルアプリ)開発部門 2025/06:2025 Japan AWS Jr.Champions 2025 Japan All AWS Certifications Engineers about me キックボクシング・茶道・謎解き 趣味
  4. Agenda • GenAIモバイルアプリとは? • GenAIモバイルアプリのベンチマークについて • AWS Device Farmとは? •

    Amazonによる生成AIを使ったテストの実例 • セッションのまとめ・感想
  5. Agenda • GenAIモバイルアプリとは? • GenAIモバイルアプリのベンチマークについて • AWS Device Farmとは? •

    Amazonによる生成AIを使ったテストの実例 • セッションのまとめ・感想
  6. 自己完結型 バックエンド依存型 ネットワーク通信なしで デバイス上のモデルだけで完結 推論はすべてクラウドだが、 API通信が必須 ハイブリッド型 軽量モデルはデバイス、 複雑な処理はクラウド GenAIモバイルアプリとは?

    GenAIモバイルアプリ=生成AIを搭載しているアプリのことで、以下の3つの種類がある Deliver GenAl Mobile Apps and Models at scale: A Testing Architecture (DVT323)を参考にWHI作成
  7. Deliver GenAl Mobile Apps and Models at scale: A Testing

    Architecture (DVT323)を参考にWHI作成 自己完結型 バックエンド依存型 ネットワーク通信なしで デバイス上のモデルだけで完結 推論はすべてクラウドだが、 API通信が必須 ハイブリッド型 軽量モデルはデバイス、 複雑な処理はクラウド GenAIモバイルアプリとは? GenAIモバイルアプリ=生成AIを搭載しているアプリのことで、以下の3つの種類がある GenAIモバイルアプリは、 従来の自動テストだけでは不十分
  8. Agenda • GenAIモバイルアプリとは? • GenAIモバイルアプリのベンチマークについて • AWS Device Farmとは? •

    Amazonによる生成AIを使ったテストの実例 • セッションのまとめ・感想
  9. GenAIモバイルアプリのベンチマークについて 従来のテストにはなかった推論時間やトークンパフォーマンスなどが追加された 起動時間 初回起動と2回目以降では異なるので、モデルのア セットロードや初期化時間を区別して計測する。 推論時間 ウォームアップの有無が重要。モデルのロード、認 証、JITコンパイルを含む「最初の1回」とキャッシュ が効いた状態の差を把握する。 メモリ使用量

    ピークメモリと常駐メモリ。他のアプリを落とさずに 共存できるか。 トークンパフォーマンス 最初のトークンまでの時間と、1秒あたりのトークン 生成数。ユーザーが「待たされている」と感じる時間 を数値化する。 実機のGPUやNPUの性能に依存するため エミュレータでは正確に測れない
  10. GenAIモバイルアプリのベンチマークについて 従来のテストにはなかった推論時間やトークンパフォーマンスなどが追加された 起動時間 初回起動と2回目以降では異なるので、モデルのア セットロードや初期化時間を区別して計測する。 推論時間 ウォームアップの有無が重要。モデルのロード、認 証、JITコンパイルを含む「最初の1回」とキャッシュ が効いた状態の差を把握する。 メモリ使用量

    ピークメモリと常駐メモリ。他のアプリを落とさずに 共存できるか。 トークンパフォーマンス 最初のトークンまでの時間と、1秒あたりのトークン 生成数。ユーザーが「待たされている」と感じる時間 を数値化する。 実機のGPUやNPUの性能に依存するため エミュレータでは正確に測れない →実機で新しいベンチマークを 測る必要がある!
  11. Agenda • GenAIモバイルアプリとは? • GenAIモバイルアプリのベンチマークについて • AWS Device Farmとは? •

    Amazonによる生成AIを使ったテストの実例 • セッションのまとめ・感想
  12. AWS Device Farmとは? AWSによりホストされている実際の物理的な電話やタブレットで、Android や iOS、およびウェブ アプリケーションをテストしてやり取りできるアプリケーションテストサービス。 現在は、us-west-2 (オレゴン) リージョンでのみ使用可能。

    最近 (2025/11) のアップデートは、以下。 1. Appiumエンドポイントの提供 a. ローカルからDevice Farmにつなげられるようになった 2. 環境変数のサポート a. 動的なテスト環境設定が可能になった 3. IAM ロール統合 a. IAM ロールを引き受けて他の AWS サービスと接続できるようになった https://docs.aws.amazon.com/ja_jp/devicefarm/latest/developerguide/welcome.html https://aws.amazon.com/jp/about-aws/whats-new/2025/11/aws-device-farm-managed-appium-endpoint/#:~:text=AWS%20Device%20Farm%20enables%20we b,enabling%20dynamic%20test%20environment%20configuration.
  13. Agenda • GenAIモバイルアプリとは? • GenAIモバイルアプリのベンチマークについて • AWS Device Farmとは? •

    Amazonによる生成AIを使ったテストの実例 • セッションのまとめ・感想
  14. Amazonによる生成AIを使ったテストの実例 ハルシネーションや、質の低いプロンプトを防ぐために、Judge LLMを用意し、実行結果を監視・批評して 品質を担保する。 Deliver GenAl Mobile Apps and Models

    at scale: A Testing Architecture (DVT323)を参考にWHI作成 LLM Cleans test LLM Executes test Amazonストアはテスト作成時間を90%削減 & テストの不安定さを50%削減した!
  15. Agenda • GenAIモバイルアプリとは? • GenAIモバイルアプリのベンチマークについて • AWS Device Farmとは? •

    Amazonによる生成AIを使ったテストの実例 • セッションのまとめ・感想