機械学習ソフトウェアにおけるテスト手法

© 2023, Amazon Web Services, Inc. or its affiliates. ©
2023, Amazon Web Services, Inc. or its affiliates. 機械学習ソフトウェアにおけるテスト⼿法辻浩季 Solutions Architect Amazon Web Services Japan G.K. 2023/11

© 2023, Amazon Web Services, Inc. or its affiliates. 2
Hiroki Tsuji Solutions Architect Amazon Web Services Japan G.K. • 主に⻄⽇本のお客様への AWS 導⼊⽀援 --- • 前職は電機メーカーで発電プラントの異常予兆検知システムの設計・開発に従事趣味 : ベースギター、作曲

テストしていますか︖

2022, Amazon Web Services, Inc. or its affiliates. 今⽇のお話の整理 4

© 2023, Amazon Web Services, Inc. or its affiliates. 機械学習を導⼊したソフトウェアの概略図
5 処理呼び出し先⾏処理⼊⼒データ学習データデータ処理⼊⼒処理学習モデルモデルロード予測出⼒処理出⼒受け取り後続処理 ML モデルレベル ML サービスレベル ML システムレベル以降、このシステム全体を機械学習ソフトウェアと呼称します。

6 処理呼び出し先⾏処理⼊⼒データ学習データデータ処理⼊⼒処理学習モデルモデルロード予測出⼒処理出⼒受け取り後続処理 ML モデルレベル ML サービスレベル ML システムレベル • ML モデルのテストには、学習が上⼿くできているか、Loss が減少しているか、過学習を抑制できているかなどの評価指標を使ったものが挙げられる • モデルを扱う箇所を ML モデルと定義する

7 処理呼び出し先⾏処理⼊⼒データ学習データデータ処理⼊⼒処理学習モデルモデルロード予測出⼒処理出⼒受け取り後続処理 ML モデルレベル ML サービスレベル ML システムレベル • ML サービス箇所を呼び出す部分を ML システムと定義する • ML システムレベルのテストは通常のソフトウェアテストと同様のテストを⾏うことができる（ex. 結合テスト、運⽤テスト、負荷テストなど）

8 処理呼び出し先⾏処理⼊⼒データ学習データデータ処理⼊⼒処理学習モデルモデルロード予測出⼒処理出⼒受け取り後続処理 ML モデルレベル ML サービスレベル ML システムレベル • ML モデル箇所を呼び出す部分を ML サービスと定義する • ML モデル、ML システムのテストだけでは、「未知のデータが⼊⼒されたときに ML モデルを⽤いて推論結果を出⼒する」処理がテスト内に網羅されていないため、品質を保証することができない本セッションは ML サービスレベルに着⽬して、どのようなテストを実施すべきかについてお話します

2022, Amazon Web Services, Inc. or its affiliates. そもそも「テスト」とは 9 - 従来のソフトウェアテスト

© 2023, Amazon Web Services, Inc. or its affiliates. 「テスト」とは
10 コスト (経済的/時間的) 信頼の失墜重⼤な事故機会の損失 • 要件レビューによる要件の正確性向上、余計な⼯数の排除 • テストしやすい設計による拡張性の⾼いソフトウェア • 不具合の少ないソフトウェアによりビジネスの成功の可能性をアップもし作成したシステムに不具合があると… テストはビジネスを成功させるためにある

© 2023, Amazon Web Services, Inc. or its affiliates. 従来のソフトウェア開発におけるテスト
11 従来のソフトウェア開発において、テストでは「作られたシステムが、期待する動作をするのかを確認」する必要がある。単体テストの例結合テストの例 def addition(x,y): return x+y x=2, y=3 のとき、返却値が 5 になるか確認する。「カートに⼊れる」を押下して、カートに商品が追加されるかを確認する。

© 2023, Amazon Web Services, Inc. or its affiliates. 従来のソフトウェア開発と機械学習ソフトウェア開発の違い
12 従来のソフトウェア開発機械学習ソフトウェア開発従来のソフトウェア開発は演繹的機械学習ソフトウェア開発は帰納的要件仕様 SW テスト具体化具体化作成作成実施学習済モデル学習⽤データセット評価⽤データセットテスト学習評価 ?? • 開発作業が正しく⾏われれば要件・仕様を満たすソフトウェアが出来上がる • 学習⽤データセット以外のデータでも正しい推論結果を出⼒するかどうかはわからない

© 2023, Amazon Web Services, Inc. or its affiliates. 従来のソフトウェア開発に適⽤するテストの考え⽅
13 • 無数に存在する⼊⼒のすべてに対して、出⼒が正しいか確認するのは⾮現実的同値分割と境界値を⽤いてテストを⾏う例︓某遊園地の⼊場料年齢⼊場料⼤⼈︓18 歳以上 ¥ 10,900 中⼈︓12 – 17 歳 ¥ 9,000 ⼩⼈︓4 – 11 歳 ¥ 5,600 3 歳以下無料⼤⼈︓18歳以上中⼈︓12-17歳⼩⼈︓4-11歳 3歳以下マイナス ¥ 10,900 ¥ 9,000 ¥ 5,600 ¥ 0 エラー処理

© 2023, Amazon Web Services, Inc. or its affiliates. なぜ機械学習ソフトウェアに同値クラスの⼿法を適⽤できないか︖
14 例︓画像分類 ML サービス猫︕ • ⼊⼒に対して同値クラスを定義することができないため、同値クラスにおける代表値を使ったテストや、境界値を使ったテストを実施できない p 境界を定義できたとしてもそれが正しいと判断することができない • ⼊⼒データの変化に対して推論結果が常に変化するとは限らない p ⼊⼒データのわずかな違いによって⼤きく推論結果が変わることがある従来のソフトウェア開発で使うテスト⼿法を適⽤することができない

© 2023, Amazon Web Services, Inc. or its affiliates. なぜ機械学習ソフトウェアに同値クラスの⼿法を適⽤できないか︖
15 例︓画像分類 ML サービス猫︕ • ⼊⼒に対して同値クラスを定義することができないため、同値クラスにおける代表値を使ったテストや、境界値を使ったテストを実施できない p 境界を定義できたとしてもそれが正しいと判断することができない • ⼊⼒データの変化に対して推論結果が常に変化するとは限らない p ⼊⼒データのわずかな違いによって⼤きく推論結果が変わることがある従来のソフトウェア開発で使うテスト⼿法を適⽤することができない機械学習を扱うソフトウェアにおいてテストはどのように考えればよいのか︖︖

© 2023, Amazon Web Services, Inc. or its affiliates. 機械学習ソフトウェアに適⽤できるテスト⼿法
16 • メタモルフィックテスティング p ⼊⼒データの変化によって推論結果が変化するかという関係性に基づくテスト⽅法 • ニューロンカバレッジ p ニューラルネットを構成するすべての中間ニューロンが少なくとも⼀度は活性化させるようテストを実⾏する⼿法 • 最⼤安全半径 p 「少なくともこの範囲であれば妥当な値が得られる」であろう範囲を定義して、推論結果の妥当性を確認する⼿法

© 2023, Amazon Web Services, Inc. or its affiliates. 機械学習ソフトウェアに適⽤できるテスト⼿法
17 • メタモルフィックテスティング p ⼊⼒データの変化によって推論結果が変化するかという関係性に基づくテスト⽅法 • ニューロンカバレッジ p ニューラルネットを構成するすべての中間ニューロンが少なくとも⼀度は活性化させるようテストを実⾏する⼿法 • 最⼤安全半径 p 「少なくともこの範囲であれば妥当な値が得られる」であろう範囲を定義して、推論結果の妥当性を確認する⼿法

2022, Amazon Web Services, Inc. or its affiliates. メタモルフィックテスティング 18

© 2023, Amazon Web Services, Inc. or its affiliates. 従来型のソフトウェアテスト
19 𝒇(𝒙) ⼊⼒ 𝒙 出⼒ 𝒚 テスト対象「正解」と出⼒ 𝒚 を⽐較 • テスト対象に⼊⼒データを与えて得た出⼒と「正解※ 」を⽐較する • ⼀致した場合は「成功」、⼀致しなかった場合は「失敗」と判定テスト⼿順 ※︓期待通りの正しい出⼒データを指すこの⼀連の⼿法をテストオラクルと呼ぶ

© 2023, Amazon Web Services, Inc. or its affiliates. 「正解」を定義できない場合、どうなる︖
20 • 「正解」を定義できない場合、⼊⼒データから得られた出⼒が正しいかを判定できないこの問題をテストオラクル問題と呼ぶ例︓𝒇 𝒙 = sin 𝒙 の場合。⼊⼒ 𝑥 = 12.3° の時、正解をどう定義する…︖ 𝒇(𝒙) ⼊⼒ 𝒙 出⼒ 𝒚 テスト対象「正解」と出⼒ 𝒚 を⽐較

メタモルフィックテスティングとはテストオラクル問題のあるソフトウェアをテストするために考案された⼿法⼊⼒ 𝒙 ⼊⼒ 𝒙′ 𝒇(𝒙) ① ② ③ ③ ④ ① テスト⽤の⼊⼒ 𝒙 を⽤意 ② ⼊⼒ 𝒙 を加⼯し、⼊⼒ 𝒙ʼ を作成 ③ 上記の⼊⼒をそれぞれテスト対象に⼊⼒し、出⼒を得る ④ 出⼒ 𝒚, 𝒚′ の関係を評価し、テストの成功・失敗を判定テスト⼿順テスト⽤の⼊⼒データごとに正解を定義する必要なくテストができる出⼒ 𝒚 出⼒ 𝒚′

メタモルフィックテスティングとはテストオラクル問題のあるソフトウェアをテストするために考案された⼿法 𝒇(𝒙) テスト⽤の⼊⼒データごとに正解を定義する必要なくテストができる出⼒ 𝒚 出⼒ 𝒚′ ⼊⼒ 𝒙 = 𝟏𝟐. 𝟑° ⼊⼒ 𝒙′ = 𝟏𝟗𝟐. 𝟑° 𝒙* = 𝒙 + 𝟏𝟖𝟎° なので、三⾓関数の定義より sin 𝑥 = − sin 𝑥′ が成⽴する 𝒚 = −𝒚*となればテストは成功と定義できる「メタモルフィック関係」と呼ぶ

© 2023, Amazon Web Services, Inc. or its affiliates. メタモルフィックテスティングの機械学習ソフトウェアへの適⽤⽅法
23 画像処理の場合⾃然⾔語処理の場合 • 画像を 10° 回転させる • 画像の解像度を荒くする • ⽂章中の単語を似た意味の単語に置き換える「吾輩は猫である」という⼩説の書き出しを教えて「吾輩は猫である」という本の書き出しを教えてレコメンデーションの場合 1位本 2位 CD 3位楽器 4位ゲーム 1位 CD 2位楽器 3位ゲーム 4位 PC周辺機器 • ⼊⼒となる商品データの 1位を削除する

© 2023, Amazon Web Services, Inc. or its affiliates. メタモルフィックテスティングでわかること
24 • メタモルフィック関係を定義することで、メタモルフィックテストの結果によってなにか問題が発⽣している可能性を⾒つけることができる画像 A 画像 A を10°回転猫⽝画像を 10° 回転させると異なる結果が出るこの画像に関する学習が不⾜している可能性がある • 出⼒を正解かどうか確認したい場合は別のテスト⼿法を適⽤する必要がある p 画像 A が猫であるかどうかはメタモルフィックテスティングでは確認しない。みるのはあくまで関係性のみ。

2022, Amazon Web Services, Inc. or its affiliates. まとめ 25

© 2023, Amazon Web Services, Inc. or its affiliates. まとめ
26 • 従来のソフトウェア開発で⽤いられてきたテストを機械学習ソフトウェアに適⽤することは難しい • 機械学習ソフトウェアの ML サービス箇所のテストにはメタモルフィックテスティングを適⽤することができる p 正解データを定義せずにテストを実施することができる p メタモルフィックテスティングにより、機械学習ソフトウェアになにか問題が発⽣している可能性を⾒つけ出すことができる

© 2023, Amazon Web Services, Inc. or its affiliates. 参考⽂献
28 佐藤直⼈, ⼩川秀⼈, 來間啓伸, 明神智之. 『AI ソフトウェアのテスト』, リックテレコム, 2021 Dusica Marijan, Arnaud Gotlieb. “Software Testing for Machine Learning”, Proceedings of the AAAI Conference on Artificial Intelligence, 34(09), 13576-13582 (2020)

機械学習ソフトウェアにおけるテスト手法

機械学習ソフトウェアにおけるテスト手法

Hiroki Tsuji PRO

More Decks by Hiroki Tsuji

Other Decks in Programming

Featured

Transcript

© 2023, Amazon Web Services, Inc. or its affiliates. ©

© 2023, Amazon Web Services, Inc. or its affiliates. 2

© 2023, Amazon Web Services, Inc. or its affiliates. 3

© 2023, Amazon Web Services, Inc. or its affiliates. ©

© 2023, Amazon Web Services, Inc. or its affiliates. 機械学習を導⼊したソフトウェアの概略図

© 2023, Amazon Web Services, Inc. or its affiliates. 機械学習を導⼊したソフトウェアの概略図

© 2023, Amazon Web Services, Inc. or its affiliates. 機械学習を導⼊したソフトウェアの概略図

© 2023, Amazon Web Services, Inc. or its affiliates. 機械学習を導⼊したソフトウェアの概略図

© 2023, Amazon Web Services, Inc. or its affiliates. ©

© 2023, Amazon Web Services, Inc. or its affiliates. 「テスト」とは

© 2023, Amazon Web Services, Inc. or its affiliates. 従来のソフトウェア開発におけるテスト

© 2023, Amazon Web Services, Inc. or its affiliates. 従来のソフトウェア開発と機械学習ソフトウェア開発の違い

© 2023, Amazon Web Services, Inc. or its affiliates. 従来のソフトウェア開発に適⽤するテストの考え⽅

© 2023, Amazon Web Services, Inc. or its affiliates. なぜ機械学習ソフトウェアに同値クラスの⼿法を適⽤できないか︖

© 2023, Amazon Web Services, Inc. or its affiliates. なぜ機械学習ソフトウェアに同値クラスの⼿法を適⽤できないか︖

© 2023, Amazon Web Services, Inc. or its affiliates. 機械学習ソフトウェアに適⽤できるテスト⼿法

© 2023, Amazon Web Services, Inc. or its affiliates. 機械学習ソフトウェアに適⽤できるテスト⼿法

© 2023, Amazon Web Services, Inc. or its affiliates. ©

© 2023, Amazon Web Services, Inc. or its affiliates. 従来型のソフトウェアテスト

© 2023, Amazon Web Services, Inc. or its affiliates. 「正解」を定義できない場合、どうなる︖

© 2023, Amazon Web Services, Inc. or its affiliates. 21

© 2023, Amazon Web Services, Inc. or its affiliates. 22

© 2023, Amazon Web Services, Inc. or its affiliates. メタモルフィックテスティングの機械学習ソフトウェアへの適⽤⽅法

© 2023, Amazon Web Services, Inc. or its affiliates. メタモルフィックテスティングでわかること

© 2023, Amazon Web Services, Inc. or its affiliates. ©

© 2023, Amazon Web Services, Inc. or its affiliates. まとめ

© 2023, Amazon Web Services, Inc. or its affiliates. 参考⽂献

© 2023, Amazon Web Services, Inc. or its affiliates. Thank