今までのテストととAIを含んだプロダクトのテストの違い

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

© rinna Co.,Ltd. All rights reserved. 3 Name : 松谷峰生(まつやみねお) Twitter : mty_mno(まつ) お仕事 ● rinna株式会社 / QA Lead その他 ● QA4AI (AIプロダクト品質保証コンソーシアム) ● JaSST Kyushu(ソフトウェアテストシンポジウム九州) ● たぶんマンガ家 ○ 新人さんからわかるソフトウェアテスト解説マンガ「テスターちゃん」自己紹介

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

© rinna Co.,Ltd. All rights reserved. 9 ● AIの基礎知識 ○ AI周りの言葉の整理 ○ 学習の種類 ○ 機械学習を使うメリット ○ 機械学習の基本的な仕組み ● 今までのテストとAIを含んだプロダクトのテストの違い ○ 今までのソフトウェアの開発 ○ 機械学習を用いたソフトウェアの開発 ○ 今までのソフトウェアとのテストの違い ● 手法、ガイドラインの紹介 ○ メタモルフィックテスティング ○ 弊社で行っている方法の一部紹介 ○ AIプロダクト品質保証ガイドライン目次

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

© rinna Co.,Ltd. All rights reserved. 14 機械学習（Machine Learning/ML）はたくさんのデータをもとにコンピューターが自ら学習する仕組みです。様々な技術があり、今主流のニューラルネットワークの他にも遺伝子アルゴリズムなどがあります。『機械学習』機械学習…機械が自ら学ぶ仕組み遺伝子アルゴリズムニューラルネットワーク決定木サポートベクターマシン etc

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text

© rinna Co.,Ltd. All rights reserved. 20 ディープラーニングの何がすごいのか（仕組みは後程）ディープラーニングでは、大量のデータをもとに、データが持つ様々な「特徴」をAI自ら見つけ出すことができるようになりました。しかも画素と画素の複雑な関係のような人間では捉えられない特徴を見つけたりと、人が特徴を教えるよりもずっと精度が高い予測ができるようになりました。大量のデータから AIが自分で特徴を見つけられるようになった！入力出力ディープラーニングりんごみかん

Slide 21

Slide 21 text

Slide 22

Slide 22 text

© rinna Co.,Ltd. All rights reserved. 22 ● 機械学習＝ニューラルネットワーク、ディープラーニング ● AI＝機械学習を用いた製品やシステムこれは私が巷を見て、こういった使い方の傾向がありそう、という話です。ブログや会話などでの一般的な言葉の使われ方としては、「機械学習」と言っていたらディープラーニングを指していることが多そうです。また「AI」と言っていたら、機械学習が使われた製品やシステムを指していることが多そうです。この講演でも、この言葉の使い方で進めます。最近の言葉の使われ方

Slide 23

Slide 23 text

Slide 24

Slide 24 text

Slide 25

Slide 25 text

Slide 26

Slide 26 text

Slide 27

Slide 27 text

Slide 28

Slide 28 text

Slide 29

Slide 29 text

Slide 30

Slide 30 text

Slide 31

Slide 31 text

Slide 32

Slide 32 text

© rinna Co.,Ltd. All rights reserved. 32 従来のソフトウェアでは、ルールや定義が必要今までのソフトウェアでは、何かしらのルールをプログラムしたり、人が特徴を指定する必要がありました。猫と犬を仕分けするのであれば、例えば画像の完全一致というルールで処理したり、汎用的にしたいのであれば「猫、犬とは何か」を定義する必要がありました。この画像と一致したら犬この画像と一致したら猫犬エラー

Slide 33

Slide 33 text

© rinna Co.,Ltd. All rights reserved. 33 自ら抽出した特徴を用いて未知のデータにも対応現在のAIは、大量のデータから「特徴」を抽出しそれに注目します。学習したデータと違う色の猫や大きさが違う犬などの未知の画像を入力したとしても、その特徴に当てはまれば「猫」「犬」と判別できるようになります。このように学習データから特徴を抽出することを「汎化」と言います。この「汎化性能」がAIを使う理由でありキモです。犬の特徴猫の特徴犬猫

Slide 34

Slide 34 text

Slide 35

Slide 35 text

Slide 36

Slide 36 text

Slide 37

Slide 37 text

Slide 38

Slide 38 text

Slide 39

Slide 39 text

Slide 40

Slide 40 text

Slide 41

Slide 41 text

Slide 42

Slide 42 text

Slide 43

Slide 43 text

Slide 44

Slide 44 text

© rinna Co.,Ltd. All rights reserved. 44 例えば「△」と「×」を判別させるように学習させるとします。まずは1列にして入力層にデータを入力します。人工ニューロン(ノード)は各入力に重みをかけ合わせて計算して出力します。ですが最初は重みの値がデタラメなため、間違った判定をしてしまいました。 1列にして入力入力層中間層 (隠れ層) 不正解！出力層重みは最初デタラメ…

Slide 45

Slide 45 text

© rinna Co.,Ltd. All rights reserved. 45 そうすると教師データと出した答えがどれくらいズレていたかが計算（難しい言葉だと損失関数）で値が出てきます。そのズレを使い、各人工ニューロン（ノード）の入力にかかる重み（繋がり具合）を、ズレが小さくなるように変えていきます。 1列にして入力入力層中間層 (隠れ層) 出力層重みは最初デタラメ… ズレを縮めるように「重み」をちょっと変える！ホントはこっちが正解なのに… 出した答えと本当の答えがズレてる…

Slide 46

Slide 46 text

Slide 47

Slide 47 text

Slide 48

Slide 48 text

Slide 49

Slide 49 text

© rinna Co.,Ltd. All rights reserved. 49 Accuracy (正解率) Accuracyは正解率です。推論した結果全てがどれくらい当たったかです。一番よく使う指標と言えます。この例の場合、10回中7回当たったので、70%となります。買うな買うな買うな買い買うな買うな買い買うな買い買うな実際買うなだった実際買うなだった実際買いだった実際買うなだった実際買うなだった実際買うなだった実際買うなだった実際買うなだった実際買うなだった例：株を買った方がいいか買わない方がいいかの推論推論実際推論 : 10回正解 : 7回 7 / 10 = 0.7 70% 実際買いだった

Slide 50

Slide 50 text

© rinna Co.,Ltd. All rights reserved. 50 Accuracy (正解率) Accuracyが高ければいいかというとそうとも言い切れません。起こる確率が低いものについては、上の例のように全て「買うな」と予測すれば正解率は驚異の90%です。ですがこの例の場合だと我々が知りたいのはそこではないですよね。買うな買うな買うな買うな買うな買うな買うな実際買うなだった実際買うなだった実際買うなだった実際買いだった実際買うなだった実際買うなだった実際買うなだった実際買うなだった実際買うなだった実際買うなだった例：株を買った方がいいか買わない方がいいかの推論推論実際正解率 90%！！買うな買うな買うな

Slide 51

Slide 51 text

© rinna Co.,Ltd. All rights reserved. 51 Recall (再現率):当たりをどれだけ拾えていた？ Recallは、「実際に当たり」を推論でどれだけ拾えていたのか、です。この例の場合「実際に買い」だったのは2回です。ですが推論が当たったのは1回だけです。なのでRecallは1 / 2 = 0.5で50%となります。テスター的な例えだと、本当はバグが2つあったけど1つしか見つけられなかった……みたいな例えがわかりやすいかもしれません。買うな買うな買うな買い買うな買うな買い買うな買い買うな実際買うなだった実際買うなだった実際買いだった実際買うなだった実際買うなだった実際買うなだった実際買うなだった実際買うなだった実際買うなだった例：株を買った方がいいか買わない方がいいかの推論推論実際実際買いだった Recall = 実際に買いだった数買いの推論で当たった数実際に買いだった：2回買いと推論して当たり：1回 1 / 2 = 0.5 50%

Slide 52

Slide 52 text

© rinna Co.,Ltd. All rights reserved. 52 Recall は見逃しを少なくしたいとき「見逃しを少なくしたい」とき、Recallが高くなるように学習を行うのが良いでしょう。ですが上のように、今度は全部買いと推論すれば「見逃し」はなくなるためRecallは100%になります。買い買い実際買うなだった実際買うなだった実際買いだった実際買うなだった実際買うなだった実際買うなだった実際買うなだった実際買うなだった実際買うなだった例：株を買った方がいいか買わない方がいいかの推論推論実際実際買いだった Recall = 実際に買いだった数買いの推論で当たった数実際に買いだった：2回買いと推論して当たり：2回 2 / 2 = 1 100%!! 買い買い買い買い買い買い買い買い

Slide 53

Slide 53 text

© rinna Co.,Ltd. All rights reserved. 53 Precision (適合率):当たり予想の正確性 Precisionは「当たり」と予測したときに、実際にどれだけ当たったかです。当たり予想の正確性と言えるでしょう。この例では3回「買い」と推論して、実際に当たったのは1回です。なので 1 / 3 = 0.33…で約33%となります。テスター的な例えだと、3回「バグです！」と言ったけど2回は「仕様です」で返された…… みたいな例えがわかりやすいかもしれません。買うな買うな買うな買い買うな買うな買い買うな買い買うな実際買うなだった実際買うなだった実際買いだった実際買うなだった実際買うなだった実際買うなだった実際買うなだった実際買うなだった実際買うなだった例：株を買った方がいいか買わない方がいいかの推論推論実際実際買いだった Precision = 買いの推論の数買いの推論で当たった数買いの推論：3回買いと推論して当たり：1回 1 / 3 = 0.33… 33%

Slide 54

Slide 54 text

© rinna Co.,Ltd. All rights reserved. 54 Precisionは誤検知を抑えたいとき「誤検知を抑えたいとき」はPrecisionが高くなるように学習させるのが良いでしょう。ですが上の例のように「できるだけ「買い」って言わない」ということになってきます。買うな買うな買うな買い買うな買うな買うな買うな実際買うなだった実際買うなだった実際買いだった実際買うなだった実際買うなだった実際買うなだった実際買うなだった実際買うなだった実際買うなだった例：株を買った方がいいか買わない方がいいかの推論推論実際実際買いだった Precision = 買いの推論の数買いの推論で当たった数買いの推論：1回買いと推論して当たり：1回 1 / 1 = 1 100%!! 買うな買うな

Slide 55

Slide 55 text

Slide 56

Slide 56 text

© rinna Co.,Ltd. All rights reserved. 56 学習すればするほど精度が上がる……？先ほどの説明を聞く限りだと、学習すればするほど良いと思うかもしれません。ですがそうすると、教師データに過度にフィットしてしまう「過学習」が発生します。教師データにあるデータなら判別できるけど、未知のデータは判別できなくなってしまいます。AIで大切な「汎化性能」が失われてしまうのです。このテキストを一言一句まで暗記してやる！僕が知ってる文字列と違う～！！試験当日

Slide 57

Slide 57 text

© rinna Co.,Ltd. All rights reserved. 57 ドロップアウト過学習を避けるひとつの方法として「ドロップアウト」があります。ドロップアウトは隠れ層の人工ニューロン（ノード）をランダムに選び、それを使わないようにして学習します。これにより特定の特徴に依存しすぎることを防ぎ、汎用性の高い特徴を抽出できるようになります。入力出力学習時にランダムで人工ニューロン（ノード）を脱落させたり復活させたりする

Slide 58

Slide 58 text

Slide 59

Slide 59 text

Slide 60

Slide 60 text

Slide 61

Slide 61 text

Slide 62

Slide 62 text

© rinna Co.,Ltd. All rights reserved. 62 どんなテストをすればよさそう？テストを考えた時、「何を入力して、どんな結果になったらよさそうか」ということが思い浮かんだのではないでしょうか？例：オススメ機能仕様（ルール）：マンガならマンガ、ゲームならゲームというように、購入商品と同じジャンルの商品を1個表示する。商品は発売1か月以内の売り上げTopの商品である。 ● 出力商品は買った商品と同じジャンルか ● 出力商品は発売1か月以内か ● 出力商品は売り上げTopか etc…

Slide 63

Slide 63 text

© rinna Co.,Ltd. All rights reserved. 63 どんなテストをすればよさそう？従来のソフトウェアテストでは、要求→要件→仕様→ソフトウェアと、手前で決めたことを具体化する形で開発が進行します。こういった開発を「演繹(えんえき)的」と言ったりします。繹(えんえき)的要求具体化要求を実現する要件を策定要件具体化要件を満たす仕様を策定仕様具体化ソフトウェア仕様を満たす実装を行う演繹(えんえき)的

Slide 64

Slide 64 text

Slide 65

Slide 65 text

Slide 66

Slide 66 text

© rinna Co.,Ltd. All rights reserved. 66 どんなテストをすればよさそう？ではオススメ機能の例をみてみましょう。よくある機械学習を用いたオススメ機能です。少しだけどんなテストをすればよさそうか思い浮かべてみましょう。例：オススメ機能個別の購入履歴から学習商品を購入した人の購入履歴を入力として、一緒に買う傾向が一番高い商品を出力システムに組み込むオススメ機能 Aさんの購入履歴 Bさんの購入履歴 Cさんの購入履歴 …

Slide 67

Slide 67 text

© rinna Co.,Ltd. All rights reserved. 67 テストオラクル問題テストをしようにも「何が出力されたら正解か」がわからないですよね。「出力が期待通りかどうかを判定する方法」をテストオラクルといい、今のようにその判定を行う方法がない、その方法が見つからないという問題をテストオラクル問題と言います。例：オススメ機能個別の購入履歴から学習商品を購入した人の購入履歴を入力として、一緒に買う傾向が一番高い商品を出力一緒に買う傾向が一番高い商品って何が出ればいいの？

Slide 68

Slide 68 text

© rinna Co.,Ltd. All rights reserved. 68 機械学習を用いたソフトウェア開発従来のソフトウェアはルールを決めてそれ通り実装し、個別データの処理します。機械学習は「個別のデータから、特徴やルールを見つける」のです。こういった開発を「帰納(きのう)的」と言ったりします。このことが機械学習を用いたソフトウェアのテストの難しさに繋がっています。大量の個別の事例を使って学習し、学習済みモデルを生成するシステムに組み込むソフトウェア Aさんの購入履歴 (個別の事例) Bさんの購入履歴 (個別の事例) Cさんの購入履歴 (個別の事例) … 帰納(きのう)的

Slide 69

Slide 69 text

Slide 70

Slide 70 text

Slide 71

Slide 71 text

© rinna Co.,Ltd. All rights reserved. 71 同値分割ができない同値分割法は、入力値や出力値を同じ特徴をもつグループにわけて、その代表値でテスト（設計）する方法です。「同じ処理がされるならどれか代表値で確認しましょう」という考え方です。 6歳以下 7歳以上13歳以下 14歳以上入場料無料入場料300円入場料500円 3歳で確認しよう 10歳で確認しよう 18歳で確認しよう

Slide 72

Slide 72 text

Slide 73

Slide 73 text

Slide 74

Slide 74 text

© rinna Co.,Ltd. All rights reserved. 74 機械学習で見つけたルールが常に成り立つとは言えない機械学習では個別の事例を一般化しています。学習データ以外でも、学習した特徴やルールが常に成り立つとはいうことができません。従来のテストでは基本的に「常に成り立つ」を前提にテストをしているので前提から違うのです。機械学習与えられた個別の事例からルールを見つける学習済みモデル個別の事例未知の事例？

Slide 75

Slide 75 text

Slide 76

Slide 76 text

Slide 77

Slide 77 text

Slide 78

Slide 78 text

Slide 79

Slide 79 text

Slide 80

Slide 80 text

© rinna Co.,Ltd. All rights reserved. 80 再学習するとモデル全体に影響する結果、狙った部分はよくなったものの、他の部分が前より劣化する場合もあります。こういった、変更が全体に影響を及ぼす性質をCACE性(Changing Anything Changes Everything)と言ったりします。 →猫 →犬 →ハリネズミ推論猫…PASS 犬…FAIL ハリネズミ …PASS 今までよかった部分がおかしくなった…

Slide 81

Slide 81 text

Slide 82

Slide 82 text

© rinna Co.,Ltd. All rights reserved. 82 ちょっとした違いで誤認識するときがあるパンダの画像を判定できるAIに、人にはわからないノイズを加えて入力すると「テナガザル」と推論を大きく間違ってしまう実験があります。これらは「頑健性（ロバスト性）」、つまり変化にどれくらい強いかという性能に問題があります。どこまで担保するか考える必要も出てきます。テナガザル [引用] Goodfellow, I.J., Shlens, J., & Szegedy, C. (2015). Explaining and Harnessing Adversarial Examples. ,arXiv:1412.6572.

Slide 83

Slide 83 text

Slide 84

Slide 84 text

© rinna Co.,Ltd. All rights reserved. 84 教師データに偏りがあり倫理的な問題が発生する可能性教師データに問題があり、「よくないこと」を学習してしまうこともあります。（勘違い？されがちですが、AIが自ら意志を持って考えて差別や問題発言しているわけではないです）学習させるデータや、学習するための仕組みには気をつける必要があります。ヒャッハー！！ xxxxxxxxxxxxxxx!! xxxxx!! （何を言っているかはご想像にお任せします）

Slide 85

Slide 85 text

Slide 86

Slide 86 text

Slide 87

Slide 87 text

Slide 88

Slide 88 text

© rinna Co.,Ltd. All rights reserved. 88 メタモルフィックテスティングメタモルフィックテスティングはテストオラクル問題に対応する手法のひとつです。オリジナルの入力と加工された入力に一定の関係があるとき、出力の関係にも一定の関係が成立するという関係性(メタモルフィック関係)を確認しようという手法です。入力データソフトウェア出力データ入力データ´ 出力データ´ 加工する関係を評価するソフトウェア

Slide 89

Slide 89 text

© rinna Co.,Ltd. All rights reserved. 89 わかりにくいので例（オススメランキング機能）わかりにくいので簡単な例を挙げます。 ECサイトなどで機械学習を使った商品のおすすめランキングがあったとします。このとき、入力データについて「1位の商品を削除する」という加工をします。結果の関係性は「商品の順位が繰り上がる」と予想できそうです。ソフトウェアソフトウェア商品データ 1位 : AAAA 2位 : BBBB 3位 : CCCC 4位 : DDDD 1位の商品を削除した商品データ 1位 : BBBB 2位 : CCCC 3位 : DDDD 4位 : EEEE 1位の商品を削除オススメランキングはそのまま繰り上がるはず

Slide 90

Slide 90 text

© rinna Co.,Ltd. All rights reserved. 90 わかりにくいので例（オススメランキング機能）「商品の順位が繰り上がる」が関係性のはずなのに、1位を削除したときに別のランキングが表示されたとしたら、何かしら学習やロジックに問題が発生している可能性があります。ソフトウェアソフトウェア商品データ 1位 : AAAA 2位 : BBBB 3位 : CCCC 4位 : DDDD 1位の商品を削除した商品データ 1位 : ZZZZ 2位 : BBBB 3位 : CCCC 4位 : DDDD 1位の商品を削除何か問題が発生していそう

Slide 91

Slide 91 text

© rinna Co.,Ltd. All rights reserved. 91 わかりにくいので例（音楽のオススメ機能）他にも簡単な例を挙げます。聞いた曲の履歴からオススメを生成する機能があったとします。全てアニソンタグの曲の履歴だった場合アニソンタグの曲をオススメされます。ならば全て洋楽タグの曲の履歴にした場合はオススメも洋楽タグの曲になる……といった関係性が考えられます。ソフトウェアソフトウェア全て「アニソン」タグの履歴データ全て「アニソン」タグの曲をオススメ全て「洋楽」タグの履歴データ全て「洋楽」タグの曲をオススメ「アニソン」から「洋楽」に変更するオススメも「アニソン」から「洋楽」に変わる

Slide 92

Slide 92 text

© rinna Co.,Ltd. All rights reserved. 92 わかりにくいので例（音楽のオススメ機能）この例では「履歴の大半を占めるタグ＝オススメ曲のタグ」という関係性が成り立つとしましょう。この関係性を使い、5000種類あるタグを自動化して確認していったところ「履歴の大半を占めるタグ＝オススメ曲のタグ」にならない部分が見つかりました。その場合、何かしら学習やロジックに問題が発生している可能性があります。ソフトウェアソフトウェア全て「癒し系」タグの履歴データ全て「癒し系」タグの履歴データ「デスメタル」タグの曲がオススメされた！「癒し系」タグの曲がオススメされるはず何か問題が発生していそう

Slide 93

Slide 93 text

Slide 94

Slide 94 text

© rinna Co.,Ltd. All rights reserved. 94 メタモルフィックテスティングのメリット1 メリットの一つとして「期待結果が定められない場合も問題を発見できる可能性がある」です。例えばオススメランキングの場合は何が出力されれば正解かはわかりません。ソフトウェア商品データ 1位 : ???? 2位 : ???? 3位 : ???? 4位 : ???? 「期待結果が定められない場合も問題を発見できる可能性がある」

Slide 95

Slide 95 text

© rinna Co.,Ltd. All rights reserved. 95 メタモルフィックテスティングのメリット1 ですが関係性を定義できれば、それを利用して「関係性のテスト」は可能になります。関係性が成り立たないものがあった場合、そこに何か問題がある可能性があるとわかります。ソフトウェアソフトウェア商品データ 1位 : AAAA 2位 : BBBB 3位 : CCCC 4位 : DDDD 1位の商品を削除した商品データ 1位 : ZZZZ 2位 : BBBB 3位 : CCCC 4位 : DDDD 1位の商品を削除何か問題が発生していそうオススメランキングはそのまま繰り上がるはず…

Slide 96

Slide 96 text

Slide 97

Slide 97 text

© rinna Co.,Ltd. All rights reserved. 97 メタモルフィックテスティングのメリット2 次のメタモルフィックテスティングのメリットは「自動テストできる」です。例えば100万種類の動物を分類し名前を出力する機械学習モデルがあったとします。入力した画像が正解かどうかを確認するためには、画像に人の手で正解ラベルをつける必要があります。数十件ならいいですが、数万件となると手に負えません。「自動テストできる」ソフトウェア何かの動物の画像何かの動物の名前正解ラベル：ナントカカントカテナガザル正解ラベル：ホゲフガヘッジホッグ

Slide 98

Slide 98 text

© rinna Co.,Ltd. All rights reserved. 98 メタモルフィックテスティングのメリット2 メタモルフィックテスティングは関係性を比較するテストです。 100万種類の動物の名前を分類する機械学習モデルでは「入力画像を15度傾けても、出力結果は変わらないはず」という関係性がありそうです。ソフトウェアソフトウェア何かの動物の画像何かの動物の名前 15度傾けた何かの動物の画像何かの動物の名前 15度画像を傾ける 15度傾けても結果は変わらないはず

Slide 99

Slide 99 text

© rinna Co.,Ltd. All rights reserved. 99 メタモルフィックテスティングのメリット2 例えば3万6218枚目の画像を入力して「よくわからないけど何かの動物の名前」が出力されたとします。その画像を15度傾けて入力した結果、「同じ名前」が出てくれば「関係性」においては問題ないといえます。ソフトウェアソフトウェア 3万6218枚目の動物の画像 xxxxxxxx xxxxxxxx 画像を15度傾ける画像を傾けても結果は変わらないので OK 傾けた 3万6218枚目の動物の画像

Slide 100

Slide 100 text

© rinna Co.,Ltd. All rights reserved. 100 メタモルフィックテスティングのメリット2 この調子で「画像を15度傾けて入力」「結果が変わらない」のロジックで自動テスト化することも可能です。その結果、9万1178枚目で違う結果が出力されたとするならば、その画像に関する動物の学習が不足しているなどの問題がある可能性があります。ソフトウェアソフトウェア 9万1178枚目の動物の画像 xxxxxxxx aaaaaaaa 画像を15度傾ける結果が変わったので、 9万1178枚目の画像に関連する部分で何か問題がありそう傾けた 9万1178枚目の動物の画像

Slide 101

Slide 101 text

Slide 102

Slide 102 text

Slide 103

Slide 103 text

© rinna Co.,Ltd. All rights reserved. 103 メタモルフィックテスティングのデメリット1 メタモルフィックテスティングのデメリットは「関係性を見つけることが難しい」です。例えばチャットができるAIに「何が好き？」と聞いたとき「ハンバーグが好き」と返ってきたとします。このとき「何が嫌い？」に変えたら「嫌い」という返答に変わる……という関係性があると思うかもしれません。「関係性を見つけることが難しい」ソフトウェア「何が好き？」「ハンバーグが好き！」ソフトウェア「何が嫌い？」「パクチーが嫌い><」「好き」から「嫌い」に変える好きから嫌いに変わる？

Slide 104

Slide 104 text

© rinna Co.,Ltd. All rights reserved. 104 メタモルフィックテスティングのデメリット1 しかし「必ず嫌いなものを返す」というわけではなく、話題転換だってありえますし間違いではありません。このように自分たちが扱うAIにおいて「必ず成り立つ(必ず成り立つべき)関係性」を見つけることは非常に困難です。「関係性を見つけることが難しい」ソフトウェア「何が好き？」「ハンバーグが好き！」ソフトウェア「何が嫌い？」「え、違う話しよ？」「好き」から「嫌い」に変えるこれも間違いではない

Slide 105

Slide 105 text

Slide 106

Slide 106 text

© rinna Co.,Ltd. All rights reserved. 106 メタモルフィックテスティングのデメリット2 次のデメリットは「本来確認したいことを確認できるわけではない」です。メタモルフィックテスティングでは「関係性」を比較します。ですので、分類タスクで誤った答えを出力したとして、画像を15度傾けて「同じ誤った答え」を出した場合は関係性としては OKとなります。画像から正しい答えを出すかを確認するなら別のテスト手法を選定する必要があります。「本来確認したいことを確認できるわけではない」ソフトウェアソフトウェアサルサル画像を15度傾ける画像を傾けても結果は変わらないので「関係性」はOK！

Slide 107

Slide 107 text

© rinna Co.,Ltd. All rights reserved. 107 メタモルフィックテスティングのデメリット2 他にもオススメ機能であれば、コンバージョンレートを上げるといった価値・目的があります。メタモルフィックテスティングは「こうした場合は問題がありそう」が得意なテストです。なので「1位を削除、2位を削除……1000位を削除」などを1万回やって特定の場合での問題は見つけられるかもしれませんが、本来確認したいことは確認できません。(この場合ABテストなどが向いている) テスト手法は目的や状況に応じて使い分けてください。「本来確認したいことを確認できるわけではない」ソフトウェア履歴オススメコンバージョンレートを上げたいからAIでオススメを出したい

Slide 108

Slide 108 text

Slide 109

Slide 109 text

Slide 110

Slide 110 text

Slide 111

Slide 111 text

© rinna Co.,Ltd. All rights reserved. 111 弊社でのチャットの評価キャラるは研究用ツールではなくアプリです。ユーザーに楽しんでもらいたいのです。よって言語として正しい、文脈が正しい、という観点だけではアプリとしては評価できません。例： A:おはようございます。 B:おはようございます。調子はどうですか？ A:よいです。あなたは？ B:はい、私も調子がいいです。問題はないですが、このアプリを今後も使おうと思うかは疑問ですよね。

Slide 112

Slide 112 text

Slide 113

Slide 113 text

Slide 114

Slide 114 text

Slide 115

Slide 115 text

© rinna Co.,Ltd. All rights reserved. 115 AIプロダクト品質保証ガイドライン「AIプロダクト品質保証ガイドライン」は「AIプロダクト品質保証コンソーシアム(QA4AI)」から発行されているガイドラインです。このガイドラインはAI プロダクトの品質保証に対する共通の指針を与えよう、という目的で作成されています。 https://www.qa4ai.jp/download/

Slide 116

Slide 116 text

© rinna Co.,Ltd. All rights reserved. 116 AIプロダクト品質保証ガイドライン AIプロダクトの品質保証において考慮すべき軸として、 ● Data Integrity ● Model Robustness ● System Quality ● Process Agility ● Customer Expectation の5軸を挙げ、これらのバランスを取ることを推奨しています。ドキュメントにはそれぞれの軸のチェックリストも用意されています。

Slide 117

Slide 117 text

© rinna Co.,Ltd. All rights reserved. 117 AIプロダクト品質保証ガイドライン ● Data Integrity ○ 質においても量においても適切かつ充分なデータの確保、学習用データと検証用データが独立しているかなどについて考慮 ● Model Robustness ○ モデルの精度と頑健性、デグレードなどについて考慮 ● System Quality ○ AI プロダクト全体の品質の確保について考慮 ● Process Agility ○ プロセスの機動性について考慮 ● Customer Expectation ○ よい顧客との関係性について考慮