Upgrade to Pro — share decks privately, control downloads, hide ads and more …

人間中心のAIプロダクト開発に向けて意識すること ~データ収集と評価~

masatoto
March 26, 2023

人間中心のAIプロダクト開発に向けて意識すること ~データ収集と評価~

masatoto

March 26, 2023
Tweet

More Decks by masatoto

Other Decks in Design

Transcript

  1. データ収集と評価 ① 最初から質の⾼いデータ収集を計画する ② ユーザーニーズをデータニーズに置き換える ③ 責任をもってデータを調達する ④ データセットの⽂章化をする ⑤

    プロンプトを管理する ユーザーのニーズに対し、必要なデータが存在することを確認する データ所有者やステークホルダーと共通認識を持つためにドキュメントを作る
  2. ②ユーザーニーズにデータニーズを対応づける ユーザー ユーザー⾏動 MLシステム出⼒ MLシステム学習 データセット 重要な特徴 重要なラベル データフォーマット 現実的なデータの

    考慮事項 質問事項 ユーザーの⾏動とMLシステム出⼒の 対応が取れているか ユーザーニーズに対して、対応するMLシステムの出⼒に価値があるか確認する。
  3. ②ユーザーニーズにデータニーズを対応づける ユーザー ユーザー⾏動 MLシステム出⼒ MLシステム学習 データセット 重要な特徴 重要なラベル データフォーマット 現実的なデータの

    考慮事項 質問事項 重要な特徴とラベルは、⼿元にある実データを書くか、理想を書いて関係者にデータがあるか問う⼿もある。 重要な特徴は 顧客と認識合わせにも使える ラベルの粒度も合意をとる
  4. ②ユーザーニーズにデータニーズを対応づける ユーザー ユーザー⾏動 MLシステム出⼒ MLシステム学習 データセット 重要な特徴 重要なラベル データフォーマット 現実的なデータの

    考慮事項 質問事項 現実的な制限やダイナミクスが データセットで表現されているか 先に質問形式で書いておく ユーザーリサーチ時のドメインエキスパートが重要視していたことをデータの観点で書いておく。
  5. ②ユーザーニーズにデータニーズを対応づける ユーザー ユーザー⾏動 MLシステム出⼒ MLシステム学習 データセット 重要な特徴 重要なラベル データフォーマット 現実的なデータの

    考慮事項 質問事項 ユーザーやデータの⽣成など 質問事項を記載しておく データ間の関係など気になることはメモしておき、関係者と議論する際に使う。
  6. ②ドメイン専⾨家にヒアリング 先のユーザーニーズとデータニーズを対応づけた フォーマットをもとにドメイン専⾨家からフィードバック をもらう。 データに対する仮説の是⾮を問う。 右に追加の質問事項の例を載せています。 データサイエンティストやコンサルの⽅は このあたりをしっかりおこないPoCをする。 ドメイン専⾨家は聞かれて初めて意識する⽅も多い。 簡単なデータや業務フローを⾒せながら語ってもらう。

    • 業務の中で重要なデータはどれですか︖ • どのデータを使いますか︖使わないですか︖ • どうやってデータは集められますか︖ • データからどんな問題が⽣じますか︖ レポート、取得、更新など • 重要なデータを集めるは時間や環境はありますか︖ • 業務でデータを扱う際に気をつけるべき3つのポイントとは︖
  7. ③責任をもってデータを調達する データの収集 • 既存のデータセットを使⽤する場合 データセットの使⽤条件を必ず確認し、ユースケースに適しているかを検討する • 独⾃のデータセットを構築する場合 製品が対象とする分野の専⾨家を観察し、データの⽣成過程を知る • ユーザーからライブデータを収集する場合

    アプリ内のユーザーに直接尋ねる。明⽰的か暗黙的にデータを得る データの整形 • フォーマットを検討する 「国」には「US」、「USA」、「United States」など • 他の ML モデルからのエラー混⼊を回避する 別の予測値を⼊⼒に⽤いる場合、原因の特定が難しくなる • 個⼈を特定できる情報を保護する
  8. ④データセットを⽂書化 データセットのドキュメントはコードのドキュメントと同じくらい重要 データセットのドキュメントが推奨される⽤途 • チームまたは別のチームの同僚とデータセットを共有・引き継ぎ • 学習済みモデルの動作を解釈 • 複数のデータセットの⽐較 •

    外部に公開可能かの確認 データセットのドキュメントには ”データカード” のフォーマットがある • データ情報の記録 • 適⽤された操作と変換のリスト • 経時的な履歴 • 推奨される⽤途
  9. 個⼈的な学びと失敗 ① 最初から質の⾼いデータ収集を計画する • データのフォーマットが数年おきに変わり、今後も変わることがあり、形式を整えるの⼤変だった。 • プロトタイプの検証で、再現可能な撮影環境を意識して作っても、再現できないこともあった。 ② ユーザーニーズをデータニーズに置き換える •

    ドメイン専⾨家へのヒアリングは、説明変数で⾃分が理解できないところだけ聞いていた。 • どの説明変数を重視するかは、機械学習的な感覚でやろうとしていた。 ③ 責任をもってデータを調達する • 既存のデータセットを使う場合のバイアスはあまり考えたことなくて勉強になった。 ④ データセットの⽂章化をする • PoCからシステム開発メンバーに引き継ぎで⽂章化しておらず、データの説明に時間がかかった。