2021/8/20(金)に開催したExploratory データサイエンス勉強会#20のDSInnovation株式会社様のご登壇資料です。
©DSInnovation, Co., Ltd.Exploratory User caseパーソナルデータという原⽯をダイヤモンドにするための⼿法DSInnovation株式会社 / 野尻 梢(Kozue Nojiri)08.20.2021Exploratory User case08.20.2021
View Slide
About meExploratory User Case - ©DSInnovation, Co., Ltd. 08.20.2021Kozue nojiril ⼈⽣のテーマは「テクノロジー & アート」。現代アートの可能性から着想を得て、⼈と⼈とのコミュニケーションに深度を残した形でのエンジニアリング的⽀援が考えられないか、アートがもつ⼒をエンジニアリングや社会に応⽤させることで⾶躍できないかということを幼いころから模索している。l システム・データエンジニアとして主にWEBシステムの開発(通信キャリア内7システム統合データベース設計責任者など)、マネイジメントに従事した後、2015年慶應義塾⼤学メディアデザイン研究科修⼠課程卒業。現在慶應義塾⼤学メディアデザイン研究科後期博⼠課程にも在籍中。現在はリサーチャーにも任⽤されている。l 在学中にインバウンド事業を⾏う株式会社ワンストップ・イノベーション⽴上げに参加。観光コンシェルジェ型プラットフォーム端末を開発し、そこから⽣まれるデータ活⽤、事業開発を担っている。個⼈の活動履歴データを預かり、個⼈に還元する情報銀⾏のプロジェクトにも参加しており、⾃⾝は中でも社会・サービスデザインに注⼒し、 DSInnovation株式会社として情報銀⾏の社会実装を慶應義塾⼤学⼤学院メディアデザイン研究科と共に進⾏している。2- DSInnovation株式会社代表取締役- 株式会社ワンストップ・イノベーション 取締役CTO デザイニングエンジニア- 慶應義塾⼤学⼤学院メディアデザイン研究科 附属メディアデザイン研究所リサーチャー- 情報経営イノベーション専⾨職⼤学 客員講師
3【4】まとめ次の課題Exploratory User Case - © DSInnovation, Co., Ltd. 08.20.2021AgendaSummary &Next step【1】注⽬の集まるパーソナルデータ活⽤の背景Background【2】データ活⽤における課題Issue【3】⼊⼒データよくある3つの具体的事例活⽤につなげるためのサマリビューの活⽤approachCommon things &
パーソナル・ビッグデータ事業(収集、流通、分析、活⽤)データビジネス⽀援事業(プロダクト・サービス⽴案、アプリケーション・システム開発、事業推進、社会実装⽀援)データデザイン研究⽀援事業(データ利活⽤、データセキュリティ、共同研究開発⽀援)4About設⽴:2018年5⽉1⽇商号:DSInnovation株式会社本社:東京都千代⽥区⼤⼿町1丁⽬6-1 ⼤⼿町ビル6階Inspired.Lab所属団体:インフォメーションバンクコンソーシアム、MONETコンソーシアム、Inspired.Lab連携プログラム:[⽂部科学省] 成⻑分野を⽀える情報技術⼈材の育成拠点の形成(enPiT)セキュリティ分野Exploratory User Case - © DSInnovation, Co., Ltd. 08.20.2021
ある電機メーカーさんデータを活⽤してサービスの改善や新しいビジネスをつくりたいと思っている5Exploratory User Case - ©DSInnovation, Co., Ltd. 08.20.2021Background
6会員としてお客様情報の⼊⼒やアンケートなどへの回答を求め、そのデータを活⽤したい※ダミーデータを利⽤08.20.2021Exploratory User Case - ©DSInnovation, Co., Ltd.
さまざまなパーソナルデータ利活⽤に対する⽬線08.20.2021marketingmY dataUser center第3者データの限界いままで他社が収集していたデータを活⽤してマーケティングを⾏なっていた⽅法が崩れつつあるパーソナルデータは⾃分の資産であるという意識の⾼まりGAFA規制/GDPR/個⼈情報保護法の⾒直し/情報銀⾏の盛上がり、etcユーザーと直接よりよい関係を築き、サービス向上に活かしたい量販店経由でしか接点がなかったために商品開発が困難であった= サービサー側の視点= ユーザー側の視点7Exploratory User Case - ©DSInnovation, Co., Ltd.
marketingmY dataUser center多くの項⽬を訪ねてしまう、データ管理コストがかかる不必要なデータは提供したくない 関係ができたら喜んでデータを提供する= 関係ができていない間は提供したくないパーソナルデータ利活⽤にまつわる難しさ08.20.2021= サービサー側の視点= ユーザー側の視点8Exploratory User Case - ©DSInnovation, Co., Ltd.
パーソナルデータは無理にでも集めれば集めるほど有益なのか?908.20.2021Exploratory User Case - ©DSInnovation, Co., Ltd.
1008.20.2021無理に集めることでおこること集めたデータが不正確だったり、ゴミがまじっているアンケート回答に⽋損値が多い※ダミーデータを利⽤例えば存在していないドメイン?Exploratory User Case - ©DSInnovation, Co., Ltd.
1108.20.2021そのためにやるべきことデータをきれいにする必要があるがどこから どう⼿をつけるべきか・・・?その判断が容易ではない※ダミーデータを利⽤ドメイン⽣存チェック?Exploratory User Case - ©DSInnovation, Co., Ltd.
無理にパーソナルデータの⼊⼒を促すことでデータの信頼性が下がり、有効なデータを⾒つけ出すことにコストがかかってしまう1208.20.2021issueExploratory User Case - ©DSInnovation, Co., Ltd.
1308.20.2021※ダミーデータを利⽤とはいっても前には進まなければならない。では⼊⼒データをどのように⾒極めるか?Exploratory User Case - ©DSInnovation, Co., Ltd.
1408.20.2021※ダミーデータを利⽤サマリビューを活⽤する!!Exploratory User Case - ©DSInnovation, Co., Ltd.
⼊⼒データよくある3つの具体的事例1.回答してくれない15Exploratory User Case - ©DSInnovation, Co., Ltd. 08.20.2021必須項⽬を減らすと⼊⼒内容にN/Aが多くなってしまう2.回答内容が怪しい⼊⼒内容がテストデータのよう3.UIの問題でミスリードデフォルト値のまま?回答の必要性が理解できない?いやいや⼊⼒している?関係性ができていないため途中で誤りに気づいても訂正しない?Common things& approach
例.任意アンケート項⽬に⽋損値が多い161.回答してくれない必須項⽬を減らすと⼊⼒内容にN/Aが多くなってしまう回答の必要性が理解できない?Exploratory User Case - ©DSInnovation, Co., Ltd. 08.20.2021
⽋損値を⾃動で集計1708.20.2021集計作業抜きで、⽋損値の状況を直感的かつ効率的に理解できる。⽋損値の割合が⾼いデータが揃わなければこの項⽬はあまり有効に活⽤できないか?※ダミーデータを利⽤Exploratory User Case - ©DSInnovation, Co., Ltd.
18Exploratory User Case - © DSInnovation, Co., Ltd. 08.20.20212.回答内容が怪しい内容がテストデータのよういやいや⼊⼒している?例.テストデータでよく使われる⽂⾔がドメインに・・・?
1908.20.2021※ダミーデータを利⽤回答が数値の場合Exploratory User Case - ©DSInnovation, Co., Ltd.
数値を⾃動で集計2008.20.2021異常値に直感的かつ効率的に気付くことができる。※ダミーデータを利⽤年齢の最⼩値が0?最⼤値が110?Exploratory User Case - ©DSInnovation, Co., Ltd.
数値の分布を可視化2108.20.2021異常値に直感的かつ効率的に気付くことができる。※ダミーデータを利⽤必須項⽬のため⽋損値はないものの10歳未満、⾼齢のデータが多すぎないかExploratory User Case - ©DSInnovation, Co., Ltd.
2208.20.2021※ダミーデータを利⽤数値の分布の詳細を確認したいときは、「チャートを作成」アイコンをクリック数値の分布を可視化異常なデータの偏りに直感的かつ効率的に気付くことができる。Exploratory User Case - ©DSInnovation, Co., Ltd.
2308.20.2021※ダミーデータを利⽤分布チャートの⾃動⽣成より細かい粒度でデータにどのような問題があるかを理解できる。年齢 10歳未満 がこんなに?年齢 100歳以上 がこんなに?Exploratory User Case - ©DSInnovation, Co., Ltd.
2408.20.2021回答がカテゴリ(⽂字列)型の場合Exploratory User Case - ©DSInnovation, Co., Ltd.
カテゴリの頻度を⾃動で集計2508.20.2021異常やデータの偏りに直感的かつ効率的に気付くことができる。※ダミーデータを利⽤なるべくデータを⼊⼒したくないという意思表⽰のようにもみえるExploratory User Case - ©DSInnovation, Co., Ltd.
2608.20.2021※ダミーデータを利⽤集計チャートの⾃動⽣成より細かい粒度でデータにどのような問題があるかを理解できる。⼀概には⾔えないがやはりデータを⼊⼒したくない⼈の回答が⼀定数⼊っているように⾒えるExploratory User Case - ©DSInnovation, Co., Ltd.
27Exploratory User Case - ©DSInnovation, Co., Ltd. 08.20.20213.UIの問題でミスリードデフォルト値のまま?関係性ができていないため途中で誤りに気づいても訂正しない?例.よかれと設定したデフォルト値が変更されないまま・・・?
2808.20.2021前提としてこのビジネスでは法⼈利⽤者の⽅が売上が⼤きいことを理解している。Exploratory User Case - ©DSInnovation, Co., Ltd.
前提知識との照合2908.20.2021実際のデータが持ち合わせている前提知識と、実際に得られているデータを⽐べる。※ダミーデータを利⽤法⼈かどうかと、購⼊⾦額は相関しているはずExploratory User Case - ©DSInnovation, Co., Ltd.
相関モード(前提知識との照合)3008.20.2021購⼊⾦額と法⼈/個⼈の区分と購⼊⾦額に相関があるかを⽐べる。※ダミーデータを利⽤Exploratory User Case - ©DSInnovation, Co., Ltd.
相関モード(前提知識との照合)3108.20.2021※ダミーデータを利⽤購⼊⾦額を選択するExploratory User Case - ©DSInnovation, Co., Ltd.
相関モード(前提知識との照合)3208.20.2021得られた結果から、正しい情報を取得できていないことが⽰唆される。※ダミーデータを利⽤相関の指標であるR2乗値(0から1の間をとり、1に近いほど相関が強い)が低い。つまり売上との相関が低い個⼈と法⼈の売上⾦額の平均の信頼区間が重なっていて、有意な差がないExploratory User Case - ©DSInnovation, Co., Ltd.
ドメイン情報の抽出3308.20.2021何が起きているかを確認するために、今度は個⼈を選択したユーザーのドメインを可視化し、正しい情報がはいっているかを確認したい。※ダミーデータを利⽤Exploratory User Case - ©DSInnovation, Co., Ltd.
ドメイン情報の抽出3408.20.2021※ダミーデータを利⽤ドメイン情報を抽出できた。Exploratory User Case - ©DSInnovation, Co., Ltd.
実態の確認3508.20.2021何が起きているかを確認するために、個⼈を選択したユーザーのドメイン情報を可視化。フリーメールやプロバイダードメインでないものも上位に※ダミーデータを利⽤⼊⼒フォームでは個⼈がデフォルト選択となっており、法⼈ユーザーもそのまま個⼈として登録してしまっているのではないか?Exploratory User Case - ©DSInnovation, Co., Ltd.
結果:⼊⼒データよくある3つの具体的事例への対処1.回答してくれない36Exploratory User Case - ©DSInnovation, Co., Ltd. 08.20.2021必須項⽬を減らすと⼊⼒内容にN/Aが多くなってしまう2.回答内容が怪しい⼊⼒内容がテストデータのよう3.UIの問題でミスリードデフォルト値のまま?質問の仕⽅、質問⾃体を変更データが不要と判断できれば、会員が躊躇する項⽬の収集をやめるデフォルト値の設定をやめる分析したい内容と収集している項⽬の相関を確認し⾒極めたい
3708.20.2021質問の変更やUIを改善することで綺麗なデータが得られるようになった。しかし今後は必要な項⽬だけの⼊⼒を促し、ユーザーとの関係ができたのちに追加のデータを提供してもらうことで両者にとってよりよくなると感じる。summaryExploratory User Case - ©DSInnovation, Co., Ltd.
次に⽬指したいのは予測しかし、有効そうな予測結果にいきつくものの訪れる次の壁・・・38データの信頼性があがったので08.20.2021Next stepExploratory User Case - ©DSInnovation, Co., Ltd.
予測を納得するための可視化?- 予測結果に納得したい⼈が多い- わかりやすく説明できないと予測⾃体がボツになる・・・今後頑張っていくところ3908.20.2021Exploratory User Case - ©DSInnovation, Co., Ltd.
Thank you !DSInnovation株式会社 / 野尻 梢(Kozue Nojiri) [email protected] https://dsinnovation.co.jp/Message4008.20.2021©DSInnovation, Co., Ltd.Exploratory User case- パーソナルデータ利活⽤への期待が⾼まっている- ⼊⼒されたパーソナルデータという原⽯を活かすためにはデータラングリングや項⽬間の関係を⾒ることでデータの信頼性を確認する必要がある- ユーザーとの関係を良好に保ち、ゴミデータを取除くコストを減らすためにも必要なデータのみをまずは要求し、信頼関係を築いたのちに追加のデータを提供してもらうべき
4108.20.2021おまけExploratory User Case - ©DSInnovation, Co., Ltd.