Upgrade to Pro — share decks privately, control downloads, hide ads and more …

パーソナルデータという原石をダイヤモンドにするための手法

 パーソナルデータという原石をダイヤモンドにするための手法

2021/8/20(金)に開催したExploratory データサイエンス勉強会#20のDSInnovation株式会社様のご登壇資料です。

Ikuya Murasato

August 20, 2021
Tweet

More Decks by Ikuya Murasato

Other Decks in Business

Transcript

  1. ©DSInnovation, Co., Ltd.
    Exploratory User case
    パーソナルデータという原⽯を
    ダイヤモンドにするための⼿法
    DSInnovation株式会社 / 野尻 梢(Kozue Nojiri)
    08.20.2021
    Exploratory User case
    08.20.2021

    View Slide

  2. About me
    Exploratory User Case - ©DSInnovation, Co., Ltd. 08.20.2021
    Kozue nojiri
    l ⼈⽣のテーマは「テクノロジー & アート」。現代アートの可
    能性から着想を得て、⼈と⼈とのコミュニケーションに深度を
    残した形でのエンジニアリング的⽀援が考えられないか、アー
    トがもつ⼒をエンジニアリングや社会に応⽤させることで⾶躍
    できないかということを幼いころから模索している。
    l システム・データエンジニアとして主にWEBシステムの開発
    (通信キャリア内7システム統合データベース設計責任者など)、マネイジ
    メントに従事した後、2015年慶應義塾⼤学メディアデザイン
    研究科修⼠課程卒業。現在慶應義塾⼤学メディアデザイン研究
    科後期博⼠課程にも在籍中。現在はリサーチャーにも任⽤され
    ている。
    l 在学中にインバウンド事業を⾏う株式会社ワンストップ・イノ
    ベーション⽴上げに参加。観光コンシェルジェ型プラット
    フォーム端末を開発し、そこから⽣まれるデータ活⽤、事業開
    発を担っている。個⼈の活動履歴データを預かり、個⼈に還元
    する情報銀⾏のプロジェクトにも参加しており、⾃⾝は中でも
    社会・サービスデザインに注⼒し、 DSInnovation株式会社
    として情報銀⾏の社会実装を慶應義塾⼤学⼤学院メディアデザ
    イン研究科と共に進⾏している。
    2
    - DSInnovation株式会社
    代表取締役
    - 株式会社ワンストップ・イノ
    ベーション 取締役CTO デザ
    イニングエンジニア
    - 慶應義塾⼤学⼤学院メディア
    デザイン研究科 附属メディア
    デザイン研究所リサーチャー
    - 情報経営イノベーション専⾨
    職⼤学 客員講師

    View Slide

  3. 3
    【4】
    まとめ
    次の課題
    Exploratory User Case - © DSInnovation, Co., Ltd. 08.20.2021
    Agenda
    Summary &
    Next step
    【1】
    注⽬の集まるパーソナル
    データ活⽤の背景
    Background
    【2】
    データ活⽤における課題
    Issue
    【3】
    ⼊⼒データよくある
    3つの具体的事例
    活⽤につなげるための
    サマリビューの活⽤
    approach
    Common things &

    View Slide

  4. パーソナル・ビッグデータ事業
    (収集、流通、分析、活⽤)
    データビジネス⽀援事業
    (プロダクト・サービス⽴案、アプリケー
    ション・システム開発、事業推進、社会実装
    ⽀援)
    データデザイン研究⽀援事業
    (データ利活⽤、データセキュリティ、
    共同研究開発⽀援)
    4
    About
    設⽴:2018年5⽉1⽇
    商号:DSInnovation株式会社
    本社:東京都千代⽥区⼤⼿町1丁⽬6-1 ⼤⼿町ビル6階
    Inspired.Lab
    所属団体:
    インフォメーション
    バンクコンソーシアム、
    MONETコンソーシアム、
    Inspired.Lab
    連携プログラム:
    [⽂部科学省] 成⻑分
    野を⽀える情報技術⼈
    材の育成拠点の形成
    (enPiT)
    セキュリティ分野
    Exploratory User Case - © DSInnovation, Co., Ltd. 08.20.2021

    View Slide

  5. ある電機メーカーさん
    データを活⽤してサービスの改善や新しい
    ビジネスをつくりたいと思っている
    5
    Exploratory User Case - ©DSInnovation, Co., Ltd. 08.20.2021
    Background

    View Slide

  6. 6
    会員としてお客様情報の⼊⼒やアンケートなど
    への回答を求め、そのデータを活⽤したい
    ※ダミーデータを利⽤
    08.20.2021
    Exploratory User Case - ©DSInnovation, Co., Ltd.

    View Slide

  7. さまざまなパーソナルデータ利活⽤に対する⽬線
    08.20.2021
    marketing
    mY data
    User center
    第3者データの限界
    いままで他社が収集していたデータを
    活⽤してマーケティングを⾏なってい
    た⽅法が崩れつつある
    パーソナルデータは⾃分
    の資産であるという意識
    の⾼まり
    GAFA規制/GDPR/個⼈情報保護法の
    ⾒直し/情報銀⾏の盛上がり、etc
    ユーザーと直接よりよい
    関係を築き、サービス向
    上に活かしたい
    量販店経由でしか接点がなかった
    ために商品開発が困難であった
    = サービサー側の視点
    = ユーザー側の視点
    7
    Exploratory User Case - ©DSInnovation, Co., Ltd.

    View Slide

  8. marketing
    mY data
    User center
    多くの項⽬を訪ねてしまう、
    データ管理コストがかかる
    不必要なデータは提供
    したくない 関係ができたら喜んで
    データを提供する
    = 関係ができていない
    間は提供したくない
    パーソナルデータ利活⽤にまつわる難しさ
    08.20.2021
    = サービサー側の視点
    = ユーザー側の視点
    8
    Exploratory User Case - ©DSInnovation, Co., Ltd.

    View Slide

  9. パーソナルデータは
    無理にでも集めれば集めるほど
    有益なのか?
    9
    08.20.2021
    Exploratory User Case - ©DSInnovation, Co., Ltd.

    View Slide

  10. 10
    08.20.2021
    無理に集めることでおこること
    集めたデータが不正確だったり、ゴミがまじっている
    アンケート回答に
    ⽋損値が多い
    ※ダミーデータを利⽤
    例えば
    存在していない
    ドメイン?
    Exploratory User Case - ©DSInnovation, Co., Ltd.

    View Slide

  11. 11
    08.20.2021
    そのためにやるべきこと
    データをきれいにする必要があるが
    どこから どう⼿をつけるべきか・・・?
    その判断が容易ではない
    ※ダミーデータを利⽤
    ドメイン
    ⽣存チェック?
    Exploratory User Case - ©DSInnovation, Co., Ltd.

    View Slide

  12. 無理にパーソナルデータの⼊⼒を促す
    ことでデータの信頼性が下がり、
    有効なデータを⾒つけ出すことに
    コストがかかってしまう
    12
    08.20.2021
    issue
    Exploratory User Case - ©DSInnovation, Co., Ltd.

    View Slide

  13. 13
    08.20.2021
    ※ダミーデータを利⽤
    とはいっても前には進まなければならない。
    では⼊⼒データをどのように⾒極めるか?
    Exploratory User Case - ©DSInnovation, Co., Ltd.

    View Slide

  14. 14
    08.20.2021
    ※ダミーデータを利⽤
    サマリビューを活⽤する!!
    Exploratory User Case - ©DSInnovation, Co., Ltd.

    View Slide

  15. ⼊⼒データ
    よくある
    3つの
    具体的事例
    1.回答してくれない
    15
    Exploratory User Case - ©DSInnovation, Co., Ltd. 08.20.2021
    必須項⽬を減らすと⼊⼒内容
    にN/Aが多くなってしまう
    2.回答内容が怪しい
    ⼊⼒内容がテストデータのよう
    3.UIの問題でミスリード
    デフォルト値のまま?
    回答の必要性が理解できない?
    いやいや⼊⼒している?
    関係性ができていないため途中で
    誤りに気づいても訂正しない?
    Common things
    & approach

    View Slide

  16. 例.任意アンケート項⽬に⽋損値が多い
    16
    1.回答してくれない
    必須項⽬を減らすと⼊⼒内容
    にN/Aが多くなってしまう
    回答の必要性が理解できない?
    Exploratory User Case - ©DSInnovation, Co., Ltd. 08.20.2021

    View Slide

  17. ⽋損値を⾃動で集計
    17
    08.20.2021
    集計作業抜きで、⽋損値の状況を直感的かつ効率的に理解できる。
    ⽋損値の割合が⾼い
    データが揃わなければこの項⽬は
    あまり有効に活⽤できないか?
    ※ダミーデータを利⽤
    Exploratory User Case - ©DSInnovation, Co., Ltd.

    View Slide

  18. 18
    Exploratory User Case - © DSInnovation, Co., Ltd. 08.20.2021
    2.回答内容が怪しい
    内容がテストデータのよう
    いやいや⼊⼒している?
    例.テストデータでよく使われる⽂⾔が
    ドメインに・・・?

    View Slide

  19. 19
    08.20.2021
    ※ダミーデータを利⽤
    回答が数値の場合
    Exploratory User Case - ©DSInnovation, Co., Ltd.

    View Slide

  20. 数値を⾃動で集計
    20
    08.20.2021
    異常値に直感的かつ効率的に気付くことができる。
    ※ダミーデータを利⽤
    年齢の最⼩値が0?
    最⼤値が110?
    Exploratory User Case - ©DSInnovation, Co., Ltd.

    View Slide

  21. 数値の分布を可視化
    21
    08.20.2021
    異常値に直感的かつ効率的に気付くことができる。
    ※ダミーデータを利⽤
    必須項⽬のため⽋損値はないものの
    10歳未満、⾼齢のデータが多すぎないか
    Exploratory User Case - ©DSInnovation, Co., Ltd.

    View Slide

  22. 22
    08.20.2021
    ※ダミーデータを利⽤
    数値の分布の詳細を確認したいときは、
    「チャートを作成」アイコンをクリック
    数値の分布を可視化
    異常なデータの偏りに直感的かつ効率的に気付くことができる。
    Exploratory User Case - ©DSInnovation, Co., Ltd.

    View Slide

  23. 23
    08.20.2021
    ※ダミーデータを利⽤
    分布チャートの⾃動⽣成
    より細かい粒度でデータにどのような問題があるかを理解できる。
    年齢 10歳未満 が
    こんなに?
    年齢 100歳以上 が
    こんなに?
    Exploratory User Case - ©DSInnovation, Co., Ltd.

    View Slide

  24. 24
    08.20.2021
    回答がカテゴリ(⽂字列)型の場合
    Exploratory User Case - ©DSInnovation, Co., Ltd.

    View Slide

  25. カテゴリの頻度を⾃動で集計
    25
    08.20.2021
    異常やデータの偏りに直感的かつ効率的に気付くことができる。
    ※ダミーデータを利⽤
    なるべくデータを⼊⼒したくないという
    意思表⽰のようにもみえる
    Exploratory User Case - ©DSInnovation, Co., Ltd.

    View Slide

  26. 26
    08.20.2021
    ※ダミーデータを利⽤
    集計チャートの⾃動⽣成
    より細かい粒度でデータにどのような問題があるかを理解できる。
    ⼀概には⾔えないが
    やはりデータを⼊⼒したくない⼈の
    回答が⼀定数⼊っているように⾒える
    Exploratory User Case - ©DSInnovation, Co., Ltd.

    View Slide

  27. 27
    Exploratory User Case - ©DSInnovation, Co., Ltd. 08.20.2021
    3.UIの問題でミスリード
    デフォルト値のまま?
    関係性ができていないため途中で
    誤りに気づいても訂正しない?
    例.よかれと設定したデフォルト値が変更
    されないまま・・・?

    View Slide

  28. 28
    08.20.2021
    前提としてこのビジネスでは法⼈利⽤者の
    ⽅が売上が⼤きいことを理解している。
    Exploratory User Case - ©DSInnovation, Co., Ltd.

    View Slide

  29. 前提知識との照合
    29
    08.20.2021
    実際のデータが持ち合わせている前提知識と、実際に得られているデータ
    を⽐べる。
    ※ダミーデータを利⽤
    法⼈かどうかと、
    購⼊⾦額は相関して
    いるはず
    Exploratory User Case - ©DSInnovation, Co., Ltd.

    View Slide

  30. 相関モード(前提知識との照合)
    30
    08.20.2021
    購⼊⾦額と法⼈/個⼈の区分と購⼊⾦額に相関があるかを⽐べる。
    ※ダミーデータを利⽤
    Exploratory User Case - ©DSInnovation, Co., Ltd.

    View Slide

  31. 相関モード(前提知識との照合)
    31
    08.20.2021
    ※ダミーデータを利⽤
    購⼊⾦額を選択する
    Exploratory User Case - ©DSInnovation, Co., Ltd.

    View Slide

  32. 相関モード(前提知識との照合)
    32
    08.20.2021
    得られた結果から、正しい情報を取得できていないことが⽰唆される。
    ※ダミーデータを利⽤
    相関の指標であるR2乗値(0
    から1の間をとり、1に近い
    ほど相関が強い)が低い。
    つまり売上との相関が低い
    個⼈と法⼈の売上⾦額
    の平均の信頼区間が重
    なっていて、
    有意な差がない
    Exploratory User Case - ©DSInnovation, Co., Ltd.

    View Slide

  33. ドメイン情報の抽出
    33
    08.20.2021
    何が起きているかを確認するために、今度は個⼈を選択したユーザーの
    ドメインを可視化し、正しい情報がはいっているかを確認したい。
    ※ダミーデータを利⽤
    Exploratory User Case - ©DSInnovation, Co., Ltd.

    View Slide

  34. ドメイン情報の抽出
    34
    08.20.2021
    ※ダミーデータを利⽤
    ドメイン情報を抽出できた。
    Exploratory User Case - ©DSInnovation, Co., Ltd.

    View Slide

  35. 実態の確認
    35
    08.20.2021
    何が起きているかを確認するために、個⼈を選択したユーザーのドメイン
    情報を可視化。
    フリーメールやプロバイダー
    ドメインでないものも上位に
    ※ダミーデータを利⽤
    ⼊⼒フォームでは個⼈がデフォルト選択となっており、
    法⼈ユーザーもそのまま個⼈として
    登録してしまっているのではないか?
    Exploratory User Case - ©DSInnovation, Co., Ltd.

    View Slide

  36. 結果:⼊⼒データよくある3つの具体的事例への対処
    1.回答してくれない
    36
    Exploratory User Case - ©DSInnovation, Co., Ltd. 08.20.2021
    必須項⽬を減らすと⼊⼒内容
    にN/Aが多くなってしまう
    2.回答内容が怪しい
    ⼊⼒内容がテストデータのよう
    3.UIの問題でミスリード
    デフォルト値のまま?
    質問の仕⽅、
    質問⾃体を変更
    データが不要と判断でき
    れば、会員が躊躇する項
    ⽬の収集をやめる
    デフォルト値の設定を
    やめる
    分析したい内容と収集している項⽬の相関を確認し⾒極めたい

    View Slide

  37. 37
    08.20.2021
    質問の変更やUIを改善することで綺麗な
    データが得られるようになった。しかし
    今後は必要な項⽬だけの⼊⼒を促し、
    ユーザーとの関係ができたのちに
    追加のデータを提供してもらう
    ことで両者にとってよりよくなると感じる。
    summary
    Exploratory User Case - ©DSInnovation, Co., Ltd.

    View Slide

  38. 次に⽬指したいのは予測
    しかし、有効そうな予測結果にいきつくものの訪れる次の壁・・・
    38
    データの信頼性があがったので
    08.20.2021
    Next step
    Exploratory User Case - ©DSInnovation, Co., Ltd.

    View Slide

  39. 予測を納得するための可視化?
    - 予測結果に納得したい⼈が多い
    - わかりやすく説明できないと予測⾃体がボツになる・・・
    今後頑張っていくところ
    39
    08.20.2021
    Exploratory User Case - ©DSInnovation, Co., Ltd.

    View Slide

  40. Thank you !
    DSInnovation株式会社 / 野尻 梢(Kozue Nojiri) [email protected] https://dsinnovation.co.jp/
    Message
    40
    08.20.2021
    ©DSInnovation, Co., Ltd.
    Exploratory User case
    - パーソナルデータ利活⽤への期待が⾼まっている
    - ⼊⼒されたパーソナルデータという原⽯を活かすためにはデー
    タラングリングや項⽬間の関係を⾒ることでデータの信頼性を
    確認する必要がある
    - ユーザーとの関係を良好に保ち、ゴミデータを取除くコストを
    減らすためにも必要なデータのみをまずは要求し、信頼関係を
    築いたのちに追加のデータを提供してもらうべき

    View Slide

  41. 41
    08.20.2021
    おまけ
    Exploratory User Case - ©DSInnovation, Co., Ltd.

    View Slide