#経済学のための実践的データ分析 4.5 データの可用性とプライバシー

F5f758ca2ec0de2da9781ce9391d9c6c?s=47 yasushihara
November 28, 2019

#経済学のための実践的データ分析 4.5 データの可用性とプライバシー

一橋大学 #経済学のための実践的データ分析
4.5 データの可用性とプライバシー

一橋大学大学院経済学研究科
原泰史
yasushi.hara@r.hit-u.ac.jp

F5f758ca2ec0de2da9781ce9391d9c6c?s=128

yasushihara

November 28, 2019
Tweet

Transcript

  1. 経済学のための実践的 データ分析 4.5. データの可用性と プライバシー 28教室 一橋大学大学院経済学研究科 原泰史 yasushi.hara@r.hit-u.ac.jp

  2. 確認事項 • 電源タップは足りているでしょうか? • レポートはいかがでしょうか?

  3. 今週と来週の予定 • 11/25 第四回; SQL ことはじめ • 11/28 第五回; データの可用性とプライバシー

    • 12/2; ハノイ出張のため休講 • 12/5 第六回; 特許/論文データベースの使い方
  4. 今日の内容: データの可用性とプライバシー • インターネットには様々な情報が掲載されています。あるいは、 大学の図書館からデータベースにアクセスすれば、様々な情報 を得ることが出来ます(一橋大学の場合は特に!)。 • しかしながら、データには個人情報や企業の機密情報などが含 まれており、これらの適切に管理し運用することは極めて重要 です。テキストブックの内容に基づき、説明を行います。

  5. 今日の内容 (105分) 1:レポート(1回目) の内容 2: ビッグデータ解析における利便 性とプライバシーのトレードオフ 3: データを入手するまでのケーススタ ディと一橋大学におけるデータセット

    の状況のご紹介
  6. レポート1について

  7. レポートの内容 • 概要 • Slack にアップロードされたデータセット (FIFA19, BBQ, Airbnb) から

    ひとつを選び、 Jupyter Notebook/Google Colaboratory 上で解析し, 重回帰分析を行う • レポートでは • (1) 被説明変数と説明変数の関係性 • (2) R二乗項の値 • (3) VIF 値による, 多重共線性のチェック などを報告した上で, 構築したモデルについて考察を行うこと • 提出期間: 2019/10/29 10:45:00 (JST) • 提出方法: Slack DM で提出すること
  8. レポートの内容(2) • 引用文献がある場合, 末尾に明記すること • 文字数は問わない

  9. データセット (その1) • FIFA19 Datasets • https://www.kaggle.com/karangadiya/fifa19 FIFA 19 に収録されている

    フットボールプレイヤー選手 の能力値や市場価値をまとめたデータ
  10. データセット(その1)

  11. Notebook の解説 やっていること ・Excel にしたデータをJupyter Notebook に取り込む (同じディレクトリにデータを 入れておくこと) ・シートの1枚目

    (0番目) を input_sheet_df にインポートする ・input_sheet_df.head(10) で, データの 10番目までを表示する Messi や Ronaldo, Suarez などのデータ が表示されていることが確認できる
  12. Notebook の解説 やっていること ・説明変数と被説明変数をそれぞれの列か ら取り出す (.iloc [行, 列]で, 行を指定せず 列のみを指定する)

    ・scipy.stats.lingress(説明変数, 被説明変 数) で単回帰を回す ・散布図および, 単回帰分析の結果をアウ トプットする
  13. Notebook の解説 被説明変数; overall (ゲーム上での総合評価) 説明変数; age (年齢) 年齢が高くなるほど, 総合的な評価が高くなる

    -> おそらく, 評価の高くない選手は引退している
  14. Notebook の解説 sm.OLS(被説明変数, 定数項+説明変数) で回帰分析 を行い, 結果を表として出力する 被説明変数; overall (ゲーム上での総合評価)

    説明変数; age (年齢) 定数項および説明変数はそれぞれプラスに有意だが, R修正項は高くない。
  15. Notebook の解説 sm.OLS(被説明変数, 定数項+説明変数) で回帰分析 を行い, 結果を表として出力する 被説明変数; wage (年俸)

    説明変数; age (年齢) 定数項はマイナス, 説明変数はプラスに有意だが, R修正項はかなり高くない。
  16. Notebook の解説 • plt.scatter パッケージを用い, wage (年俸)とage(年齢) をプ ロットする •

    30歳までは年俸は上昇してい くが, その後下方トレンドが あることが確認できる • いくつか外れ値があることが 確認できる
  17. Notebook の解説 • Seaborn パッケージで, ヒス トグラムと散布図を同時にプ ロットする • 年齢はF分布,

    年俸はべき乗分 布に近いことが確認できる • 外れ値はメッシやクリスティ アーノロナウドなど.
  18. Notebook の解説 • 同様に, 重回帰分析を sm.OLS パッケージを用いて 行う • 説明変数が空の行を削除する

    (x_list.drop… 以下) • 年齢とレピュテーション, 契 約満期までの残り年数および 評価値はプラスに有意, 定数 項はマイナスに有意, 利き足 ダミーは有意であるとはいえ ないことが確認できる
  19. Notebook の解説 • VIF値を確認する (第二回の講 義参照) • いずれも10は超えてないこと が確認できる

  20. Notebook の解説 • sns.pairplot を使って, 変数間 の散布図および, ヒストグラ ムを表示する •

    .savefig を用いて, 出力結果を 保存する
  21. わかること ・年俸の分布はかなりskew ・年齢と年俸の単回帰の傾きは, 右利きと 左利きでかなり違う(メッシエフェクト?) ・年齢が高くなると, 残りの契約期間は短 くなる(自明) ・国際的なレピュテーションと, 総合的な

    評価は正の関係 ・年齢と総合的な評価もやはり正の関係 (生存バイアス)
  22. データセット(その2) • Kansas City Barbeque Society Competition Results https://www.kaggle.com/jaysobel/kansas-city-barbeque-society- competition-results

    • カンサスシティのバー ベキューイベントの データを集計したもの
  23. データセット(その2)

  24. データセット(その3) • New York City Airbnb Open Data • https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-

    data
  25. データセット(その3) • Columns • Id; listing ID • Name; name

    of the listing • host_id; host ID • host_name; name of the host • neighbourhood_grouplocation • neighbourhoodarea • Latitude; latitude coordinates • Longitude; longitude coordinates • room_type; listing space type • Price; price in dollars • minimum_nights; amount of nights minimum • number_of_reviews; number of reviews • last_review; latest review • reviews_per_month; number of reviews per month • calculated_host_listings_count; amount of listing per host • availability_365; number of days when listing is available for booking
  26. データセット(その3)

  27. データセット(その3)

  28. データセット(その3) 相関係数 回帰分析

  29. データセット(その3)

  30. 分析について • どれを説明変数/被説明変数にするかはおまかせします • サラリー and/or 市場価値 and/or 能力? •

    BBQの経験回数? • レビューの数? • ダミー変数の作成などもおまかせします
  31. 考えうる仮説 (FIFA19 の場合) • 選手の加齢は市場価値を押し下げる • クラブの移籍は選手のサラリーを押し上げる • 国際的な認知度は選手の市場価値を押し上げる •

    現在の契約終了年までの期間が短いほど、市場価値を上げる • 南米出身の選手は、欧州出身の選手に比べサラリーの水準が低 い • Etc…
  32. レポートの評価方法 • Excellent • データおよび適切な分析手法に基づき、独自の視点で十分に考察がなされている • Good • データおよび適切な分析手法に基づき、独自の視点で考察がなされている •

    Fair • データに対して分析が行われているが、一般的な範囲での考察にとどまる • Bad • 考察がなされていない,あるいはデータの解析が十分に行われていない • Failed • 断りなく他者の見解を引用している,その他不正行為に相当する
  33. レポートの評価基準 • 説明の順序は適切か.特に重要な項目の抜けや漏れはないか. • 原典からの引用内容に事実誤認はないか. • 誤字脱字(誤植)はないか.文法上の誤りはないか.文法ルー ルが統一されているか. • 文章は明快か.誤解を招くような内容・表現はないか.

    • 参照,引用のルールに準拠しているか.剽窃はないか. • 不正行為に相当する事項はないか. • 提出期限を厳守しているか.
  34. FAQ • Q1. FIFA19 のデータセットが読み込めない! • A1. 列数が1つずつズレている可能性が, iloc するところで+1

    し てみましょう. • Q2. Airbnb のデータセットだと, 説明力がどうやっても弱い! • A2. 地域格差がかなりあるようです. そこをコントロールすると かなりきれいな結果になります.
  35. データ解析における プライバシー, 機密性と利 便性

  36. Discussion • Q1. SNSはやっていますか? • Q2. 実名を出していますか? • Q3. 個人や現在の位置情報が特定されないように、投稿内容を

    気をつけていますか?
  37. Case Studies • Case1; 大学生の『呑み』写真 • Case2; リクナビ • Case3;

    SNS にアップロードされた子どもの写真
  38. 学生が投稿する『呑み』写真だけでどこ の大学のどこの誰か特定できる問題 引用: https://twitter.com/ftv8ch/status/824935162928590848

  39. 学生が投稿する『呑み』写真だけでどこの大 学のどこの誰か特定できる問題 (cont.) 引用: https://twitter.com/ftv8ch/status/824935162928590848 ・画像検索をして同一の 人間を抽出する ・ふたりグループの情報 からデータを抽出する ・真ん中に写っている人

    物の過去の経歴とか, Dommune で特集された 情報を抽出する → 個人のIDタグがなくて も、(ダウンタウンや坂上 忍でなくても、)どこの誰 か特定できる。
  40. Google 画像検索の結果

  41. 検索すれば、サジェストで住所や自宅が 出てきてしまう

  42. 対策 • ツイッターやInstagram のアカウントを匿名 and/or 鍵にする • フェイスブックのアカウントは就職や就学の情報しか書き込ま ない。就職する前にアカウントを消す。 ⇒

    それでも, 周辺のセマンティックな情報を組み合わせればどこ の誰の情報か解析できる 社会科学で(個人属性の多く含まれる)データを使うときには、プ ライバシーや機密性に留意する必要
  43. Case2 https://www.recruitcareer.co.jp/news/pressrelease/2019/190805-01/

  44. cont. • 【原因】 リクナビでは、2019年3月に『リクナビDMPフォロー』について言及したプライバシー ポリシーへ変更いたしました。学生の皆さまが使用する複数の画面においてプライバ シーポリシーに同意いただくサイト構成になっていますが、一部の画面においてその反 映ができていませんでした。 • また、プライバシーポリシー変更の際には、『リクナビDMPフォロー』で分析スコアの 対象となるすべての学生から適切な同意が取得できるよう設計すべきところ、考慮が漏

    れてしまっておりました。 • 【本件同意取得不備の対象となる学生の皆さま】 『リクナビ2020』に会員登録されている学生の皆さまの内、2019年3月以降にプレエン トリー・イベント予約・説明会予約・ウェブテスト受検等の機能を利用されていない方 で、かつ、『リクナビDMPフォロー』を導入した企業への応募者の中で2019年3月以降 に『リクナビDMPフォロー』の分析スコアの対象となった方 • ※なお、『リクナビDMPフォロー』は『リクナビ2020』利用企業向けに提供しているも ので、『リクナビ2021』利用企業には提供されておりません。そのため、『リクナビ 2021』をご利用の学生の皆さまにつきましては、同サービスの影響は一切ございません。 https://www.recruitcareer.co.jp/news/pressrelease/2019/190805-01/
  45. 8/1 時点, 最初のプレスリリース • <サービスの内容> リクナビDMPフォローは、当該採用企業における前年度の応募学生のリクナビ 上での行動ログなどのデータを解析の対象に、その企業に対する応募行動につい てのアルゴリズムを作成します。そこに、今年度に当該採用企業に応募する学生 の行動ログを照合。その結果を「採用選考のプロセスが途絶えてしまう可能性」 として企業に提示することで、企業は適切なフォローを行うことができ、学生に

    とっては、企業とのコミュニケーションを取る機会を増やすことができます。 • 学生の応募意思を尊重し、合否の判定には当該データを活用しないことを企業に 参画同意書として確約いただいています。コミュニケーション不足による「学生 からの辞退」という企業学生双方にとって不本意なマッチングに終わりかねない 状況に対し、誰に、いつ、どのようなフォローを行うかというコミュニケーショ ン設計の一助にしてもらうことを目的に、提供してきました。 • なお、本サービスは、2018年3月のサービス開始以降、38社に対して、試験的な 運用を積み重ねてきました。 https://www.recruitcareer.co.jp/news/pressrelease/2019/190801-02/
  46. 最初のプレスリリース (cont.) • 【本サービスにおける個人情報の取り扱いについて】 これまで本サービスでは、学生が当社の就職情報サイト「リクナビ」にご登録いただく際にご同意 いただいたプライバシーポリシーに基づき、リクナビサイト上での行動履歴の解析結果を取引企業 に対して提供しておりました。 プライバシーポリシー https://job.rikunabi.com/2020/general/move/?screen=navg/help/privacy_policy.html •

    なお、本サービスで企業に提供されるデータは、リクナビの閲覧データをもとに算出されたスコア であり、学生の能力を推し量るものではありません。この点、いかなる時期であっても提供された 情報を合否の判定に活用しないことにご同意いただいた企業にのみ、本サービスをご提供してきま した。ご利用いただいている企業には当社から定期的に利用状況の確認をさせていただいておりま す。 【今後の対応につきまして】 本サービスの提供にあたっては、各種法令にも照らしつつ、学生の個人情報保護を最優先にサービス の設計や各種規約を整備してまいりました。しかしながら、昨今では個人情報保護に関する社会の認 識も大きく変化しております。海外におけるルール整備の潮流も受け、本日の一部報道にもあります 通り、関係各所から当社のプライバシーポリシーの表現が学生に伝わりにくいものとなっているので はないかとご意見をいただきました。こうした背景から、2019年7月31日(水)をもって、サービス 提供を一時休止させていただくことを決めました。学生の個人情報がどのように企業に提供されてい くのか、よりわかりやすい表現や説明方法を検討し終えるまで、本サービスは一時的に休止いたしま す。このたびは、多大なご迷惑をおかけしますこと、申し訳ございません。 https://www.recruitcareer.co.jp/news/pressrelease/2019/190801-02/
  47. 毎日新聞の論説 • “政府の個人情報保護委員会は、リクナビを運営するリ クルートキャリアが学生に無断で「内定辞退率」予測を 売ったのは個人情報保護法に違反すると認定し、是正勧 告を出した。委員会発足以来初の勧告だった。 • 委員会は「人生を左右しうる就職に関する個人情報を 扱いながら、適切な法令順守を行っていない」と指弾し た。だが、違法と認定されたのは「内定辞退率」を販売

    された就活生約7万5000人のうち、約8000人に 過ぎない。 • リクナビ側が会員登録時のプライバシーポリシー(個 人情報の利用規約)で「採用活動補助のために利用企業 に情報提供することがある」と記していたからだ。大半 の就活生は、この説明で「内定辞退率」の算出や企業へ の販売に同意したとみなされていた。違法とされたのは、 事務手続きの不備で形式的な同意さえ取っていなかった 分だけだ。 • 保護法は、企業が集めた個人データを第三者に提供す る場合、原則として本人に事前の同意を取ることを義務 付けている。ただ、「同意」の定義が明確でなく、リク ナビのようなあいまいな説明でも通用してしまう問題が ある。” https://mainichi.jp/articles/20190919/ddm/004/070/016000c
  48. Case3; SNS に自分の子どもの写真をアッ プするのはOKか? • “オーストリアの10代の女の子が、自分の「恥ずかしい私的な」赤 ちゃんの頃の写真をFacebookに投稿した両親を訴えている。 • オーストリアに住む18歳の女性が両親を訴えた。ネット上で500枚 以上の彼女の写真を友人たちに公開した両親のことを、彼女は「恥

    も限度も知らない」と主張している。 • ラミ弁護士は原告の主張について次のように述べた。「両親は恥も 限度も知りませんでした。私がトイレに座っている写真でも裸で ベッドに寝ている写真でも気にしませんでした。私の人生のあらゆ る場面が写真に撮られて公開されました」 • 彼女は何度も画像の削除をお願いしたが両親は拒否した。彼女はこ う説明する。「両親が真剣に考えてくれないことに疲れました」” 引用: https://www.huffingtonpost.jp/2016/09/15/sharing-childhood- photographs_n_12038116.html?ncid=fcbklnkjphpmg00000001
  49. Privacy and Confidentially • 従来のデータ分析 • 統計表になっていれば、個人属性の情報や企業情報は集約されること で消えていた • ビッグデータ時代の分析

    • 統計表では解析できない、ロングテールを解析することで興味深い ファクトを見つけ出すことが出来る • 個人がマスクされている情報を用い解析することが重要だが、複数の データソースを組み合わせることで、どこの誰か特定出来てしまう
  50. データに含まれている個人情報 • 特許データ • 発明者の所属, 自宅またはオフィスの住所 • 論文データ • 著者の所属,

    オフィスの住所, メールアドレス • 家計調査データ • 年収、家族構成、性別 etc… ⇒ 実証的に経済学の課題を理論に基づき解析するにはこれらのデータを 用いることが必要不可欠。だが、こうしたデータを使うときには、個人 情報への留意が重要。
  51. Definition: Privacy and Confidentially • Privacy • Privacy encompasses not

    only the famous ‘right to be left alone’ or keeping one’s personal matters and relationships secret, but also the ability to share information selectivity but not publicly. • Confidentially • Confidentiality is preserving authorized restrictions on information access and disclosure, including means for protecting personal privacy and proprietary information.
  52. Privacy Utility Tradeoff Initial Utility/Privacy Frontier Frontier after increase in

    external Data U* utility P2 P1 Privacy ・プライバシーと、データの可用性に よる利便性の間にはトレードオフの関 係 ・データが外部化されると、プライバ シーを確保するのは困難になる
  53. 多変量解析におけるプライバシーの課題 • 特定のグループやサブサンプルにおける特性を抽出すると、最 終的には何処の誰かか抽出出来てしまう • Ex. ) 特定の家計や所得のグループが特定のひとりの場合, 個人が特定 出来る

    • 具体例 • 国立大学法人一橋大学の役職員の報酬・給与等について • http://www.hit-u.ac.jp/guide/information/salary.html • 教授はともかく、該当する役職が1-2名の給与は公開されていない
  54. だけど, ロングテイルにビッグデータ解 析の面白みはある • 代表調査やサンプリング調査 ではわからない、特定グルー プの解析が可能になる • 「気温が30度になると、みん なコンビニでアイスクリーム

    を買う」ではなくて、「8月 の第三週にコンビニのおでん は売れ始める」をデータで解 析出来たほうが興味深い • ロングテイル (Long Tail)
  55. ローソン、ビッグデータ分析で「街」を もっと幸せに • “徒歩5分以内、距離にして半 径わずか354メートルという 狭い商圏で競い合う” • “ローソンの場合は、わずか1 割に過ぎない「ヘビーユー ザー」の売り上げが全体の6

    割以上を占め、これに「ミド ルユーザー」を加えた約25% の顧客の売り上げ比率は8割 以上になる” 引用: https://marketing.itmedia.co.jp/mm/articles/1303/07/news024.html
  56. None
  57. 夏におでんが売れるのはなぜ? コンビニ 大手3社に聞いてみると... • “7月に梅雨明けし、暑くなると人は冷 たいものを好む。だがそれも8月にな ると、暑さにも慣れたことに加え、冷 たいものばかりだと飽きてくることか ら、おでんといった温かいものを食べ るようになるのだという。また、暑い

    日と涼しい日があったりと、気温差や 肌寒さからも好まれるのだそうだ。 • 具材としては、冬にも人気のある大 根、卵、白滝がよく売れているという。 “ 引用: https://www.j-cast.com/2017/08/28306704.html
  58. The Importance of activity in the tails • The Latest

    Data indicate that more than 20 percent of all personal health care spending in 2009 ($275 billion) was on behalf of just 1 percent of the population.
  59. データの接合により個人が特定できてし まう危険性 家計調査 個人名 年収 性別 婚姻有無 職業 ID 住所

    郵便番号 特許データベース 個人名 特許名 特許概要 発明者住所 発明者郵便番号 特許 Claim 特許番号 この2つを組み合わせると、ある発明者A がどこに住んでいて、どれだけ特許を出し ていて 年収がいくらで、結婚の有無、性別などが すべて特定出来てしまう
  60. データの接合により個人が特定できてし まう危険性(cont.) 家計調査 個人名 年収 性別 婚姻有無 職業 ID 住所

    郵便番号 特許データベース 個人名 特許名 特許概要 発明者住所 発明者郵便番号 特許 Claim 特許番号 そこで、家計調査などのデータベースは個 人名や住所の細かな情報がマスクされる ⇒ ところが, 住所の一部, 郵便番号などを用 い, 尤度を測定することでデータベース間を 接合することで特定出来てしまう可能性が ある
  61. データの接合により個人が特定できてし まう危険性(cont..) 家計調査 個人名 年収 性別 婚姻有無 職業 ID 住所

    郵便番号 特許データベース 個人名 特許名 特許概要 発明者住所 発明者郵便番号 特許 Claim 特許番号 SNS 個人名 アカウント名 犬の名前 周辺の地図 よく行くレストラン ママ友 子供の好きなおもちゃ データの帰属のあいまいなデータを接合する ことで、より個人の情報を把握できる可能性 がある
  62. “The Trueman Show”

  63. Knowledge is Power • “Big Data” has great potential to

    benefit society. At the same time, its availability creates significant potential for mistaken, misguided or malevolent uses of personal information. • The conundrum for the law is to provide space for big data to fulfill its potential for social benefit, while protecting citizens adequately from related individual and social harms. Current privacy law evolved to address different concerns and must be adapted to confront big data’s challenges.”
  64. 従来 (またはビッグデータ時代以前) の データセット • PII 情報の管理さえに留意していれば、データの接合でプライ バシーが流出することは防げていた • PII

    (Personal Identifiable Information) • Any Information About an individual maintained by an agency, including (1) any information that can be used to distinguish or trace an individual’s identity, such as name, social security number, data and place of birth, mother’s maiden name, or biometric records; and (2) any other information that is linked or linkable to an individual, such as medical, educational, financial, and employment information. • 日本の場合 • 保険番号, パスポート番号, 名前, 住所, マイナンバー(ここ数年)
  65. データバイアス • リサーチクエスチョンに正しく 対応しないデータセットを選ん でしまう危険性 • 対照群 (control group) が設定

    されていない危険性 • “Similarly, overreliance on, say, Twitter Data, in targeting resources after harricanes can lead to misallocation of resources towards young, Internet-savvy people with cell phones and away from elderly or impoverished neighbourhoods” https://azanaerunawano5to4.hatenablog.com/ entry/2015/09/03/101948
  66. データインフラストラクチャの重要性 • 個人の匿名性を担保した上で、マイクロなデータを含むデータセッ トを提供することで、「安全な」ビッグデータ解析を可能にする • アメリカ • Sloan Digital Sky

    Survey • Polymath project • Longitudinal Business Database • Longitudinal Employer Household Dynamics • ヨーロッパ • RISIS • 日本 • 東京大学社会科学研究センター • CAREE/TDB
  67. SSJDA • https://csrda.iss.u-tokyo.ac.jp/

  68. データの提供形態 • 統計局におけるデータ提供形式 • 表形式の集約データ/統計表 • ライセンス契約に基づく Raw Data の提供

    • セマンテックデータでの提供 (これも講義の別の回で詳しく) • EUの場合 • RDF などのセマンテックデータの提供度合いが高まりつつある • 日本の場合 • Excel の統計表または, (フォントが埋め込まれていない)PDF データが 中心
  69. Statistical Disclosure control Techniques • Statistical Disclosure Control • Concepts

    and Methods that ensure the confidentiality of micro and aggregated that are to be published. It is methodology used to design statistical outputs in a way that someone with access to that output cannot relate a known individual (or other responding unit) to an element in the output.
  70. データの提供形態 (cont.) • 統計表 • 他のデータセットと接合できないため、マクロまたはメソレベルでの 解析にとどまってしまう • 分散表などの提供も •

    個人データをマスクした形式での提供 • 個人の再特定が可能な場合も (前述) • ライセンス契約ベースの提供になるので、管理が煩雑に • セマンテックデータでの提供 • 個人は特定されない • メタ化された情報同士をつなぎ合わせるので、個人IDを保有する必然 性がない
  71. Research Data Centers • 特定のデータセットを, SaaS 形式で提供する • 個人の研究者が、ローカルに データを保持する必要性が生

    じない • マスクあるいは処理された データのみを入手可能 • 日本だと限定的 • ヨーロッパだとRISISが代表 的
  72. ビッグデータを匿名化することは可能か? • “It is also nearly impossible to anonymize data.

    Big Data are often structured in such a way that essentially everyone in the file is unique, either because so many variables exist or because they are so frequent or geographically detailed, that they make it easy to reidentify individual pattarns.” • “There are no data stewards controlling access to individual data. Data are often so interconnected (think social media network data) that one person’s action can disclose information about another person without that person even knowing that their data are being accessed.”
  73. Tカード、「個人情報を令状なしで警察に提 供」に批判 個人情報保護委員会に問題ない か聞いてみた • ポイントカード「Tカード」を運営するカ ルチュア・コンビニエンス・クラブ(以 下、CCC)が、利用者の会員情報や利用 履歴を令状なしで捜査機関に提供してい たとの報道を受け、議論を呼んでいます。

    • “CCCは「2012年から、『捜査関係事項照 会書』があった場合にも、(中略)捜査 機関に協力してまいりました」とコメン トしています。これについて個人情報保 護委員会に聞いたところ、「個別の案件 について、報道の内容だけでマルかバツ かは言いづらいものの、限りなく法令に 基づくものと考えられます」とコメント。 また、法令に基づく照会に対する個人情 報提供は、行うことを利用規約に書いて いなくても「全く問題ない」との見解で した。” 引用: https://nlab.itmedia.co.jp/nl/articles/1901/24/news080 .html
  74. • Refrain • 大学生松本か和田か坂上か浜田かこじるりのいずれかがSNSに投稿す れば、彼らが酒を飲んでいいることはスピルオーバーしてしまう • リクナビの情報を組み合わせれば, どこの大学のどういう属性の学生は, この企業に就職する可能性が類推できる

  75. 個人のデータを如何に保護するか? • “Rather than attempt to deanonymize medical records, for

    instance, an attacker (or commercial actor) might instead infer a rule that relates a string of more easily observable or accessible indicators to a specific medical condition, rendering large populations vulnerable to such inferences even in the absence of PII. Ironically, this is often the very thing about big data that generate the most excitement: the capability to detect subtle correlations and draw actionable inferences. But it is this same feature that renders the traditional protections afforded by anonymity (again, more accurately, pseudosymmetry) much less effective.”
  76. 個人のデータを如何に保護するか? (cont.) • The Value of Anonymity inheres not in

    namelessness, and not even in the extension of the previous value of namelessness to all uniquely identifying information, but instead to something we called “reachability, ” the possibility of knocking on your door, hauling you out of bed, calling your phone number, threatening you with sanction, holding you accountable – with or without access to identifying information.
  77. 日本での事例 • “問題提起型の投稿は、世間の関心を集めやすいため、アクセス数を稼ぎたいまとめサイ トの管理人がすぐに寄ってきて記事を引用していきます。 • まとめサイトは投稿の内容を深堀りするため、最初のtwitterでの投稿からさらに細かな 情報を調査や憶測などによって枝葉をつけていきます。” • “人は、そんな馬鹿な行為をしたのが誰なのか、無意識のうちに特定したくなるため、ど んどんコメントが増えてアクセスも増えていきます。そうするうちに、画像に写ってい

    るわずかな情報から、 「あれ、こいつら3年2組の〇〇たちじゃないのか」 という投稿が出始めます。 万が一ここで個人名が出てしまうと、一斉にその個人名での検索が始まります。 • ここで仇となるのがInstagramやfacebookです。これらに公開制限をかけていない場合、 ことの真相を知りたい輩が、一気にアクセスしてきてその人の個人情報をどんどん吸い 出していきます。出身地、生年月日、学校、家族構成など、公開設定している情報につ いては、容赦なく漏洩していきます。” • なにかしらネットのトピックになった名前で検索すると、すぐに情報が出てくる。 引用: https://fuhyotaisaku-law.com/flames/personalinformation
  78. Legal and Ethical Framework • “The Most Data are housed

    no longer in statistical agencies, with well-defined rules of conduct, but in businesses or administrative agencies. In addition, since digital data can be alive forever, ownership could be claimed by yet-to-be-born relatives whose personal privacy could be threatened by release of information about blood relations.” • “Traditional regulatory tools for managing privacy, notice, and consent have failed to provide a viable market mechanism allowing a form of self-regulation governing industry data collection”
  79. Legal and Ethical Framework (cont.) • (1) Rules take into

    account the varying levels of inherent risk to individuals across different data sets • (2) traditional definitions of PII need to be rethought • (3) regulation has a role in creating and policing walls between data sets • (4) those analyzing big data must be reminded, with a frequency in proportion to the sensitivity of the data, that they are dealing with people • (5) the ethics of big data research must be an open topic for continual reassessment.
  80. ビッグデータ時代におけるデータの使い方 • データに含まれる個人情報のあり方を検討 • データの管理および提供方法の改善。従来のクライアント= サーバ型にとらわれないデータ提供のあり方を模索する必要が あり • アメリカおよびヨーロッパでは具体的なシステムが運用されつつある •

    セマンテック型データなど、新たなデータ管理・運用手法の検 討の必要性 • 社会科学者だけではなく、情報工学などの専門家との協業の重 要性
  81. Privacy Utility Tradeoff Initial Utility/Privacy Frontier Frontier after increase in

    external Data U* utility P2 P1 Privacy ・テクノロジーとそれに関連する法制 度の整備によって、 utility と privacy を高い精度で両立できる可能性
  82. 2. データ入手から解析まで のケーススタディ (グッドデザイン賞)

  83. グッドデザイン賞とは? • グッドデザイン賞は、様々に展開される事象の中 から「よいデザイン」を選び、顕彰することを通 じ、私たちのくらしを、産業を、そして社会全体 を、より豊かなものへと導くことを目的とした公 益財団法人日本デザイン振興会が主催する「総合 的なデザインの推奨制度」です。 • その母体となったのは、1957年に通商産業省(現

    経済産業省)によって創設された「グッドデザイ ン商品選定制度(通称Gマーク制度)」であり、 以来約60年にわたって実施されています。その対 象はデザインのあらゆる領域にわたり、受賞数は 毎年約1,200件、60年間で約44,000件に及んでいま す。また、グッドデザイン賞を受賞したデザイン には「Gマーク」をつけることが認められます。 「Gマーク」は創設以来半世紀以上にわたり、 「よいデザイン」の指標として、その役割を果た し続けています。 引用: http://www.g-mark.org/about/ 2019/11/27 Appale Hare 2017 83
  84. グッドデザイン賞データベース • http://www.g-mark.org/award/ 2019/11/27 Appale Hare 2017 84

  85. 収録されている情報 • 製品名 • 事業主体名 • 分類 • 受賞企業 •

    受賞概要 • プロデューサー • ディレクター • デザイナー • 販売地域 • 受賞対象の詳細 • 背景 • デザインコンセプト • 開発の意義 • 創意工夫 • デザイナーの想い • 審査委員の評価 • 担当審査委員 2019/11/27 Appale Hare 2017 85
  86. グッドデザイン賞データベースを使って できそうなこと • 製品データベースとしての活用 • 意匠、特許や論文データベースと接合することで、デザイナーや研究開発チームがどの ようにR&D を行いプロダクトを構築しているか? • そもそも、企業はどういう分野に製品を出しているか?

    • デザインや技術のクオリティは製品のクオリティに対してどのように作用するか? • ???「特許の数数えてもしょうがないよね・・・」 • 意匠と特許間のリンケージ • デザイン評価データベースとしての活用 • デザインのトレンドやデザイナーの思考・志向がどのように変化してきたか • 何か外生的なイベントがデザインのトレンドに作用したか • デザイナーは外部から調達(コラボレーション)するのか?In-house なのか? • デザイナーのキャリアはどのように変化しているか? • 以下のような意匠データベースの限界を補完する • 特定分野のみに偏っている可能性 • 意匠の出願性向は企業により大きく異なること (吉岡・秋池 2017) 2019/11/27 Appale Hare 2017 86
  87. データを貰うまでの経緯 • 早稲田大学+東京大学の先生とデザインに着目した研究を行う ことになる • グッドデザイン賞に着目 • データを貰いにいく • 多くの場合Web

    スクレイピングでデータが取得されているため、サー バの維持管理費が増加していることを知る • そこで、データの公開をしてもらうことに • CSV およびJSON 形式でデータを入手
  88. グッドデザイン賞データベー スの初期的な解析

  89. グッドデザイン賞データベースの構成 • award_id データベース上の受賞ID • award_no 受賞製品に付与された整理番 号 • award_year

    受賞年 • name 受賞製品名・製品分野名 • brand 受賞製品ブランド名 • business 製造事業者名 • domain 受賞部門名 • category 受賞カテゴリー(製品分野) 名 • producer プロデューサー名 • director ディレクター名 • designer デザイナー名 • release_date-year 受賞製品発売開始年 • release_date-month 受賞製品発売開始月 • release_date-day 受賞製品発売開始日 • price_type 価格属性: 取りうる値={販売価格、総事業費} • Pricerange_start 最低価格 • Pricerange_end 上限価格 • Price_unit 価格の単位 • outline 受賞対象の概要記載の「概 要」:受賞者によるもの • designer_message 受賞対象の詳細記載 の「デザイナーのコメント」 • jury_comment 審査委員の評価 2019/11/27 Appale Hare 2017 89
  90. グッドデザイン賞受賞数推移 • 公募形式となった1963年か ら増加 • 1975年から急増し、対象領 域が拡大した1984年の翌年、 1985年に1,390点に • 1998年に向けて減少するが、

    同年にグッドデザイン賞が 民営化されて以降、受賞数 は増加傾向に 0 200 400 600 800 1,000 1,200 1,400 1,600 1958 1961 1964 1967 1970 1973 1976 1979 1982 1985 1988 1991 1994 1997 2000 2003 2006 2009 2012 2015 グ ッ ド デ ザ イ ン 賞 受 賞 数 2019/11/27 Appale Hare 2017 90
  91. 特別賞の受賞推移 • 1980年以降特別賞が採録 • 時代に応じて様々な特別 賞が付与 • 特別賞 • 特別賞内訳

    8 8 0 0 14 157 391 453 688 373 350 278 184 58 348 1,594 1,681 1,561 3,989 5,151 4,752 3,836 5,354 5,123 5,632 2,443 0 1,000 2,000 3,000 4,000 5,000 6,000 7,000 1950年代後半 1960年代前半 1960年代後半 1970年代前半 1970年代後半 1980年代前半 1980年代後半 1990年代前半 1990年代後半 2000年代前半 2000年代後半 2010年代前半 2010年代後半 受 賞 数 特別賞なし 特別賞あり 0 100 200 300 400 500 600 700 800 1950年代後半 1960年代前半 1960年代後半 1970年代前半 1970年代後半 1980年代前半 1980年代後半 1990年代前半 1990年代後半 2000年代前半 2000年代後半 2010年代前半 2010年代後半 特別賞受賞数 その他特別賞 ロングライフデザイン グッドデザイン外国商品賞 中小企業庁長官賞 グッドデザイン金賞 グッドデザイン大賞 2019/11/27 Appale Hare 2017 91
  92. グッドデザイン賞特別賞詳細 No. 特別賞名 受賞数 1 グッドデザイン大賞 52 2 グッドデザイン金賞 562

    4 サステナブルデザイン賞 18 5 ライフスケープデザイン賞 15 6 グッドデザイン中小企業庁長官賞 430 7 日本商工会議所会頭賞 20 8 ユニバーサルデザイン賞 22 9 エコロジーデザイン賞 25 10 インタラクションデザイン賞 22 11 アーバンデザイン賞 5 12 デザインマネージメント賞 5 13 グッドデザインインターフェース賞 32 14 グッドデザイン外国商品賞 185 15 グッドデザイン景観賞 18 16 グッドデザイン福祉賞 33 17 メディアデザイン賞 1 18 グッドデザイン・プレゼンテーション特別賞 1 19 審査委員長特別賞 4 20 年度テーマ賞 2 21 日本産業デザイン振興会会長賞-家庭用メディア機器・ユーザーインストラクション 6 22 日本産業デザイン振興会会長賞-地球にやさしいデザイン 30 23 20周年中小企業庁長官賞(1977年) 3 24 20周年記念通産大臣賞(1977年) 1 25 20周年貿易局長賞(1977年) 10 26 特選(1957年、61年) 16 27 グッドデザインベスト100(大賞、金賞除く。2016年) 80 N.A. ロングライフデザイン 1,306 2019/11/27 Appale Hare 2017 92
  93. デザイン賞受賞分野 • デザイン賞の受賞製品分野 • 受賞分野40分野 (累計: 1位-10位) 0% 5% 10%

    15% 20% 25% 30% 35% 40% 45% 1960年代 1970年代 1980年代 1990年代 2000年代 2010年代 受 賞 製 品 内 シ ェ ア 家電機器 キッチン用品 情報機器 住宅設備 音響機器 AV機器 インテリア雑貨 構造物 0 1,000 2,000 3,000 4,000 5,000 6,000 7,000 家電機器 キッチン用品 情報機器 住宅設備 音響機器 AV機器 インテリア雑貨 構造物 調理器具 文房具 建築物 ファブリック 移動体 乗り物 光学機器 オフィス機器 照明器具 産業機器 食器 コンピュータ機器 スポーツ用品 オーディオプレーヤー 白物家電 オフィス家具 パソコン周辺機器 空調機器 椅子 電話機 公共設備 印刷機器 家具 自動車 テレビ 住宅 無線通信機 計測機器 鍋 カーテン 机 パソコン 2019/11/27 Appale Hare 2017 93
  94. 受賞企業の所属国 42778 1417 599 553 386 379 328 106 96

    95 87 81 68 57 48 33 32 32 32 29 25 19 14 12 12 11 11 11 11 10 7 6 5 5 4 4 4 4 3 2 2 1 1 1 1 1 1 1 1 1 1 33 日本 (空白) Korea Taiwan Thailand Germany U.S.A. Denmark Switzerland China Sweden Italy Hong Kong France U.K. Philippines Netherland Austria Malaysia Singapore 2019/11/27 Appale Hare 2017 94
  95. デザイン賞組織上位30社 順位 応募組織名(2016年時点の表記) 応募総数 1 パナソニック株式会社 3,620 2 株式会社東芝 1,327

    3 ソニー株式会社 998 4 シャープ株式会社 947 5 三洋電機株式会社 792 6 株式会社日立製作所 790 7 三菱電機株式会社 750 8 株式会社岡村製作所 503 9 キヤノン株式会社 424 10 コクヨ株式会社 401 11 日本電気株式会社 388 12 Samsung Electronics Co., Ltd. 344 13 株式会社JVCケンウッド 334 14 ヤマハ株式会社 271 15 株式会社イトーキ 264 16 株式会社リコー 258 17 株式会社川島織物セルコン 252 18 カシオ計算機株式会社 243 19 富士通株式会社 238 20 株式会社LIXIL 235 21 東芝ライテック株式会社 223 22 株式会社キングジム 215 23 オムロン株式会社 213 24 ヤマギワ株式会社 199 25 セイコーエプソン株式会社 199 26 日本軽金属株式会社 198 27 ブラザー工業株式会社 195 28 東洋佐々木ガラス株式会社 190 29 オリンパス株式会社 183 30 TOTO株式会社 172 2019/11/27 Appale Hare 2017 95
  96. まとめ • グッドデザイン賞データベースは何につかえる? • デザイン賞を企業のデザイン力の代理指標と位置づけ、その財務的なパ フォーマンスやその他のイノベーションパフォーマンスとの関係を分析する • デザイン賞の直接の経済効果を把握する • アプローチ:

    価格データ • デザインの価値の変遷を把握する • アプローチ: テキスト分析 • 他のデータベースと繋げて解析する • 特許/意匠/論文データベース • 財務データベース • ケーススタディのきっかけにする 2019/11/27 Appale Hare 2017 96
  97. 一橋大学で使えるデータセットのご紹介 • プレスリリースデータベース • 日経BP記事検索サービス • 日経NEEDS • 新聞・経済記事データベース •

    LexisNexis • 東洋経済デジタルコンテンツライブラリー • 日経テレコン21 • 論文データベース • Web of Science • EBSCO Host • CiNII • Google Scholar • JSTOR • EconLit with Full Text • 財務データベース • 国際比較のためのデータベース • OECD iLibrary
  98. 日経BP記事検索サービス

  99. Science Direct で論文を検索する

  100. References (for today’s lecture) • Chapter 11: Privacy and Confidentiality

    in Big Data and Social Science, Stefan Bender, Deutsche Bundesbank, Ron S. Jarmin, US Census Bureau, Frauke Kreuter, University of Maryland, Julia Lane, NYU
  101. 成績評価の方法+ 次回予告

  102. 成績評価(1) • 平常レポート (40パーセント; 必須) • 講義計画に示したように、複数の回で学生にはレポートを課します。 レポートは Word/PowerPoint形式のメールあるいは, github

    経由で の提出が求められます(どの方法を採用するかは、初回の講義で決定し ます)。 • レポートには、(A.) 利用したデータセットとその内容, (B.) 分析の問 い, (C.) 分析手法, (D.) 分析結果 を明記する必要があります。ページ 数や文字数は問いませんが, これらの内容が含まれており, 講義中にア ナウンスする評価手法を満たす場合, 高い得点を得ることが出来ます。 • 平常点 (10パーセント) • 本講義は実習が多く含まれており, また取り扱うデータセットや内容も 多彩です。そのため、受講者同士が協力する必要があります。こうし た受講者の態度を評価するために、平常点を設けます。
  103. 成績評価(2) • 最終レポート (40パーセント; 必須) • 講義の最終回では最終レポートの報告会を行います。受講者は3名から4名か ら構成されるグループで、最終レポートの報告を行う必要があります(人数は 受講者の人数により変更される可能性があります)。最終レポートでは、プレ ゼンテーションの方法を学生は自由に選ぶことが出来ます。PowerPoint

    以 外にも、Prezi などのアクティブプレゼンテーションツールや、他のプレゼ ンテーション手法を用いることが出来ます(プレゼンテーションツールについ ては、必要であれば講義内で説明する機会を設けます)。最終レポートでは、 以下の点について評価を行います。 (A.) グループ内の役割分担 (B.) データセットのユニークさおよび、それが適切に処理されているか (C.) 分析手法のユニークさおよび、それが適切に解析されているか (D.) プレゼンテーションのユニークさ (E.) 質疑応答にうまくリプライすることが出来ているか • 最終レポートの360°グループ評価 (10パーセント) • 3. の最終レポートについて、グループの自己評価および他のグループからの 評価を行います。3. で挙げた評価ポイントに基づき、グループメンバーおよ び他のグループは評価を行います。
  104. 次回予告. データベースを用いた分析(1) 特許/論文データベース [座学、実習] • 知的財産研究所が提供するIIP パテン トデータベース (http://www.iip.or.jp/patentdb/)に 基づき、特許データを具体例として解

    析の実習を行います。 • 「どの企業が最も特許を出願している のか?」、「どのような分野に特許を 出願しているのか?」など、具体的な 問いを立てた上で、問いに基づきデー タを抽出することを目指します。 • 分析結果については、レポートとして 提出を行う必要があります。 • Clarivate Analytics 社が提供する Web of Science (https://clarivate.com/products/w eb-of-science/) では、論文の書誌情 報を取得することが出来ます。 • こうしたデータを用いることで、例え ば、「日本の大学で最も年ごとの論文 数が多いのは何処か?」、「(指導教 官の)◦◦先生が書いた論文はt年にx 本で、その論文は累計 y 回引用され た」などの情報を取得することが出来 ます。 • 前回と同様、学生は問いを立てた上で、 データベースから必要な情報を取得し 解析を行い、レポートに取りまとめる 必要があります。
  105. 特許データでわかること • どの企業が知的財産を、どのくらい生産しているか • 無形資産をどのくらい形成しているのか • 企業の研究開発がどのように行われているのか

  106. 1930s 1960s 1970s 1990s 2000s 青色LEDに至るまでの研究開発プロセス: 1910-2007 (1次引用すべて導入; 上位12社明記) 1980s

    引用: 清水2001
  107. 論文データでわかること • 1905年にアインシュタインが出した論文が、誰にどのくらい引 用されているのか? • 企業が基礎研究にどのくらい注力しているのか? • 大学はどのくらい論文を生産しているのか? • 「△△学部の◦◦先生」はy年にx個論文を出していて、それがt

    回引用されているか? • Web of Science; • 一橋学部生/院生は学内ネットワークよりアクセス可能
  108. Schumpeter 1947 の後方引用数推移(Web of knowledge) 11/27/2019 108

  109. THANKS yasushi.hara@r.hit-u.ac.jp