#経済学のための実践的データ分析 4.5 データの可用性とプライバシー

経済学のための実践的データ分析 4.5. データの可用性とプライバシー 28教室一橋大学大学院経済学研究科原泰史 [email protected]

確認事項 • 電源タップは足りているでしょうか？ • レポートはいかがでしょうか？

今週と来週の予定 • 11/25 第四回; SQL ことはじめ • 11/28 第五回; データの可用性とプライバシー
• 12/2; ハノイ出張のため休講 • 12/5 第六回; 特許/論文データベースの使い方

今日の内容: データの可用性とプライバシー • インターネットには様々な情報が掲載されています。あるいは、大学の図書館からデータベースにアクセスすれば、様々な情報を得ることが出来ます(一橋大学の場合は特に！)。 • しかしながら、データには個人情報や企業の機密情報などが含まれており、これらの適切に管理し運用することは極めて重要です。テキストブックの内容に基づき、説明を行います。

今日の内容 (105分) 1:レポート(1回目) の内容 2: ビッグデータ解析における利便性とプライバシーのトレードオフ 3: データを入手するまでのケーススタディと一橋大学におけるデータセット
の状況のご紹介

レポート1について

レポートの内容 • 概要 • Slack にアップロードされたデータセット (FIFA19, BBQ, Airbnb) から
ひとつを選び、 Jupyter Notebook/Google Colaboratory 上で解析し, 重回帰分析を行う • レポートでは • (1) 被説明変数と説明変数の関係性 • (2) R二乗項の値 • (3) VIF 値による, 多重共線性のチェックなどを報告した上で, 構築したモデルについて考察を行うこと • 提出期間: 2019/10/29 10:45:00 (JST) • 提出方法: Slack DM で提出すること

レポートの内容(2) • 引用文献がある場合, 末尾に明記すること • 文字数は問わない

データセット (その1) • FIFA19 Datasets • https://www.kaggle.com/karangadiya/fifa19 FIFA 19 に収録されている
フットボールプレイヤー選手の能力値や市場価値をまとめたデータ

データセット(その1)

Notebook の解説やっていること・Excel にしたデータをJupyter Notebook に取り込む (同じディレクトリにデータを入れておくこと) ・シートの1枚目
(0番目) を input_sheet_df にインポートする・input_sheet_df.head(10) で, データの 10番目までを表示する Messi や Ronaldo, Suarez などのデータが表示されていることが確認できる

Notebook の解説やっていること・説明変数と被説明変数をそれぞれの列から取り出す (.iloc [行, 列]で, 行を指定せず列のみを指定する)
・scipy.stats.lingress(説明変数, 被説明変数) で単回帰を回す・散布図および, 単回帰分析の結果をアウトプットする

Notebook の解説被説明変数; overall (ゲーム上での総合評価) 説明変数; age (年齢) 年齢が高くなるほど, 総合的な評価が高くなる
-> おそらく, 評価の高くない選手は引退している

Notebook の解説 sm.OLS(被説明変数, 定数項+説明変数) で回帰分析を行い, 結果を表として出力する被説明変数; overall (ゲーム上での総合評価)
説明変数; age (年齢) 定数項および説明変数はそれぞれプラスに有意だが, R修正項は高くない。

Notebook の解説 sm.OLS(被説明変数, 定数項+説明変数) で回帰分析を行い, 結果を表として出力する被説明変数; wage (年俸)
説明変数; age (年齢) 定数項はマイナス, 説明変数はプラスに有意だが, R修正項はかなり高くない。

Notebook の解説 • plt.scatter パッケージを用い, wage (年俸)とage(年齢) をプロットする •
30歳までは年俸は上昇していくが, その後下方トレンドがあることが確認できる • いくつか外れ値があることが確認できる

Notebook の解説 • Seaborn パッケージで, ヒストグラムと散布図を同時にプロットする • 年齢はF分布,
年俸はべき乗分布に近いことが確認できる • 外れ値はメッシやクリスティアーノロナウドなど.

Notebook の解説 • 同様に, 重回帰分析を sm.OLS パッケージを用いて行う • 説明変数が空の行を削除する
(x_list.drop… 以下) • 年齢とレピュテーション, 契約満期までの残り年数および評価値はプラスに有意, 定数項はマイナスに有意, 利き足ダミーは有意であるとはいえないことが確認できる

Notebook の解説 • VIF値を確認する (第二回の講義参照) • いずれも10は超えてないことが確認できる

Notebook の解説 • sns.pairplot を使って, 変数間の散布図および, ヒストグラムを表示する •
.savefig を用いて, 出力結果を保存する

わかること・年俸の分布はかなりskew ・年齢と年俸の単回帰の傾きは, 右利きと左利きでかなり違う(メッシエフェクト?) ・年齢が高くなると, 残りの契約期間は短くなる（自明）・国際的なレピュテーションと, 総合的な
評価は正の関係・年齢と総合的な評価もやはり正の関係 (生存バイアス)

データセット(その2) • Kansas City Barbeque Society Competition Results https://www.kaggle.com/jaysobel/kansas-city-barbeque-society- competition-results
• カンサスシティのバーベキューイベントのデータを集計したもの

データセット(その3) • New York City Airbnb Open Data • https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-
data

データセット(その3) • Columns • Id; listing ID • Name; name
of the listing • host_id; host ID • host_name; name of the host • neighbourhood_grouplocation • neighbourhoodarea • Latitude; latitude coordinates • Longitude; longitude coordinates • room_type; listing space type • Price; price in dollars • minimum_nights; amount of nights minimum • number_of_reviews; number of reviews • last_review; latest review • reviews_per_month; number of reviews per month • calculated_host_listings_count; amount of listing per host • availability_365; number of days when listing is available for booking

データセット(その3) 相関係数回帰分析

分析について • どれを説明変数/被説明変数にするかはおまかせします • サラリー and/or 市場価値 and/or 能力? •
BBQの経験回数？ • レビューの数? • ダミー変数の作成などもおまかせします

考えうる仮説 (FIFA19 の場合) • 選手の加齢は市場価値を押し下げる • クラブの移籍は選手のサラリーを押し上げる • 国際的な認知度は選手の市場価値を押し上げる •
現在の契約終了年までの期間が短いほど、市場価値を上げる • 南米出身の選手は、欧州出身の選手に比べサラリーの水準が低い • Etc…

レポートの評価方法 • Excellent • データおよび適切な分析手法に基づき、独自の視点で十分に考察がなされている • Good • データおよび適切な分析手法に基づき、独自の視点で考察がなされている •
Fair • データに対して分析が行われているが、一般的な範囲での考察にとどまる • Bad • 考察がなされていない，あるいはデータの解析が十分に行われていない • Failed • 断りなく他者の見解を引用している，その他不正行為に相当する

レポートの評価基準 • 説明の順序は適切か．特に重要な項目の抜けや漏れはないか． • 原典からの引用内容に事実誤認はないか． • 誤字脱字（誤植）はないか．文法上の誤りはないか．文法ルールが統一されているか． • 文章は明快か．誤解を招くような内容・表現はないか．
• 参照，引用のルールに準拠しているか．剽窃はないか． • 不正行為に相当する事項はないか． • 提出期限を厳守しているか．

FAQ • Q1. FIFA19 のデータセットが読み込めない！ • A1. 列数が1つずつズレている可能性が, iloc するところで+1
してみましょう. • Q2. Airbnb のデータセットだと, 説明力がどうやっても弱い！ • A2. 地域格差がかなりあるようです. そこをコントロールするとかなりきれいな結果になります.

データ解析におけるプライバシー, 機密性と利便性

Discussion • Q1. SNSはやっていますか？ • Q2. 実名を出していますか？ • Q3. 個人や現在の位置情報が特定されないように、投稿内容を
気をつけていますか？

Case Studies • Case1; 大学生の『呑み』写真 • Case2; リクナビ • Case3;
SNS にアップロードされた子どもの写真

学生が投稿する『呑み』写真だけでどこの大学のどこの誰か特定できる問題引用: https://twitter.com/ftv8ch/status/824935162928590848

学生が投稿する『呑み』写真だけでどこの大学のどこの誰か特定できる問題 (cont.) 引用: https://twitter.com/ftv8ch/status/824935162928590848 ・画像検索をして同一の人間を抽出する・ふたりグループの情報からデータを抽出する・真ん中に写っている人
物の過去の経歴とか, Dommune で特集された情報を抽出する → 個人のIDタグがなくても、(ダウンタウンや坂上忍でなくても、)どこの誰か特定できる。

Google 画像検索の結果

検索すれば、サジェストで住所や自宅が出てきてしまう

対策 • ツイッターやInstagram のアカウントを匿名 and/or 鍵にする • フェイスブックのアカウントは就職や就学の情報しか書き込まない。就職する前にアカウントを消す。 ⇒
それでも, 周辺のセマンティックな情報を組み合わせればどこの誰の情報か解析できる社会科学で(個人属性の多く含まれる)データを使うときには、プライバシーや機密性に留意する必要

Case2 https://www.recruitcareer.co.jp/news/pressrelease/2019/190805-01/

cont. • 【原因】リクナビでは、2019年3月に『リクナビDMPフォロー』について言及したプライバシーポリシーへ変更いたしました。学生の皆さまが使用する複数の画面においてプライバシーポリシーに同意いただくサイト構成になっていますが、一部の画面においてその反映ができていませんでした。 • また、プライバシーポリシー変更の際には、『リクナビDMPフォロー』で分析スコアの対象となるすべての学生から適切な同意が取得できるよう設計すべきところ、考慮が漏
れてしまっておりました。 • 【本件同意取得不備の対象となる学生の皆さま】『リクナビ2020』に会員登録されている学生の皆さまの内、2019年3月以降にプレエントリー・イベント予約・説明会予約・ウェブテスト受検等の機能を利用されていない方で、かつ、『リクナビDMPフォロー』を導入した企業への応募者の中で2019年3月以降に『リクナビDMPフォロー』の分析スコアの対象となった方 • ※なお、『リクナビDMPフォロー』は『リクナビ2020』利用企業向けに提供しているもので、『リクナビ2021』利用企業には提供されておりません。そのため、『リクナビ 2021』をご利用の学生の皆さまにつきましては、同サービスの影響は一切ございません。 https://www.recruitcareer.co.jp/news/pressrelease/2019/190805-01/

8/1 時点, 最初のプレスリリース • ＜サービスの内容＞リクナビDMPフォローは、当該採用企業における前年度の応募学生のリクナビ上での行動ログなどのデータを解析の対象に、その企業に対する応募行動についてのアルゴリズムを作成します。そこに、今年度に当該採用企業に応募する学生の行動ログを照合。その結果を「採用選考のプロセスが途絶えてしまう可能性」として企業に提示することで、企業は適切なフォローを行うことができ、学生に
とっては、企業とのコミュニケーションを取る機会を増やすことができます。 • 学生の応募意思を尊重し、合否の判定には当該データを活用しないことを企業に参画同意書として確約いただいています。コミュニケーション不足による「学生からの辞退」という企業学生双方にとって不本意なマッチングに終わりかねない状況に対し、誰に、いつ、どのようなフォローを行うかというコミュニケーション設計の一助にしてもらうことを目的に、提供してきました。 • なお、本サービスは、2018年3月のサービス開始以降、38社に対して、試験的な運用を積み重ねてきました。 https://www.recruitcareer.co.jp/news/pressrelease/2019/190801-02/

最初のプレスリリース (cont.) • 【本サービスにおける個人情報の取り扱いについて】これまで本サービスでは、学生が当社の就職情報サイト「リクナビ」にご登録いただく際にご同意いただいたプライバシーポリシーに基づき、リクナビサイト上での行動履歴の解析結果を取引企業に対して提供しておりました。プライバシーポリシー https://job.rikunabi.com/2020/general/move/?screen=navg/help/privacy_policy.html •
なお、本サービスで企業に提供されるデータは、リクナビの閲覧データをもとに算出されたスコアであり、学生の能力を推し量るものではありません。この点、いかなる時期であっても提供された情報を合否の判定に活用しないことにご同意いただいた企業にのみ、本サービスをご提供してきました。ご利用いただいている企業には当社から定期的に利用状況の確認をさせていただいております。【今後の対応につきまして】本サービスの提供にあたっては、各種法令にも照らしつつ、学生の個人情報保護を最優先にサービスの設計や各種規約を整備してまいりました。しかしながら、昨今では個人情報保護に関する社会の認識も大きく変化しております。海外におけるルール整備の潮流も受け、本日の一部報道にもあります通り、関係各所から当社のプライバシーポリシーの表現が学生に伝わりにくいものとなっているのではないかとご意見をいただきました。こうした背景から、2019年7月31日（水）をもって、サービス提供を一時休止させていただくことを決めました。学生の個人情報がどのように企業に提供されていくのか、よりわかりやすい表現や説明方法を検討し終えるまで、本サービスは一時的に休止いたします。このたびは、多大なご迷惑をおかけしますこと、申し訳ございません。 https://www.recruitcareer.co.jp/news/pressrelease/2019/190801-02/

毎日新聞の論説 • “政府の個人情報保護委員会は、リクナビを運営するリクルートキャリアが学生に無断で「内定辞退率」予測を売ったのは個人情報保護法に違反すると認定し、是正勧告を出した。委員会発足以来初の勧告だった。 • 委員会は「人生を左右しうる就職に関する個人情報を扱いながら、適切な法令順守を行っていない」と指弾した。だが、違法と認定されたのは「内定辞退率」を販売
された就活生約７万５０００人のうち、約８０００人に過ぎない。 • リクナビ側が会員登録時のプライバシーポリシー（個人情報の利用規約）で「採用活動補助のために利用企業に情報提供することがある」と記していたからだ。大半の就活生は、この説明で「内定辞退率」の算出や企業への販売に同意したとみなされていた。違法とされたのは、事務手続きの不備で形式的な同意さえ取っていなかった分だけだ。 • 保護法は、企業が集めた個人データを第三者に提供する場合、原則として本人に事前の同意を取ることを義務付けている。ただ、「同意」の定義が明確でなく、リクナビのようなあいまいな説明でも通用してしまう問題がある。” https://mainichi.jp/articles/20190919/ddm/004/070/016000c

Case3; SNS に自分の子どもの写真をアップするのはOKか？ • “オーストリアの10代の女の子が、自分の「恥ずかしい私的な」赤ちゃんの頃の写真をFacebookに投稿した両親を訴えている。 • オーストリアに住む18歳の女性が両親を訴えた。ネット上で500枚以上の彼女の写真を友人たちに公開した両親のことを、彼女は「恥
も限度も知らない」と主張している。 • ラミ弁護士は原告の主張について次のように述べた。「両親は恥も限度も知りませんでした。私がトイレに座っている写真でも裸でベッドに寝ている写真でも気にしませんでした。私の人生のあらゆる場面が写真に撮られて公開されました」 • 彼女は何度も画像の削除をお願いしたが両親は拒否した。彼女はこう説明する。「両親が真剣に考えてくれないことに疲れました」” 引用: https://www.huffingtonpost.jp/2016/09/15/sharing-childhood- photographs_n_12038116.html?ncid=fcbklnkjphpmg00000001

Privacy and Confidentially • 従来のデータ分析 • 統計表になっていれば、個人属性の情報や企業情報は集約されることで消えていた • ビッグデータ時代の分析
• 統計表では解析できない、ロングテールを解析することで興味深いファクトを見つけ出すことが出来る • 個人がマスクされている情報を用い解析することが重要だが、複数のデータソースを組み合わせることで、どこの誰か特定出来てしまう

データに含まれている個人情報 • 特許データ • 発明者の所属, 自宅またはオフィスの住所 • 論文データ • 著者の所属,
オフィスの住所, メールアドレス • 家計調査データ • 年収、家族構成、性別 etc… ⇒ 実証的に経済学の課題を理論に基づき解析するにはこれらのデータを用いることが必要不可欠。だが、こうしたデータを使うときには、個人情報への留意が重要。

Definition: Privacy and Confidentially • Privacy • Privacy encompasses not
only the famous ‘right to be left alone’ or keeping one’s personal matters and relationships secret, but also the ability to share information selectivity but not publicly. • Confidentially • Confidentiality is preserving authorized restrictions on information access and disclosure, including means for protecting personal privacy and proprietary information.

Privacy Utility Tradeoff Initial Utility/Privacy Frontier Frontier after increase in
external Data U* utility P2 P1 Privacy ・プライバシーと、データの可用性による利便性の間にはトレードオフの関係・データが外部化されると、プライバシーを確保するのは困難になる

多変量解析におけるプライバシーの課題 • 特定のグループやサブサンプルにおける特性を抽出すると、最終的には何処の誰かか抽出出来てしまう • Ex. ) 特定の家計や所得のグループが特定のひとりの場合, 個人が特定出来る
• 具体例 • 国立大学法人一橋大学の役職員の報酬・給与等について • http://www.hit-u.ac.jp/guide/information/salary.html • 教授はともかく、該当する役職が１－２名の給与は公開されていない

だけど, ロングテイルにビッグデータ解析の面白みはある • 代表調査やサンプリング調査ではわからない、特定グループの解析が可能になる • 「気温が30度になると、みんなコンビニでアイスクリーム
を買う」ではなくて、「8月の第三週にコンビニのおでんは売れ始める」をデータで解析出来たほうが興味深い • ロングテイル (Long Tail)

ローソン、ビッグデータ分析で「街」をもっと幸せに • “徒歩5分以内、距離にして半径わずか354メートルという狭い商圏で競い合う” • “ローソンの場合は、わずか1 割に過ぎない「ヘビーユーザー」の売り上げが全体の6
割以上を占め、これに「ミドルユーザー」を加えた約25％の顧客の売り上げ比率は8割以上になる” 引用: https://marketing.itmedia.co.jp/mm/articles/1303/07/news024.html

夏におでんが売れるのはなぜ? コンビニ大手3社に聞いてみると... • “7月に梅雨明けし、暑くなると人は冷たいものを好む。だがそれも8月になると、暑さにも慣れたことに加え、冷たいものばかりだと飽きてくることから、おでんといった温かいものを食べるようになるのだという。また、暑い
日と涼しい日があったりと、気温差や肌寒さからも好まれるのだそうだ。 • 具材としては、冬にも人気のある大根、卵、白滝がよく売れているという。 “ 引用: https://www.j-cast.com/2017/08/28306704.html

The Importance of activity in the tails • The Latest
Data indicate that more than 20 percent of all personal health care spending in 2009 ($275 billion) was on behalf of just 1 percent of the population.

データの接合により個人が特定できてしまう危険性家計調査個人名年収性別婚姻有無職業 ID 住所
郵便番号特許データベース個人名特許名特許概要発明者住所発明者郵便番号特許 Claim 特許番号この２つを組み合わせると、ある発明者A がどこに住んでいて、どれだけ特許を出していて年収がいくらで、結婚の有無、性別などがすべて特定出来てしまう

データの接合により個人が特定できてしまう危険性(cont.) 家計調査個人名年収性別婚姻有無職業 ID 住所
郵便番号特許データベース個人名特許名特許概要発明者住所発明者郵便番号特許 Claim 特許番号そこで、家計調査などのデータベースは個人名や住所の細かな情報がマスクされる ⇒ ところが, 住所の一部, 郵便番号などを用い, 尤度を測定することでデータベース間を接合することで特定出来てしまう可能性がある

データの接合により個人が特定できてしまう危険性(cont..) 家計調査個人名年収性別婚姻有無職業 ID 住所
郵便番号特許データベース個人名特許名特許概要発明者住所発明者郵便番号特許 Claim 特許番号 SNS 個人名アカウント名犬の名前周辺の地図よく行くレストランママ友子供の好きなおもちゃデータの帰属のあいまいなデータを接合することで、より個人の情報を把握できる可能性がある

“The Trueman Show”

Knowledge is Power • “Big Data” has great potential to
benefit society. At the same time, its availability creates significant potential for mistaken, misguided or malevolent uses of personal information. • The conundrum for the law is to provide space for big data to fulfill its potential for social benefit, while protecting citizens adequately from related individual and social harms. Current privacy law evolved to address different concerns and must be adapted to confront big data’s challenges.”

従来 (またはビッグデータ時代以前) のデータセット • PII 情報の管理さえに留意していれば、データの接合でプライバシーが流出することは防げていた • PII
(Personal Identifiable Information) • Any Information About an individual maintained by an agency, including (1) any information that can be used to distinguish or trace an individual’s identity, such as name, social security number, data and place of birth, mother’s maiden name, or biometric records; and (2) any other information that is linked or linkable to an individual, such as medical, educational, financial, and employment information. • 日本の場合 • 保険番号, パスポート番号, 名前, 住所, マイナンバー(ここ数年)

データバイアス • リサーチクエスチョンに正しく対応しないデータセットを選んでしまう危険性 • 対照群 (control group) が設定
されていない危険性 • “Similarly, overreliance on, say, Twitter Data, in targeting resources after harricanes can lead to misallocation of resources towards young, Internet-savvy people with cell phones and away from elderly or impoverished neighbourhoods” https://azanaerunawano5to4.hatenablog.com/ entry/2015/09/03/101948

データインフラストラクチャの重要性 • 個人の匿名性を担保した上で、マイクロなデータを含むデータセットを提供することで、「安全な」ビッグデータ解析を可能にする • アメリカ • Sloan Digital Sky
Survey • Polymath project • Longitudinal Business Database • Longitudinal Employer Household Dynamics • ヨーロッパ • RISIS • 日本 • 東京大学社会科学研究センター • CAREE/TDB

SSJDA • https://csrda.iss.u-tokyo.ac.jp/

データの提供形態 • 統計局におけるデータ提供形式 • 表形式の集約データ/統計表 • ライセンス契約に基づく Raw Data の提供
• セマンテックデータでの提供 (これも講義の別の回で詳しく) • EUの場合 • RDF などのセマンテックデータの提供度合いが高まりつつある • 日本の場合 • Excel の統計表または, (フォントが埋め込まれていない)PDF データが中心

Statistical Disclosure control Techniques • Statistical Disclosure Control • Concepts
and Methods that ensure the confidentiality of micro and aggregated that are to be published. It is methodology used to design statistical outputs in a way that someone with access to that output cannot relate a known individual (or other responding unit) to an element in the output.

データの提供形態 (cont.) • 統計表 • 他のデータセットと接合できないため、マクロまたはメソレベルでの解析にとどまってしまう • 分散表などの提供も •
個人データをマスクした形式での提供 • 個人の再特定が可能な場合も (前述) • ライセンス契約ベースの提供になるので、管理が煩雑に • セマンテックデータでの提供 • 個人は特定されない • メタ化された情報同士をつなぎ合わせるので、個人IDを保有する必然性がない

Research Data Centers • 特定のデータセットを, SaaS 形式で提供する • 個人の研究者が、ローカルにデータを保持する必要性が生
じない • マスクあるいは処理されたデータのみを入手可能 • 日本だと限定的 • ヨーロッパだとRISISが代表的

ビッグデータを匿名化することは可能か？ • “It is also nearly impossible to anonymize data.
Big Data are often structured in such a way that essentially everyone in the file is unique, either because so many variables exist or because they are so frequent or geographically detailed, that they make it easy to reidentify individual pattarns.” • “There are no data stewards controlling access to individual data. Data are often so interconnected (think social media network data) that one person’s action can disclose information about another person without that person even knowing that their data are being accessed.”

Tカード、「個人情報を令状なしで警察に提供」に批判個人情報保護委員会に問題ないか聞いてみた • ポイントカード「Tカード」を運営するカルチュア・コンビニエンス・クラブ（以下、CCC）が、利用者の会員情報や利用履歴を令状なしで捜査機関に提供していたとの報道を受け、議論を呼んでいます。
• “CCCは「2012年から、『捜査関係事項照会書』があった場合にも、（中略）捜査機関に協力してまいりました」とコメントしています。これについて個人情報保護委員会に聞いたところ、「個別の案件について、報道の内容だけでマルかバツかは言いづらいものの、限りなく法令に基づくものと考えられます」とコメント。また、法令に基づく照会に対する個人情報提供は、行うことを利用規約に書いていなくても「全く問題ない」との見解でした。” 引用: https://nlab.itmedia.co.jp/nl/articles/1901/24/news080 .html

• Refrain • 大学生松本か和田か坂上か浜田かこじるりのいずれかがSNSに投稿すれば、彼らが酒を飲んでいいることはスピルオーバーしてしまう • リクナビの情報を組み合わせれば, どこの大学のどういう属性の学生は, この企業に就職する可能性が類推できる

個人のデータを如何に保護するか？ • “Rather than attempt to deanonymize medical records, for
instance, an attacker (or commercial actor) might instead infer a rule that relates a string of more easily observable or accessible indicators to a specific medical condition, rendering large populations vulnerable to such inferences even in the absence of PII. Ironically, this is often the very thing about big data that generate the most excitement: the capability to detect subtle correlations and draw actionable inferences. But it is this same feature that renders the traditional protections afforded by anonymity (again, more accurately, pseudosymmetry) much less effective.”

個人のデータを如何に保護するか? (cont.) • The Value of Anonymity inheres not in
namelessness, and not even in the extension of the previous value of namelessness to all uniquely identifying information, but instead to something we called “reachability, ” the possibility of knocking on your door, hauling you out of bed, calling your phone number, threatening you with sanction, holding you accountable – with or without access to identifying information.

日本での事例 • “問題提起型の投稿は、世間の関心を集めやすいため、アクセス数を稼ぎたいまとめサイトの管理人がすぐに寄ってきて記事を引用していきます。 • まとめサイトは投稿の内容を深堀りするため、最初のtwitterでの投稿からさらに細かな情報を調査や憶測などによって枝葉をつけていきます。” • “人は、そんな馬鹿な行為をしたのが誰なのか、無意識のうちに特定したくなるため、どんどんコメントが増えてアクセスも増えていきます。そうするうちに、画像に写ってい
るわずかな情報から、「あれ、こいつら３年２組の〇〇たちじゃないのか」という投稿が出始めます。万が一ここで個人名が出てしまうと、一斉にその個人名での検索が始まります。 • ここで仇となるのがInstagramやfacebookです。これらに公開制限をかけていない場合、ことの真相を知りたい輩が、一気にアクセスしてきてその人の個人情報をどんどん吸い出していきます。出身地、生年月日、学校、家族構成など、公開設定している情報については、容赦なく漏洩していきます。” • なにかしらネットのトピックになった名前で検索すると、すぐに情報が出てくる。引用: https://fuhyotaisaku-law.com/flames/personalinformation

Legal and Ethical Framework • “The Most Data are housed
no longer in statistical agencies, with well-defined rules of conduct, but in businesses or administrative agencies. In addition, since digital data can be alive forever, ownership could be claimed by yet-to-be-born relatives whose personal privacy could be threatened by release of information about blood relations.” • “Traditional regulatory tools for managing privacy, notice, and consent have failed to provide a viable market mechanism allowing a form of self-regulation governing industry data collection”

Legal and Ethical Framework (cont.) • (1) Rules take into
account the varying levels of inherent risk to individuals across different data sets • (2) traditional definitions of PII need to be rethought • (3) regulation has a role in creating and policing walls between data sets • (4) those analyzing big data must be reminded, with a frequency in proportion to the sensitivity of the data, that they are dealing with people • (5) the ethics of big data research must be an open topic for continual reassessment.

ビッグデータ時代におけるデータの使い方 • データに含まれる個人情報のあり方を検討 • データの管理および提供方法の改善。従来のクライアント＝サーバ型にとらわれないデータ提供のあり方を模索する必要があり • アメリカおよびヨーロッパでは具体的なシステムが運用されつつある •
セマンテック型データなど、新たなデータ管理・運用手法の検討の必要性 • 社会科学者だけではなく、情報工学などの専門家との協業の重要性

Privacy Utility Tradeoff Initial Utility/Privacy Frontier Frontier after increase in
external Data U* utility P2 P1 Privacy ・テクノロジーとそれに関連する法制度の整備によって、 utility と privacy を高い精度で両立できる可能性

2. データ入手から解析までのケーススタディ (グッドデザイン賞)

グッドデザイン賞とは？ • グッドデザイン賞は、様々に展開される事象の中から「よいデザイン」を選び、顕彰することを通じ、私たちのくらしを、産業を、そして社会全体を、より豊かなものへと導くことを目的とした公益財団法人日本デザイン振興会が主催する「総合的なデザインの推奨制度」です。 • その母体となったのは、1957年に通商産業省（現
経済産業省）によって創設された「グッドデザイン商品選定制度（通称Ｇマーク制度）」であり、以来約60年にわたって実施されています。その対象はデザインのあらゆる領域にわたり、受賞数は毎年約1,200件、60年間で約44,000件に及んでいます。また、グッドデザイン賞を受賞したデザインには「Ｇマーク」をつけることが認められます。「Ｇマーク」は創設以来半世紀以上にわたり、「よいデザイン」の指標として、その役割を果たし続けています。引用: http://www.g-mark.org/about/ 2019/11/27 Appale Hare 2017 83

グッドデザイン賞データベース • http://www.g-mark.org/award/ 2019/11/27 Appale Hare 2017 84

収録されている情報 • 製品名 • 事業主体名 • 分類 • 受賞企業 •
受賞概要 • プロデューサー • ディレクター • デザイナー • 販売地域 • 受賞対象の詳細 • 背景 • デザインコンセプト • 開発の意義 • 創意工夫 • デザイナーの想い • 審査委員の評価 • 担当審査委員 2019/11/27 Appale Hare 2017 85

グッドデザイン賞データベースを使ってできそうなこと • 製品データベースとしての活用 • 意匠、特許や論文データベースと接合することで、デザイナーや研究開発チームがどのようにR&D を行いプロダクトを構築しているか？ • そもそも、企業はどういう分野に製品を出しているか？
• デザインや技術のクオリティは製品のクオリティに対してどのように作用するか？ • ？？？「特許の数数えてもしょうがないよね・・・」 • 意匠と特許間のリンケージ • デザイン評価データベースとしての活用 • デザインのトレンドやデザイナーの思考・志向がどのように変化してきたか • 何か外生的なイベントがデザインのトレンドに作用したか • デザイナーは外部から調達(コラボレーション)するのか？In-house なのか？ • デザイナーのキャリアはどのように変化しているか？ • 以下のような意匠データベースの限界を補完する • 特定分野のみに偏っている可能性 • 意匠の出願性向は企業により大きく異なること (吉岡・秋池 2017) 2019/11/27 Appale Hare 2017 86

データを貰うまでの経緯 • 早稲田大学+東京大学の先生とデザインに着目した研究を行うことになる • グッドデザイン賞に着目 • データを貰いにいく • 多くの場合Web
スクレイピングでデータが取得されているため、サーバの維持管理費が増加していることを知る • そこで、データの公開をしてもらうことに • CSV およびJSON 形式でデータを入手

グッドデザイン賞データベースの初期的な解析

グッドデザイン賞データベースの構成 • award_id データベース上の受賞ID • award_no 受賞製品に付与された整理番号 • award_year
受賞年 • name 受賞製品名・製品分野名 • brand 受賞製品ブランド名 • business 製造事業者名 • domain 受賞部門名 • category 受賞カテゴリー（製品分野）名 • producer プロデューサー名 • director ディレクター名 • designer デザイナー名 • release_date-year 受賞製品発売開始年 • release_date-month 受賞製品発売開始月 • release_date-day 受賞製品発売開始日 • price_type 価格属性: 取りうる値＝｛販売価格、総事業費｝ • Pricerange_start 最低価格 • Pricerange_end 上限価格 • Price_unit 価格の単位 • outline 受賞対象の概要記載の「概要」:受賞者によるもの • designer_message 受賞対象の詳細記載の「デザイナーのコメント」 • jury_comment 審査委員の評価 2019/11/27 Appale Hare 2017 89

グッドデザイン賞受賞数推移 • 公募形式となった1963年から増加 • 1975年から急増し、対象領域が拡大した1984年の翌年、 1985年に1,390点に • 1998年に向けて減少するが、
同年にグッドデザイン賞が民営化されて以降、受賞数は増加傾向に 0 200 400 600 800 1,000 1,200 1,400 1,600 1958 1961 1964 1967 1970 1973 1976 1979 1982 1985 1988 1991 1994 1997 2000 2003 2006 2009 2012 2015 グッドデザイン賞受賞数 2019/11/27 Appale Hare 2017 90

特別賞の受賞推移 • 1980年以降特別賞が採録 • 時代に応じて様々な特別賞が付与 • 特別賞 • 特別賞内訳
8 8 0 0 14 157 391 453 688 373 350 278 184 58 348 1,594 1,681 1,561 3,989 5,151 4,752 3,836 5,354 5,123 5,632 2,443 0 1,000 2,000 3,000 4,000 5,000 6,000 7,000 1950年代後半 1960年代前半 1960年代後半 1970年代前半 1970年代後半 1980年代前半 1980年代後半 1990年代前半 1990年代後半 2000年代前半 2000年代後半 2010年代前半 2010年代後半受賞数特別賞なし特別賞あり 0 100 200 300 400 500 600 700 800 1950年代後半 1960年代前半 1960年代後半 1970年代前半 1970年代後半 1980年代前半 1980年代後半 1990年代前半 1990年代後半 2000年代前半 2000年代後半 2010年代前半 2010年代後半特別賞受賞数その他特別賞ロングライフデザイングッドデザイン外国商品賞中小企業庁長官賞グッドデザイン金賞グッドデザイン大賞 2019/11/27 Appale Hare 2017 91

グッドデザイン賞特別賞詳細 No. 特別賞名受賞数 1 グッドデザイン大賞 52 2 グッドデザイン金賞 562
4 サステナブルデザイン賞 18 5 ライフスケープデザイン賞 15 6 グッドデザイン中小企業庁長官賞 430 7 日本商工会議所会頭賞 20 8 ユニバーサルデザイン賞 22 9 エコロジーデザイン賞 25 10 インタラクションデザイン賞 22 11 アーバンデザイン賞 5 12 デザインマネージメント賞 5 13 グッドデザインインターフェース賞 32 14 グッドデザイン外国商品賞 185 15 グッドデザイン景観賞 18 16 グッドデザイン福祉賞 33 17 メディアデザイン賞 1 18 グッドデザイン・プレゼンテーション特別賞 1 19 審査委員長特別賞 4 20 年度テーマ賞 2 21 日本産業デザイン振興会会長賞－家庭用メディア機器・ユーザーインストラクション 6 22 日本産業デザイン振興会会長賞－地球にやさしいデザイン 30 23 20周年中小企業庁長官賞（1977年） 3 24 20周年記念通産大臣賞（1977年） 1 25 20周年貿易局長賞（1977年） 10 26 特選（1957年、61年） 16 27 グッドデザインベスト100（大賞、金賞除く。2016年） 80 N.A. ロングライフデザイン 1,306 2019/11/27 Appale Hare 2017 92

デザイン賞受賞分野 • デザイン賞の受賞製品分野 • 受賞分野40分野 (累計: 1位-10位) 0% 5% 10%
15% 20% 25% 30% 35% 40% 45% 1960年代 1970年代 1980年代 1990年代 2000年代 2010年代受賞製品内シェア家電機器キッチン用品情報機器住宅設備音響機器 AV機器インテリア雑貨構造物 0 1,000 2,000 3,000 4,000 5,000 6,000 7,000 家電機器キッチン用品情報機器住宅設備音響機器 AV機器インテリア雑貨構造物調理器具文房具建築物ファブリック移動体乗り物光学機器オフィス機器照明器具産業機器食器コンピュータ機器スポーツ用品オーディオプレーヤー白物家電オフィス家具パソコン周辺機器空調機器椅子電話機公共設備印刷機器家具自動車テレビ住宅無線通信機計測機器鍋カーテン机パソコン 2019/11/27 Appale Hare 2017 93

受賞企業の所属国 42778 1417 599 553 386 379 328 106 96
95 87 81 68 57 48 33 32 32 32 29 25 19 14 12 12 11 11 11 11 10 7 6 5 5 4 4 4 4 3 2 2 1 1 1 1 1 1 1 1 1 1 33 日本 (空白) Korea Taiwan Thailand Germany U.S.A. Denmark Switzerland China Sweden Italy Hong Kong France U.K. Philippines Netherland Austria Malaysia Singapore 2019/11/27 Appale Hare 2017 94

デザイン賞組織上位30社順位応募組織名（2016年時点の表記）応募総数 1 パナソニック株式会社 3,620 2 株式会社東芝 1,327
3 ソニー株式会社 998 4 シャープ株式会社 947 5 三洋電機株式会社 792 6 株式会社日立製作所 790 7 三菱電機株式会社 750 8 株式会社岡村製作所 503 9 キヤノン株式会社 424 10 コクヨ株式会社 401 11 日本電気株式会社 388 12 Samsung Electronics Co., Ltd. 344 13 株式会社ＪＶＣケンウッド 334 14 ヤマハ株式会社 271 15 株式会社イトーキ 264 16 株式会社リコー 258 17 株式会社川島織物セルコン 252 18 カシオ計算機株式会社 243 19 富士通株式会社 238 20 株式会社LIXIL 235 21 東芝ライテック株式会社 223 22 株式会社キングジム 215 23 オムロン株式会社 213 24 ヤマギワ株式会社 199 25 セイコーエプソン株式会社 199 26 日本軽金属株式会社 198 27 ブラザー工業株式会社 195 28 東洋佐々木ガラス株式会社 190 29 オリンパス株式会社 183 30 ＴＯＴＯ株式会社 172 2019/11/27 Appale Hare 2017 95

まとめ • グッドデザイン賞データベースは何につかえる？ • デザイン賞を企業のデザイン力の代理指標と位置づけ、その財務的なパフォーマンスやその他のイノベーションパフォーマンスとの関係を分析する • デザイン賞の直接の経済効果を把握する • アプローチ:
価格データ • デザインの価値の変遷を把握する • アプローチ: テキスト分析 • 他のデータベースと繋げて解析する • 特許/意匠/論文データベース • 財務データベース • ケーススタディのきっかけにする 2019/11/27 Appale Hare 2017 96

一橋大学で使えるデータセットのご紹介 • プレスリリースデータベース • 日経BP記事検索サービス • 日経NEEDS • 新聞・経済記事データベース •
LexisNexis • 東洋経済デジタルコンテンツライブラリー • 日経テレコン21 • 論文データベース • Web of Science • EBSCO Host • CiNII • Google Scholar • JSTOR • EconLit with Full Text • 財務データベース • 国際比較のためのデータベース • OECD iLibrary

日経BP記事検索サービス

Science Direct で論文を検索する

References (for today’s lecture) • Chapter 11: Privacy and Confidentiality
in Big Data and Social Science, Stefan Bender, Deutsche Bundesbank, Ron S. Jarmin, US Census Bureau, Frauke Kreuter, University of Maryland, Julia Lane, NYU

成績評価の方法+ 次回予告

成績評価(1) • 平常レポート (40パーセント; 必須) • 講義計画に示したように、複数の回で学生にはレポートを課します。レポートは Word/PowerPoint形式のメールあるいは, github
経由での提出が求められます(どの方法を採用するかは、初回の講義で決定します)。 • レポートには、(A.) 利用したデータセットとその内容, (B.) 分析の問い, (C.) 分析手法, (D.) 分析結果を明記する必要があります。ページ数や文字数は問いませんが, これらの内容が含まれており, 講義中にアナウンスする評価手法を満たす場合, 高い得点を得ることが出来ます。 • 平常点 (10パーセント) • 本講義は実習が多く含まれており, また取り扱うデータセットや内容も多彩です。そのため、受講者同士が協力する必要があります。こうした受講者の態度を評価するために、平常点を設けます。

成績評価(2) • 最終レポート (40パーセント; 必須) • 講義の最終回では最終レポートの報告会を行います。受講者は3名から4名から構成されるグループで、最終レポートの報告を行う必要があります(人数は受講者の人数により変更される可能性があります)。最終レポートでは、プレゼンテーションの方法を学生は自由に選ぶことが出来ます。PowerPoint
以外にも、Prezi などのアクティブプレゼンテーションツールや、他のプレゼンテーション手法を用いることが出来ます(プレゼンテーションツールについては、必要であれば講義内で説明する機会を設けます)。最終レポートでは、以下の点について評価を行います。 (A.) グループ内の役割分担 (B.) データセットのユニークさおよび、それが適切に処理されているか (C.) 分析手法のユニークさおよび、それが適切に解析されているか (D.) プレゼンテーションのユニークさ (E.) 質疑応答にうまくリプライすることが出来ているか • 最終レポートの360°グループ評価 (10パーセント) • 3. の最終レポートについて、グループの自己評価および他のグループからの評価を行います。3. で挙げた評価ポイントに基づき、グループメンバーおよび他のグループは評価を行います。

次回予告. データベースを用いた分析(1) 特許/論文データベース [座学、実習] • 知的財産研究所が提供するIIP パテントデータベース (http://www.iip.or.jp/patentdb/)に基づき、特許データを具体例として解
析の実習を行います。 • 「どの企業が最も特許を出願しているのか？」、「どのような分野に特許を出願しているのか？」など、具体的な問いを立てた上で、問いに基づきデータを抽出することを目指します。 • 分析結果については、レポートとして提出を行う必要があります。 • Clarivate Analytics 社が提供する Web of Science (https://clarivate.com/products/w eb-of-science/) では、論文の書誌情報を取得することが出来ます。 • こうしたデータを用いることで、例えば、「日本の大学で最も年ごとの論文数が多いのは何処か？」、「(指導教官の)◦◦先生が書いた論文はt年にx 本で、その論文は累計 y 回引用された」などの情報を取得することが出来ます。 • 前回と同様、学生は問いを立てた上で、データベースから必要な情報を取得し解析を行い、レポートに取りまとめる必要があります。

特許データでわかること • どの企業が知的財産を、どのくらい生産しているか • 無形資産をどのくらい形成しているのか • 企業の研究開発がどのように行われているのか

1930s 1960s 1970s 1990s 2000s 青色LEDに至るまでの研究開発プロセス: 1910-2007 (1次引用すべて導入; 上位12社明記) 1980s
引用: 清水2001

論文データでわかること • 1905年にアインシュタインが出した論文が、誰にどのくらい引用されているのか？ • 企業が基礎研究にどのくらい注力しているのか？ • 大学はどのくらい論文を生産しているのか？ • 「△△学部の◦◦先生」はy年にx個論文を出していて、それがt
回引用されているか？ • Web of Science; • 一橋学部生/院生は学内ネットワークよりアクセス可能

Schumpeter 1947 の後方引用数推移(Web of knowledge) 11/27/2019 108

THANKS [email protected]

#経済学のための実践的データ分析 4.5 データの可用性とプライバシー

#経済学のための実践的データ分析 4.5 データの可用性とプライバシー

More Decks by yasushihara

Other Decks in Education

Featured

Transcript