Upgrade to Pro — share decks privately, control downloads, hide ads and more …

#経済学のための実践的データ分析 3.5 データの可用性とプライバシー

yasushihara
October 01, 2019

#経済学のための実践的データ分析 3.5 データの可用性とプライバシー

一橋大学 経済学部
経済学のための実践的データ分析 3.5 データの可用性とプライバシー
[email protected]

Contents
- Panel Data Analysis
- Privacy and Confidentiality

yasushihara

October 01, 2019
Tweet

More Decks by yasushihara

Other Decks in Education

Transcript

  1. 今日の内容 (105分) 0: パネルデータ分析 1:レポート(1回目) の内容 2: ビッグデータ解析における利便性とプ ライバシーのトレードオフ 3:

    データを入手するまでのケーススタ ディと一橋大学におけるデータセット の状況のご紹介
  2. Extension; パネルデータ解析 • パネルデータ • N 個の主体(人,企業,団体,県,国など)の各々に関して T 期間に わたって観測された

    データ • パネルデータのメリット • (a) データ数が増えることにより,自由度が大きくなるので,推定精度 が向上する. • (b) 主体間の異質性をモデルに取り込むことは,単一の時系列,あるい はクロスセクションのみでは不可能であるが,それが可能になる. • (c) 主体間の異質性は,一般に観測不可能な主体固有の要因であり,そ のような要因以外の全体の関係を分析することが主目的ならば,固有 の要因を除去した分析が可能である. Source: https://www-cc.gakushuin.ac.jp/~20130021/ecmr/panel.pdf
  3. Extension; パネルデータ解析 • = + ′ + (i =1 ,···,N;

    t =1 ,···,T) • このとき, 誤差項 は以下の仮定を満たす. • = 0, = { 2 = かつ = のとき , 0(その他) • ; 未知の係数ベクトル • ′ ; 説明変数の p*1 確率ベクトル • 誤差項との独立性が仮定される (狭義外生性; strict exogeneity) • ; 主体 i に特有の個別効果 (individual effect) Source: https://www-cc.gakushuin.ac.jp/~20130021/ecmr/panel.pdf
  4. Extension; パネルデータ解析 • 固定効果モデル (Fixed Effect Model) • を定数のパラメータと仮定する •

    変動効果モデル (Random Effect Model) • を主体ごとに独立な確率変数と仮定し, • = 0, 2 = 2, = 0 を満たす。
  5. レポートの内容 • 概要 • Slack にアップロードされたデータセット (FIFA19, BBQ, Airbnb) から

    ひとつを選び、 Jupyter Notebook/Google Colaboratory 上で解析し, 重回帰分析を行う • レポートでは • (1) 被説明変数と説明変数の関係性 • (2) R二乗項の値 • (3) VIF 値による, 多重共線性のチェック などを報告した上で, 構築したモデルについて考察を行うこと • 提出期間: 2019/10/4 13:15:00 (JST) • 提出方法: Slack DM で提出すること
  6. Slack で配布したNotebook 一覧 • https://hitu-econ- datascience.slack.com/archives/CNJ871EVC/p1569740573005300 • https://hitu-econ- datascience.slack.com/archives/CNJ871EVC/p1569740574005400 •

    https://hitu-econ- datascience.slack.com/archives/CNJ871EVC/p1569743658007700 • https://hitu-econ- datascience.slack.com/archives/CNJ871EVC/p1569743657007600
  7. データセット (その1) • FIFA19 Datasets • https://www.kaggle.com/karangadiya/fifa19 FIFA 19 に収録されている

    フットボールプレイヤー選手 の能力値や市場価値をまとめたデータ
  8. Notebook の解説 やっていること ・Excel にしたデータをJupyter Notebook に取り込む (同じディレクトリにデータを 入れておくこと) ・シートの1枚目

    (0番目) を input_sheet_df にインポートする ・input_sheet_df.head(10) で, データの 10番目までを表示する Messi や Ronaldo, Suarez などのデータ が表示されていることが確認できる
  9. Notebook の解説 やっていること ・説明変数と被説明変数をそれぞれの列か ら取り出す (.iloc [行, 列]で, 行を指定せず 列のみを指定する)

    ・scipy.stats.lingress(説明変数, 被説明変 数) で単回帰を回す ・散布図および, 単回帰分析の結果をアウ トプットする
  10. Notebook の解説 sm.OLS(被説明変数, 定数項+説明変数) で回帰分析 を行い, 結果を表として出力する 被説明変数; overall (ゲーム上での総合評価)

    説明変数; age (年齢) 定数項および説明変数はそれぞれプラスに有意だが, R修正項は高くない。
  11. Notebook の解説 sm.OLS(被説明変数, 定数項+説明変数) で回帰分析 を行い, 結果を表として出力する 被説明変数; wage (年俸)

    説明変数; age (年齢) 定数項はマイナス, 説明変数はプラスに有意だが, R修正項はかなり高くない。
  12. Notebook の解説 • plt.scatter パッケージを用い, wage (年俸)とage(年齢) をプ ロットする •

    30歳までは年俸は上昇してい くが, その後下方トレンドが あることが確認できる • いくつか外れ値があることが 確認できる
  13. Notebook の解説 • Seaborn パッケージで, ヒス トグラムと散布図を同時にプ ロットする • 年齢はF分布,

    年俸はべき乗分 布に近いことが確認できる • 外れ値はメッシやクリスティ アーノロナウドなど.
  14. Notebook の解説 • 同様に, 重回帰分析を sm.OLS パッケージを用いて 行う • 説明変数が空の行を削除する

    (x_list.drop… 以下) • 年齢とレピュテーション, 契 約満期までの残り年数および 評価値はプラスに有意, 定数 項はマイナスに有意, 利き足 ダミーは有意であるとはいえ ないことが確認できる
  15. データセット(その3) • Columns • Id; listing ID • Name; name

    of the listing • host_id; host ID • host_name; name of the host • neighbourhood_grouplocation • neighbourhoodarea • Latitude; latitude coordinates • Longitude; longitude coordinates • room_type; listing space type • Price; price in dollars • minimum_nights; amount of nights minimum • number_of_reviews; number of reviews • last_review; latest review • reviews_per_month; number of reviews per month • calculated_host_listings_count; amount of listing per host • availability_365; number of days when listing is available for booking
  16. 分析について • どれを説明変数/被説明変数にするかはおまかせします • サラリー and/or 市場価値 and/or 能力? •

    BBQの経験回数? • レビューの数? • ダミー変数の作成などもおまかせします
  17. 考えうる仮説 (FIFA19 の場合) • 選手の加齢は市場価値を押し下げる • クラブの移籍は選手のサラリーを押し上げる • 国際的な認知度は選手の市場価値を押し上げる •

    現在の契約終了年までの期間が短いほど、市場価値を上げる • 南米出身の選手は、欧州出身の選手に比べサラリーの水準が低 い • Etc…
  18. レポートの評価方法 • Excellent • データおよび適切な分析手法に基づき、独自の視点で十分に考察がなされている • Good • データおよび適切な分析手法に基づき、独自の視点で考察がなされている •

    Fair • データに対して分析が行われているが、一般的な範囲での考察にとどまる • Bad • 考察がなされていない,あるいはデータの解析が十分に行われていない • Failed • 断りなく他者の見解を引用している,その他不正行為に相当する
  19. 対策 • ツイッターやInstagram のアカウントを匿名 and/or 鍵にする • フェイスブックのアカウントは就職や就学の情報しか書き込ま ない ⇒

    それでも, 周辺のセマンティックな情報を組み合わせればどこ の誰の情報か解析できる 社会科学でデータを使うときには、プライバシーや機密性に留意 する必要
  20. cont. • 【原因】 リクナビでは、2019年3月に『リクナビDMPフォロー』について言及したプライバシー ポリシーへ変更いたしました。学生の皆さまが使用する複数の画面においてプライバ シーポリシーに同意いただくサイト構成になっていますが、一部の画面においてその反 映ができていませんでした。 • また、プライバシーポリシー変更の際には、『リクナビDMPフォロー』で分析スコアの 対象となるすべての学生から適切な同意が取得できるよう設計すべきところ、考慮が漏

    れてしまっておりました。 • 【本件同意取得不備の対象となる学生の皆さま】 『リクナビ2020』に会員登録されている学生の皆さまの内、2019年3月以降にプレエン トリー・イベント予約・説明会予約・ウェブテスト受検等の機能を利用されていない方 で、かつ、『リクナビDMPフォロー』を導入した企業への応募者の中で2019年3月以降 に『リクナビDMPフォロー』の分析スコアの対象となった方 • ※なお、『リクナビDMPフォロー』は『リクナビ2020』利用企業向けに提供しているも ので、『リクナビ2021』利用企業には提供されておりません。そのため、『リクナビ 2021』をご利用の学生の皆さまにつきましては、同サービスの影響は一切ございません。 https://www.recruitcareer.co.jp/news/pressrelease/2019/190805-01/
  21. 最初のプレスリリース • <サービスの内容> リクナビDMPフォローは、当該採用企業における前年度の応募学生のリクナビ 上での行動ログなどのデータを解析の対象に、その企業に対する応募行動につい てのアルゴリズムを作成します。そこに、今年度に当該採用企業に応募する学生 の行動ログを照合。その結果を「採用選考のプロセスが途絶えてしまう可能性」 として企業に提示することで、企業は適切なフォローを行うことができ、学生に とっては、企業とのコミュニケーションを取る機会を増やすことができます。 •

    学生の応募意思を尊重し、合否の判定には当該データを活用しないことを企業に 参画同意書として確約いただいています。コミュニケーション不足による「学生 からの辞退」という企業学生双方にとって不本意なマッチングに終わりかねない 状況に対し、誰に、いつ、どのようなフォローを行うかというコミュニケーショ ン設計の一助にしてもらうことを目的に、提供してきました。 • なお、本サービスは、2018年3月のサービス開始以降、38社に対して、試験的な 運用を積み重ねてきました。 https://www.recruitcareer.co.jp/news/pressrelease/2019/190801-02/
  22. 最初のプレスリリース (cont.) • 【本サービスにおける個人情報の取り扱いについて】 これまで本サービスでは、学生が当社の就職情報サイト「リクナビ」にご登録いただく際にご同意 いただいたプライバシーポリシーに基づき、リクナビサイト上での行動履歴の解析結果を取引企業 に対して提供しておりました。 プライバシーポリシー https://job.rikunabi.com/2020/general/move/?screen=navg/help/privacy_policy.html •

    なお、本サービスで企業に提供されるデータは、リクナビの閲覧データをもとに算出されたスコア であり、学生の能力を推し量るものではありません。この点、いかなる時期であっても提供された 情報を合否の判定に活用しないことにご同意いただいた企業にのみ、本サービスをご提供してきま した。ご利用いただいている企業には当社から定期的に利用状況の確認をさせていただいておりま す。 【今後の対応につきまして】 本サービスの提供にあたっては、各種法令にも照らしつつ、学生の個人情報保護を最優先にサービス の設計や各種規約を整備してまいりました。しかしながら、昨今では個人情報保護に関する社会の認 識も大きく変化しております。海外におけるルール整備の潮流も受け、本日の一部報道にもあります 通り、関係各所から当社のプライバシーポリシーの表現が学生に伝わりにくいものとなっているので はないかとご意見をいただきました。こうした背景から、2019年7月31日(水)をもって、サービス 提供を一時休止させていただくことを決めました。学生の個人情報がどのように企業に提供されてい くのか、よりわかりやすい表現や説明方法を検討し終えるまで、本サービスは一時的に休止いたしま す。このたびは、多大なご迷惑をおかけしますこと、申し訳ございません。 https://www.recruitcareer.co.jp/news/pressrelease/2019/190801-02/
  23. 毎日新聞の論説 • “政府の個人情報保護委員会は、リクナビを運営するリ クルートキャリアが学生に無断で「内定辞退率」予測を 売ったのは個人情報保護法に違反すると認定し、是正勧 告を出した。委員会発足以来初の勧告だった。 • 委員会は「人生を左右しうる就職に関する個人情報を 扱いながら、適切な法令順守を行っていない」と指弾し た。だが、違法と認定されたのは「内定辞退率」を販売

    された就活生約7万5000人のうち、約8000人に 過ぎない。 • リクナビ側が会員登録時のプライバシーポリシー(個 人情報の利用規約)で「採用活動補助のために利用企業 に情報提供することがある」と記していたからだ。大半 の就活生は、この説明で「内定辞退率」の算出や企業へ の販売に同意したとみなされていた。違法とされたのは、 事務手続きの不備で形式的な同意さえ取っていなかった 分だけだ。 • 保護法は、企業が集めた個人データを第三者に提供す る場合、原則として本人に事前の同意を取ることを義務 付けている。ただ、「同意」の定義が明確でなく、リク ナビのようなあいまいな説明でも通用してしまう問題が ある。” https://mainichi.jp/articles/20190919/ddm/004/070/016000c
  24. Privacy and Confidentially • 従来のデータ分析 • 統計表になっていれば、個人属性の情報や企業情報は集約されること で消えていた • ビッグデータ時代の分析

    • 統計表では解析できない、ロングテールを解析することで興味深い ファクトを見つけ出すことが出来る • 個人がマスクされている情報を用い解析することが重要だが、複数の データソースを組み合わせることで、どこの誰か特定出来てしまう
  25. データに含まれている個人情報 • 特許データ • 発明者の所属, 自宅またはオフィスの住所 • 論文データ • 著者の所属,

    オフィスの住所, メールアドレス • 家計調査データ • 年収、家族構成、性別 etc… ⇒ 実証的に経済学の課題を理論に基づき解析するにはこれらのデータを 用いることが必要不可欠。だが、こうしたデータを使うときには、個人 情報への留意が重要。
  26. Definition: Privacy and Confidentially • Privacy • Privacy encompasses not

    only the famous ‘right to be left alone’ or keeping one’s personal matters and relationships secret, but also the ability to share information selectivity but not publicly. • Confidentially • Confidentiality is preserving authorized restrictions on information access and disclosure, including means for protecting personal privacy and proprietary information.
  27. 多変量解析におけるプライバシーの課題 • 特定のグループやサブサンプルにおける特性を抽出すると、最 終的には何処の誰かか抽出出来てしまう • Ex. ) 特定の家計や所得のグループが特定のひとりの場合, 個人が特定 出来る

    • 具体例 • 国立大学法人一橋大学の役職員の報酬・給与等について • http://www.hit-u.ac.jp/guide/information/salary.html • 教授はともかく、該当する役職が1-2名の給与は公開されていない
  28. Privacy Utility Tradeoff Initial Utility/Privacy Frontier Frontier after increase in

    external Data U* utility P2 P1 Privacy ・プライバシーと、データの可用性に よる利便性の間にはトレードオフの関 係 ・データが外部化されると、プライバ シーを確保するのは困難になる
  29. SNS に自分の子どもの写真をアップする のはOKか? • “オーストリアの10代の女の子が、自分の「恥ずかしい私的な」赤 ちゃんの頃の写真をFacebookに投稿した両親を訴えている。 • オーストリアに住む18歳の女性が両親を訴えた。ネット上で500枚 以上の彼女の写真を友人たちに公開した両親のことを、彼女は「恥 も限度も知らない」と主張している。

    • ラミ弁護士は原告の主張について次のように述べた。「両親は恥も 限度も知りませんでした。私がトイレに座っている写真でも裸で ベッドに寝ている写真でも気にしませんでした。私の人生のあらゆ る場面が写真に撮られて公開されました」 • 彼女は何度も画像の削除をお願いしたが両親は拒否した。彼女はこ う説明する。「両親が真剣に考えてくれないことに疲れました」” 引用: https://www.huffingtonpost.jp/2016/09/15/sharing-childhood- photographs_n_12038116.html?ncid=fcbklnkjphpmg00000001
  30. ローソン、ビッグデータ分析で「街」を もっと幸せに • “徒歩5分以内、距離にして半 径わずか354メートルという 狭い商圏で競い合う” • “ローソンの場合は、わずか1 割に過ぎない「ヘビーユー ザー」の売り上げが全体の6

    割以上を占め、これに「ミド ルユーザー」を加えた約25% の顧客の売り上げ比率は8割 以上になる” 引用: https://marketing.itmedia.co.jp/mm/articles/1303/07/news024.html
  31. The Importance of activity in the tails • The Latest

    Data indicate that more than 20 percent of all personal health care spending in 2009 ($275 billion) was on behalf of just 1 percent of the population.
  32. データの接合により個人が特定できてし まう危険性 家計調査 個人名 年収 性別 婚姻有無 職業 ID 住所

    郵便番号 特許データベース 個人名 特許名 特許概要 発明者住所 発明者郵便番号 特許 Claim 特許番号 この2つを組み合わせると、ある発明者A がどこに住んでいて、どれだけ特許を出し ていて 年収がいくらで、結婚の有無、性別などが すべて特定出来てしまう
  33. データの接合により個人が特定できてし まう危険性(cont.) 家計調査 個人名 年収 性別 婚姻有無 職業 ID 住所

    郵便番号 特許データベース 個人名 特許名 特許概要 発明者住所 発明者郵便番号 特許 Claim 特許番号 そこで、家計調査などのデータベースは個 人名や住所の細かな情報がマスクされる ⇒ ところが, 住所の一部, 郵便番号などを用 い, 尤度を測定することでデータベース間を 接合することで特定出来てしまう可能性が ある
  34. データの接合により個人が特定できてし まう危険性(cont..) 家計調査 個人名 年収 性別 婚姻有無 職業 ID 住所

    郵便番号 特許データベース 個人名 特許名 特許概要 発明者住所 発明者郵便番号 特許 Claim 特許番号 SNS 個人名 アカウント名 犬の名前 周辺の地図 よく行くレストラン ママ友 子供の好きなおもちゃ データの帰属のあいまいなデータを接合する ことで、より個人の情報を把握できる可能性 がある
  35. Knowledge is Power • “Big Data” has great potential to

    benefit society. At the same time, its availability creates significant potential for mistaken, misguided or malevolent uses of personal information. • The conundrum for the law is to provide space for big data to fulfill its potential for social benefit, while protecting citizens adequately from related individual and social harms. Current privacy law evolved to address different concerns and must be adapted to confront big data’s challenges.”
  36. 従来 (またはビッグデータ時代以前) の データセット • PII 情報の管理さえに留意していれば、データの接合でプライ バシーが流出することは防げていた • PII

    (Personal Identifiable Information) • Any Information About an individual maintained by an agency, including (1) any information that can be used to distinguish or trace an individual’s identity, such as name, social security number, data and place of birth, mother’s maiden name, or biometric records; and (2) any other information that is linked or linkable to an individual, such as medical, educational, financial, and employment information. • 日本の場合 • 保険番号, パスポート番号, 名前, 住所, マイナンバー(ここ数年)
  37. データバイアス • リサーチクエスチョンに正しく 対応しないデータセットを選ん でしまう危険性 • 対照群 (control group) が設定

    されていない危険性 • “Similarly, overreliance on, say, Twitter Data, in targeting resources after harricanes can lead to misallocation of resources towards young, Internet-savvy people with cell phones and away from elderly or impoverished neighbourhoods” https://azanaerunawano5to4.hatenablog.com/ entry/2015/09/03/101948
  38. データインフラストラクチャの重要性 • 個人の匿名性を担保した上で、マイクロなデータを含むデータセッ トを提供することで、「安全な」ビッグデータ解析を可能にする • アメリカ • Sloan Digital Sky

    Survey • Polymath project • Longitudinal Business Database • Longitudinal Employer Household Dynamics • ヨーロッパ • RISIS (5月の講義で詳しく説明します) • 日本 • 東京大学社会科学研究センター • CAREE/TDB
  39. データの提供形態 • 統計局におけるデータ提供形式 • 表形式の集約データ/統計表 • ライセンス契約に基づく Raw Data の提供

    • セマンテックデータでの提供 (これも講義の別の回で詳しく) • EUの場合 • RDF などのセマンテックデータの提供度合いが高まりつつある • 日本の場合 • Excel の統計表または, (フォントが埋め込まれていない)PDF データが 中心
  40. Statistical Disclosure control Techniques • Statistical Disclosure Control • Concepts

    and Methods that ensure the confidentiality of micro and aggregated that are to be published. It is methodology used to design statistical outputs in a way that someone with access to that output cannot relate a known individual (or other responding unit) to an element in the output.
  41. データの提供形態 (cont.) • 統計表 • 他のデータセットと接合できないため、マクロまたはメソレベルでの 解析にとどまってしまう • 分散表などの提供も •

    個人データをマスクした形式での提供 • 個人の再特定が可能な場合も (前述) • ライセンス契約ベースの提供になるので、管理が煩雑に • セマンテックデータでの提供 • 個人は特定されない • メタ化された情報同士をつなぎ合わせるので、個人IDを保有する必然 性がない
  42. Research Data Centers • 特定のデータセットを, SaaS 形式で提供する • 個人の研究者が、ローカルに データを保持する必要性が生

    じない • マスクあるいは処理された データのみを入手可能 • 日本だと限定的 • ヨーロッパだとRISISが代表 的
  43. ビッグデータを匿名化することは可能か? • “It is also nearly impossible to anonymize data.

    Big Data are often structured in such a way that essentially everyone in the file is unique, either because so many variables exist or because they are so frequent or geographically detailed, that they make it easy to reidentify individual pattarns.” • “There are no data stewards controlling access to individual data. Data are often so interconnected (think social media network data) that one person’s action can disclose information about another person without that person even knowing that their data are being accessed.”
  44. Tカード、「個人情報を令状なしで警察に提 供」に批判 個人情報保護委員会に問題ない か聞いてみた • ポイントカード「Tカード」を運営するカ ルチュア・コンビニエンス・クラブ(以 下、CCC)が、利用者の会員情報や利用 履歴を令状なしで捜査機関に提供してい たとの報道を受け、議論を呼んでいます。

    • “CCCは「2012年から、『捜査関係事項照 会書』があった場合にも、(中略)捜査 機関に協力してまいりました」とコメン トしています。これについて個人情報保 護委員会に聞いたところ、「個別の案件 について、報道の内容だけでマルかバツ かは言いづらいものの、限りなく法令に 基づくものと考えられます」とコメント。 また、法令に基づく照会に対する個人情 報提供は、行うことを利用規約に書いて いなくても「全く問題ない」との見解で した。” 引用: https://nlab.itmedia.co.jp/nl/articles/1901/24/news080 .html
  45. 個人のデータを如何に保護するか? • “Rather than attempt to deanonymize medical records, for

    instance, an attacker (or commercial actor) might instead infer a rule that relates a string of more easily observable or accessible indicators to a specific medical condition, rendering large populations vulnerable to such inferences even in the absence of PII. Ironically, this is often the very thing about big data that generate the most excitement: the capability to detect subtle correlations and draw actionable inferences. But it is this same feature that renders the traditional protections afforded by anonymity (again, more accurately, pseudosymmetry) much less effective.”
  46. 個人のデータを如何に保護するか? (cont.) • The Value of Anonymity inheres not in

    namelessness, and not even in the extension of the previous value of namelessness to all uniquely identifying information, but instead to something we called “reachability, ” the possibility of knocking on your door, hauling you out of bed, calling your phone number, threatening you with sanction, holding you accountable – with or without access to identifying information.
  47. 日本での事例 • “問題提起型の投稿は、世間の関心を集めやすいため、アクセス数を稼ぎたいまとめサイトの管理 人がすぐに寄ってきて記事を引用していきます。 • まとめサイトは投稿の内容を深堀りするため、最初のtwitterでの投稿からさらに細かな情報を調査 や憶測などによって枝葉をつけていきます。” • “人は、そんな馬鹿な行為をしたのが誰なのか、無意識のうちに特定したくなるため、どんどんコ メントが増えてアクセスも増えていきます。そうするうちに、画像に写っているわずかな情報から、

    「あれ、こいつら3年2組の〇〇たちじゃないのか」 という投稿が出始めます。 万が一ここで個人名が出てしまうと、一斉にその個人名での検索が始まります。 • ここで仇となるのがInstagramやfacebookです。これらに公開制限をかけていない場合、ことの真 相を知りたい輩が、一気にアクセスしてきてその人の個人情報をどんどん吸い出していきます。出 身地、生年月日、学校、家族構成など、公開設定している情報については、容赦なく漏洩していき ます。” • 直近の事例 • https://twitter.com/search?q=%E8%B8%8F%E5%88%87%20%E5%88%87%E6%96%AD&src=typd 引用: https://fuhyotaisaku-law.com/flames/personalinformation
  48. Legal and Ethical Framework • “The Most Data are housed

    no longer in statistical agencies, with well-defined rules of conduct, but in businesses or administrative agencies. In addition, since digital data can be alive forever, ownership could be claimed by yet-to-be-born relatives whose personal privacy could be threatened by release of information about blood relations.” • “Traditional regulatory tools for managing privacy, notice, and consent have failed to provide a viable market mechanism allowing a form of self-regulation governing industry data collection”
  49. Legal and Ethical Framework (cont.) • (1) Rules take into

    account the varying levels of inherent risk to individuals across different data sets • (2) traditional definitions of PII need to be rethought • (3) regulation has a role in creating and policing walls between data sets • (4) those analyzing big data must be reminded, with a frequency in proportion to the sensitivity of the data, that they are dealing with people • (5) the ethics of big data research must be an open topic for continual reassessment.
  50. Privacy Utility Tradeoff Initial Utility/Privacy Frontier Frontier after increase in

    external Data U* utility P2 P1 Privacy ・テクノロジーとそれに関連する法制 度の整備によって、 utility と privacy を高い精度で両立できる可能性
  51. グッドデザイン賞とは? • グッドデザイン賞は、様々に展開される事象の中 から「よいデザイン」を選び、顕彰することを通 じ、私たちのくらしを、産業を、そして社会全体 を、より豊かなものへと導くことを目的とした公 益財団法人日本デザイン振興会が主催する「総合 的なデザインの推奨制度」です。 • その母体となったのは、1957年に通商産業省(現

    経済産業省)によって創設された「グッドデザイ ン商品選定制度(通称Gマーク制度)」であり、 以来約60年にわたって実施されています。その対 象はデザインのあらゆる領域にわたり、受賞数は 毎年約1,200件、60年間で約44,000件に及んでいま す。また、グッドデザイン賞を受賞したデザイン には「Gマーク」をつけることが認められます。 「Gマーク」は創設以来半世紀以上にわたり、 「よいデザイン」の指標として、その役割を果た し続けています。 引用: http://www.g-mark.org/about/ 2019/9/30 Appale Hare 2017 91
  52. 収録されている情報 • 製品名 • 事業主体名 • 分類 • 受賞企業 •

    受賞概要 • プロデューサー • ディレクター • デザイナー • 販売地域 • 受賞対象の詳細 • 背景 • デザインコンセプト • 開発の意義 • 創意工夫 • デザイナーの想い • 審査委員の評価 • 担当審査委員 2019/9/30 Appale Hare 2017 93
  53. グッドデザイン賞データベースを使って できそうなこと • 製品データベースとしての活用 • 意匠、特許や論文データベースと接合することで、デザイナーや研究開発チームがどの ようにR&D を行いプロダクトを構築しているか? • そもそも、企業はどういう分野に製品を出しているか?

    • デザインや技術のクオリティは製品のクオリティに対してどのように作用するか? • ???「特許の数数えてもしょうがないよね・・・」 • 意匠と特許間のリンケージ • デザイン評価データベースとしての活用 • デザインのトレンドやデザイナーの思考・志向がどのように変化してきたか • 何か外生的なイベントがデザインのトレンドに作用したか • デザイナーは外部から調達(コラボレーション)するのか?In-house なのか? • デザイナーのキャリアはどのように変化しているか? • 以下のような意匠データベースの限界を補完する • 特定分野のみに偏っている可能性 • 意匠の出願性向は企業により大きく異なること (吉岡・秋池 2017) 2019/9/30 Appale Hare 2017 94
  54. データを貰うまでの経緯 • 早稲田大学+東京大学の先生とデザインに着目した研究を行う ことになる • グッドデザイン賞に着目 • データを貰いにいく • 多くの場合Web

    スクレイピングでデータが取得されているため、サー バの維持管理費が増加していることを知る • そこで、データの公開をしてもらうことに • CSV およびJSON 形式でデータを入手
  55. グッドデザイン賞データベースの構成 • award_id データベース上の受賞ID • award_no 受賞製品に付与された整理番 号 • award_year

    受賞年 • name 受賞製品名・製品分野名 • brand 受賞製品ブランド名 • business 製造事業者名 • domain 受賞部門名 • category 受賞カテゴリー(製品分野) 名 • producer プロデューサー名 • director ディレクター名 • designer デザイナー名 • release_date-year 受賞製品発売開始年 • release_date-month 受賞製品発売開始月 • release_date-day 受賞製品発売開始日 • price_type 価格属性: 取りうる値={販売価格、総事業費} • Pricerange_start 最低価格 • Pricerange_end 上限価格 • Price_unit 価格の単位 • outline 受賞対象の概要記載の「概 要」:受賞者によるもの • designer_message 受賞対象の詳細記載 の「デザイナーのコメント」 • jury_comment 審査委員の評価 2019/9/30 Appale Hare 2017 97
  56. グッドデザイン賞受賞数推移 • 公募形式となった1963年か ら増加 • 1975年から急増し、対象領 域が拡大した1984年の翌年、 1985年に1,390点に • 1998年に向けて減少するが、

    同年にグッドデザイン賞が 民営化されて以降、受賞数 は増加傾向に 0 200 400 600 800 1,000 1,200 1,400 1,600 1958 1961 1964 1967 1970 1973 1976 1979 1982 1985 1988 1991 1994 1997 2000 2003 2006 2009 2012 2015 グ ッ ド デ ザ イ ン 賞 受 賞 数 2019/9/30 Appale Hare 2017 98
  57. 特別賞の受賞推移 • 1980年以降特別賞が採録 • 時代に応じて様々な特別 賞が付与 • 特別賞 • 特別賞内訳

    8 8 0 0 14 157 391 453 688 373 350 278 184 58 348 1,594 1,681 1,561 3,989 5,151 4,752 3,836 5,354 5,123 5,632 2,443 0 1,000 2,000 3,000 4,000 5,000 6,000 7,000 1950年代後半 1960年代前半 1960年代後半 1970年代前半 1970年代後半 1980年代前半 1980年代後半 1990年代前半 1990年代後半 2000年代前半 2000年代後半 2010年代前半 2010年代後半 受 賞 数 特別賞なし 特別賞あり 0 100 200 300 400 500 600 700 800 1950年代後半 1960年代前半 1960年代後半 1970年代前半 1970年代後半 1980年代前半 1980年代後半 1990年代前半 1990年代後半 2000年代前半 2000年代後半 2010年代前半 2010年代後半 特別賞受賞数 その他特別賞 ロングライフデザイン グッドデザイン外国商品賞 中小企業庁長官賞 グッドデザイン金賞 グッドデザイン大賞 2019/9/30 Appale Hare 2017 99
  58. グッドデザイン賞特別賞詳細 No. 特別賞名 受賞数 1 グッドデザイン大賞 52 2 グッドデザイン金賞 562

    4 サステナブルデザイン賞 18 5 ライフスケープデザイン賞 15 6 グッドデザイン中小企業庁長官賞 430 7 日本商工会議所会頭賞 20 8 ユニバーサルデザイン賞 22 9 エコロジーデザイン賞 25 10 インタラクションデザイン賞 22 11 アーバンデザイン賞 5 12 デザインマネージメント賞 5 13 グッドデザインインターフェース賞 32 14 グッドデザイン外国商品賞 185 15 グッドデザイン景観賞 18 16 グッドデザイン福祉賞 33 17 メディアデザイン賞 1 18 グッドデザイン・プレゼンテーション特別賞 1 19 審査委員長特別賞 4 20 年度テーマ賞 2 21 日本産業デザイン振興会会長賞-家庭用メディア機器・ユーザーインストラクション 6 22 日本産業デザイン振興会会長賞-地球にやさしいデザイン 30 23 20周年中小企業庁長官賞(1977年) 3 24 20周年記念通産大臣賞(1977年) 1 25 20周年貿易局長賞(1977年) 10 26 特選(1957年、61年) 16 27 グッドデザインベスト100(大賞、金賞除く。2016年) 80 N.A. ロングライフデザイン 1,306 2019/9/30 Appale Hare 2017 100
  59. デザイン賞受賞分野 • デザイン賞の受賞製品分野 • 受賞分野40分野 (累計: 1位-10位) 0% 5% 10%

    15% 20% 25% 30% 35% 40% 45% 1960年代 1970年代 1980年代 1990年代 2000年代 2010年代 受 賞 製 品 内 シ ェ ア 家電機器 キッチン用品 情報機器 住宅設備 音響機器 AV機器 インテリア雑貨 構造物 0 1,000 2,000 3,000 4,000 5,000 6,000 7,000 家電機器 キッチン用品 情報機器 住宅設備 音響機器 AV機器 インテリア雑貨 構造物 調理器具 文房具 建築物 ファブリック 移動体 乗り物 光学機器 オフィス機器 照明器具 産業機器 食器 コンピュータ機器 スポーツ用品 オーディオプレーヤー 白物家電 オフィス家具 パソコン周辺機器 空調機器 椅子 電話機 公共設備 印刷機器 家具 自動車 テレビ 住宅 無線通信機 計測機器 鍋 カーテン 机 パソコン 2019/9/30 Appale Hare 2017 101
  60. 受賞企業の所属国 42778 1417 599 553 386 379 328 106 96

    95 87 81 68 57 48 33 32 32 32 29 25 19 14 12 12 11 11 11 11 10 7 6 5 5 4 4 4 4 3 2 2 1 1 1 1 1 1 1 1 1 1 33 日本 (空白) Korea Taiwan Thailand Germany U.S.A. Denmark Switzerland China Sweden Italy Hong Kong France U.K. Philippines Netherland Austria Malaysia Singapore 2019/9/30 Appale Hare 2017 102
  61. デザイン賞組織上位30社 順位 応募組織名(2016年時点の表記) 応募総数 1 パナソニック株式会社 3,620 2 株式会社東芝 1,327

    3 ソニー株式会社 998 4 シャープ株式会社 947 5 三洋電機株式会社 792 6 株式会社日立製作所 790 7 三菱電機株式会社 750 8 株式会社岡村製作所 503 9 キヤノン株式会社 424 10 コクヨ株式会社 401 11 日本電気株式会社 388 12 Samsung Electronics Co., Ltd. 344 13 株式会社JVCケンウッド 334 14 ヤマハ株式会社 271 15 株式会社イトーキ 264 16 株式会社リコー 258 17 株式会社川島織物セルコン 252 18 カシオ計算機株式会社 243 19 富士通株式会社 238 20 株式会社LIXIL 235 21 東芝ライテック株式会社 223 22 株式会社キングジム 215 23 オムロン株式会社 213 24 ヤマギワ株式会社 199 25 セイコーエプソン株式会社 199 26 日本軽金属株式会社 198 27 ブラザー工業株式会社 195 28 東洋佐々木ガラス株式会社 190 29 オリンパス株式会社 183 30 TOTO株式会社 172 2019/9/30 Appale Hare 2017 103
  62. まとめ • グッドデザイン賞データベースは何につかえる? • デザイン賞を企業のデザイン力の代理指標と位置づけ、その財務的なパ フォーマンスやその他のイノベーションパフォーマンスとの関係を分析する • デザイン賞の直接の経済効果を把握する • アプローチ:

    価格データ • デザインの価値の変遷を把握する • アプローチ: テキスト分析 • 他のデータベースと繋げて解析する • 特許/意匠/論文データベース • 財務データベース • ケーススタディのきっかけにする 2019/9/30 Appale Hare 2017 104
  63. 一橋大学で使えるデータセットのご紹介 • プレスリリースデータベース • 日経BP記事検索サービス • 日経NEEDS • 新聞・経済記事データベース •

    LexisNexis • 東洋経済デジタルコンテンツライブラリー • 日経テレコン21 • 論文データベース • Web of Science • EBSCO Host • CiNII • Google Scholar • JSTOR • EconLit with Full Text • 財務データベース • 国際比較のためのデータベース • OECD iLibrary
  64. References (for today’s lecture) • Chapter 11: Privacy and Confidentiality

    in Big Data and Social Science, Stefan Bender, Deutsche Bundesbank, Ron S. Jarmin, US Census Bureau, Frauke Kreuter, University of Maryland, Julia Lane, NYU
  65. 成績評価(1) • 平常レポート (40パーセント; 必須) • 講義計画に示したように、複数の回で学生にはレポートを課します。 レポートは Word/PowerPoint形式のメールあるいは, github

    経由で の提出が求められます(どの方法を採用するかは、初回の講義で決定し ます)。 • レポートには、(A.) 利用したデータセットとその内容, (B.) 分析の問 い, (C.) 分析手法, (D.) 分析結果 を明記する必要があります。ページ 数や文字数は問いませんが, これらの内容が含まれており, 講義中にア ナウンスする評価手法を満たす場合, 高い得点を得ることが出来ます。 • 平常点 (10パーセント) • 本講義は実習が多く含まれており, また取り扱うデータセットや内容も 多彩です。そのため、受講者同士が協力する必要があります。こうし た受講者の態度を評価するために、平常点を設けます。
  66. 成績評価(2) • 最終レポート (40パーセント; 必須) • 講義の最終回では最終レポートの報告会を行います。受講者は3名から4名か ら構成されるグループで、最終レポートの報告を行う必要があります(人数は 受講者の人数により変更される可能性があります)。最終レポートでは、プレ ゼンテーションの方法を学生は自由に選ぶことが出来ます。PowerPoint

    以 外にも、Prezi などのアクティブプレゼンテーションツールや、他のプレゼ ンテーション手法を用いることが出来ます(プレゼンテーションツールについ ては、必要であれば講義内で説明する機会を設けます)。最終レポートでは、 以下の点について評価を行います。 (A.) グループ内の役割分担 (B.) データセットのユニークさおよび、それが適切に処理されているか (C.) 分析手法のユニークさおよび、それが適切に解析されているか (D.) プレゼンテーションのユニークさ (E.) 質疑応答にうまくリプライすることが出来ているか • 最終レポートの360°グループ評価 (10パーセント) • 3. の最終レポートについて、グループの自己評価および他のグループからの 評価を行います。3. で挙げた評価ポイントに基づき、グループメンバーおよ び他のグループは評価を行います。
  67. 次回予告. [10/4] データベースを用いた分析 (1) 特許/論文データベース [座学、実習] • 知的財産研究所が提供するIIP パテン トデータベース

    (http://www.iip.or.jp/patentdb/)に 基づき、特許データを具体例として解 析の実習を行います。 • 「どの企業が最も特許を出願している のか?」、「どのような分野に特許を 出願しているのか?」など、具体的な 問いを立てた上で、問いに基づきデー タを抽出することを目指します。 • 分析結果については、レポートとして 提出を行う必要があります。 • Clarivate Analytics 社が提供する Web of Science (https://clarivate.com/products/w eb-of-science/) では、論文の書誌情 報を取得することが出来ます。 • こうしたデータを用いることで、例え ば、「日本の大学で最も年ごとの論文 数が多いのは何処か?」、「(指導教 官の)◦◦先生が書いた論文はt年にx 本で、その論文は累計 y 回引用され た」などの情報を取得することが出来 ます。 • 前回と同様、学生は問いを立てた上で、 データベースから必要な情報を取得し 解析を行い、レポートに取りまとめる 必要があります。