#経済学のための実践的データ分析 1.3 パネルデータの解析 + データの可用性とプライバシー

経済学のための実践的データ分析 3.データの可用性とプライバシー 28教室経済学研究科原泰史 [email protected]

確認事項 • 電源タップは足りているでしょうか？ • 重回帰分析まで終わりましたでしょうか？

今日の内容: データの可用性とプライバシー • インターネットには様々な情報が掲載されています。あるいは、大学の図書館からデータベースにアクセスすれば、様々な情報を得ることが出来ます(一橋大学の場合は特に！)。 • しかしながら、データには個人情報や企業の機密情報などが含まれており、これらの適切に管理し運用することは極めて重要です。テキストブックの内容に基づき、説明を行います。

今日の内容 (105分) 0: 前回のリマインド 1:レポート(1回目) の内容 2: ビッグデータ解析における利便性とプライバシーのトレードオフ 3:
データを入手するまでのケーススタディと一橋大学におけるデータセットの状況のご紹介

前回のリマインド

Exercise (8-2): 単回帰分析を回す • avg とsalary をそれぞれ, Numpy x, yに変換する
• 回帰分析を lingregress で実施する • 回帰分析の結果を出力する (p値的に, 打率は年俸を説明できていない可能性)

Exercise (8-3): 単回帰分析を回す • x,y の散布図と回帰曲線をプロットして表示する • どうやら、打率は年俸を説明出来ていない様子
• Self Exercise • 打率ではない、別の変数 (Ops やホームラン数) を引っ張ってきて, 同じように単回帰を廻してみましょう

Exercise (8-4); 単回帰を回す alternative バージョン • statsmodels.api モジュールを使う •
add_constatnt によって定数項を追加する • Excel やStata で解析したのと似たような表が出力される

重回帰分析を行う • サンプルデータ • Scikit-learn の住宅価格データ • ボストンの506地区について, 犯罪率や固定資産税率, 教師あたりの生
徒数などの属性値と, 住宅平均価格をテーブルに • 目的変数を target, 説明変数を boston に振り分ける

重回帰分析を行う CRIM 町ごとの人口一人あたりの犯罪率 AGE 1940年以前に建てられた、所有者が住む建物の割合 ZN 宅地の比率。25,000平
方フィート以上のゾーンで数えた値 DIS ボストンの5つの雇用中心からの距離 INDUS 町ごとの非小売業の面積比 RAD 放射状幹線道路からの距離 CHAS チャールズ川に道がつながっているか TAX 固定資産税率 NOX NOx 濃度 PTRATIO 町ごとの教師あたりの生徒数 RM 住宅あたり部屋数 B 町ごとの黒人比率 LSTAT 低階層人口の比率 MEDV 所有者が住む住宅の価値の中央値

Exercise(9) 重回帰分析を行う • データセットをsklearn から取り込む • データを dset に放り込む
• boston に説明変数を放り込む • target に被説明変数を放り込む • 結果をアウトプットする

Exercise(9-2) 重回帰分析を行う • 出力結果

Exercise(10): VIF 値を確認する • 多重共線性のチェック • statsmodels.stats.ou tliers_influence から
variance_inflation_fa ctor を使って VIF(Variance Inflation Factor) をチェックする

Extension; パネルデータ解析 • パネルデータ • N 個の主体（人，企業，団体，県，国など）の各々に関して T 期間にわたって観測された
データ • パネルデータのメリット • (a) データ数が増えることにより，自由度が大きくなるので，推定精度が向上する． • (b) 主体間の異質性をモデルに取り込むことは，単一の時系列，あるいはクロスセクションのみでは不可能であるが，それが可能になる． • (c) 主体間の異質性は，一般に観測不可能な主体固有の要因であり，そのような要因以外の全体の関係を分析することが主目的ならば，固有の要因を除去した分析が可能である． Source: https://www-cc.gakushuin.ac.jp/~20130021/ecmr/panel.pdf

Extension; パネルデータ解析 • = + ′ + (i =1 ,···,N;
t =1 ,···,T) • このとき, 誤差項は以下の仮定を満たす. • = 0, = { 2 = かつ = のとき , 0(その他) • ; 未知の係数ベクトル • ′ ; 説明変数の p*1 確率ベクトル • 誤差項との独立性が仮定される (狭義外生性; strict exogeneity) • ; 主体 i に特有の個別効果 (individual effect) Source: https://www-cc.gakushuin.ac.jp/~20130021/ecmr/panel.pdf

Extension; パネルデータ解析 • 固定効果モデル (Fixed Effect Model) • を定数のパラメータと仮定する •
変動効果モデル (Random Effect Model) • を主体ごとに独立な確率変数と仮定し, • = 0, 2 = 2, = 0 を満たす。

Extension; パネルデータ解析 • パネルデータ • 識別IDと時系列が含まれているデータ

Extension; パネルデータ分析 • Linearmodels パッケージをインストールする # !pip install linearmodels

Extension; パネルデータ分析 • Linearmodels から PanelOLS, RandomEffects パッケージをインポートする

Extension; パネルデータ分析 • サンプルのデータセットを読み出す • データセットから, 年データを取り出しインデックスとしての設定を行う

Extension; パネルデータ分析 • データの構造

Extension; パネルデータ分析 • 被説明変数と説明変数を指定し, 変動効果モデルを解析する

Extension; パネルデータ分析 • 固定効果モデルを解析する

レポートのお知らせ+ 成績評価の方法

レポートの内容 • 概要 • Manaba にアップロードされたデータセットからひとつを選び、 Jupyter Notebook 上で解析し, 重回帰分析を行う
• レポートでは • (1) 被説明変数と説明変数の関係性 • (2) R二乗項の値 • (3) VIF 値による, 多重共線性のチェックなどを報告した上で, 構築したモデルについて考察を行うこと • 提出期間: 2019/6/10 15:00:00 - 2019/6/17 13:15:00 (JST) • 提出方法: Manaba のレポート提出ページに, ipynbまたはPDF 形式で提出すること • ※. Word または LaTeX で, PDF でアウトプットすること

レポートの内容(2) • 引用文献がある場合, 末尾に明記すること • 文字数は問わない

データセット (その1) • FIFA19 Datasets • https://www.kaggle.com/karangadiya/fifa19 FIFA 19 に収録されている
フットボールプレイヤー選手の能力値や市場価値をまとめたデータ

データセット(その1)

データセット(その2) • Kansas City Barbeque Society Competition Results https://www.kaggle.com/jaysobel/kansas-city-barbeque-society- competition-results
• カンサスシティのバーベキューイベントのデータを集計したもの

データセット(その2)

分析について • どれを説明変数/被説明変数にするかはおまかせします • サラリー and/or 市場価値 and/or 能力? •
BBQの経験回数？ • ダミー変数の作成などもおまかせします

考えうる仮説 • 選手の加齢は市場価値を押し下げる • クラブの移籍は選手のサラリーを押し上げる • 国際的な認知度は選手の市場価値を押し上げる • 現在の契約終了年までの期間が短いほど、市場価値を上げる •
南米出身の選手は、欧州出身の選手に比べサラリーの水準が低い • Etc…

レポートの評価方法 • Excellent • データおよび適切な分析手法に基づき、独自の視点で十分に考察がなされている • Good • データおよび適切な分析手法に基づき、独自の視点で考察がなされている •
Fair • データに対して分析が行われているが、一般的な範囲での考察にとどまる • Bad • 考察がなされていない，あるいはデータの解析が十分に行われていない • Failed • 断りなく他者の見解を引用している，その他不正行為に相当する

レポートの評価基準 • 説明の順序は適切か．特に重要な項目の抜けや漏れはないか． • 原典からの引用内容に事実誤認はないか． • 誤字脱字（誤植）はないか．文法上の誤りはないか．文法ルールが統一されているか． • 文章は明快か．誤解を招くような内容・表現はないか．
• 参照，引用のルールに準拠しているか．剽窃はないか． • 不正行為に相当する事項はないか． • 提出期限を厳守しているか．

データ解析におけるプライバシー, 機密性と利便性

Discussion • Q1. SNSはやっていますか？ • Q2. 実名を出していますか？ • Q3. 個人や現在の位置情報が特定されないように、投稿内容を
気をつけていますか？

学生が投稿する『呑み』写真だけでどこの大学のどこの誰か特定できる問題引用: https://twitter.com/ftv8ch/status/824935162928590848

学生が投稿する『呑み』写真だけでどこの大学のどこの誰か特定できる問題 (cont.) 引用: https://twitter.com/ftv8ch/status/824935162928590848 ・画像検索をして同一の人間を抽出する・ふたりグループの情報からデータを抽出する・真ん中に写っている人
物の過去の経歴とか, Dommune で特集された情報を抽出する → 個人のIDタグがなくても、(ダウンタウンや坂上忍でなくても、)どこの誰か特定できる。

Google 画像検索の結果

検索すれば、サジェストで住所や自宅が出てきてしまう

対策 • ツイッターやInstagram のアカウントを匿名 and/or 鍵にする • フェイスブックのアカウントは就職や就学の情報しか書き込まない ⇒
それでも, 周辺のセマンティックな情報を組み合わせればどこの誰の情報か解析できる社会科学でデータを使うときには、プライバシーや機密性に留意する必要

Privacy and Confidentially • 従来のデータ分析 • 統計表になっていれば、個人属性の情報や企業情報は集約されることで消えていた • ビッグデータ時代の分析
• 統計表では解析できない、ロングテールを解析することで興味深いファクトを見つけ出すことが出来る • 個人がマスクされている情報を用い解析することが重要だが、複数のデータソースを組み合わせることで、どこの誰か特定出来てしまう

データに含まれている個人情報 • 特許データ • 発明者の所属, 自宅またはオフィスの住所 • 論文データ • 著者の所属,
オフィスの住所, メールアドレス • 家計調査データ • 年収、家族構成、性別 etc… ⇒ 実証的に経済学の課題を理論に基づき解析するにはこれらのデータを用いることが必要不可欠。だが、こうしたデータを使うときには、個人情報への留意が重要。

Definition: Privacy and Confidentially • Privacy • Privacy encompasses not
only the famous ‘right to be left alone’ or keeping one’s personal matters and relationships secret, but also the ability to share information selectivity but not publicly. • Confidentially • Confidentiality is preserving authorized restrictions on information access and disclosure, including means for protecting personal privacy and proprietary information.

多変量解析におけるプライバシーの課題 • 特定のグループやサブサンプルにおける特性を抽出すると、最終的には何処の誰かか抽出出来てしまう • Ex. ) 特定の家計や所得のグループが特定のひとりの場合, 個人が特定出来る
• 具体例 • 国立大学法人一橋大学の役職員の報酬・給与等について • http://www.hit-u.ac.jp/guide/information/salary.html • 教授はともかく、該当する役職が１－２名の給与は公開されていない

Privacy Utility Tradeoff Initial Utility/Privacy Frontier Frontier after increase in
external Data U* utility P2 P1 Privacy ・プライバシーと、データの可用性による利便性の間にはトレードオフの関係・データが外部化されると、プライバシーを確保するのは困難になる

SNS に自分の子どもの写真をアップするのはOKか？ • “オーストリアの10代の女の子が、自分の「恥ずかしい私的な」赤ちゃんの頃の写真をFacebookに投稿した両親を訴えている。 • オーストリアに住む18歳の女性が両親を訴えた。ネット上で500枚以上の彼女の写真を友人たちに公開した両親のことを、彼女は「恥も限度も知らない」と主張している。
• ラミ弁護士は原告の主張について次のように述べた。「両親は恥も限度も知りませんでした。私がトイレに座っている写真でも裸でベッドに寝ている写真でも気にしませんでした。私の人生のあらゆる場面が写真に撮られて公開されました」 • 彼女は何度も画像の削除をお願いしたが両親は拒否した。彼女はこう説明する。「両親が真剣に考えてくれないことに疲れました」” 引用: https://www.huffingtonpost.jp/2016/09/15/sharing-childhood- photographs_n_12038116.html?ncid=fcbklnkjphpmg00000001

ロングテイルにビッグデータ解析の面白みはある • 代表調査やサンプリング調査ではわからない、特定グループの解析が可能になる • 「気温が30度になると、みんなコンビニでアイスクリームを買う」ではなくて、「8月
の第三週にコンビニのおでんは売れ始める」をデータで解析出来たほうが興味深い • ロングテイル (Long Tail)

ローソン、ビッグデータ分析で「街」をもっと幸せに • “徒歩5分以内、距離にして半径わずか354メートルという狭い商圏で競い合う” • “ローソンの場合は、わずか1 割に過ぎない「ヘビーユーザー」の売り上げが全体の6
割以上を占め、これに「ミドルユーザー」を加えた約25％の顧客の売り上げ比率は8割以上になる” 引用: https://marketing.itmedia.co.jp/mm/articles/1303/07/news024.html

夏におでんが売れるのはなぜ? コンビニ大手3社に聞いてみると... • “7月に梅雨明けし、暑くなると人は冷たいものを好む。だがそれも8月になると、暑さにも慣れたことに加え、冷たいものばかりだと飽きてくることから、おでんといった温かいものを食べるようになるのだという。また、暑い
日と涼しい日があったりと、気温差や肌寒さからも好まれるのだそうだ。 • 具材としては、冬にも人気のある大根、卵、白滝がよく売れているという。 “ 引用: https://www.j-cast.com/2017/08/28306704.html

The Importance of activity in the tails • The Latest
Data indicate that more than 20 percent of all personal health care spending in 2009 ($275 billion) was on behalf of just 1 percent of the population.

データの接合により個人が特定できてしまう危険性家計調査個人名年収性別婚姻有無職業 ID 住所
郵便番号特許データベース個人名特許名特許概要発明者住所発明者郵便番号特許 Claim 特許番号この２つを組み合わせると、ある発明者A がどこに住んでいて、どれだけ特許を出していて年収がいくらで、結婚の有無、性別などがすべて特定出来てしまう

データの接合により個人が特定できてしまう危険性(cont.) 家計調査個人名年収性別婚姻有無職業 ID 住所
郵便番号特許データベース個人名特許名特許概要発明者住所発明者郵便番号特許 Claim 特許番号そこで、家計調査などのデータベースは個人名や住所の細かな情報がマスクされる ⇒ ところが, 住所の一部, 郵便番号などを用い, 尤度を測定することでデータベース間を接合することで特定出来てしまう可能性がある

データの接合により個人が特定できてしまう危険性(cont..) 家計調査個人名年収性別婚姻有無職業 ID 住所
郵便番号特許データベース個人名特許名特許概要発明者住所発明者郵便番号特許 Claim 特許番号 SNS 個人名アカウント名犬の名前周辺の地図よく行くレストランママ友子供の好きなおもちゃデータの帰属のあいまいなデータを接合することで、より個人の情報を把握できる可能性がある

“The Trueman Show”

Knowledge is Power • “Big Data” has great potential to
benefit society. At the same time, its availability creates significant potential for mistaken, misguided or malevolent uses of personal information. • The conundrum for the law is to provide space for big data to fulfill its potential for social benefit, while protecting citizens adequately from related individual and social harms. Current privacy law evolved to address different concerns and must be adapted to confront big data’s challenges.”

従来 (またはビッグデータ時代以前) のデータセット • PII 情報の管理さえに留意していれば、データの接合でプライバシーが流出することは防げていた • PII
(Personal Identifiable Information) • Any Information About an individual maintained by an agency, including (1) any information that can be used to distinguish or trace an individual’s identity, such as name, social security number, data and place of birth, mother’s maiden name, or biometric records; and (2) any other information that is linked or linkable to an individual, such as medical, educational, financial, and employment information. • 日本の場合 • 保険番号, パスポート番号, 名前, 住所, マイナンバー(ここ数年)

データバイアス • リサーチクエスチョンに正しく対応しないデータセットを選んでしまう危険性 • 対照群 (control group) が設定
されていない危険性 • “Similarly, overreliance on, say, Twitter Data, in targeting resources after harricanes can lead to misallocation of resources towards young, Internet-savvy people with cell phones and away from elderly or impoverished neighbourhoods” https://azanaerunawano5to4.hatenablog.com/ entry/2015/09/03/101948

データインフラストラクチャの重要性 • 個人の匿名性を担保した上で、マイクロなデータを含むデータセットを提供することで、「安全な」ビッグデータ解析を可能にする • アメリカ • Sloan Digital Sky
Survey • Polymath project • Longitudinal Business Database • Longitudinal Employer Household Dynamics • ヨーロッパ • RISIS (5月の講義で詳しく説明します) • 日本 • 東京大学社会科学研究センター • CAREE/TDB

データの提供形態 • 統計局におけるデータ提供形式 • 表形式の集約データ/統計表 • ライセンス契約に基づく Raw Data の提供
• セマンテックデータでの提供 (これも講義の別の回で詳しく) • EUの場合 • RDF などのセマンテックデータの提供度合いが高まりつつある • 日本の場合 • Excel の統計表または, (フォントが埋め込まれていない)PDF データが中心

Statistical Disclosure control Techniques • Statistical Disclosure Control • Concepts
and Methods that ensure the confidentiality of micro and aggregated that are to be published. It is methodology used to design statistical outputs in a way that someone with access to that output cannot relate a known individual (or other responding unit) to an element in the output.

データの提供形態 (cont.) • 統計表 • 他のデータセットと接合できないため、マクロまたはメソレベルでの解析にとどまってしまう • 分散表などの提供も •
個人データをマスクした形式での提供 • 個人の再特定が可能な場合も (前述) • ライセンス契約ベースの提供になるので、管理が煩雑に • セマンテックデータでの提供 • 個人は特定されない • メタ化された情報同士をつなぎ合わせるので、個人IDを保有する必然性がない

Research Data Centers • 特定のデータセットを, SaaS 形式で提供する • 個人の研究者が、ローカルにデータを保持する必要性が生
じない • マスクあるいは処理されたデータのみを入手可能 • 日本だと限定的 • ヨーロッパだとRISISが代表的

ビッグデータを匿名化することは可能か？ • “It is also nearly impossible to anonymize data.
Big Data are often structured in such a way that essentially everyone in the file is unique, either because so many variables exist or because they are so frequent or geographically detailed, that they make it easy to reidentify individual pattarns.” • “There are no data stewards controlling access to individual data. Data are often so interconnected (think social media network data) that one person’s action can disclose information about another person without that person even knowing that their data are being accessed.”

Tカード、「個人情報を令状なしで警察に提供」に批判個人情報保護委員会に問題ないか聞いてみた • ポイントカード「Tカード」を運営するカルチュア・コンビニエンス・クラブ（以下、CCC）が、利用者の会員情報や利用履歴を令状なしで捜査機関に提供していたとの報道を受け、議論を呼んでいます。
• “CCCは「2012年から、『捜査関係事項照会書』があった場合にも、（中略）捜査機関に協力してまいりました」とコメントしています。これについて個人情報保護委員会に聞いたところ、「個別の案件について、報道の内容だけでマルかバツかは言いづらいものの、限りなく法令に基づくものと考えられます」とコメント。また、法令に基づく照会に対する個人情報提供は、行うことを利用規約に書いていなくても「全く問題ない」との見解でした。” 引用: https://nlab.itmedia.co.jp/nl/articles/1901/24/news080 .html

松本か和田か坂上か浜田かこじるりのいずれかがSNSに投稿すれば、彼らが酒を飲んでいいることはスピルオーバーしてしまう引用: https://twitter.com/ftv8ch/status/824935162928590848

個人のデータを如何に保護するか？ • “Rather than attempt to deanonymize medical records, for
instance, an attacker (or commercial actor) might instead infer a rule that relates a string of more easily observable or accessible indicators to a specific medical condition, rendering large populations vulnerable to such inferences even in the absence of PII. Ironically, this is often the very thing about big data that generate the most excitement: the capability to detect subtle correlations and draw actionable inferences. But it is this same feature that renders the traditional protections afforded by anonymity (again, more accurately, pseudosymmetry) much less effective.”

個人のデータを如何に保護するか? (cont.) • The Value of Anonymity inheres not in
namelessness, and not even in the extension of the previous value of namelessness to all uniquely identifying information, but instead to something we called “reachability, ” the possibility of knocking on your door, hauling you out of bed, calling your phone number, threatening you with sanction, holding you accountable – with or without access to identifying information.

日本での事例 • “問題提起型の投稿は、世間の関心を集めやすいため、アクセス数を稼ぎたいまとめサイトの管理人がすぐに寄ってきて記事を引用していきます。 • まとめサイトは投稿の内容を深堀りするため、最初のtwitterでの投稿からさらに細かな情報を調査や憶測などによって枝葉をつけていきます。” • “人は、そんな馬鹿な行為をしたのが誰なのか、無意識のうちに特定したくなるため、どんどんコメントが増えてアクセスも増えていきます。そうするうちに、画像に写っているわずかな情報から、
「あれ、こいつら３年２組の〇〇たちじゃないのか」という投稿が出始めます。万が一ここで個人名が出てしまうと、一斉にその個人名での検索が始まります。 • ここで仇となるのがInstagramやfacebookです。これらに公開制限をかけていない場合、ことの真相を知りたい輩が、一気にアクセスしてきてその人の個人情報をどんどん吸い出していきます。出身地、生年月日、学校、家族構成など、公開設定している情報については、容赦なく漏洩していきます。” • 直近の事例 • https://twitter.com/search?q=%E8%B8%8F%E5%88%87%20%E5%88%87%E6%96%AD&src=typd 引用: https://fuhyotaisaku-law.com/flames/personalinformation

Legal and Ethical Framework • “The Most Data are housed
no longer in statistical agencies, with well-defined rules of conduct, but in businesses or administrative agencies. In addition, since digital data can be alive forever, ownership could be claimed by yet-to-be-born relatives whose personal privacy could be threatened by release of information about blood relations.” • “Traditional regulatory tools for managing privacy, notice, and consent have failed to provide a viable market mechanism allowing a form of self-regulation governing industry data collection”

Legal and Ethical Framework (cont.) • (1) Rules take into
account the varying levels of inherent risk to individuals across different data sets • (2) traditional definitions of PII need to be rethought • (3) regulation has a role in creating and policing walls between data sets • (4) those analyzing big data must be reminded, with a frequency in proportion to the sensitivity of the data, that they are dealing with people • (5) the ethics of big data research must be an open topic for continual reassessment.

ビッグデータ時代におけるデータの使い方 • データに含まれる個人情報のあり方を検討 • データの管理および提供方法の改善。従来のクライアント＝サーバ型にとらわれないデータ提供のあり方を模索する必要があり • アメリカおよびヨーロッパでは具体的なシステムが運用されつつある •
セマンテック型データなど、新たなデータ管理・運用手法の検討の必要性 • 社会科学者だけではなく、情報工学などの専門家との協業の重要性

Privacy Utility Tradeoff Initial Utility/Privacy Frontier Frontier after increase in
external Data U* utility P2 P1 Privacy ・テクノロジーとそれに関連する法制度の整備によって、 utility と privacy を高い精度で両立できる可能性

2. データ入手から解析までのケーススタディ (グッドデザイン賞)

グッドデザイン賞とは？ • グッドデザイン賞は、様々に展開される事象の中から「よいデザイン」を選び、顕彰することを通じ、私たちのくらしを、産業を、そして社会全体を、より豊かなものへと導くことを目的とした公益財団法人日本デザイン振興会が主催する「総合的なデザインの推奨制度」です。 • その母体となったのは、1957年に通商産業省（現
経済産業省）によって創設された「グッドデザイン商品選定制度（通称Ｇマーク制度）」であり、以来約60年にわたって実施されています。その対象はデザインのあらゆる領域にわたり、受賞数は毎年約1,200件、60年間で約44,000件に及んでいます。また、グッドデザイン賞を受賞したデザインには「Ｇマーク」をつけることが認められます。「Ｇマーク」は創設以来半世紀以上にわたり、「よいデザイン」の指標として、その役割を果たし続けています。引用: http://www.g-mark.org/about/ 2019/6/9 Appale Hare 2017 76

グッドデザイン賞データベース • http://www.g-mark.org/award/ 2019/6/9 Appale Hare 2017 77

収録されている情報 • 製品名 • 事業主体名 • 分類 • 受賞企業 •
受賞概要 • プロデューサー • ディレクター • デザイナー • 販売地域 • 受賞対象の詳細 • 背景 • デザインコンセプト • 開発の意義 • 創意工夫 • デザイナーの想い • 審査委員の評価 • 担当審査委員 2019/6/9 Appale Hare 2017 78

グッドデザイン賞データベースを使ってできそうなこと • 製品データベースとしての活用 • 意匠、特許や論文データベースと接合することで、デザイナーや研究開発チームがどのようにR&D を行いプロダクトを構築しているか？ • そもそも、企業はどういう分野に製品を出しているか？
• デザインや技術のクオリティは製品のクオリティに対してどのように作用するか？ • ？？？「特許の数数えてもしょうがないよね・・・」 • 意匠と特許間のリンケージ • デザイン評価データベースとしての活用 • デザインのトレンドやデザイナーの思考・志向がどのように変化してきたか • 何か外生的なイベントがデザインのトレンドに作用したか • デザイナーは外部から調達(コラボレーション)するのか？In-house なのか？ • デザイナーのキャリアはどのように変化しているか？ • 以下のような意匠データベースの限界を補完する • 特定分野のみに偏っている可能性 • 意匠の出願性向は企業により大きく異なること (吉岡・秋池 2017) 2019/6/9 Appale Hare 2017 79

データを貰うまでの経緯 • 早稲田大学+東京大学の先生とデザインに着目した研究を行うことになる • グッドデザイン賞に着目 • データを貰いにいく • 多くの場合Web
スクレイピングでデータが取得されているため、サーバの維持管理費が増加していることを知る • そこで、データの公開をしてもらうことに • CSV およびJSON 形式でデータを入手

グッドデザイン賞データベースの初期的な解析

グッドデザイン賞データベースの構成 • award_id データベース上の受賞ID • award_no 受賞製品に付与された整理番号 • award_year
受賞年 • name 受賞製品名・製品分野名 • brand 受賞製品ブランド名 • business 製造事業者名 • domain 受賞部門名 • category 受賞カテゴリー（製品分野）名 • producer プロデューサー名 • director ディレクター名 • designer デザイナー名 • release_date-year 受賞製品発売開始年 • release_date-month 受賞製品発売開始月 • release_date-day 受賞製品発売開始日 • price_type 価格属性: 取りうる値＝｛販売価格、総事業費｝ • Pricerange_start 最低価格 • Pricerange_end 上限価格 • Price_unit 価格の単位 • outline 受賞対象の概要記載の「概要」:受賞者によるもの • designer_message 受賞対象の詳細記載の「デザイナーのコメント」 • jury_comment 審査委員の評価 2019/6/9 Appale Hare 2017 82

グッドデザイン賞受賞数推移 • 公募形式となった1963年から増加 • 1975年から急増し、対象領域が拡大した1984年の翌年、 1985年に1,390点に • 1998年に向けて減少するが、
同年にグッドデザイン賞が民営化されて以降、受賞数は増加傾向に 0 200 400 600 800 1,000 1,200 1,400 1,600 1958 1961 1964 1967 1970 1973 1976 1979 1982 1985 1988 1991 1994 1997 2000 2003 2006 2009 2012 2015 グッドデザイン賞受賞数 2019/6/9 Appale Hare 2017 83

特別賞の受賞推移 • 1980年以降特別賞が採録 • 時代に応じて様々な特別賞が付与 • 特別賞 • 特別賞内訳
8 8 0 0 14 157 391 453 688 373 350 278 184 58 348 1,594 1,681 1,561 3,989 5,151 4,752 3,836 5,354 5,123 5,632 2,443 0 1,000 2,000 3,000 4,000 5,000 6,000 7,000 1950年代後半 1960年代前半 1960年代後半 1970年代前半 1970年代後半 1980年代前半 1980年代後半 1990年代前半 1990年代後半 2000年代前半 2000年代後半 2010年代前半 2010年代後半受賞数特別賞なし特別賞あり 0 100 200 300 400 500 600 700 800 1950年代後半 1960年代前半 1960年代後半 1970年代前半 1970年代後半 1980年代前半 1980年代後半 1990年代前半 1990年代後半 2000年代前半 2000年代後半 2010年代前半 2010年代後半特別賞受賞数その他特別賞ロングライフデザイングッドデザイン外国商品賞中小企業庁長官賞グッドデザイン金賞グッドデザイン大賞 2019/6/9 Appale Hare 2017 84

グッドデザイン賞特別賞詳細 No. 特別賞名受賞数 1 グッドデザイン大賞 52 2 グッドデザイン金賞 562
4 サステナブルデザイン賞 18 5 ライフスケープデザイン賞 15 6 グッドデザイン中小企業庁長官賞 430 7 日本商工会議所会頭賞 20 8 ユニバーサルデザイン賞 22 9 エコロジーデザイン賞 25 10 インタラクションデザイン賞 22 11 アーバンデザイン賞 5 12 デザインマネージメント賞 5 13 グッドデザインインターフェース賞 32 14 グッドデザイン外国商品賞 185 15 グッドデザイン景観賞 18 16 グッドデザイン福祉賞 33 17 メディアデザイン賞 1 18 グッドデザイン・プレゼンテーション特別賞 1 19 審査委員長特別賞 4 20 年度テーマ賞 2 21 日本産業デザイン振興会会長賞－家庭用メディア機器・ユーザーインストラクション 6 22 日本産業デザイン振興会会長賞－地球にやさしいデザイン 30 23 20周年中小企業庁長官賞（1977年） 3 24 20周年記念通産大臣賞（1977年） 1 25 20周年貿易局長賞（1977年） 10 26 特選（1957年、61年） 16 27 グッドデザインベスト100（大賞、金賞除く。2016年） 80 N.A. ロングライフデザイン 1,306 2019/6/9 Appale Hare 2017 85

デザイン賞受賞分野 • デザイン賞の受賞製品分野 • 受賞分野40分野 (累計: 1位-10位) 0% 5% 10%
15% 20% 25% 30% 35% 40% 45% 1960年代 1970年代 1980年代 1990年代 2000年代 2010年代受賞製品内シェア家電機器キッチン用品情報機器住宅設備音響機器 AV機器インテリア雑貨構造物 0 1,000 2,000 3,000 4,000 5,000 6,000 7,000 家電機器キッチン用品情報機器住宅設備音響機器 AV機器インテリア雑貨構造物調理器具文房具建築物ファブリック移動体乗り物光学機器オフィス機器照明器具産業機器食器コンピュータ機器スポーツ用品オーディオプレーヤー白物家電オフィス家具パソコン周辺機器空調機器椅子電話機公共設備印刷機器家具自動車テレビ住宅無線通信機計測機器鍋カーテン机パソコン 2019/6/9 Appale Hare 2017 86

受賞企業の所属国 42778 1417 599 553 386 379 328 106 96
95 87 81 68 57 48 33 32 32 32 29 25 19 14 12 12 11 11 11 11 10 7 6 5 5 4 4 4 4 3 2 2 1 1 1 1 1 1 1 1 1 1 33 日本 (空白) Korea Taiwan Thailand Germany U.S.A. Denmark Switzerland China Sweden Italy Hong Kong France U.K. Philippines Netherland Austria Malaysia Singapore 2019/6/9 Appale Hare 2017 87

デザイン賞組織上位30社順位応募組織名（2016年時点の表記）応募総数 1 パナソニック株式会社 3,620 2 株式会社東芝 1,327
3 ソニー株式会社 998 4 シャープ株式会社 947 5 三洋電機株式会社 792 6 株式会社日立製作所 790 7 三菱電機株式会社 750 8 株式会社岡村製作所 503 9 キヤノン株式会社 424 10 コクヨ株式会社 401 11 日本電気株式会社 388 12 Samsung Electronics Co., Ltd. 344 13 株式会社ＪＶＣケンウッド 334 14 ヤマハ株式会社 271 15 株式会社イトーキ 264 16 株式会社リコー 258 17 株式会社川島織物セルコン 252 18 カシオ計算機株式会社 243 19 富士通株式会社 238 20 株式会社LIXIL 235 21 東芝ライテック株式会社 223 22 株式会社キングジム 215 23 オムロン株式会社 213 24 ヤマギワ株式会社 199 25 セイコーエプソン株式会社 199 26 日本軽金属株式会社 198 27 ブラザー工業株式会社 195 28 東洋佐々木ガラス株式会社 190 29 オリンパス株式会社 183 30 ＴＯＴＯ株式会社 172 2019/6/9 Appale Hare 2017 88

まとめ • グッドデザイン賞データベースは何につかえる？ • デザイン賞を企業のデザイン力の代理指標と位置づけ、その財務的なパフォーマンスやその他のイノベーションパフォーマンスとの関係を分析する • デザイン賞の直接の経済効果を把握する • アプローチ:
価格データ • デザインの価値の変遷を把握する • アプローチ: テキスト分析 • 他のデータベースと繋げて解析する • 特許/意匠/論文データベース • 財務データベース • ケーススタディのきっかけにする 2019/6/9 Appale Hare 2017 89

一橋大学で使えるデータセットのご紹介 • プレスリリースデータベース • 日経BP記事検索サービス • 日経NEEDS • 新聞・経済記事データベース •
LexisNexis • 東洋経済デジタルコンテンツライブラリー • 日経テレコン21 • 論文データベース • Web of Science • EBSCO Host • CiNII • Google Scholar • JSTOR • EconLit with Full Text • 財務データベース • 国際比較のためのデータベース • OECD iLibrary

日経BP記事検索サービス

Science Direct で論文を検索する

レポートのお知らせ+ 成績評価の方法

レポートの評価方法 • Excellent • データおよび適切な分析手法に基づき、独自の視点で十分に考察がなされている • Good • データおよび適切な分析手法に基づき、独自の視点で考察がなされている •
Fair • データに対して分析が行われているが、一般的な範囲での考察にとどまる • Bad • 考察がなされていない，あるいはデータの解析が十分に行われていない • Failed • 断りなく他者の見解を引用している，その他不正行為に相当する

成績評価(1) • 平常レポート (40パーセント; 必須) • 講義計画に示したように、複数の回で学生にはレポートを課します。レポートは Word/PowerPoint形式のメールあるいは, github
経由での提出が求められます(どの方法を採用するかは、初回の講義で決定します)。 • レポートには、(A.) 利用したデータセットとその内容, (B.) 分析の問い, (C.) 分析手法, (D.) 分析結果を明記する必要があります。ページ数や文字数は問いませんが, これらの内容が含まれており, 講義中にアナウンスする評価手法を満たす場合, 高い得点を得ることが出来ます。 • 平常点 (10パーセント) • 本講義は実習が多く含まれており, また取り扱うデータセットや内容も多彩です。そのため、受講者同士が協力する必要があります。こうした受講者の態度を評価するために、平常点を設けます。

成績評価(2) • 最終レポート (40パーセント; 必須) • 講義の最終回では最終レポートの報告会を行います。受講者は3名から4名から構成されるグループで、最終レポートの報告を行う必要があります(人数は受講者の人数により変更される可能性があります)。最終レポートでは、プレゼンテーションの方法を学生は自由に選ぶことが出来ます。PowerPoint
以外にも、Prezi などのアクティブプレゼンテーションツールや、他のプレゼンテーション手法を用いることが出来ます(プレゼンテーションツールについては、必要であれば講義内で説明する機会を設けます)。最終レポートでは、以下の点について評価を行います。 (A.) グループ内の役割分担 (B.) データセットのユニークさおよび、それが適切に処理されているか (C.) 分析手法のユニークさおよび、それが適切に解析されているか (D.) プレゼンテーションのユニークさ (E.) 質疑応答にうまくリプライすることが出来ているか • 最終レポートの360°グループ評価 (10パーセント) • 3. の最終レポートについて、グループの自己評価および他のグループからの評価を行います。3. で挙げた評価ポイントに基づき、グループメンバーおよび他のグループは評価を行います。

次回予告. SQL ことはじめ • 大量のデータを運用し活用するためには、データベースを用いると便利です。MySQL を用い、データから必要な情報を抽出し、データ同士を接合する方法について簡単に解説を行い、続いて実データを用いて解析を行います。MySQL Workbench
および MySQL サーバのインストール方法について解説し、データのSQL サーバへの展開方法について解説します。

SQL を使うメリット • 多変量のデータを一気に処理できる • リレーショナル・データベースやグラフ型データベースを用いた解析が出来る

リレーショナル・データベース • Excel のようにひとつのテーブルですべてのデータを管理するのではなく, キーを介して複数のテーブルから構成されるデータベース 6/9/2019 99 中間試験の成績
・学籍番号・問1の得点・問nの得点期末試験の成績・学籍番号・問1の得点・問nの得点平常点の成績・学籍番号・出席点・小テストの得点総合成績・学籍番号・総合得点(=中間試験+期末試験+平常点) ・最終成績

References (for today’s lecture) • Chapter 11: Privacy and Confidentiality
in Big Data and Social Science, Stefan Bender, Deutsche Bundesbank, Ron S. Jarmin, US Census Bureau, Frauke Kreuter, University of Maryland, Julia Lane, NYU

THANKS [email protected]

#経済学のための実践的データ分析 1.3 パネルデータの解析 + データの可用性とプライバシー

#経済学のための実践的データ分析 1.3 パネルデータの解析 + データの可用性とプライバシー

More Decks by yasushihara

Other Decks in Education

Featured

Transcript