Upgrade to Pro — share decks privately, control downloads, hide ads and more …

#経済学のための実践的データ分析 1.1 イントロダクションとNotebook

#経済学のための実践的データ分析 1.1 イントロダクションとNotebook

一橋大学 経済学部 28番教室
#経済学のための実践的データ分析 1.1 イントロダクションとNotebook

yasushihara

June 03, 2019
Tweet

More Decks by yasushihara

Other Decks in Education

Transcript

  1. 今日の内容 (105分) 1: 自己紹介 2: シラバスの内容の紹介 3: データで「出来ること」と「出来ないこと」 4: Jupyter

    Notebook をインストールするか, Google Colabotory を開いて, “1+1=2”が出来るまで頑張る (今日 の実習)
  2. 自己紹介 • Yasushi HARA • 1998-2004 • TOYOTA NATIONAL COLLEGE

    OF TECHNOLOGY • 2000 • Exchange Student in Malaysia • 2002-2009 • CLARAONLINE, INC. • ICT Hosting Company, nowadays called Cloud system supplier • 2009-2015 • Institute of Innovation Research, HITOTSUBASHI UNIVERSITY • 2015-2017 • Science for RE-Designing Science, Technology and Innovation Policy Center, National Graduate Institute for Policy Studies (GRIPS) / NISTEP / Hitotsubashi UNIVERSITY/MANAGEMENT INNOVATION CENTER • 2018-2019 • EHESS Paris – CEAFJP/Michelin Research Fellow • OECD Expert Advisory Group: Digital Science and Innovation Policy and Governance (DSIP) and STI Policy Monitoring and Analysis (REITER) project • 2019- • TDB Center for Advanced Empirical Research on Enterprise and Economy, Faculty of Economics, Hitotsubashi University
  3. 自己紹介(2) • 主な研究テーマ • 大規模データを活用したイノベーションプロセスの解析が現在の主な 研究テーマです。大学あるいは研究機関で生み出された基礎研究が、 特許あるいは論文などの著作物を媒介して企業の研究開発へと活用さ れ、それがどのような経済的・社会的価値を生み出すイノベーション へと結実するか、 •

    複数のデータソースを組み合わせることでその動態を解析しています。 特許、学術論文、財務データベースおよび、企業活動を包括的に記述 したデータベースを相互に結合することで、定量的な解析を行ってい ます。具体的なフィールドとしては、製薬・バイオ産業および再生医 療分野に関連した解析を行ってきました。また、無形資産が果たす役 割についても近年関心を持っています。
  4. 自己紹介の 続き • コーディングが上手く行った瞬間 • うどん • 午後2時くらいの中央線上り • クリームブリュレ

    すきなもの • 突然無慈悲に変更される納期 • 電車の中吊り広告にある男性週刊誌の広告 • 午後10時くらいの中央線下り • モロッコ・マラケシュの屋台で飲んだアップルシェー ク きらいなもの
  5. 目的と概要 • 統計解析手法の発達および、クラウドコンピューティ ングに代表されるコンピューティングパワーの増大に より、従来は分析が困難だった様々なデータを経済学 の研究において活用することで、より現実に即した形 での実証研究を行うことが可能になりつつあります。 • しかし、「ビッグデータ」とも呼称されるこれらの データは不定形であり、解析を円滑に行うためには

    データ自体の整形処理等も必要です。 • 本講義では、(1) データの管理、(2) データの処理、(3) データの解析それぞれに焦点を挙げ、Stata, R もしく は python を用いた演習を行うことで、体系的な知識の 修得を行うことを目指します。事前のプログラミング 言語の知識は必要としませんが、受講した内容を自ら の研究で活用するためには、自発的かつ継続的な学習 を推奨します。また、BYOD (Bring Your Own Device) を推奨します。
  6. つまりどういうことかというと… • 本講義のポジショニングはこんな感じです 計量経済学 統計学 経済学のための実 践的データ分析 ・統計学や計量経済学の講義ではカバー しきれない範囲を、本講義では取り上げ ます

    ・具体的な理論については、それぞれの 講義を並行して受講されることをオスス メします ・できるだけ、具体的なデータや事例に 基づいて実習を行います 教養のプログ ラミング講義
  7. テキスト • Big Data and Social Science • 適宜講義資料を配布します •

    春学期の資料は Slideshare にアップロードされています • https://www.slideshare.net/ yasushihara
  8. ご相談 (その1) • 講義資料やデータですが、以下のどの方法でシェアをするのが 良いですか? • Manaba -> 春学期はこれ •

    github • Slack • Slideshare -> 講義資料アップ済み • パスワード付き • パスワードなし
  9. 1.[6/3]イントロダクション (ビッグデータ と社会科学), 分析環境の構築 [座学, 実習] • 経済学で大量のデータを用いることに、果たしてどのような意 味があるのでしょうか? •

    初回の講義では、経済学はじめ社会科学の研究でデータを活用 する意義について、具体的な研究事例などを交えながら紹介し ます。また、今日広く用いられている Google Colabotary や Jupyter Notebook などの分析環境の導入方法について説明し ます。
  10. 2. [6/6] python, R, Jupyter notebook 事始め (ある いは、統計分析ソフトちゃんちゃかちゃん) •

    Stata や SPSS, SAS など統計分析ソフトは多数存在します。 これらのメリットや特徴について前半は説明します。 • 後半は、本講義で主に利用する jupyter notebook を用いて, python やR の基本的なコマンドについて実習を交え説明を行 います。テーマは「サンクコスト」です。
  11. 統計ソフト • 無償なもの • R, (Python), Octave • 有償なもの •

    SAS, SPSS, Eviews, STATA etc… • メリットとデメリットをまとめてみます。
  12. リレーショナル・データベース • Excel のようにひとつのテーブルですべてのデータを管理する のではなく, キーを介して複数のテーブルから構成されるデー タベース 5/27/2019 23 中間試験の成績

    ・学籍番号 ・問1の得点 ・問nの得点 期末試験の成績 ・学籍番号 ・問1の得点 ・問nの得点 平常点の成績 ・学籍番号 ・出席点 ・小テストの得点 総合成績 ・学籍番号 ・総合得点(=中間試 験+期末試験+平常点) ・最終成績
  13. 5. [6/17] (人力や Web スクレイピングやRPA で)データを集めてきて処理をするまでの長く 険しい道 [座学、実習] • データといっても、そのほとんどは実のところ定型化されてい

    ません。Web サイトや書籍や国会図書館から手作業でひとつひ とつ入力し、あるいは、Web スクレイピングやRPA を用いて, Web から取得する必要があります。 • データ分析は、こうした事前の作業が作業全体の60-70パーセ ントを占めています。 • こうした手続きの具体例について、座学を用いて紹介した後、 雑誌や Web に掲載されたデータを取得する手法についてご紹 介します。
  14. 春学期で「作成した」 データセット • danchu の3月号 • 日本酒の酒蔵に関するアンケー ト調査の Raw Data

    が掲載 • きっかけ; 入山章栄さん (早稲 田ビジネススクール教授; aka 妻の指導教官) のフェイス ブック投稿
  15. 6. [6/20] データベースを用いた分析(1) 特 許データベース [座学、実習] • 知的財産研究所が提供するIIP パテントデータベース (http://www.iip.or.jp/patentdb/)に基づき、特許データを具

    体例として解析の実習を行います。 • 「どの企業が最も特許を出願しているのか?」、「どのような 分野に特許を出願しているのか?」など、具体的な問いを立て た上で、問いに基づきデータを抽出することを目指します。 • 分析結果については、レポートとして提出を行う必要がありま す。
  16. 7.[6/24] データベースを用いた分析(2) 論 文データベース [座学、実習] • Clarivate Analytics 社が提供する Web

    of Science (https://clarivate.com/products/web-of-science/) では、 論文の書誌情報を取得することが出来ます。 • こうしたデータを用いることで、例えば、「日本の大学で最も 年ごとの論文数が多いのは何処か?」、「(指導教官の)◦◦先 生が書いた論文はt年にx本で、その論文は累計 y 回引用され た」などの情報を取得することが出来ます。 • 前回と同様、学生は問いを立てた上で、データベースから必要 な情報を取得し解析を行い、レポートに取りまとめる必要があ ります。
  17. 8.[6/27] データベースを用いた分析(3) 企業デー タベース/データベース間の接合[座学、実習] • 帝国データバンク企業・経済高度実証研究センター (http://www7.econ.hit-u.ac.jp/tdb-caree/about-caree/) が提供 する企業のデータベースについて説明を行います。本データベース には、企業の取引、出資、銀行取引データや、決算書データなどが

    含まれています。こうしたデータセットに基づき、前二回同様、問 いに基づきデータを解析することを目指します。 • 今回も、学生はレポートを提出する必要があります。 • また講義の後半では、NISTEP 企業名辞書 (http://www.nistep.go.jp/research/scisip/rd-and-innovation- on-industry) などを用い, ID ベースでデータセット間を接合する手 法について説明します。
  18. 9. [7/1] Open Linked Data の活用 (RDF, RISIS などの事例紹介および試用) [座学、実習]

    • オープンサイエンスやオープンガバメントの進展によって、特 にヨーロッパでは Open Linked Data と呼ばれるデータセット を用いた解析プラットフォームや、解析手法が用いられはじめ ています。 • 本回では、RISIS (https://www.risis2.eu/)と呼ばれる、イノ ベーション分析のためのデータプラットフォームについて解説 を行い、RDF を用いた解析について解説および簡単な実習を行 います。
  19. Open Linked Data の具体例 • 科学者とPhD Advisor の関係性 アメリカの場合 ドイツの場合

    日本の場合 DBpedia.org (Wikipedia の掲載情報をRDF にしたサイト)のSPARQL Endpointに、Linked Data Reactor (http://ld-r.org/) から接続し、Wikipedia に掲載されているScientist の全情報を取り込み
  20. 12. [7/11] データのビジュアライゼー ションとネットワーク分析 • これまでの回で取り上げてきたデータをわかりやすく研究で活 用する手法を学ぶことを目指します。 • Python やR

    などを用いたデータの可視化手法の確認や、 Tableau (https://www.tableau.com/ja-jp) などのデータ可 視化ソフトウェアの紹介および実習を行います。
  21. 成績評価(1) • 平常レポート (40パーセント; 必須) • 講義計画に示したように、複数の回で学生にはレポートを課します。 レポートは Word/PowerPoint形式のメールあるいは, github

    経由で の提出が求められます(どの方法を採用するかは、初回の講義で決定し ます)。 • レポートには、(A.) 利用したデータセットとその内容, (B.) 分析の問 い, (C.) 分析手法, (D.) 分析結果 を明記する必要があります。ページ 数や文字数は問いませんが, これらの内容が含まれており, 講義中にア ナウンスする評価手法を満たす場合, 高い得点を得ることが出来ます。 • 平常点 (10パーセント) • 本講義は実習が多く含まれており, また取り扱うデータセットや内容も 多彩です。そのため、受講者同士が協力する必要があります。こうし た受講者の態度を評価するために、平常点を設けます。
  22. 成績評価(2) • 最終レポート (40パーセント; 必須) • 講義の最終回では最終レポートの報告会を行います。受講者は3名から4名か ら構成されるグループで、最終レポートの報告を行う必要があります(人数は 受講者の人数により変更される可能性があります)。最終レポートでは、プレ ゼンテーションの方法を学生は自由に選ぶことが出来ます。PowerPoint

    以 外にも、Prezi などのアクティブプレゼンテーションツールや、他のプレゼ ンテーション手法を用いることが出来ます(プレゼンテーションツールについ ては、必要であれば講義内で説明する機会を設けます)。最終レポートでは、 以下の点について評価を行います。 (A.) グループ内の役割分担 (B.) データセットのユニークさおよび、それが適切に処理されているか (C.) 分析手法のユニークさおよび、それが適切に解析されているか (D.) プレゼンテーションのユニークさ (E.) 質疑応答にうまくリプライすることが出来ているか • 最終レポートの360°グループ評価 (10パーセント) • 3. の最終レポートについて、グループの自己評価および他のグループからの 評価を行います。3. で挙げた評価ポイントに基づき、グループメンバーおよ び他のグループは評価を行います。
  23. 受講生に対するメッセージ • 講師は一年間パリで研究活動を行っていました。海外留学や大 学院進学等について、質問がありましたらお寄せ頂けましたら 幸いです。 • また、質問は Manaba や, ツイッター

    (@harayasushi) でも受 け付けます。不明な点などありましたらお問い合わせください ませ。 • (すっかり流行らなくなりましたが、)ツイッターやフェイス ブック上でハッシュタグ #経済学のための実践的データ分析 で 情報共有も行いたく思います。 • ちょっとダサい気がするので講義の実況は禁止。
  24. Framework of Innovation Indicators [modified.] (Pakes and Griliches 1984) Other

    Economi c Factors Non-Knowledge Factors of Production Output: Productivity Firm’s Value Patent Patenting Propensity Inputs to Innovation R&D, designing, marketing research etc… Knowhow and First Mover Advantag Paper 3/8/2015 55
  25. Framework of Innovation Indicators [modified. 2] (Pakes and Griliches 1984)

    Other Economi c Factors Non-Knowledge Factors of Production Output: Productivity Firm’s Value Paten t Patenting Propensity Inputs to Innovation R&D, designing, marketing research etc… Knowhow and First Mover Advantag Paper In- tangible knowledg e 3/8/2015 56
  26. 研究手法のダイアグラム • 定性的なアプローチ • なにかしらの理論モデルにもとづき、文献調査や実地 調査、インタビューなどを使って証拠を集める。集 まった証拠にもとづきロジックを組み立てて、結果を 観察する • データソース

    • 誰かが書いた文章 (論文や特許や報告書や白書 etc…) • 誰かの頭のなか (をインタビューを使って収集する) • 定量的なアプローチ • なにかしらの理論モデルにもとづき、統計データベー スを使ってデータを集める。それを回帰分析 etc… な どの統計的な処理をして、結果を観察する • データソース • 統計データベースを使う • サーベイ調査をする • 政府統計を使う 結論 インプリケーショ ン (ex. 政策的な含意) 問い (リサーチクエスチョン) Literature Review (先行研究の調査) Hypothesis (問いに対する仮説の提示) 3/8/2015 57
  27. 研究手法(2) 1. ひとにきく 1. 発明したひと (=発明者) にきく 1. インタビューをする 2.

    サーベイ調査をする (アンケート をとる) 2. 発明に関与したひとにきく 1. インタビューをする 2. サーベイ調査をする (アンケート をとる) 2. 測ってみる 1. 特許ではかってみる 1. だれとだれが特許を書いたかで はかってみる 2. だれがだれの特許を引用してい るかではかってみる 2. 論文ではかってみる 1. だれとだれが論文を書いたかで はかってみる 2. だれとだれの論文を引用してい るかではかってみる 3. 特許と論文のつながりではかっ てみる 1. どの特許が、どの論文を引用し ているかで測ってみる 2. どの論文が、どの特許を引用し ているかで測ってみる 3/8/2015 58
  28. データベースを使った分析に必要な知識 • Excel で vlookup くらいを使ったことがある • (現在の)コンピュータは、「命令をしないと動かない」ことを知っ ている •

    コンピュータに対して命令を書くときは(多くの場合) 2byte 文字 ではなくて 1byte 文字で入力する必要があることを知っている • Select ではなく, select と打つ必要があることを知っている • マニュアルの通りコンピュータは動かないことを知っている • 「コレは簡単ですよー」と, 技術者がいう「簡単」と, 自らが認識す るところの「簡単」には相違があることを知っている • あきらめないこころ 3/8/2015 59
  29. Jupyter Notebook のインストール(1) • 1. https://anaconda.com にアクセスし, Python3.7 バージョン の

    [Download] をクリック Windows版 Mac版 ダウンロードが終わるまで待つ。
  30. 次回予定. python, R, Jupyter notebook 事始め • Stata や SPSS,

    SAS など統計分析ソフトは多数存在します。 これらのメリットや特徴について前半は説明します。 • 後半は、本講義で主に利用する jupyter notebook を用いて, python やR の基本的なコマンドについて実習を交え説明を行 います。テーマは「サンクコスト」です。