Upgrade to Pro — share decks privately, control downloads, hide ads and more …

#経済学のための実践的データ分析 4.1 イントロダクション/Notebook を使ってみよう

yasushihara
November 07, 2019

#経済学のための実践的データ分析 4.1 イントロダクション/Notebook を使ってみよう

#経済学のための実践的データ分析
4.1 イントロダクション/Notebook を使ってみよう

一橋大学 経済学研究科
原泰史
[email protected]

yasushihara

November 07, 2019
Tweet

More Decks by yasushihara

Other Decks in Education

Transcript

  1. 今日の内容 (105分) 1: 自己紹介 2: シラバスの内容の紹介 3: データで「出来ること」と「出来ないこと」 4: Jupyter

    Notebook をインストールするか, Google Colabotory を開いて, “1+1=2”が出来るまで頑張る (今日 の実習)
  2. 確認事項 • 電源タップは足りているでしょうか? • Mac 派? Windows 派? Surface派? •

    プログラミングの経験は? • 教養のプログラミング講義受けていましたか? • 統計学や計量経済学の講義は受けましたか?
  3. 自己紹介 • Yasushi HARA • 1998-2004 • TOYOTA NATIONAL COLLEGE

    OF TECHNOLOGY • 2000 • Exchange Student in Malaysia • 2002-2009 • CLARAONLINE, INC. • ICT Hosting Company, nowadays called Cloud system supplier • 2009-2015 • Institute of Innovation Research, HITOTSUBASHI UNIVERSITY • 2015-2017 • Science for RE-Designing Science, Technology and Innovation Policy Center, National Graduate Institute for Policy Studies (GRIPS) / NISTEP / Hitotsubashi UNIVERSITY/MANAGEMENT INNOVATION CENTER • 2018-2019 • EHESS Paris – CEAFJP/Michelin Research Fellow • OECD Expert Advisory Group: Digital Science and Innovation Policy and Governance (DSIP) and STI Policy Monitoring and Analysis (REITER) project • 2019- • TDB Center for Advanced Empirical Research on Enterprise and Economy, Faculty of Economics, Hitotsubashi University
  4. 自己紹介(2) • 主な研究テーマ • 大規模データを活用したイノベーションプロセスの解析が現在の主な 研究テーマです。大学あるいは研究機関で生み出された基礎研究が、 特許あるいは論文などの著作物を媒介して企業の研究開発へと活用さ れ、それがどのような経済的・社会的価値を生み出すイノベーション へと結実するか、 •

    複数のデータソースを組み合わせることでその動態を解析しています。 特許、学術論文、財務データベースおよび、企業活動を包括的に記述 したデータベースを相互に結合することで、定量的な解析を行ってい ます。具体的なフィールドとしては、製薬・バイオ産業および再生医 療分野に関連した解析を行ってきました。また、無形資産が果たす役 割についても近年関心を持っています。
  5. 自己紹介の 続き • コーディングが上手く行った瞬間 • うどん • 午後2時くらいの中央線上り • クリームブリュレ

    すきなもの • 突然無慈悲に変更される納期 • 電車の中吊り広告にある男性週刊誌の広告 • 午後10時くらいの中央線下り • モロッコ・マラケシュの屋台で飲んだアップルシェー ク きらいなもの
  6. 目的と概要 • 統計解析手法の発達および、クラウドコンピューティ ングに代表されるコンピューティングパワーの増大に より、従来は分析が困難だった様々なデータを経済学 の研究において活用することで、より現実に即した形 での実証研究を行うことが可能になりつつあります。 • しかし、「ビッグデータ」とも呼称されるこれらの データは不定形であり、解析を円滑に行うためには

    データ自体の整形処理等も必要です。 • 本講義では、(1) データの管理、(2) データの処理、(3) データの解析それぞれに焦点を挙げ、Stata, R もしく は python を用いた演習を行うことで、体系的な知識の 修得を行うことを目指します。事前のプログラミング 言語の知識は必要としませんが、受講した内容を自ら の研究で活用するためには、自発的かつ継続的な学習 を推奨します。また、BYOD (Bring Your Own Device) を推奨します。
  7. どういうことかというと… • 本講義のポジショニングはこんな感じです 計量経済学 統計学 経済学のための実 践的データ分析 ・統計学や計量経済学の講義ではカバー しきれない範囲を、本講義では取り上げ ます

    ・具体的な理論については、それぞれの 講義を並行して受講されることをオスス メします ・できるだけ、具体的なデータや事例に 基づいて実習を行います 教養のプログ ラミング講義
  8. テキスト • Big Data and Social Science • 適宜講義資料をオンライン配布 します

    • 春/夏/秋学期の資料は Slideshare/SpeakerDeck に アップロードされています • https://www.slideshare.net/ya sushihara • https://speakerdeck.com/yasu shihara/
  9. ご相談 (その1) • 講義資料やデータですが、Slack を使い共有する予定です; • Manaba -> 春, 夏学期

    • Slack -> 秋, 冬学期 • 講義資料のシェアをしています • SpeakerDeck -> 夏, 秋学期 • Slideshare -> 春学期 • パスワードなし • プロダクトIDなど、機密性のある内容についてはクローズドなSlack 上でシェア します
  10. 1.[11/7]イントロダクション (ビッグデータと 社会科学), 分析環境の構築 [座学, 実習] • 経済学で大量のデータを用いることに、果たしてどのような意 味があるのでしょうか? •

    初回の講義では、経済学はじめ社会科学の研究でデータを活用 する意義について、具体的な研究事例などを交えながら紹介し ます。また、今日広く用いられている Google Colabotary や Jupyter Notebook などの分析環境の導入方法について説明し ます。
  11. 2. [11/11] python, R, Jupyter notebook 事始め (あ るいは、統計分析ソフトちゃんちゃかちゃん) •

    Stata や SPSS, SAS など統計分析ソフトは多数存在します。 これらのメリットや特徴について前半は説明します。 • 後半は、本講義で主に利用する jupyter notebook を用いて, python やR の基本的なコマンドについて実習を交え説明を行 います。テーマは「サンクコスト」です。
  12. 統計ソフト • 無償なもの • R, (Python), Octave • 有償なもの •

    SAS, SPSS, Eviews, STATA etc… • メリットとデメリットをまとめてみます。
  13. 3. [11/14] (人力や Web スクレイピングやRPA で)データを集めてきて処理をするまでの長く 険しい道 [座学、実習] • データといっても、そのほとんどは実のところ定型化されてい

    ません。Web サイトや書籍や国会図書館から手作業でひとつひ とつ入力し、あるいは、Web スクレイピングやRPA を用いて, Web から取得する必要があります。 • データ分析は、こうした事前の作業が作業全体の60-70パーセ ントを占めています。 • こうした手続きの具体例について、座学を用いて紹介した後、 雑誌や Web に掲載されたデータを取得する手法 (Web スクレ イピング) についてご紹介します。
  14. 春/夏学期で「作成した」 データセット • danchu の3月号 • 日本酒の酒蔵に関するアンケー ト調査の Raw Data

    が掲載 • きっかけ; 入山章栄さん (早稲 田ビジネススクール教授; aka 妻の指導教官) のフェイス ブック投稿
  15. リレーショナル・データベース • Excel のようにひとつのテーブルですべてのデータを管理する のではなく, キーを介して複数のテーブルから構成されるデー タベース 11/6/2019 27 中間試験の成績

    ・学籍番号 ・問1の得点 ・問nの得点 期末試験の成績 ・学籍番号 ・問1の得点 ・問nの得点 平常点の成績 ・学籍番号 ・出席点 ・小テストの得点 総合成績 ・学籍番号 ・総合得点(=中間試 験+期末試験+平常点) ・最終成績
  16. 6. [12/5] データベースを用いた分析(1) 特 許/論文データベース [座学、実習] • 知的財産研究所が提供するIIP パテン トデータベース

    (http://www.iip.or.jp/patentdb/)に 基づき、特許データを具体例として解 析の実習を行います。 • 「どの企業が最も特許を出願している のか?」、「どのような分野に特許を 出願しているのか?」など、具体的な 問いを立てた上で、問いに基づきデー タを抽出することを目指します。 • 分析結果については、レポートとして 提出を行う必要があります。 • Clarivate Analytics 社が提供する Web of Science (https://clarivate.com/products/w eb-of-science/) では、論文の書誌情 報を取得することが出来ます。 • こうしたデータを用いることで、例え ば、「日本の大学で最も年ごとの論文 数が多いのは何処か?」、「(指導教 官の)◦◦先生が書いた論文はt年にx 本で、その論文は累計 y 回引用され た」などの情報を取得することが出来 ます。 • 前回と同様、学生は問いを立てた上で、 データベースから必要な情報を取得し 解析を行い、レポートに取りまとめる 必要があります。
  17. 7.[12/9] データベースを用いた分析(3) 企業デー タベース/データベース間の接合[座学、実習] • 帝国データバンク企業・経済高度実証研究センター (http://www7.econ.hit-u.ac.jp/tdb-caree/about-caree/) が提供 する企業のデータベースについて説明を行います。本データベース には、企業の取引、出資、銀行取引データや、決算書データなどが

    含まれています。こうしたデータセットに基づき、前二回同様、問 いに基づきデータを解析することを目指します。 • 今回も、学生はレポートを提出する必要があります。 • また講義の後半では、NISTEP 企業名辞書 (http://www.nistep.go.jp/research/scisip/rd-and-innovation- on-industry) などを用い, ID ベースでデータセット間を接合する手 法について説明します。
  18. 8. [12/12] Open Linked Data の活用 (RDF, RISIS などの事例紹介および試用) [座学、実習]

    • オープンサイエンスやオープンガバメントの進展によって、特 にヨーロッパでは Open Linked Data と呼ばれるデータセット を用いた解析プラットフォームや、解析手法が用いられはじめ ています。 • 本回では、RISIS (https://www.risis2.eu/)と呼ばれる、イノ ベーション分析のためのデータプラットフォームについて解説 を行い、RDF を用いた解析について解説および簡単な実習を行 います。
  19. Open Linked Data の具体例 • 科学者とPhD Advisor の関係性 アメリカの場合 ドイツの場合

    日本の場合 DBpedia.org (Wikipedia の掲載情報をRDF にしたサイト)のSPARQL Endpointに、Linked Data Reactor (http://ld-r.org/) から接続し、Wikipedia に掲載されているScientist の全情報を取り込み
  20. 9. [12/16] テキスト分析 (1) • この回では、これまで用いてきたデータセットについて、異な るアプローチから解析することを目指します。 • 具体的にはすでに定量化されているデータではなく、特許にお ける特許名、論文における論文名、企業データベースにおける

    企業の概要などのテキストデータを解析する手法について学び ます。 • 講義ではPython, R および, KHCoder (http://khcoder.net/) を用い、解析を行います。学生は分析した結果についてレポー トにまとめ、提出する必要があります。
  21. Word2vec モデルに基づく Similarity Words の抽出(from Wikipedia の 経営学者リスト) イノベーション マーケティング論

    技術経営 コーポレート・ガバナンス 医療 0.92人的資源 0.92MOT 0.98 神戸大学大学院経 営学研究科 0.93 静岡 0.91評価 0.92開発 0.92第一人者 0.92 地域 0.91ほか 0.91システム 0.92人 0.91 経営情報学 部 0.9勲 0.91知識 0.91組織論 0.91 県立大学 0.88技術 0.9マネジメント 0.9および 0.9 センター 0.88流通 0.9監事 0.88消費者 0.89 研究科 0.87分析 0.9課題 0.85にて 0.89 経営情報 0.87委員会 0.9Certified 0.85問題 0.88 研究所 0.84課題 0.9客員研究員 0.84受章 0.88 所長 0.83人 0.89技術 0.82期 0.87 長 0.82監事 0.89関係 0.82現代 0.87 准教授 0.81および 0.89プロジェクト 0.82勲 0.87 国際企業 0.8多摩大学 0.89 マーケティング 論 0.81アドバイザー 0.87 経済 0.8地域経済 0.88領域 0.81及び 0.87 研究員 0.79サービス 0.88ホスピタリティ 0.8社会学 0.86
  22. 11. [12/19] データのビジュアライゼー ションとネットワーク分析 • これまでの回で取り上げてきたデータをわかりやすく研究で活 用する手法を学ぶことを目指します。 • Python やR

    などを用いたデータの可視化手法の確認や、 Tableau (https://www.tableau.com/ja-jp) などのデータ可 視化ソフトウェアの紹介および実習を行います。
  23. 春/夏学期の最終レポート • 教育格差研究のための実践的データ分析 • ⾷品業界におけるROEの 日⽶⽐較 • 都道府県別の合計特殊出生率と決定要因 • 「Facebookの、The

    Economist上の テキスト解析」 • 「企業間年収の格差を知るための実践的データ分析」 • 「「スポーツ」のための実践的データ分析」(題材はプロ野球) • 「市場における現代アートの価値決定要因」 • 「Jリーグ入場者数の実践的データ分析」
  24. 秋学期の最終レポート • a. 「カジノ開設のための実践的データ分析」 カジノやパチンコが地域に与える影響についてクロスセクション分析. OECD や政府統計などの データソースを活用. • b.

    「重大な交通事故に与える影響の実証分析」 Google Bigquery からアメリカの交通事故データをランダムサンプリングして取得し, 天候など, 事 故の主な要因を分析 • c. 「著名人の Twitter における発言とその後のトレンドへの影響」 ドナルド・トランプの Twitter データを一括取得し, アメリカ/日本為替レートに与えた影響を測定. 感情推定やTF-IDF を活用. • d. 「医師数の偏りの要因についてのデータ分析」 地方で医師が足りなくなる原因について, 政府統計データを一括してスパース推定を実施. 重回帰分 析と組み合わせてクロスチェック. • e. 「マラソンの記録に対する気候条件の影響分析」 マラソンの成績がどのような要因で決まるのか, 東京マラソンと北海道マラソンのデータを取得し, 気温や風などのデータを用いて分析. • f. 「先物取引のための実践的データ分析」 コメの終了が気候から予測できるのか, 作況指数や高数量, 日照時間や気温のデータを取得し要因を 分析.
  25. ご相談(2) • 取り上げる内容について • やってほしい内容があれば教えてください • 慶應義塾大で行った講義でのリクエスト • SNS の口コミ分析

    -> 秋学期で採用 • 感情分析 -> 秋学期で一部採用 • RESAS データの一括取得 (API の利用方法) と解析 -> 秋学期で採用
  26. 成績評価(1) • 平常レポート (40パーセント; 必須) • 講義計画に示したように、複数の回で学生にはレポートを課します。 レポートは Word/PowerPoint形式のメールあるいは, github

    経由で の提出が求められます(どの方法を採用するかは、初回の講義で決定し ます)。 • レポートには、(A.) 利用したデータセットとその内容, (B.) 分析の問 い, (C.) 分析手法, (D.) 分析結果 を明記する必要があります。ページ 数や文字数は問いませんが, これらの内容が含まれており, 講義中にア ナウンスする評価手法を満たす場合, 高い得点を得ることが出来ます。 • 平常点 (10パーセント) • 本講義は実習が多く含まれており, また取り扱うデータセットや内容も 多彩です。そのため、受講者同士が協力する必要があります。こうし た受講者の態度を評価するために、平常点を設けます。
  27. 成績評価(2) • 最終レポート (40パーセント; 必須) • 講義の最終回では最終レポートの報告会を行います。受講者は3名から4名か ら構成されるグループで、最終レポートの報告を行う必要があります(人数は 受講者の人数により変更される可能性があります)。最終レポートでは、プレ ゼンテーションの方法を学生は自由に選ぶことが出来ます。PowerPoint

    以 外にも、Prezi などのアクティブプレゼンテーションツールや、他のプレゼ ンテーション手法を用いることが出来ます(プレゼンテーションツールについ ては、必要であれば講義内で説明する機会を設けます)。最終レポートでは、 以下の点について評価を行います。 (A.) グループ内の役割分担 (B.) データセットのユニークさおよび、それが適切に処理されているか (C.) 分析手法のユニークさおよび、それが適切に解析されているか (D.) プレゼンテーションのユニークさ (E.) 質疑応答にうまくリプライすることが出来ているか • 最終レポートの360°グループ評価 (10パーセント) • 3. の最終レポートについて、グループの自己評価および他のグループからの 評価を行います。3. で挙げた評価ポイントに基づき、グループメンバーおよ び他のグループは評価を行います。
  28. ご相談(3) • もしご興味があれば, 最終レポート で「企業案件」に取り組んでみて ください • 案件1; • サーファーのためのアプリを開発し

    ている会社 (https://surfeee.com/) • たとえば; アプリが利用しているデー タ/指標とRESAS の地域データを組 みあせて, 誘導系のモデルを作るなど
  29. 受講生に対するメッセージ • 講師は一年間パリで研究活動を行っていました。海外留学や大 学院進学等について、質問がありましたらお寄せ頂けましたら 幸いです。 • また、質問は Manaba や, ツイッター

    (@harayasushi) でも受 け付けます。不明な点などありましたらお問い合わせください ませ。 • (すっかり流行らなくなりましたが、)ツイッターやフェイス ブック上でハッシュタグ #経済学のための実践的データ分析 で 情報共有も行いたく思います。 • ちょっとダサい気がするので講義の実況は禁止。
  30. Framework of Innovation Indicators [modified.] (Pakes and Griliches 1984) Other

    Economi c Factors Non-Knowledge Factors of Production Output: Productivity Firm’s Value Patent Patenting Propensity Inputs to Innovation R&D, designing, marketing research etc… Knowhow and First Mover Advantag Paper 3/8/2015 63
  31. Framework of Innovation Indicators [modified. 2] (Pakes and Griliches 1984)

    Other Economi c Factors Non-Knowledge Factors of Production Output: Productivity Firm’s Value Paten t Patenting Propensity Inputs to Innovation R&D, designing, marketing research etc… Knowhow and First Mover Advantag Paper In- tangible knowledg e 3/8/2015 64
  32. 研究手法のダイアグラム • 定性的なアプローチ • なにかしらの理論モデルにもとづき、文献調査や実地 調査、インタビューなどを使って証拠を集める。集 まった証拠にもとづきロジックを組み立てて、結果を 観察する • データソース

    • 誰かが書いた文章 (論文や特許や報告書や白書 etc…) • 誰かの頭のなか (をインタビューを使って収集する) • 定量的なアプローチ • なにかしらの理論モデルにもとづき、統計データベー スを使ってデータを集める。それを回帰分析 etc… な どの統計的な処理をして、結果を観察する • データソース • 統計データベースを使う • サーベイ調査をする • 政府統計を使う 結論 インプリケーショ ン (ex. 政策的な含意) 問い (リサーチクエスチョン) Literature Review (先行研究の調査) Hypothesis (問いに対する仮説の提示) 3/8/2015 65
  33. 研究手法(2) 1. ひとにきく 1. 発明したひと (=発明者) にきく 1. インタビューをする 2.

    サーベイ調査をする (アンケート をとる) 2. 発明に関与したひとにきく 1. インタビューをする 2. サーベイ調査をする (アンケート をとる) 2. 測ってみる 1. 特許ではかってみる 1. だれとだれが特許を書いたかで はかってみる 2. だれがだれの特許を引用してい るかではかってみる 2. 論文ではかってみる 1. だれとだれが論文を書いたかで はかってみる 2. だれとだれの論文を引用してい るかではかってみる 3. 特許と論文のつながりではかっ てみる 1. どの特許が、どの論文を引用し ているかで測ってみる 2. どの論文が、どの特許を引用し ているかで測ってみる 3/8/2015 66
  34. データベースを使った分析に必要な知識 • Excel で vlookup くらいを使ったことがある • (現在の)コンピュータは、「命令をしないと動かない」ことを知っ ている •

    コンピュータに対して命令を書くときは(多くの場合) 2byte 文字 ではなくて 1byte 文字で入力する必要があることを知っている • Select ではなく, select と打つ必要があることを知っている • マニュアルの通りコンピュータは動かないことを知っている • 「コレは簡単ですよー」と, 技術者がいう「簡単」と, 自らが認識す るところの「簡単」には相違があることを知っている • あきらめないこころ 3/8/2015 67
  35. 次回予定. python, R, Jupyter notebook 事始め • Stata や SPSS,

    SAS など統計分析ソフトは多数存在します。 これらのメリットや特徴について前半は説明します。 • 後半は、本講義で主に利用する jupyter notebook を用いて, python やR の基本的なコマンドについて実習を交え説明を行 います。テーマは「サンクコスト」です。