Pro Yearly is on sale from $80 to $50! »

一橋2020秋 #経済学のための実践的データ分析 1/12

F5f758ca2ec0de2da9781ce9391d9c6c?s=47 yasushihara
September 15, 2020

一橋2020秋 #経済学のための実践的データ分析 1/12

一橋2020秋 #経済学のための実践的データ分析 1/12

一橋大学大学院経済学研究科
原泰史
yasushi.hara@r.hit-u.ac.jp

F5f758ca2ec0de2da9781ce9391d9c6c?s=128

yasushihara

September 15, 2020
Tweet

Transcript

  1. 一橋大学 「経済学のための 実践的データ分析」 2020秋: 1/12 1.はじめに 1.1データ分析とは 1.2講義の運営方法 1.3Colaboratoryと Jupyter

    利用方法 一橋大学大学院経済学研究科 原泰史 yasushi.hara@r.hit-u.ac.jp
  2. 今日の内容 • 13:00-13:15 • プレ講義 [録画なし] • 13:15-13:45 • 1.1

    データを分析すると いうこと [録画あり] • 13:45-13:50 • インターミッション[録画な し] • 13:50-14:10 • 1.2 この講義の運営スタ イルについて [録画あり] • 14:10-14:15 • インターミッション 2[録画なし] • 14:15-14:35 • 1.4 Jupyter Labs/Google Colaboratory の導 入の仕方 [録画]
  3. 1.1 データを 分析するということ

  4. 自己紹介 • 1998-2004 • TOYOTA NATIONAL COLLEGE OF TECHNOLOGY •

    2000 • Exchange Student in Malaysia • 2002-2009 • CLARAONLINE, INC. • ICT Hosting Company, nowadays called Cloud system supplier • 2009-2015 • Institute of Innovation Research, HITOTSUBASHI UNIVERSITY • 2015-2017 • Science for RE-Designing Science, Technology and Innovation Policy Center, National Graduate Institute for Policy Studies (GRIPS) / NISTEP / Hitotsubashi UNIVERSITY/MANAGEMENT INNOVATION CENTER • 2018-2019 • EHESS Paris – CEAFJP/Michelin Research Fellow • OECD Expert Advisory Group: Digital Science and Innovation Policy and Governance (DSIP) and STI Policy Monitoring and Analysis (REITER) project • 2019- • TDB Center for Advanced Empirical Research on Enterprise and Economy, Faculty of Economics, Hitotsubashi University
  5. 最初に 2005年と2015年の話

  6. ITスタートアップで 働いていたころの話

  7. “IT スタートアップ” とは言っても… • 働き出したころ(2002年) は従業員7名 • 辞めるころ (2009年) でも従業員70名

    • “レンタルサーバ”と呼ばれていた時代で、クラウドコンピュー ティングがまだまだ普及する前 (AWS の黎明期) • 仮想化 (virtualization) という、サーバのハードウェアレイヤー とOSレイヤーをカーネルレベルで独立させる技術が一般化しつ つ会った時代 (VMware や Parallels Container など) • Web で注文を掛けて、FAXで受注するような時代 • 購買システムと受注システムと会計システムがバラバラだった 時代
  8. VPS(バーチャルプライベートサーバ) • サーバサービスは当時価格競争に 突入しており、3000円弱の新サー ビス(Demi)を投入することに • ところが、最低価格のプロダクト (Demi)ではなく、中価格帯(Solo) が最も売れるようになる •

    でも、なぜ一番安いモデルが売れない のか説明できない • 「相対価格」で説明して、なんと なく上司が納得する(腹落ちする) • Demi をベースにすると, 1.67 -> 2.34 -> 3.35 • その後最安価モデルは廃止 https://web.archive.org/web/20050208123052/http://clara.jp/service/vps/
  9. None
  10. エビデンスに基づく 科学技術イノベーション政策と「ポンチ絵」 • いままでのキャリアで、ベンチャー(スタートアップ)とアカデミア をやったことに気づき、数年だけならばと、政策大学大学院大学の 文部科学省の科学技術イノベーション政策のセンター (SciREX セン ター) で働くことに

    • どうやら、研究内容やどういうジャーナルに載ったかとか、それが どういうインパクトファクター(IF)だったかよりも、政策立案のプ ロセス内で使われるポンチ絵の一部になっていることが重要らしい。 • ポンチ絵の要件 • 数十秒で読んで理解できること • しかも、内容が過不足なく明記されていること • 色がいっぱい使われていること • 何よりも予算が取れること
  11. 「ポンチ絵」 http://ryota-saeki-lifelog.hatenablog.com/entry/2016/09/02/105402

  12. 自分もこんな感じのポンチ絵をつくる mext.go.jp/b_menu/shingi/chousa/gijyutu/025/shiryo/__icsFiles/afieldfile/2016/02/24/1366973_11.pdf

  13. ここまでのまとめ • (個人的には、)ITスタートアップも中央官庁も「データ分析」 に対するアティチュードはそんなに違いはなかった • 「直感でわからないことや、うまくいかなくなったことを分析した い」ことへの高いニーズはあるし、それぞれにデータもある • しかし、部署ごとにデータがバラバラになっており、繋がっていない •

    解析を行うための方法論や理論もあまりない • 誘導系でも構造系でも、統計的な分析モデルを構築するというよりは、 棒グラフや線グラフで経過を見るだけで必要十分だった(意思決定プロ セスの上位過程にまわるタイミングで、説明が出来るレベルに留める ことが肝要)
  14. 2018 Paris

  15. 2019年春、パリから日本に戻ってきたら、 流行っていたもの • タピオカミルクティー • データサイエンス Credit: CC0 References: https://enterprisezine.jp/bizgene/detail/4739

  16. None
  17. どうやら、この国では「データを使う」 ことが流行っているらしい • 実家の近くにある企業で開催された早稲田ビジネススクール入 山章栄先生の講演に妻と一緒に参加したところ、最終的に愛知 県豊田市でデータサイエンス講演・講習を担当することに • 経済学・(実証的な)経営学の学生・研究者向けに Python 3.x

    を 用いたデータ分析技法に特化した本を出版することに • 年末に出版予定です
  18. なぜ、データが必要 なのだろう?

  19. たとえば; 経営といえば ひと もの かね 情報

  20. 経営を分析する (オールドスクールな方法) ひと もの かね 情報 話を聞きにいくか、文献を調査することでなぜその企業/製品がうまく いったのか、要因を経営理論に照らし合わせて解析する(定性的調査)

  21. 経営を分析する (最近みんなが好きな手法) ひと もの かね 情報 データベースを入手するか、サーベイデータを作成し、それらの データセットを接合し合うことで、なぜその企業/製品がうまくいっ たのか、要因を経営理論に照らし合わせて解析する(定量的調査)

  22. Q. データを使えばビジネスはわかるか? もしくは、政策評価はできるか? • ちょっと昔に言われたこと • 「データはあくまで数をみているだけ。経営者の心の機微や組織体制の細やかな変容や経 営者の意思決定の変化を、細かくデータで追うことは出来ない。」 • ここ数年、実際の世の中で起きたこと

    • テキスト解析手法の進化 • 因果推論の推定手法の開発と普及 • 機械学習のあっという間の普及 • データベースの普及と重要性が認識されるようになった • データ解析に係る導入コストの低下 • as 統計ソフトを買わなくても良くなった • A. 2020年5月段階の(個人的な)答え • データがあれば、かなり色々なことがわかる。データ分析の技法は取得したほうが良い。 • データで説明しきれない特殊性や特筆性については、まだ定性分析に出来ることはある
  23. では、データを使った分析に必要なもの データ、もしくはデータベース 分析手法 分析を行うためのツール

  24. 企業活動に関連するデータベース 研究開発 調達 生産 販売 マーケ ティング 科学技術基本 調査(総務省) 企業活動基本調査

    (経済産業省) 経済センサス (総務省) 政府系 データベース 商用 データベース 帝国 データバンク 特許 データ ベース 論文 データベース (WoS, Scopus, Lends) INITIAL (Entrepedia) POSデータ (ex. インテージ) SNS (Twitter, Facebook, TikTok) 商用と政府系のデータベー スを組み合わせれば、企業 行動をデータで「辿る」こ とは可能になる
  25. 帝国データバンクデータベース (Commercial) • 一橋CAREE センターで利用可能なデータセット • パネルデータ化が可能. • アーカイブデータも利用可能(政策フォーラム午前中の岡室先生の発表) •

    ご関心のある先生方は、是非ともお問い合わせください 企業信用調査報告書に関するデータ 取引データ,出資データ,銀行取引データ 企業財務データベースに関するデータ 決算書データ 企業概要ファイルに関するデータ 取引データ,企業情報データ,銀行取引データ その他企業に関するデータ 合併データ,倒産データ
  26. 企業活動に関連するデータベース(extended) 研究開発 調達 生産 販売 マーケ ティング 研究開発に関 わる作業ログ /ノート/機器

    の稼働状況 調達や部品の調達 に関するログ/メー ル/電話のやり取り 販売価格決定 に関わる意思 決定に関わる エビデンス 企業内のログ 商用 データベース 帝国 データバンク 特許 データ ベース 論文 データベース (WoS, Scopus, Lends) INITIAL (Entrepedia) POSデータ (ex. インテージ) SNS (Twitter, Facebook, TikTok) さらに、企業内に介在する ログを組み合わせることで、 企業の意思決定をエビデン スベースに基づき実行する ことが可能になる
  27. データを「データベース化」する • 不定形データをデータ化する • JSON やXML をCSV にして、人間が読めるようにする • もしくはその逆

    • データをデータベース化する • Machine Readable • SQL, NoSQL etc… • データを管理し保持する (データマネジメント) • 大昔; 紙 • 昔; Excel • 一昔前; スタンドアロンのサーバ • ちょっと昔; パブリッククラウド (AWS, Microsoft Azure, GCP etc…) • 現代; サーバーレス
  28. 分析手法 • Step1; グラフにする • 「まずは散布図を書いてみる」 • Step2; 統計的処理を行う (平均値,

    中央値, 最大値, 最小値 etc..) • このあたりから、内生性や見せかけの回帰との戦いがはじまる • Step3; 回帰分析など, 入力と出力間の関係性を見る • 重回帰分析 • スパース推定 • 決定木分析, SVM (教師あり/教師なしの機械学習) • Step4; 因果効果を識別する • 因果関係と相関関係を識別する(次のページ)
  29. 因果識別の手法(1) 実験対象 Treated Group Control Group y x Cut-off Point

    • ランダム化比較試験 (RCT) • 対象者と非対象者を無 作為抽出して比較実験 • 回帰不連続(RD) デザイン – 回帰直線シフト 29 実験対象 Treated Group Control Group • 傾向スコアマッチン グ(PSM): – 各政策対象企業と同じ「政 策対象傾向」を持つ企業を 対照群から抽出 引用:岡室博之 (2019) 産業クラスターと地方創生:地域イノベーション政策の展開と分析方法, 一橋大学公開講座
  30. 因果識別の手法(2) • 差の差の分析(DID) • 処置群と対照群の比較 と政策前後比較の二重 差 y t Control

    Group Treated Group t+u t-s ▲t • パネル固定効果分析 • パネルデータを用いて、 各企業の固有の属性の 影響を除去 y x t+i t • 操作変数法(IV): – 内生変数を外生変数 (操作変数)に置き換 える2段階推定 Z X Y U β α 引用:岡室博之 (2019) 産業クラスターと地方創生:地域イノベーション政策の展開と分析方法, 一橋大学公開講座
  31. データサイエンスをタピオカミルクティー にしない方法 1. データを公開する. Linked Open Data を活用する. 2. データの知的財産権を明確化する.

    3. 神エクセルをなくす. (as DX の推進) 4. オープンソースソフトウェアを使う, あるいは教育する. 2020年初頭の最適解はR もしくは Python (3.x系). 5. AI という言葉に踊らされない. 使い倒す.
  32. (いくつかの)ギャップ • 願望投影型政策 (森田 2015) とEBPM • データが、推進したい施策に基づき構築される可能性 • ナラティブなストーリーとデータ解析

    • 統計的な素養を政策立案者や企業戦略の決定者すべてが有しているわけでは ない。データに基づく解析結果を広く共有するためには、ストーリーに落と し込むことが必要 • データのオープン化と、ITセキュリティ対策 • RESAS や Notebook や Linked Open Data を利用しようとしても, 自治体や 中央政府、企業のITセキュリティ上制限が掛けられており(ex. 自治体のネッ トワーク分離), 業務用PC などでこれらのツールを利用することが出来ない。
  33. Source: OECD (2017[3]), Core Skills for Public Sector Innovation, https://www.oecd.org/media/oecdorg/satellite

    sites/opsi/contents/files/OECD_OPSI-core_skills_for_public_sector_innovation-201704.pdf OECD が定義するデジタルスキル
  34. Conclusion • データサイエンスと呼ばれているものは、プログラミングスキ ルと数学とエンジニアリングスキルと因果関係を特定するため のスキルが混ざりあったもの • 政府のみなさんへ • とりあえずデータを、Machine-Readable な形で公開してください

    • PDF でも Excel でもなくて、JSON やRDF 形式だとかなりベター • 企業のみなさんへ • 組織内のデータと、外部データを組み合わせることで新たな知見を得 られる可能性が • 経済学や(実証的な規範に基づく)経営学は思ったよりも「役に立 つ」と思います
  35. 1.2 「経済学のための実践的 データ分析」の運営方法について

  36. 目的と概要 • 統計解析手法の発達および、クラウドコンピュー ティングに代表されるコンピューティングパワー の増大により、従来は分析が困難だった様々な データを経済学の研究において活用することで、 より現実に即した形での実証研究を行うことが可 能になりつつあります。 • しかし、「ビッグデータ」とも呼称されるこれら

    のデータは不定形であり、解析を円滑に行うため にはデータ自体の整形処理等も必要です。 • 本講義では、(1) データの管理、(2) データの処理、 (3) データの解析それぞれに焦点を挙げ、Stata, R もしくは python を用いた演習を行うことで、体系 的な知識の修得を行うことを目指します。事前の プログラミング言語の知識は必要としませんが、 受講した内容を自らの研究で活用するためには、 自発的かつ継続的な学習を推奨します。また、 BYOD (Bring Your Own Device) を推奨します。
  37. どういうことかというと… データの統計的処理だけではなく、データを「持ってきて」、「加工して」、 「整理して」、解析するまでをやりますよ データを使うだけではなく、データを管理したり、個人情報に配慮しながら調 達する方法についても取り上げますよ 統計ソフトやNotebook にデータを放り込んで、誘導系 and/or 構造系の解析 をするまでに必要な『泥臭い』作業の方法論をご紹介しますよ

    すごくスタイリッシュに見えて、実は地味なことを取り上げますよ
  38. 他の授業科目との関連・教育課程の中で の位置づけ 本講義は、統計学および計量経済学の講義内容と補完 的な内容となっています。受講者は事前に、あるいは 平行してこれらの講義を受講することを推奨します。 併せて、卒業論文、修士論文および博士論文にて定量 的な分析を行う学生は受講することを推奨します。

  39. どういうことかというと… • 本講義のポジショニングはこんな感じです 計量経済学 統計学 経済学のための実 践的データ分析 ・統計学や計量経済学の講義ではカバー しきれない範囲を、本講義では取り上げ ます

    ・具体的な理論については、それぞれの 講義を並行して受講されることをオスス メします ・できるだけ、具体的なデータや事例に 基づいて実習を行います 教養のプログ ラミング講義
  40. テキスト • Big Data and Social Science • 適宜講義資料をオンライン配布 します

    • 春/夏/秋学期の資料は Slideshare/SpeakerDeck に アップロードされています • https://www.slideshare.net/ya sushihara • https://speakerdeck.com/yasu shihara/
  41. テキスト(2) • 『東京大学のデータサイエン ティスト育成講座』

  42. 授業時間外の学習 (求められる予習・ 復習等) • 講義ごとに取り上げた内容につい て、自発的に予習および復習を行 うことを勧めます。プログラミン グおよび分析ツールの習熟には、 自らの手で試行錯誤を行うことが 必要不可欠です。

    • 講義では、こうした学習を支援す るサイトやツールを都度紹介しま す。 • また、講義内容の共有を行うため, Manaba あるいは Slack を用いた グループを運用する予定です。
  43. 講義の配信方法 • 本講義ではリアルタイム配信と録画配信を組み合わせます。受講者 は、講義時間にリアルタイムで講義を受講するか、録画を後ほど閲 覧することを選択出来ます。 • すでにいくつかのコンテンツについては春/夏学期で録画を取っているので、 それをご覧いただく形にしたく思います。 • リアルタイム配信は、継続性を考えいくつかの配信手段を検討して

    います。基本は Zoom (https://zoom.us/) を利用予定ですが, セ キュリティや通信の安定性などを勘案して、別の動画配信ツールを 用いる可能性があります。 • 2020/9/15 時点では, Zoom を含め以下の優先度にて、動画配信 ツールを利用予定にしています。 • 1. Zoom; https://zoom.us • 2. Google Classroom/Meet https://hangouts.google.com/ • 3. Bluejeans/jitsi meet • 4. Skype または LINE グループ
  44. 講義の配信方法(2) • Slack で次回講義のZoom URLとパスワードを告知します • 講義開始までに登録をお願いします (参加者の把握のため) • 春学期については、火曜日と金曜日の13:15-15:00

    に講義をリ アルタイム配信します。 • 春学期の録画はすべてご覧頂けます • 夏学期についても同様に録画予定です • その後、録画したものを Google Classroom および Slack に通 知します • 録画バージョンは、基本的に一回の講義あたり20分の動画 x4本になり ます。
  45. 講義の実施方法 (秋学期) • 本学は通常105分講義ですが, オンラインであることを鑑み以下のような構成で実施予定 にしています. • Youtuber 方式で、講義のコア部分は20分以内でまとめるようにします (ベストエフォート!)

    • 春学期/夏学期の場合は、以下のタイムラインで配信を行う予定です. • 10:30-10:45 プレ講義(雑談 etc…) (15分) • 10:45-11:05 講義モジュール1 [録画あり] • 11:05-11:10 休憩 • 11:10-11:25 講義モジュール2 [録画あり] • 11:25-11:30 休憩 • 11:30-11:50 講義モジュール3 [録画あり] • 11:50-11:55 休憩 • 11:55-12:15 講義モジュール4 [録画あり] • 12:15-12:30 Slack およびブレイクアウトルームを用いた質疑応答タイム
  46. 秋学期講義スケジュール(1) • 1. 9/15 [今日; Zoom配信+録画] • イントロダクション (ビッグデータと社会科学), 分析環境の構築とプログラ

    ミング言語入門 • 経済学で大量かつ様々なタイプのデータを用いることに、果たしてどのような意味が あるのでしょうか?初回の講義では、経済学はじめ社会科学の研究でデータを活用す る意義について、具体的な研究事例などを交えながら紹介します。また、今日広く用 いられている Jupyter Lab/Google Colaboratoryなどの分析環境の導入方法について 説明します。併せて、教養課程でプログラミング講習を履修していない学生に向けて、 プログラミングの基礎について解説します。 • 2. 9/18 [録画] • 記述統計と(重)回帰分析/統計ソフトの比較 • 本講義で主に利用する jupyter labs/google colaboratory を用いて, python やR の基 本的なコマンドについて実習を交え説明を行います。記述統計の導出や回帰分析など、 統計学や計量経済学の講義で扱う内容を、Notebook 環境上で行えるようにすること を目指します。今回のテーマは「サンクコスト」です。
  47. 秋学期講義スケジュール(2) • 3. 9/22 [録画] • データの取得と前処理 (Web スクレイピング, RPA,

    API そして手入力) / SQL の使い 方 • データといっても、そのほとんどは実のところ定型化されていません。Web サイトや書籍や国 会図書館から手作業でひとつひとつ入力し、あるいは、Web スクレイピングやAPI, RPA を用 いて, Web から取得する必要があります。データ分析は、こうした事前の作業が作業全体の60- 70パーセントを占めています。こうした手続きの具体例について、座学を用いて紹介した後、 雑誌や Web に掲載されたデータを取得する手法についてご紹介します。 • 後半では, SQL の使い方について概要を説明します。大量のデータを運用し活用するためには、 データベースを用いると便利です。Google BigQuery を用い、データから必要な情報を抽出し、 データ同士を接合する方法について簡単に解説を行います。また続いて, Google Big Query を 用いて解析を行いますまた, 必要に応じて MySQL サーバおよび MySQL Workbench の導入方 法、多変量データの展開方法について解説します。 • 4. 9/25 [録画] • データの可用性とプライバシー • インターネットには様々な情報が掲載されています。あるいは、大学の図書館からデータベー スにアクセスすれば、様々な情報を得ることが出来ます(一橋大学の場合は特に!)。しかしな がら、データには個人情報や企業の機密情報などが含まれており、これらの適切に管理し運用 することは極めて重要です。テキストブックの内容に基づき、説明を行います。
  48. 秋学期講義スケジュール(2) • 5. 9/29 質疑応答セッションその1 [Zoom配信+録画] • レポート1やこれまでの講義でわからなかったこと/解決したいことを ひたすら質疑応答する回です。 •

    リモート講義で、やりにくい部分もあるとたくさんあると思うので、 そもそもコーディングの考え方や配っている Notebook が動かない! などの課題を、peer に解く回にしようと思います。
  49. 秋学期講義スケジュール(2) • 6. 10/2 [Zoom 配信+録画] • 企業行動/産業のデータ分析 (企業情報、財務、特許と論文) •

    帝国データバンク企業・経済高度実証研究センター (http://www7.econ.hit-u.ac.jp/tdb- caree/about-caree/) や、日経NEEDS などが提供する企業のデータベースについて説明を行い ます。本データベースには、企業の取引、出資、銀行取引データや、決算書データなどが含ま れています。こうしたデータセットに基づき、問いに基づきデータを解析することを目指しま す。また講義の後半では、RESASを用いて地域産業の情報の取得する方法と、NISTEP 企業名 辞書 (http://www.nistep.go.jp/research/scisip/rd-and-innovation-on-industry) などを用い, ID ベースでデータセット間を接合する手法について説明します。 • 企業の研究開発活動を解析するためには、特許や学術論文の動向について測ることで、産業内 での動態を観察することが出来ます。知的財産研究所が提供する IIP パテントデータベース (http://www.iip.or.jp/patentdb/), Clarivate Analytics 社が提供する Web of Science (https://clarivate.com/products/web-of-science/), Lens.org などを用いることで、 - 「どの企業が最も特許を出願しているのか?」 - 「どのような分野に特許を出願しているのか?」 - 「日本の大学で最も年ごとの論文数が多いのは何処か?」 - 「(指導教官の)◦◦先生が書いた論文はt年にx本で、その論文は累計 y 回引用された」 などの情報を取得し分析する方法を解説の上、実習を行います。
  50. 秋学期講義スケジュール(3) • 7. 10/6 [録画] Open Linked Data の活用 (RDF,

    RISIS などの事例紹介および試用) • オープンサイエンスやオープンガバメントの進展によって、特にヨーロッパでは Open Linked Data と呼ばれるデータセットを用いた解析プラットフォームや、解析手法が用いられはじめて います。本回では、RISIS (https://www.risis2.eu/)と呼ばれる、イノベーション分析のための データプラットフォームについて解説を行い、RDF を用いた解析について解説および簡単な実 習を行います。 • 8. 10/9 [録画] • テキスト分析 (Wordcloud, Word2vec, Topic Model, 計量テキスト分析)/SNS データ の取得および分析 • これまで用いてきたデータセットについて、異なるアプローチから解析することを目指します。 具体的にはすでに定量化されているデータではなく、特許における特許名、論文における論文 名、企業データベースにおける企業の概要などのテキストデータを解析する手法について学び ます。具体的には, Wordcloud, Word2vec, Topic モデルなどについて解説します。 • また計量テキスト分析、特に共起ネットワーク, 分散分析などの手法について, KHcoder (http://khcoder.net) を用い解析を行います。関連して、Twitter などのソーシャル・ネット ワークからAPI などの手法を用いてテキストデータを取得し解析する方法について解説します。
  51. ケーススタディ1: SMAP会見 • 共起ネットワーク

  52. Twitter の口コミを Wordcloud にプロット • 早稲田大学 • 慶應大学

  53. 秋学期講義スケジュール(2) • 9. 10/13 [録画] • データのビジュアライゼーションとネットワーク分析 • これまでの回で取り上げてきたデータをわかりやすく研究で活用する手法を学ぶ ことを目指します。Python

    やR などを用いたデータの可視化手法の確認や、 Ploty, D3.js やTableau (https://www.tableau.com/ja-jp) などのデータ可視化ソ フトウェアの紹介および実習を行います。 • 10. 10/16 質疑応答セッションその2 [Zoom配信+録画] • レポート2や最終レポートでわからなかったこと/解決したいことをひ たすら質疑応答する回です。 • リモート講義で、やりにくい部分もあるとたくさんあると思うので、 そもそもコーディングの考え方や配っている Notebook が動かない! などの課題を、peer に解く回にしようと思います。
  54. 春学期講義スケジュール(4) • 11. 10/20 [録画] • 機械学習と因果推論 [座学, 実習] •

    Python および R を用いて、決定木分析やSVM, スパース推定について、具体例 の紹介および実習を行います。また、DID や非連続回帰デザインなどの因果推論 の分析手法についても簡単な解説を行います。講義の後半では, 最終レポートに ついての説明を行います。これまでに学んだ手法を用いデータ解析を行うことで、 グループでのレポートをまとめます。このグループの決定を行います。 • 12. 10/23 [Zoom 配信] • まとめ、および最終レポート発表会 • これまでの講義の内容を振り返った上で、グループごとの最終レポートの発表を 行います。レポートは発表時間10分、質疑応答5分で、グループごとに実施しま す。
  55. これまでの最終レポート例 • a. 「カジノ開設のための実践的データ分析」 カジノやパチンコが地域に与える影響についてクロスセクション分析. OECD や政府統計などの データソースを活用. • b.

    「重大な交通事故に与える影響の実証分析」 Google Bigquery からアメリカの交通事故データをランダムサンプリングして取得し, 天候など, 事 故の主な要因を分析 • c. 「著名人の Twitter における発言とその後のトレンドへの影響」 ドナルド・トランプの Twitter データを一括取得し, アメリカ/日本為替レートに与えた影響を測定. 感情推定やTF-IDF を活用. • d. 「医師数の偏りの要因についてのデータ分析」 地方で医師が足りなくなる原因について, 政府統計データを一括してスパース推定を実施. 重回帰分 析と組み合わせてクロスチェック. • e. 「マラソンの記録に対する気候条件の影響分析」 マラソンの成績がどのような要因で決まるのか, 東京マラソンと北海道マラソンのデータを取得し, 気温や風などのデータを用いて分析. • f. 「先物取引のための実践的データ分析」 コメの終了が気候から予測できるのか, 作況指数や高数量, 日照時間や気温のデータを取得し要因を 分析.
  56. ご相談 • 最終レポートについて • はやめにグループを作りたいと考えてみます • ランダムに割当か、友だち同士グループのほうどちらが良いでしょう か? • 取り上げる内容について

    • やってほしい内容があればSlack やチャットで教えてください • 昨年度慶應義塾大で行った講義でのリクエスト • SNS の口コミ分析 • 感情分析 • RESAS データの一括取得 (API の利用方法) と解析
  57. 成績評価の方法

  58. 成績評価(1) • 平常レポート (40パーセント; 必須) • 講義計画に示したように、複数の回で学生にはレポートを課します。 レポートは Word/PowerPoint形式のメールあるいは, github

    経由で の提出が求められます(どの方法を採用するかは、初回の講義で決定し ます)。 • レポートには、(A.) 利用したデータセットとその内容, (B.) 分析の問 い, (C.) 分析手法, (D.) 分析結果 を明記する必要があります。ページ 数や文字数は問いませんが, これらの内容が含まれており, 講義中にア ナウンスする評価手法を満たす場合, 高い得点を得ることが出来ます。 • 平常点 (10パーセント) • 本講義は実習が多く含まれており, また取り扱うデータセットや内容も 多彩です。そのため、受講者同士が協力する必要があります。こうし た受講者の態度を評価するために、平常点を設けます。
  59. 成績評価(2) • 最終レポート (40パーセント; 必須) • 講義の最終回では最終レポートの報告会を行います。受講者は3名から4名か ら構成されるグループで、最終レポートの報告を行う必要があります(人数は 受講者の人数により変更される可能性があります)。最終レポートでは、プレ ゼンテーションの方法を学生は自由に選ぶことが出来ます。PowerPoint

    以 外にも、Prezi などのアクティブプレゼンテーションツールや、他のプレゼ ンテーション手法を用いることが出来ます(プレゼンテーションツールについ ては、必要であれば講義内で説明する機会を設けます)。最終レポートでは、 以下の点について評価を行います。 (A.) グループ内の役割分担 (B.) データセットのユニークさおよび、それが適切に処理されているか (C.) 分析手法のユニークさおよび、それが適切に解析されているか (D.) プレゼンテーションのユニークさ (E.) 質疑応答にうまくリプライすることが出来ているか • 最終レポートの360°グループ評価 (10パーセント) • 3. の最終レポートについて、グループの自己評価および他のグループからの 評価を行います。3. で挙げた評価ポイントに基づき、グループメンバーおよ び他のグループは評価を行います。
  60. 履修撤回について • 履修撤回期間中に学務情報システム「CELS」で履修撤回を 行います。 • 秋/冬学期の場合 • 一橋HP の行事予定を参照のこと https://www.hit-

    u.ac.jp/kyomu/calendar/pdf/R2_0824_2020gakunenreki_gakubu_l ist.pdf
  61. 最高成績基準 引用: 一橋大学授業ハンドブック

  62. 受講生に対するメッセージ • 講師は一年間パリで研究活動を行っていました。海外留学や大 学院進学等について、質問がありましたらお寄せ頂けましたら 幸いです。 • また、質問は Slack や, ツイッター

    (@harayasushi) でも受け 付けます。不明な点などありましたらお問い合わせくださいま せ。 • (すっかり流行らなくなりましたが、)ツイッターやフェイス ブック上でハッシュタグ #経済学のための実践的データ分析 で 情報共有も行いたく思います。
  63. 1.3 Python はじめ

  64. Anaconda Distribution (aka Jupyter Notebook)とは • プログラムを実行し、実行結果を記録できるツール • 数値計算・データ解析で広く用いられている •

    実行結果は notebook 形式で保存可能 • 便利なので使ってみましょう。
  65. Jupyter Notebook のインストール(1) • 1. https://anaconda.com にアクセスし 右上の [Download] を

    クリックする
  66. Anaconda Distribution のインストール(1) • 利用しているオペレーティングシステム (Windows/Mac/Linux)に基づき, Python3.7 バージョンの [Download] をクリック

    Windows版 Mac版 ダウンロードが終わるまで待つ。
  67. Anaconda Distributionのインストール (3) • “Next >” をクリックする • “I Agree”

    をクリックする
  68. Anaconda Distributionのインストール(3) • “Next >” をクリックする • “Next >” をクリックする

  69. Anaconda Distributionのインストール (4) • “Install” をクリックする

  70. Jupyter Lab の起動 (1) • スタートメニューから, Jupyter Lab を選択する

  71. Jupyter Lab の起動 (2) • コンソールが表示される

  72. Jupyter Lab の起動 (3) • New から Python 3 を選択する

  73. Jupyter Lab の起動(4) • 1+1 を入力し, Run をクリック • “2”

    が出力される
  74. Google Colaboratory • SaaS な Notebook by Google. • https://youtu.be/inN8seMm7UI

  75. 3-1. Google Colaboratory を開く • https://colab.research.google.com/notebooks/welcome.ipyn b?authuser=1#scrollTo=9J7p406abzgl を, google にログインした状態でオープンする.

  76. 3-1. Google Colaboratory を開く • 以下のような画面が表示される

  77. 3-2. 新しいnotebook を作成する • [ファイル]-[python3 の新しいノートブック] を選択する

  78. 次回予定. python, R, Jupyter notebook 事始め • Stata や SPSS,

    SAS など統計分析ソフトは多数存在します。 これらのメリットや特徴について前半は説明します。 • 後半は、本講義で主に利用する jupyter notebook を用いて, python やR の基本的なコマンドについて実習を交え説明を行 います。テーマは「サンクコスト」です。
  79. THANKS yasushi.hara@r.hit-u.ac.jp