一橋大学「経済学のための実践的データ分析」2020年春: 1/10回

一橋大学「経済学のための実践的データ分析」 2020春: 1/10 1.はじめに 1.1データ分析とは 1.2講義の運営方法 1.3統計ソフトとOSS 1.4はじめてのPython
一橋大学大学院経済学研究科原泰史 [email protected]

今日の内容 • 13:00-13:15 • プレ講義 [録画なし] • 13:15-13:35 • 1.1
データを分析するということ [録画あり] • 13:35-13:40 • インターミッション[録画なし] • 13:40-14:00 • 1.2 この講義の運営スタイルについて [録画あり] • 14:00-14:05 • インターミッション2[録画なし] • 14:05-14:25 • 1.3 統計ソフトの比較。そしてオープンソースのほうがよい理由 [録画] • 14:25-14:30 • インターミッション3 [録画なし] • 14:30-14:50 • 1.4 Jupyter Labs/Google Colaboratory の導入の仕方 [録画]

1.1 データを分析するということ

自己紹介 • 1998-2004 • TOYOTA NATIONAL COLLEGE OF TECHNOLOGY •
2000 • Exchange Student in Malaysia • 2002-2009 • CLARAONLINE, INC. • ICT Hosting Company, nowadays called Cloud system supplier • 2009-2015 • Institute of Innovation Research, HITOTSUBASHI UNIVERSITY • 2015-2017 • Science for RE-Designing Science, Technology and Innovation Policy Center, National Graduate Institute for Policy Studies (GRIPS) / NISTEP / Hitotsubashi UNIVERSITY/MANAGEMENT INNOVATION CENTER • 2018-2019 • EHESS Paris – CEAFJP/Michelin Research Fellow • OECD Expert Advisory Group: Digital Science and Innovation Policy and Governance (DSIP) and STI Policy Monitoring and Analysis (REITER) project • 2019- • TDB Center for Advanced Empirical Research on Enterprise and Economy, Faculty of Economics, Hitotsubashi University

最初に 2005年と2015年の話

ITスタートアップで働いていたころの話

“IT スタートアップ” とは言っても… • 働き出したころ(2002年) は従業員7名 • 辞めるころ (2009年) でも従業員70名
• “レンタルサーバ”と呼ばれていた時代で、クラウドコンピューティングがまだまだ普及する前 (AWS の黎明期) • 仮想化 (virtualization) という、サーバのハードウェアレイヤーとOSレイヤーをカーネルレベルで独立させる技術が一般化しつつ会った時代 (VMware や Parallels Container など) • Web で注文を掛けて、FAXで受注するような時代 • 購買システムと受注システムと会計システムがバラバラだった時代

VPS(バーチャルプライベートサーバ) • サーバサービスは当時価格競争に突入しており、3000円弱の新サービス(Demi)を投入することに • ところが、最低価格のプロダクト (Demi)ではなく、中価格帯(Solo) が最も売れるようになる •
でも、なぜ一番安いモデルが売れないのか説明できない • 「相対価格」で説明して、なんとなく上司が納得する(腹落ちする) • Demi をベースにすると, 1.67 -> 2.34 -> 3.35 • その後最安価モデルは廃止 https://web.archive.org/web/20050208123052/http://clara.jp/service/vps/

エビデンスに基づく科学技術イノベーション政策と「ポンチ絵」 • いままでのキャリアで、ベンチャー(スタートアップ)とアカデミアをやったことに気づき、数年だけならばと、政策大学大学院大学の文部科学省の科学技術イノベーション政策のセンター (SciREX センター) で働くことに
• どうやら、研究内容やどういうジャーナルに載ったかとか、それがどういうインパクトファクター(IF)だったかよりも、政策立案のプロセス内で使われるポンチ絵の一部になっていることが重要らしい。 • ポンチ絵の要件 • 数十秒で読んで理解できること • しかも、内容が過不足なく明記されていること • 色がいっぱい使われていること • 何よりも予算が取れること

「ポンチ絵」 http://ryota-saeki-lifelog.hatenablog.com/entry/2016/09/02/105402

自分もこんな感じのポンチ絵をつくる mext.go.jp/b_menu/shingi/chousa/gijyutu/025/shiryo/__icsFiles/afieldfile/2016/02/24/1366973_11.pdf

ここまでのまとめ • (個人的には、)ITスタートアップも中央官庁も「データ分析」に対するアティチュードはそんなに違いはなかった • 「直感でわからないことや、うまくいかなくなったことを分析したい」ことへの高いニーズはあるし、それぞれにデータもある • しかし、部署ごとにデータがバラバラになっており、繋がっていない •
解析を行うための方法論や理論もあまりない • 誘導系でも構造系でも、統計的な分析モデルを構築するというよりは、棒グラフや線グラフで経過を見るだけで必要十分だった(意思決定プロセスの上位過程にまわるタイミングで、説明が出来るレベルに留めることが肝要)

2018 Paris

2019年春、パリから日本に戻ってきたら、流行っていたもの • タピオカミルクティー • データサイエンス Credit: CC0 References: https://enterprisezine.jp/bizgene/detail/4739

どうやら、この国では「データを使う」ことが流行っているらしい • 実家の近くにある企業で開催された早稲田ビジネススクール入山章栄先生の講演に妻と一緒に参加したところ、最終的に愛知県豊田市でデータサイエンス講演・講習を担当することに • 経済学・(実証的な)経営学の学生・研究者向けに Python 3.x
を用いたデータ分析技法に特化した本を出版することに • 年末に出版予定です

なぜ、データが必要なのだろう？

たとえば; 経営といえばひとものかね情報

経営を分析する (オールドスクールな方法) ひとものかね情報話を聞きにいくか、文献を調査することでなぜその企業/製品がうまくいったのか、要因を経営理論に照らし合わせて解析する(定性的調査)

経営を分析する (最近みんなが好きな手法) ひとものかね情報データベースを入手するか、サーベイデータを作成し、それらのデータセットを接合し合うことで、なぜその企業/製品がうまくいったのか、要因を経営理論に照らし合わせて解析する(定量的調査)

Q. データを使えばビジネスはわかるか？もしくは、政策評価はできるか？ • ちょっと昔に言われたこと • 「データはあくまで数をみているだけ。経営者の心の機微や組織体制の細やかな変容や経営者の意思決定の変化を、細かくデータで追うことは出来ない。」 • ここ数年、実際の世の中で起きたこと
• テキスト解析手法の進化 • 因果推論の推定手法の開発と普及 • 機械学習のあっという間の普及 • データベースの普及と重要性が認識されるようになった • データ解析に係る導入コストの低下 • as 統計ソフトを買わなくても良くなった • A. 2020年5月段階の(個人的な)答え • データがあれば、かなり色々なことがわかる。データ分析の技法は取得したほうが良い。 • データで説明しきれない特殊性や特筆性については、まだ定性分析に出来ることはある

では、データを使った分析に必要なものデータ、もしくはデータベース分析手法分析を行うためのツール

企業活動に関連するデータベース研究開発調達生産販売マーケティング科学技術基本調査(総務省) 企業活動基本調査
(経済産業省) 経済センサス (総務省) 政府系データベース商用データベース帝国データバンク特許データベース論文データベース (WoS, Scopus, Lends) INITIAL (Entrepedia) POSデータ (ex. インテージ) SNS (Twitter, Facebook, TikTok) 商用と政府系のデータベースを組み合わせれば、企業行動をデータで「辿る」ことは可能になる

帝国データバンクデータベース (Commercial) • 一橋CAREE センターで利用可能なデータセット • パネルデータ化が可能. • アーカイブデータも利用可能(政策フォーラム午前中の岡室先生の発表) •
ご関心のある先生方は、是非ともお問い合わせください企業信用調査報告書に関するデータ取引データ，出資データ，銀行取引データ企業財務データベースに関するデータ決算書データ企業概要ファイルに関するデータ取引データ，企業情報データ，銀行取引データその他企業に関するデータ合併データ，倒産データ

企業活動に関連するデータベース(extended) 研究開発調達生産販売マーケティング研究開発に関わる作業ログ /ノート/機器
の稼働状況調達や部品の調達に関するログ/メール/電話のやり取り販売価格決定に関わる意思決定に関わるエビデンス企業内のログ商用データベース帝国データバンク特許データベース論文データベース (WoS, Scopus, Lends) INITIAL (Entrepedia) POSデータ (ex. インテージ) SNS (Twitter, Facebook, TikTok) さらに、企業内に介在するログを組み合わせることで、企業の意思決定をエビデンスベースに基づき実行することが可能になる

データを「データベース化」する • 不定形データをデータ化する • JSON やXML をCSV にして、人間が読めるようにする • もしくはその逆
• データをデータベース化する • Machine Readable • SQL, NoSQL etc… • データを管理し保持する (データマネジメント) • 大昔; 紙 • 昔; Excel • 一昔前; スタンドアロンのサーバ • ちょっと昔; パブリッククラウド (AWS, Microsoft Azure, GCP etc…) • 現代; サーバーレス

分析手法 • Step1; グラフにする • 「まずは散布図を書いてみる」 • Step2; 統計的処理を行う (平均値,
中央値, 最大値, 最小値 etc..) • このあたりから、内生性や見せかけの回帰との戦いがはじまる • Step3; 回帰分析など, 入力と出力間の関係性を見る • 重回帰分析 • スパース推定 • 決定木分析, SVM (教師あり/教師なしの機械学習) • Step4; 因果効果を識別する • 因果関係と相関関係を識別する(次のページ)

因果識別の手法(1) 実験対象 Treated Group Control Group y x Cut-off Point
• ランダム化比較試験 (RCT) • 対象者と非対象者を無作為抽出して比較実験 • 回帰不連続(RD) デザイン – 回帰直線シフト 29 実験対象 Treated Group Control Group • 傾向スコアマッチング（PSM）： – 各政策対象企業と同じ「政策対象傾向」を持つ企業を対照群から抽出引用:岡室博之 (2019) 産業クラスターと地方創生：地域イノベーション政策の展開と分析方法, 一橋大学公開講座

因果識別の手法(2) • 差の差の分析（DID） • 処置群と対照群の比較と政策前後比較の二重差 y t Control
Group Treated Group t+u t-s ▲t • パネル固定効果分析 • パネルデータを用いて、各企業の固有の属性の影響を除去 y x t+i t • 操作変数法（IV）： – 内生変数を外生変数（操作変数）に置き換える2段階推定 Z X Y U β α 引用:岡室博之 (2019) 産業クラスターと地方創生：地域イノベーション政策の展開と分析方法, 一橋大学公開講座

データサイエンスをタピオカミルクティーにしない方法 1. データを公開する. Linked Open Data を活用する. 2. データの知的財産権を明確化する.
3. 神エクセルをなくす. (as DX の推進) 4. オープンソースソフトウェアを使う, あるいは教育する. 2020年初頭の最適解はR もしくは Python (3.x系). 5. AI という言葉に踊らされない. 使い倒す.

(いくつかの)ギャップ • 願望投影型政策 (森田 2015) とEBPM • データが、推進したい施策に基づき構築される可能性 • ナラティブなストーリーとデータ解析
• 統計的な素養を政策立案者や企業戦略の決定者すべてが有しているわけではない。データに基づく解析結果を広く共有するためには、ストーリーに落とし込むことが必要 • データのオープン化と、ITセキュリティ対策 • RESAS や Notebook や Linked Open Data を利用しようとしても, 自治体や中央政府、企業のITセキュリティ上制限が掛けられており(ex. 自治体のネットワーク分離), 業務用PC などでこれらのツールを利用することが出来ない。

Source: OECD (2017[3]), Core Skills for Public Sector Innovation, https://www.oecd.org/media/oecdorg/satellite
sites/opsi/contents/files/OECD_OPSI-core_skills_for_public_sector_innovation-201704.pdf OECD が定義するデジタルスキル

Conclusion • データサイエンスと呼ばれているものは、プログラミングスキルと数学とエンジニアリングスキルと因果関係を特定するためのスキルが混ざりあったもの • 政府のみなさんへ • とりあえずデータを、Machine-Readable な形で公開してください
• PDF でも Excel でもなくて、JSON やRDF 形式だとかなりベター • 企業のみなさんへ • 組織内のデータと、外部データを組み合わせることで新たな知見を得られる可能性が • 経済学や（実証的な規範に基づく）経営学は思ったよりも「役に立つ」と思います

1.2 「経済学のための実践的データ分析」の運営方法について

目的と概要 • 統計解析手法の発達および、クラウドコンピューティングに代表されるコンピューティングパワーの増大により、従来は分析が困難だった様々なデータを経済学の研究において活用することで、より現実に即した形での実証研究を行うことが可能になりつつあります。 • しかし、「ビッグデータ」とも呼称されるこれら
のデータは不定形であり、解析を円滑に行うためにはデータ自体の整形処理等も必要です。 • 本講義では、(1) データの管理、(2) データの処理、 (3) データの解析それぞれに焦点を挙げ、Stata, R もしくは python を用いた演習を行うことで、体系的な知識の修得を行うことを目指します。事前のプログラミング言語の知識は必要としませんが、受講した内容を自らの研究で活用するためには、自発的かつ継続的な学習を推奨します。また、 BYOD (Bring Your Own Device) を推奨します。

どういうことかというと… データの統計的処理だけではなく、データを「持ってきて」、「加工して」、「整理して」、解析するまでをやりますよデータを使うだけではなく、データを管理したり、個人情報に配慮しながら調達する方法についても取り上げますよ統計ソフトやNotebook にデータを放り込んで、誘導系 and/or 構造系の解析をするまでに必要な『泥臭い』作業の方法論をご紹介しますよ
すごくスタイリッシュに見えて、実は地味なことを取り上げますよ

他の授業科目との関連・教育課程の中での位置づけ本講義は、統計学および計量経済学の講義内容と補完的な内容となっています。受講者は事前に、あるいは平行してこれらの講義を受講することを推奨します。併せて、卒業論文、修士論文および博士論文にて定量的な分析を行う学生は受講することを推奨します。

どういうことかというと… • 本講義のポジショニングはこんな感じです計量経済学統計学経済学のための実践的データ分析・統計学や計量経済学の講義ではカバーしきれない範囲を、本講義では取り上げます
・具体的な理論については、それぞれの講義を並行して受講されることをオススメします・できるだけ、具体的なデータや事例に基づいて実習を行います教養のプログラミング講義

テキスト • Big Data and Social Science • 適宜講義資料をオンライン配布します
• 春/夏/秋学期の資料は Slideshare/SpeakerDeck にアップロードされています • https://www.slideshare.net/ya sushihara • https://speakerdeck.com/yasu shihara/

テキスト(2) • 『東京大学のデータサイエンティスト育成講座』

授業時間外の学習（求められる予習・復習等） • 講義ごとに取り上げた内容について、自発的に予習および復習を行うことを勧めます。プログラミングおよび分析ツールの習熟には、自らの手で試行錯誤を行うことが必要不可欠です。
• 講義では、こうした学習を支援するサイトやツールを都度紹介します。 • また、講義内容の共有を行うため, Manaba あるいは Slack を用いたグループを運用する予定です。

講義の配信方法 • 本講義ではリアルタイム配信と録画配信を組み合わせます。受講者は、講義時間にリアルタイムで講義を受講するか、録画を後ほど閲覧することを選択出来ます。 • リアルタイム配信は、継続性を考えいくつかの配信手段を検討しています。基本は Zoom (https://zoom.us/)
を利用予定ですが, セキュリティや通信の安定性などを勘案して、別の動画配信ツールを用いる可能性があります。 • 2020/5/1 時点では, Zoom を含め以下の優先度にて、動画配信ツールを利用予定にしています。 • 1. Zoom; https://zoom.us • 2. Google Classroom/Hangouts https://hangouts.google.com/ • 3. Bluejeans/jitsi meet • 4. Skype または LINE グループ

講義の配信方法(2) • Slack で次回講義のZoom URLとパスワードを告知します • 講義開始までに登録をお願いします (参加者の把握のため) • 春学期については、火曜日と金曜日の13:15-15:00
に講義をリアルタイム配信します。 • その後、録画したものを Google Classroom および Slack に通知します • 録画バージョンは、基本的に一回の講義あたり20分の動画 x4本になります。

講義の実施方法 (春学期) • 本学は通常105分講義ですが, オンラインであることを鑑み以下のような構成で実施予定にしています. • Youtuber 方式で、講義のコア部分は20分以内でまとめるようにします (ベストエフォート！)
• 春学期/夏学期の場合は、以下のタイムラインで配信を行う予定です. • 13:00-13:15 プレ講義(雑談 etc…) (15分) • 13:15-13:35 講義モジュール1 [録画あり] • 13:35-13:40 休憩 • 13:40-14:00 講義モジュール2 [録画あり] • 14:00-14:05 休憩 • 14:05-14:25 講義モジュール3 [録画あり] • 14:25-14:30 休憩 • 14:30-14:50 講義モジュール4 [録画あり] • 14:50-15:00 Slack およびブレイクアウトルームを用いた質疑応答タイム

春学期講義スケジュール(1) • 1. 5/8 [今日] • イントロダクション (ビッグデータと社会科学), 分析環境の構築とプログラミング言語入門/統計分析ソフトの比較
• 経済学で大量かつ様々なタイプのデータを用いることに、果たしてどのような意味があるのでしょうか？初回の講義では、経済学はじめ社会科学の研究でデータを活用する意義について、具体的な研究事例などを交えながら紹介します。また、今日広く用いられている Jupyter Lab/Google Colaboratoryなどの分析環境の導入方法について説明します。併せて、教養課程でプログラミング講習を履修していない学生に向けて、プログラミングの基礎について解説します。また, Stata や SPSS, SAS など統計分析ソフトは多数存在します。これらのメリットや特徴について説明します。 • 2. 5/12 • 記述統計と(重)回帰分析 • 本講義で主に利用する jupyter labs/google colaboratory を用いて, python やR の基本的なコマンドについて実習を交え説明を行います。記述統計の導出や回帰分析など、統計学や計量経済学の講義で扱う内容を、Notebook 環境上で行えるようにすることを目指します。今回のテーマは「サンクコスト」です。 • 3. 5/15 • データの取得と前処理 (Web スクレイピング, RPA, API そして手入力) / SQL の使い方 • データといっても、そのほとんどは実のところ定型化されていません。Web サイトや書籍や国会図書館から手作業でひとつひとつ入力し、あるいは、Web スクレイピングやAPI, RPA を用いて, Web から取得する必要があります。データ分析は、こうした事前の作業が作業全体の60-70パーセントを占めています。こうした手続きの具体例について、座学を用いて紹介した後、雑誌や Web に掲載されたデータを取得する手法についてご紹介します。 • 後半では, SQL の使い方について概要を説明します。大量のデータを運用し活用するためには、データベースを用いると便利です。Google BigQuery を用い、データから必要な情報を抽出し、データ同士を接合する方法について簡単に解説を行います。また続いて, Google Big Query を用いて解析を行いますまた, 必要に応じて MySQL サーバおよび MySQL Workbench の導入方法、多変量データの展開方法について解説します。

春学期講義スケジュール(2) • 4. 5/19 • データの可用性とプライバシー • インターネットには様々な情報が掲載されています。あるいは、大学の図書館からデータベースにアクセスすれば、様々な情報を得ることが出来ます(一橋大学の場合は特に！)。しかしながら、データには個人情報や企業の機密情報などが含まれており、これらの適切に管理し運用することは極めて重要です。テキストブックの内容に基づき、説明を行います。
• 5. 5/22 • 企業行動/産業のデータ分析 (企業情報、財務、特許と論文) • 帝国データバンク企業・経済高度実証研究センター (http://www7.econ.hit-u.ac.jp/tdb-caree/about-caree/) や、日経 NEEDS などが提供する企業のデータベースについて説明を行います。本データベースには、企業の取引、出資、銀行取引データや、決算書データなどが含まれています。こうしたデータセットに基づき、問いに基づきデータを解析することを目指します。また講義の後半では、RESASを用いて地域産業の情報の取得する方法と、NISTEP 企業名辞書 (http://www.nistep.go.jp/research/scisip/rd-and-innovation-on-industry) などを用い, ID ベースでデータセット間を接合する手法について説明します。 • 企業の研究開発活動を解析するためには、特許や学術論文の動向について測ることで、産業内での動態を観察することが出来ます。知的財産研究所が提供する IIP パテントデータベース (http://www.iip.or.jp/patentdb/), Clarivate Analytics 社が提供する Web of Science (https://clarivate.com/products/web-of-science/), Lens.org などを用いることで、 - 「どの企業が最も特許を出願しているのか？」 - 「どのような分野に特許を出願しているのか？」 - 「日本の大学で最も年ごとの論文数が多いのは何処か？」 - 「(指導教官の)◦◦先生が書いた論文はt年にx本で、その論文は累計 y 回引用された」などの情報を取得し分析する方法を解説の上、実習を行います。

春学期講義スケジュール(3) • 6. 5/26 • Open Linked Data の活用 (RDF,
RISIS などの事例紹介および試用) • オープンサイエンスやオープンガバメントの進展によって、特にヨーロッパでは Open Linked Data と呼ばれるデータセットを用いた解析プラットフォームや、解析手法が用いられはじめています。本回では、RISIS (https://www.risis2.eu/)と呼ばれる、イノベーション分析のためのデータプラットフォームについて解説を行い、RDF を用いた解析について解説および簡単な実習を行います。 • 7. 5/29 • テキスト分析 (Wordcloud, Word2vec, Topic Model, 計量テキスト分析)/SNS データの取得および分析 • これまで用いてきたデータセットについて、異なるアプローチから解析することを目指します。具体的にはすでに定量化されているデータではなく、特許における特許名、論文における論文名、企業データベースにおける企業の概要などのテキストデータを解析する手法について学びます。具体的には, Wordcloud, Word2vec, Topic モデルなどについて解説します。 • また計量テキスト分析、特に共起ネットワーク, 分散分析などの手法について, KHcoder (http://khcoder.net) を用い解析を行います。関連して、Twitter などのソーシャル・ネットワークからAPI などの手法を用いてテキストデータを取得し解析する方法について解説します。

ケーススタディ1: SMAP会見 • 共起ネットワーク

Twitter の口コミを Wordcloud にプロット • 早稲田大学 • 慶應大学

春学期講義スケジュール(4) • 8. 6/2 • データのビジュアライゼーションとネットワーク分析 • これまでの回で取り上げてきたデータをわかりやすく研究で活用する手法を学ぶことを目指します。Python やR
などを用いたデータの可視化手法の確認や、Ploty, D3.js やTableau (https://www.tableau.com/ja-jp) などのデータ可視化ソフトウェアの紹介および実習を行います。 (6/4 と5; ここが履修撤回期間) • 9. 6/9 • 機械学習と因果推論 [座学, 実習] • Python および R を用いて、決定木分析やSVM, スパース推定について、具体例の紹介および実習を行います。また、DID や非連続回帰デザインなどの因果推論の分析手法についても簡単な解説を行います。講義の後半では, 最終レポートについての説明を行います。これまでに学んだ手法を用いデータ解析を行うことで、グループでのレポートをまとめます。このグループの決定を行います。 • 10. 6/12 • まとめ、および最終レポート発表会 • これまでの講義の内容を振り返った上で、グループごとの最終レポートの発表を行います。レポートは発表時間10分、質疑応答5分で、グループごとに実施します。

これまでの最終レポート例 • a. 「カジノ開設のための実践的データ分析」カジノやパチンコが地域に与える影響についてクロスセクション分析. OECD や政府統計などのデータソースを活用. • b.
「重大な交通事故に与える影響の実証分析」 Google Bigquery からアメリカの交通事故データをランダムサンプリングして取得し, 天候など, 事故の主な要因を分析 • c. 「著名人の Twitter における発言とその後のトレンドへの影響」ドナルド・トランプの Twitter データを一括取得し, アメリカ/日本為替レートに与えた影響を測定. 感情推定やTF-IDF を活用. • d. 「医師数の偏りの要因についてのデータ分析」地方で医師が足りなくなる原因について, 政府統計データを一括してスパース推定を実施. 重回帰分析と組み合わせてクロスチェック. • e. 「マラソンの記録に対する気候条件の影響分析」マラソンの成績がどのような要因で決まるのか, 東京マラソンと北海道マラソンのデータを取得し, 気温や風などのデータを用いて分析. • f. 「先物取引のための実践的データ分析」コメの終了が気候から予測できるのか, 作況指数や高数量, 日照時間や気温のデータを取得し要因を分析.

ご相談 • 最終レポートについて • はやめにグループを作りたいと考えてみます • ランダムに割当か、友だち同士グループのほうどちらが良いでしょうか？ • 取り上げる内容について
• やってほしい内容があればSlack やチャットで教えてください • 昨年度慶應義塾大で行った講義でのリクエスト • SNS の口コミ分析 • 感情分析 • RESAS データの一括取得 (API の利用方法) と解析

成績評価の方法

成績評価(1) • 平常レポート (40パーセント; 必須) • 講義計画に示したように、複数の回で学生にはレポートを課します。レポートは Word/PowerPoint形式のメールあるいは, github
経由での提出が求められます(どの方法を採用するかは、初回の講義で決定します)。 • レポートには、(A.) 利用したデータセットとその内容, (B.) 分析の問い, (C.) 分析手法, (D.) 分析結果を明記する必要があります。ページ数や文字数は問いませんが, これらの内容が含まれており, 講義中にアナウンスする評価手法を満たす場合, 高い得点を得ることが出来ます。 • 平常点 (10パーセント) • 本講義は実習が多く含まれており, また取り扱うデータセットや内容も多彩です。そのため、受講者同士が協力する必要があります。こうした受講者の態度を評価するために、平常点を設けます。

成績評価(2) • 最終レポート (40パーセント; 必須) • 講義の最終回では最終レポートの報告会を行います。受講者は3名から4名から構成されるグループで、最終レポートの報告を行う必要があります(人数は受講者の人数により変更される可能性があります)。最終レポートでは、プレゼンテーションの方法を学生は自由に選ぶことが出来ます。PowerPoint
以外にも、Prezi などのアクティブプレゼンテーションツールや、他のプレゼンテーション手法を用いることが出来ます(プレゼンテーションツールについては、必要であれば講義内で説明する機会を設けます)。最終レポートでは、以下の点について評価を行います。 (A.) グループ内の役割分担 (B.) データセットのユニークさおよび、それが適切に処理されているか (C.) 分析手法のユニークさおよび、それが適切に解析されているか (D.) プレゼンテーションのユニークさ (E.) 質疑応答にうまくリプライすることが出来ているか • 最終レポートの360°グループ評価 (10パーセント) • 3. の最終レポートについて、グループの自己評価および他のグループからの評価を行います。3. で挙げた評価ポイントに基づき、グループメンバーおよび他のグループは評価を行います。

履修撤回について • 履修撤回期間中に学務情報システム「CELS」で履修撤回を行います。 • 春/夏学期の場合 • 一橋HP の行事予定を参照のこ
と • https://www.hit- u.ac.jp/kyomu/calendar/pdf/R2 _0408_2020gakunenreki_gakub u_list.pdf • 春学期は6/4と6/5 日 • 夏学期は7/13 と7/14 日

最高成績基準引用: 一橋大学授業ハンドブック

受講生に対するメッセージ • 講師は一年間パリで研究活動を行っていました。海外留学や大学院進学等について、質問がありましたらお寄せ頂けましたら幸いです。 • また、質問は Slack や, ツイッター
(@harayasushi) でも受け付けます。不明な点などありましたらお問い合わせくださいませ。 • (すっかり流行らなくなりましたが、)ツイッターやフェイスブック上でハッシュタグ #経済学のための実践的データ分析で情報共有も行いたく思います。

1.3 統計ソフトの比較

そもそも。 • なぜこの講義は python やR を使うのか？ • 一番の理由: 無償だから •
有償の統計分析ソフト (ex. Stata) の場合 • 学生の間は導入コストはかなり低い • が、社会人になると継続して最新バージョンを継続的に導入するコストは極めて高くなる • (せっかく計量経済学を学んで、パネルデータで固定効果モデルを解析する方法を学んでも、日々の喧騒の中で人は思い出とともに統計学や経済学を忘れていく・・・) • マスターコースやドクターコースに行こう

経済/経営学部の統計ソフトの利用状況 {一橋, 東大, 早稲田, 慶應, 筑波} • 各大学の2019年度シラバスから、 • SPSS
• Eviews • Stata • SAS • Python • Excel というタームが含まれている講義を抽出。 ※. R は exact matching できないので除外。 • 経済学部・経営学部/MBAの講義で、どういった統計ソフトが使われているかを調査

経済学部の統計ソフトの利用状況 {一橋, 東大, 早稲田, 慶應, 筑波} 0 5 10 15
20 25 30 35 40 45 50 経済学部商学部社会学部経済学商学・経営学経済学部三田・経済学部経営管理研究科 (MBA) 経営管理専攻 MBA MBA 一橋大学一橋大学一橋大学早稲田大学早稲田大学東京大学慶應義塾大学早稲田大学一橋大学筑波大学 SPSS Stata SAS Eviews Python Excel

経済学部の統計ソフトの利用状況 {一橋, 東大, 早稲田, 慶應, 東経大} • Findings • SPSS
のユーザ数は減少 • Stata で統計分析を教えるシェアは未だ高い • 早稲田大学, 謎のSAS 人気 • Python はデータサイエンス系の講義で広く登場 • 一橋大学経済学部でpython というタームが出てくるのは、本講義以外だと2科目 • 一橋大学商学部はカン先生の講義

SPSS is dying Source: http://lindeloev.net/spss-is-dying/

SPSS is dying (cont.) • “I predict that R overtakes
SPSS in yearly citations by 2020. The implications are clear: • If you use SPSS in your business or research, move to R now rather than later. • Do not ask for SPSS competences in job postings. You will scare away the good candidates. • We are doing students a disservice by teaching SPSS. Switch to JASP for simple one-off analyses and R for complex or repeated analyses. Rstudio Desktop is a highly recommended interface to R.” Source: http://lindeloev.net/spss-is-dying/

Data Analytics Job Market The number of data science jobs
for the more popular software (those with 250 jobs or more, 2/2017). Jobs trends for R (blue & lower) and Python (orange & upper). http://r4stats.com/articles/popularity/

各統計ソフトの比較 1. Stata 2. SPSS 3. EViews 4. (Microsoft) Excel
幸いなことにどのソフトウェアも持っているので、実機をお見せしながら説明します

1. Stata • 事実上のデファクトスタンダード(だった) • (重)回帰分析やパネルデータ分析, 主成分分析など, 経済学・経
営学での多変量解析はほぼ網羅している • 大学の経済学・（定量分析を行う）経営学の先生の使用率も高い • ゼミによっては基本的な分析ソフトとして指定されている場合も • 主なテキストブック

1. Stata ・右下のインターフェースにコマンドを打ち込む・データはexcel 経由またはsql で流し込む

2. SPSS • Stata 以前のデファクトスタンダード • 12年前に一橋大でマーケティングサイエンスの講義を受講したときは、SPSS
が指定されていました • 現在はIBM が保有 • GUI ベースでデータの処理および解析が行えることが特徴

2. SPSS

3. EViews • やはり一世代前に主力の統計分析ソフト • ファイナンス・時系列分析 (ARCH, GARCH, MR,
AR, VAR) などに特化 • 詳しくは関連するファイナンス・計量経済学の講義で • 回帰分析など、行える分析は Stata/SPSS とほぼ同じ

3. EViews ・変数をExcel or SAS or Stata or SPSS 経由で取り込み
・変数の長さを最初に指定して・コマンドを上のウインドウに打ち込んで、解析を行う

4. Excel • Microsoft Office 365 で現在は主に提供 • 生協で買うパソコンや
Surface に必ず入ってるやつ • 某省庁のデータ分析はだいたい Excel で完結してたりする(でビックデータの時代とか言いがち) • 記述統計や、基本的なデータの分析であればExcel で十分 • 一昔まえの「定量的な」卒論とか

4. Excel

5. SAS • 機能は充実 • 講義で多数の利用例 • 商用版は高価 •
SAS University Edition は無償

まとめ名称 Stata SPSS EViews Excel 販売・提供母体 Stata IBM ライムストーン
マイクロソフトインターフェース GUI (コマンドベース) GUI GUI (コマンドベース) GUI 主なメリット (経済学・経営学周りの)ユーザーが多いクリックだけでデータ解析ができる時系列解析をするときに、コマンドを書く必要がないすぐに手に入る。情報基盤センターのPCやスマホから扱えるコスト(学生編) ・イニシャルコスト 86,400円 (キャンペーン中) 124,000円 63,720円 0円 (一橋大学生は office 365 サブスクリプションあり) ・アップグレードコスト 101,520円 136,600円 49,680円 0円(一橋大学生は office 365 サブスクリプションあり) コスト(社会人編) 262,440円 310,000円 206,280円 12,744円・アップグレードコスト 172,,800円 54,900円 97,200円 12,744円

まとめ(2) • ランニングコストやサンクコストを考えると, 実は Excel でなんでも出来るようになるのが最適コースの可能性 • Stata や
SPSS など統計ソフトは、学生の身分だと比較的安価に導入出来る。が、最新の機能をキャッチアップするのは辛い。 • （会社で稟議書が通るかというと、関連部局でも割と怪しい。） • ちなみに、IT スタートアップで働いていたときは、大学生の身分で買った Eviews やSPSS を用いて解析をしていました • 某広告代理店では, すべてのPCに R Studio が導入されている、らしい。 • ということで、Excel + 無償で導入できる R and/or Python が2019年現時点での最適解！ • 会社によっては, Jupyter Notebook やR Studio が自由にインストールできるPC が供給されない可能性も • あとは、リモートワーク時代で、会社にある統計ソフトが入ったPCにアクセス出来ないケースも • クラウドにアップしてもOKなデータは Google Colaboratory で

1.4 始めてのPython

Anaconda Distribution (aka Jupyter Notebook)とは • プログラムを実行し、実行結果を記録できるツール • 数値計算・データ解析で広く用いられている •
実行結果は notebook 形式で保存可能 • 便利なので使ってみましょう。

Jupyter Notebook のインストール(1) • 1. https://anaconda.com にアクセスし右上の [Download] を
クリックする

Anaconda Distribution のインストール(1) • 利用しているオペレーティングシステム (Windows/Mac/Linux)に基づき, Python3.7 バージョンの [Download] をクリック
Windows版 Mac版ダウンロードが終わるまで待つ。

Anaconda Distributionのインストール (3) • “Next >” をクリックする • “I Agree”
をクリックする

Anaconda Distributionのインストール(3) • “Next >” をクリックする • “Next >” をクリックする

Anaconda Distributionのインストール (4) • “Install” をクリックする

Jupyter Lab の起動 (1) • スタートメニューから, Jupyter Lab を選択する

Jupyter Lab の起動 (2) • コンソールが表示される

Jupyter Lab の起動 (3) • New から Python 3 を選択する

Jupyter Lab の起動(4) • 1+1 を入力し, Run をクリック • “2”
が出力される

Google Colaboratory • SaaS な Notebook by Google. • https://youtu.be/inN8seMm7UI

3-1. Google Colaboratory を開く • https://colab.research.google.com/notebooks/welcome.ipyn b?authuser=1#scrollTo=9J7p406abzgl を, google にログインした状態でオープンする.

3-1. Google Colaboratory を開く • 以下のような画面が表示される

3-2. 新しいnotebook を作成する • [ファイル]-[python3 の新しいノートブック] を選択する

次回までの宿題 • お使いのPCに Jupyter Labs を導入するか、Google Colaboratory にアクセス出来るようにしてください • 具体的な課題は次回アナウンスします。

次回予定.記述統計と(重)回帰分析 • 本講義で主に利用する jupyter labs/google colaboratory を用いて, python やR の基本的なコマンドについて実習を交え説明を行います。
記述統計の導出や回帰分析など、統計学や計量経済学の講義で扱う内容を、Notebook 環境上で行えるようにすることを目指します。今回のテーマは「サンクコスト」です。

THANKS [email protected]

一橋大学「経済学のための実践的データ分析」2020年春: 1/10回

一橋大学「経済学のための実践的データ分析」2020年春: 1/10回

More Decks by yasushihara

Other Decks in Education

Featured

Transcript