一橋大学「経済学のための実践的データ分析」2020冬 1/12

Slide 1

Slide 1 text

一橋大学「経済学のための実践的データ分析」 2020冬: 1/12 1.はじめに 1.1データ分析とは 1.2講義の運営方法 1.3統計ソフトの比較 1.4Colaboratoryと Jupyter 利用方法一橋大学大学院経済学研究科原泰史 [email protected]

Slide 2

Slide 2 text

今日の内容 • 10:30-10:45 • プレ講義 [録画なし] • 10:45-11:05 • 1.1 データを分析するということ [録画あり] • 11:05-11:10 • インターミッション[録画なし] • 11:10-11:30 • 1.2 この講義の運営スタイルについて [録画あり] • 11:30-11:35 • インターミッション 2[録画なし] • 11:35-11:55 • 1.3 統計ソフトの比較 • 11:55-12:00 • インターミッション 3[録画なし] • １2:00-12:20 • 1.４ Jupyter Labs/Google Colaboratory の導入の仕方 [録画]

Slide 3

Slide 3 text

1.1 データを分析するということ

Slide 4

Slide 4 text

自己紹介 • 1998-2004 • TOYOTA NATIONAL COLLEGE OF TECHNOLOGY • 2000 • Exchange Student in Malaysia • 2002-2009 • CLARAONLINE, INC. • ICT Hosting Company, nowadays called Cloud system supplier • 2009-2015 • Institute of Innovation Research, HITOTSUBASHI UNIVERSITY • 2015-2017 • Science for RE-Designing Science, Technology and Innovation Policy Center, National Graduate Institute for Policy Studies (GRIPS) / NISTEP / Hitotsubashi UNIVERSITY/MANAGEMENT INNOVATION CENTER • 2018-2019 • EHESS Paris – CEAFJP/Michelin Research Fellow • OECD Expert Advisory Group: Digital Science and Innovation Policy and Governance (DSIP) and STI Policy Monitoring and Analysis (REITER) project • 2019- • TDB Center for Advanced Empirical Research on Enterprise and Economy, Faculty of Economics, Hitotsubashi University

Slide 5

Slide 5 text

最初に 2005年と2015年の話

Slide 6

Slide 6 text

ITスタートアップで働いていたころの話

Slide 7

Slide 7 text

“IT スタートアップ” とは言っても… • 働き出したころ(2002年) は従業員7名 • 辞めるころ (2009年) でも従業員70名 • “レンタルサーバ”と呼ばれていた時代で、クラウドコンピューティングがまだまだ普及する前 (AWS の黎明期) • 仮想化 (virtualization) という、サーバのハードウェアレイヤーとOSレイヤーをカーネルレベルで独立させる技術が一般化しつつ会った時代 (VMware や Parallels Container など) • Web で注文を掛けて、FAXで受注するような時代 • 購買システムと受注システムと会計システムがバラバラだった時代

Slide 8

Slide 8 text

VPS(バーチャルプライベートサーバ) • サーバサービスは当時価格競争に突入しており、3000円弱の新サービス(Demi)を投入することに • ところが、最低価格のプロダクト (Demi)ではなく、中価格帯(Solo) が最も売れるようになる • でも、なぜ一番安いモデルが売れないのか説明できない • 「相対価格」で説明して、なんとなく上司が納得する(腹落ちする) • Demi をベースにすると, 1.67 -> 2.34 -> 3.35 • その後最安価モデルは廃止 https://web.archive.org/web/20050208123052/http://clara.jp/service/vps/

Slide 9

Slide 9 text

No content

Slide 10

Slide 10 text

エビデンスに基づく科学技術イノベーション政策と「ポンチ絵」 • いままでのキャリアで、ベンチャー(スタートアップ)とアカデミアをやったことに気づき、数年だけならばと、政策大学大学院大学の文部科学省の科学技術イノベーション政策のセンター (SciREX センター) で働くことに • どうやら、研究内容やどういうジャーナルに載ったかとか、それがどういうインパクトファクター(IF)だったかよりも、政策立案のプロセス内で使われるポンチ絵の一部になっていることが重要らしい。 • ポンチ絵の要件 • 数十秒で読んで理解できること • しかも、内容が過不足なく明記されていること • 色がいっぱい使われていること • 何よりも予算が取れること

Slide 11

Slide 11 text

「ポンチ絵」 http://ryota-saeki-lifelog.hatenablog.com/entry/2016/09/02/105402

Slide 12

Slide 12 text

自分もこんな感じのポンチ絵をつくる mext.go.jp/b_menu/shingi/chousa/gijyutu/025/shiryo/__icsFiles/afieldfile/2016/02/24/1366973_11.pdf

Slide 13

Slide 13 text

ここまでのまとめ • (個人的には、)ITスタートアップも中央官庁も「データ分析」に対するアティチュードはそんなに違いはなかった • 「直感でわからないことや、うまくいかなくなったことを分析したい」ことへの高いニーズはあるし、それぞれにデータもある • しかし、部署ごとにデータがバラバラになっており、繋がっていない • 解析を行うための方法論や理論もあまりない • 誘導系でも構造系でも、統計的な分析モデルを構築するというよりは、棒グラフや線グラフで経過を見るだけで必要十分だった(意思決定プロセスの上位過程にまわるタイミングで、説明が出来るレベルに留めることが肝要)

Slide 14

Slide 14 text

2018 Paris

Slide 15

Slide 15 text

2019年春、パリから日本に戻ってきたら、流行っていたもの • タピオカミルクティー • データサイエンス Credit: CC0 References: https://enterprisezine.jp/bizgene/detail/4739

Slide 16

Slide 16 text

No content

Slide 17

Slide 17 text

どうやら、この国では「データを使う」ことが流行っているらしい • 実家の近くにある企業で開催された早稲田ビジネススクール入山章栄先生の講演に妻と一緒に参加したところ、最終的に愛知県豊田市でデータサイエンス講演・講習を担当することに • 経済学・(実証的な)経営学の学生・研究者向けに Python 3.x を用いたデータ分析技法に特化した本を出版することに • 年末に出版予定です

Slide 18

Slide 18 text

なぜ、データが必要なのだろう？

Slide 19

Slide 19 text

たとえば; 経営といえばひとものかね情報

Slide 20

Slide 20 text

経営を分析する (オールドスクールな方法) ひとものかね情報話を聞きにいくか、文献を調査することでなぜその企業/製品がうまくいったのか、要因を経営理論に照らし合わせて解析する(定性的調査)

Slide 21

Slide 21 text

経営を分析する (最近みんなが好きな手法) ひとものかね情報データベースを入手するか、サーベイデータを作成し、それらのデータセットを接合し合うことで、なぜその企業/製品がうまくいったのか、要因を経営理論に照らし合わせて解析する(定量的調査)

Slide 22

Slide 22 text

Q. データを使えばビジネスはわかるか？もしくは、政策評価はできるか？ • ちょっと昔に言われたこと • 「データはあくまで数をみているだけ。経営者の心の機微や組織体制の細やかな変容や経営者の意思決定の変化を、細かくデータで追うことは出来ない。」 • ここ数年、実際の世の中で起きたこと • テキスト解析手法の進化 • 因果推論の推定手法の開発と普及 • 機械学習のあっという間の普及 • データベースの普及と重要性が認識されるようになった • データ解析に係る導入コストの低下 • as 統計ソフトを買わなくても良くなった • A. 2020年5月段階の(個人的な)答え • データがあれば、かなり色々なことがわかる。データ分析の技法は取得したほうが良い。 • データで説明しきれない特殊性や特筆性については、まだ定性分析に出来ることはある

Slide 23

Slide 23 text

では、データを使った分析に必要なものデータ、もしくはデータベース分析手法分析を行うためのツール

Slide 24

Slide 24 text

企業活動に関連するデータベース研究開発調達生産販売マーケティング科学技術基本調査(総務省) 企業活動基本調査 (経済産業省) 経済センサス (総務省) 政府系データベース商用データベース帝国データバンク特許データベース論文データベース (WoS, Scopus, Lends) INITIAL (Entrepedia) POSデータ (ex. インテージ) SNS (Twitter, Facebook, TikTok) 商用と政府系のデータベースを組み合わせれば、企業行動をデータで「辿る」ことは可能になる

Slide 25

Slide 25 text

帝国データバンクデータベース (Commercial) • 一橋CAREE センターで利用可能なデータセット • パネルデータ化が可能. • アーカイブデータも利用可能(政策フォーラム午前中の岡室先生の発表) • ご関心のある先生方は、是非ともお問い合わせください企業信用調査報告書に関するデータ取引データ，出資データ，銀行取引データ企業財務データベースに関するデータ決算書データ企業概要ファイルに関するデータ取引データ，企業情報データ，銀行取引データその他企業に関するデータ合併データ，倒産データ

Slide 26

Slide 26 text

企業活動に関連するデータベース(extended) 研究開発調達生産販売マーケティング研究開発に関わる作業ログ /ノート/機器の稼働状況調達や部品の調達に関するログ/メール/電話のやり取り販売価格決定に関わる意思決定に関わるエビデンス企業内のログ商用データベース帝国データバンク特許データベース論文データベース (WoS, Scopus, Lends) INITIAL (Entrepedia) POSデータ (ex. インテージ) SNS (Twitter, Facebook, TikTok) さらに、企業内に介在するログを組み合わせることで、企業の意思決定をエビデンスベースに基づき実行することが可能になる

Slide 27

Slide 27 text

データを「データベース化」する • 不定形データをデータ化する • JSON やXML をCSV にして、人間が読めるようにする • もしくはその逆 • データをデータベース化する • Machine Readable • SQL, NoSQL etc… • データを管理し保持する (データマネジメント) • 大昔; 紙 • 昔; Excel • 一昔前; スタンドアロンのサーバ • ちょっと昔; パブリッククラウド (AWS, Microsoft Azure, GCP etc…) • 現代; サーバーレス

Slide 28

Slide 28 text

Data Lake • “データレイクは、規模にかかわらず、すべての構造化データと非構造化データを保存できる一元化されたリポジトリです。データをそのままの形で保存できるため、データを構造化しておく必要がありません。また、ダッシュボードや可視化、ビッグデータ処理、リアルタイム分析、機械学習など、さまざまなタイプの分析を実行し、的確な意思決定に役立てることができます。” https://aws.amazon.com/jp/big-data/datalakes-and-analytics/what-is-a-data-lake/

Slide 29

Slide 29 text

データベースの種類 • RDB(OLTP; Online Transaction Processing) • DocDB • グラフDB • Hadoop • RDB(DWH) Hadoop (HDFS+MapReduce) • Apache Hadoop • CloudEra • MapR • Hortonworks RDB(DWH) • Oracle Exadata • Teradata • Netezza • RedShift KVS/DocDB KVS • Cassandra • Redis DocDB • MongoDB • CouchBase RDB(OLTP) • Oracle • SQL Server • MySQL • PostgreSQL GraphDB • Neo4j • Datadog • OrientDB 引用: RDB技術者のためのNoSQLガイドスケールアウトできるスケールアウトできないスループット重視オペレーション用途

Slide 30

Slide 30 text

構造データと半構造データデータの分類説明データの例非リレーショナルデータ非構造データバイナリやテキスト形式など, データの構造化が行われていない半構造データ (ex. XML/JSON) 構造はあるがスキーマがない。頻繁に構造が変わる。リレーショナルデータ構造化データ (ex. RDBMS) スキーマがあり, 構造が変わらない。電子メールテキスト・音声データシステムログオフィス文章経理・財務・人事商品・在庫営業・ CRM 決済・残高センサリング情報口コミ SNS 健康・医療データ統計データ行政データ他社保有データ引用: RDB技術者のためのNoSQLガイド

Slide 31

Slide 31 text

PATSTAT のモデル図 5/14/2015 31 • テーブルとテーブルをつなぎ合わせるIDがあり • IDを介して複数のテーブルの関係性 (リレーショナル) が構築されている • これらのテーブルをつなぎ合わせることで、複雑なデータの解析を行うことができる

Slide 32

Slide 32 text

グラフDBのデータ構造 :ラベルノード属性 {キー: バリュー, キー:バリュー} :ラベルノード属性 {キー: バリュー, キー:バリュー} :タイプ属性 {キー: バリュー, キー:バリュー} 関係性ラベル; 同じ種類のノードを識別するためのドメインの定義ノード; RDB におけるレコードに相当。複数の属性を{キー:バリュー}で保持出来る関係性; ノードとノードの間に存在, ノード間のつながりを表現する. 属性; RDB におけるカラム.

Slide 33

Slide 33 text

Ex2.) Singapore COVID-19 Dashboard • https://co.vid1 9.sg/singapore/ dashboard • Total Cases • Active Cases • Deceased • Discharged などが掲載されている

Slide 34

Slide 34 text

No content

Slide 35

Slide 35 text

Data Lake(cont.) 特徴データウェアハウスデータレイクデータトランザクションシステム、業務データベース、基幹業務アプリケーションからのリレーショナルデータ IoT デバイス、ウェブサイト、モバイルアプリケーション、ソーシャルメディア、企業アプリケーションからの非リレーショナルデータとリレーショナルデータスキーマ DW の実装前に設計 (スキーマオンライト) 分析時に書き込み (スキーマオンリード) 料金/パフォーマンス高コストのストレージを使用、クエリ結果の取得は最速低コストのストレージを使用してクエリ結果をより速く取得データ品質高度にキュレートされたデータで、事実の情報源として機能任意のデータで、キュレートできるかどうかは不明 (raw データ) ユーザービジネスアナリスト (キュレートされたデータを使用する) データサイエンティスト、データ開発者、ビジネスアナリスト分析バッチレポート、BI、可視化機械学習、予測分析、データ検出、プロファイリング https://aws.amazon.com/jp/big-data/datalakes-and-analytics/what-is-a-data-lake/

Slide 36

Slide 36 text

分析手法 • Step1; グラフにする • 「まずは散布図を書いてみる」 • Step2; 統計的処理を行う (平均値, 中央値, 最大値, 最小値 etc..) • このあたりから、内生性や見せかけの回帰との戦いがはじまる • Step3; 回帰分析など, 入力と出力間の関係性を見る • 重回帰分析 • スパース推定 • 決定木分析, SVM (教師あり/教師なしの機械学習) • Step4; 因果効果を識別する • 因果関係と相関関係を識別する(次のページ)

Slide 37

Slide 37 text

因果識別の手法(1) 実験対象 Treated Group Control Group y x Cut-off Point • ランダム化比較試験 (RCT) • 対象者と非対象者を無作為抽出して比較実験 • 回帰不連続(RD) デザイン – 回帰直線シフト 37 実験対象 Treated Group Control Group • 傾向スコアマッチング（PSM）： – 各政策対象企業と同じ「政策対象傾向」を持つ企業を対照群から抽出引用:岡室博之 (2019) 産業クラスターと地方創生：地域イノベーション政策の展開と分析方法, 一橋大学公開講座

Slide 38

Slide 38 text

因果識別の手法(2) • 差の差の分析（DID） • 処置群と対照群の比較と政策前後比較の二重差 y t Control Group Treated Group t+u t-s ▲t • パネル固定効果分析 • パネルデータを用いて、各企業の固有の属性の影響を除去 y x t+i t • 操作変数法（IV）： – 内生変数を外生変数（操作変数）に置き換える2段階推定 Z X Y U β α 引用:岡室博之 (2019) 産業クラスターと地方創生：地域イノベーション政策の展開と分析方法, 一橋大学公開講座

Slide 39

Slide 39 text

データサイエンスをタピオカミルクティーにしない方法 1. データを公開する. Linked Open Data を活用する. 2. データの知的財産権を明確化する. 3. 神エクセルをなくす. (as DX の推進) 4. オープンソースソフトウェアを使う, あるいは教育する. 2020年初頭の最適解はR もしくは Python (3.x系). 5. AI という言葉に踊らされない. 使い倒す.

Slide 40

Slide 40 text

(いくつかの)ギャップ • 願望投影型政策 (森田 2015) とEBPM • データが、推進したい施策に基づき構築される可能性 • ナラティブなストーリーとデータ解析 • 統計的な素養を政策立案者や企業戦略の決定者すべてが有しているわけではない。データに基づく解析結果を広く共有するためには、ストーリーに落とし込むことが必要 • データのオープン化と、ITセキュリティ対策 • RESAS や Notebook や Linked Open Data を利用しようとしても, 自治体や中央政府、企業のITセキュリティ上制限が掛けられており(ex. 自治体のネットワーク分離), 業務用PC などでこれらのツールを利用することが出来ない。

Slide 41

Slide 41 text

Source: OECD (2017[3]), Core Skills for Public Sector Innovation, https://www.oecd.org/media/oecdorg/satellite sites/opsi/contents/files/OECD_OPSI-core_skills_for_public_sector_innovation-201704.pdf OECD が定義するデジタルスキル

Slide 42

Slide 42 text

Conclusion • データサイエンスと呼ばれているものは、プログラミングスキルと数学とエンジニアリングスキルと因果関係を特定するためのスキルが混ざりあったもの • 政府のみなさんへ • とりあえずデータを、Machine-Readable な形で公開してください • PDF でも Excel でもなくて、JSON やRDF 形式だとかなりベター • 企業のみなさんへ • 組織内のデータと、外部データを組み合わせることで新たな知見を得られる可能性が • 経済学や（実証的な規範に基づく）経営学は思ったよりも「役に立つ」と思います

Slide 43

Slide 43 text

1.2 「経済学のための実践的データ分析」の運営方法について

Slide 44

Slide 44 text

目的と概要 • 統計解析手法の発達および、クラウドコンピューティングに代表されるコンピューティングパワーの増大により、従来は分析が困難だった様々なデータを経済学の研究において活用することで、より現実に即した形での実証研究を行うことが可能になりつつあります。 • しかし、「ビッグデータ」とも呼称されるこれらのデータは不定形であり、解析を円滑に行うためにはデータ自体の整形処理等も必要です。 • 本講義では、(1) データの管理、(2) データの処理、 (3) データの解析それぞれに焦点を挙げ、Stata, R もしくは python を用いた演習を行うことで、体系的な知識の修得を行うことを目指します。事前のプログラミング言語の知識は必要としませんが、受講した内容を自らの研究で活用するためには、自発的かつ継続的な学習を推奨します。また、 BYOD (Bring Your Own Device) を推奨します。

Slide 45

Slide 45 text

どういうことかというと… データの統計的処理だけではなく、データを「持ってきて」、「加工して」、「整理して」、解析するまでをやりますよデータを使うだけではなく、データを管理したり、個人情報に配慮しながら調達する方法についても取り上げますよ統計ソフトやNotebook にデータを放り込んで、誘導系 and/or 構造系の解析をするまでに必要な『泥臭い』作業の方法論をご紹介しますよすごくスタイリッシュに見えて、実は地味なことを取り上げますよ

Slide 46

Slide 46 text

他の授業科目との関連・教育課程の中での位置づけ本講義は、統計学および計量経済学の講義内容と補完的な内容となっています。受講者は事前に、あるいは平行してこれらの講義を受講することを推奨します。併せて、卒業論文、修士論文および博士論文にて定量的な分析を行う学生は受講することを推奨します。

Slide 47

Slide 47 text

どういうことかというと… • 本講義のポジショニングはこんな感じです計量経済学統計学経済学のための実践的データ分析・統計学や計量経済学の講義ではカバーしきれない範囲を、本講義では取り上げます・具体的な理論については、それぞれの講義を並行して受講されることをオススメします・できるだけ、具体的なデータや事例に基づいて実習を行います教養のプログラミング講義

Slide 48

Slide 48 text

テキスト • Big Data and Social Science • 適宜講義資料をオンライン配布します • 春/夏/秋学期の資料は Slideshare/SpeakerDeck にアップロードされています • https://www.slideshare.net/ya sushihara • https://speakerdeck.com/yasu shihara/

Slide 49

Slide 49 text

テキスト(2) • 『東京大学のデータサイエンティスト育成講座』

Slide 50

Slide 50 text

授業時間外の学習（求められる予習・復習等） • 講義ごとに取り上げた内容について、自発的に予習および復習を行うことを勧めます。プログラミングおよび分析ツールの習熟には、自らの手で試行錯誤を行うことが必要不可欠です。 • 講義では、こうした学習を支援するサイトやツールを都度紹介します。 • また、講義内容の共有を行うため, Manaba あるいは Slack を用いたグループを運用する予定です。

Slide 51

Slide 51 text

講義の配信方法 • 本講義ではリアルタイム配信と録画配信を組み合わせます。受講者は、講義時間にリアルタイムで講義を受講するか、録画を後ほど閲覧することを選択出来ます。 • すでにいくつかのコンテンツについては春/夏学期で録画を取っているので、それをご覧いただく形にしたく思います。 • リアルタイム配信は、継続性を考えいくつかの配信手段を検討しています。基本は Zoom (https://zoom.us/) を利用予定ですが, セキュリティや通信の安定性などを勘案して、別の動画配信ツールを用いる可能性があります。 • 2020/11/1 時点では, Zoom を含め以下の優先度にて、動画配信ツールを利用予定にしています。 • 1. Zoom; https://zoom.us • 2. Google Classroom/Meet https://hangouts.google.com/ • 3. Bluejeans/jitsi meet • 4. Skype または LINE グループ

Slide 52

Slide 52 text

講義の配信方法(2) • Slack で次回講義のZoom URLとパスワードを告知します • 冬学期については、月曜日と木曜日の10:45-12:30 に講義をリアルタイム配信します。 • 春・夏学期の講義録画はすべてご覧頂けます • その後、録画したものを Google Classroom および Slack に通知します • 録画バージョンは、基本的に一回の講義あたり20分の動画 x4本になります。

Slide 53

Slide 53 text

講義の実施方法 (冬学期) • 本学は通常105分講義ですが, オンラインであることを鑑み以下のような構成で実施予定にしています. • Youtuber 方式で、講義のコア部分は20分以内でまとめるようにします (ベストエフォート！) • 春学期/夏学期の場合は、以下のタイムラインで配信を行う予定です. • 10:30-10:45 プレ講義(雑談 etc…) (15分) • 10:45-11:05 講義モジュール1 [録画あり] • 11:05-11:10 休憩 • 11:10-11:25 講義モジュール2 [録画あり] • 11:25-11:30 休憩 • 11:30-11:50 講義モジュール3 [録画あり] • 11:50-11:55 休憩 • 11:55-12:15 講義モジュール4 [録画あり] • 12:15-12:30 Slack およびブレイクアウトルームを用いた質疑応答タイム

Slide 54

Slide 54 text

冬学期講義スケジュール(1) • 1. 11/5 [今日; Zoom配信+録画] • イントロダクション (ビッグデータと社会科学), 分析環境の構築とプログラミング言語入門 • 経済学で大量かつ様々なタイプのデータを用いることに、果たしてどのような意味があるのでしょうか？初回の講義では、経済学はじめ社会科学の研究でデータを活用する意義について、具体的な研究事例などを交えながら紹介します。また、今日広く用いられている Jupyter Lab/Google Colaboratoryなどの分析環境の導入方法について説明します。併せて、教養課程でプログラミング講習を履修していない学生に向けて、プログラミングの基礎について解説します。 • 2. 11/9 [録画] • 記述統計と(重)回帰分析/統計ソフトの比較 • 本講義で主に利用する jupyter labs/google colaboratory を用いて, python やR の基本的なコマンドについて実習を交え説明を行います。記述統計の導出や回帰分析など、統計学や計量経済学の講義で扱う内容を、Notebook 環境上で行えるようにすることを目指します。今回のテーマは「サンクコスト」です。

Slide 55

Slide 55 text

秋学期講義スケジュール(2) • 3. 11/12 [録画] • データの取得と前処理 (Web スクレイピング, RPA, API そして手入力) / SQL の使い方 • データといっても、そのほとんどは実のところ定型化されていません。Web サイトや書籍や国会図書館から手作業でひとつひとつ入力し、あるいは、Web スクレイピングやAPI, RPA を用いて, Web から取得する必要があります。データ分析は、こうした事前の作業が作業全体の60- 70パーセントを占めています。こうした手続きの具体例について、座学を用いて紹介した後、雑誌や Web に掲載されたデータを取得する手法についてご紹介します。 • 後半では, SQL の使い方について概要を説明します。大量のデータを運用し活用するためには、データベースを用いると便利です。Google BigQuery を用い、データから必要な情報を抽出し、データ同士を接合する方法について簡単に解説を行います。また続いて, Google Big Query を用いて解析を行いますまた, 必要に応じて MySQL サーバおよび MySQL Workbench の導入方法、多変量データの展開方法について解説します。 • 4. 11/16 [録画] • データの可用性とプライバシー • インターネットには様々な情報が掲載されています。あるいは、大学の図書館からデータベースにアクセスすれば、様々な情報を得ることが出来ます(一橋大学の場合は特に！)。しかしながら、データには個人情報や企業の機密情報などが含まれており、これらの適切に管理し運用することは極めて重要です。テキストブックの内容に基づき、説明を行います。

Slide 56

Slide 56 text

秋学期講義スケジュール(2) • 5. 11/19 質疑応答セッションその1 [Zoom配信+録画] • レポート1やこれまでの講義でわからなかったこと/解決したいことをひたすら質疑応答する回です。 • リモート講義で、やりにくい部分もあるとたくさんあると思うので、そもそもコーディングの考え方や配っている Notebook が動かない！などの課題を、peer に解く回にしようと思います。

Slide 57

Slide 57 text

秋学期講義スケジュール(2) • 6. 11/26 [Zoom 配信+録画] • 企業行動/産業のデータ分析 (企業情報、財務、特許と論文) • 帝国データバンク企業・経済高度実証研究センター (http://www7.econ.hit-u.ac.jp/tdb- caree/about-caree/) や、日経NEEDS などが提供する企業のデータベースについて説明を行います。本データベースには、企業の取引、出資、銀行取引データや、決算書データなどが含まれています。こうしたデータセットに基づき、問いに基づきデータを解析することを目指します。また講義の後半では、RESASを用いて地域産業の情報の取得する方法と、NISTEP 企業名辞書 (http://www.nistep.go.jp/research/scisip/rd-and-innovation-on-industry) などを用い, ID ベースでデータセット間を接合する手法について説明します。 • 企業の研究開発活動を解析するためには、特許や学術論文の動向について測ることで、産業内での動態を観察することが出来ます。知的財産研究所が提供する IIP パテントデータベース (http://www.iip.or.jp/patentdb/), Clarivate Analytics 社が提供する Web of Science (https://clarivate.com/products/web-of-science/), Lens.org などを用いることで、 - 「どの企業が最も特許を出願しているのか？」 - 「どのような分野に特許を出願しているのか？」 - 「日本の大学で最も年ごとの論文数が多いのは何処か？」 - 「(指導教官の)○○先生が書いた論文はt年にx本で、その論文は累計 y 回引用された」などの情報を取得し分析する方法を解説の上、実習を行います。

Slide 58

Slide 58 text

秋学期講義スケジュール(3) • 7. 11/30 [録画] Open Linked Data の活用 (RDF, RISIS などの事例紹介および試用) • オープンサイエンスやオープンガバメントの進展によって、特にヨーロッパでは Open Linked Data と呼ばれるデータセットを用いた解析プラットフォームや、解析手法が用いられはじめています。本回では、RISIS (https://www.risis2.eu/)と呼ばれる、イノベーション分析のためのデータプラットフォームについて解説を行い、RDF を用いた解析について解説および簡単な実習を行います。 • 8. 12/3 [録画] • テキスト分析 (Wordcloud, Word2vec, Topic Model, 計量テキスト分析)/SNS データの取得および分析 • これまで用いてきたデータセットについて、異なるアプローチから解析することを目指します。具体的にはすでに定量化されているデータではなく、特許における特許名、論文における論文名、企業データベースにおける企業の概要などのテキストデータを解析する手法について学びます。具体的には, Wordcloud, Word2vec, Topic モデルなどについて解説します。 • また計量テキスト分析、特に共起ネットワーク, 分散分析などの手法について, KHcoder (http://khcoder.net) を用い解析を行います。関連して、Twitter などのソーシャル・ネットワークからAPI などの手法を用いてテキストデータを取得し解析する方法について解説します。

Slide 59

Slide 59 text

ケーススタディ1: SMAP会見 • 共起ネットワーク

Slide 60

Slide 60 text

Twitter の口コミを Wordcloud にプロット • 早稲田大学 • 慶應大学

Slide 61

Slide 61 text

秋学期講義スケジュール(2) • 9. 12/7 [録画] • データのビジュアライゼーションとネットワーク分析 • これまでの回で取り上げてきたデータをわかりやすく研究で活用する手法を学ぶことを目指します。Python やR などを用いたデータの可視化手法の確認や、 Ploty, D3.js やTableau (https://www.tableau.com/ja-jp) などのデータ可視化ソフトウェアの紹介および実習を行います。 • 10. 12/10 質疑応答セッションその2 [Zoom配信+録画] • レポート2や最終レポートでわからなかったこと/解決したいことをひたすら質疑応答する回です。 • リモート講義で、やりにくい部分もあるとたくさんあると思うので、そもそもコーディングの考え方や配っている Notebook が動かない！などの課題を、peer に解く回にしようと思います。

Slide 62

Slide 62 text

春学期講義スケジュール(4) • 11. 12/14 [録画] • 機械学習と因果推論 [座学, 実習] • Python および R を用いて、決定木分析やSVM, スパース推定について、具体例の紹介および実習を行います。また、DID や非連続回帰デザインなどの因果推論の分析手法についても簡単な解説を行います。講義の後半では, 最終レポートについての説明を行います。これまでに学んだ手法を用いデータ解析を行うことで、グループでのレポートをまとめます。このグループの決定を行います。 • 12. 12/17 [Zoom 配信] • まとめ、および最終レポート発表会 • これまでの講義の内容を振り返った上で、グループごとの最終レポートの発表を行います。レポートは発表時間10分、質疑応答5分で、グループごとに実施します。

Slide 63

Slide 63 text

これまでの最終レポート例 • a. 「カジノ開設のための実践的データ分析」カジノやパチンコが地域に与える影響についてクロスセクション分析. OECD や政府統計などのデータソースを活用. • b. 「重大な交通事故に与える影響の実証分析」 Google Bigquery からアメリカの交通事故データをランダムサンプリングして取得し, 天候など, 事故の主な要因を分析 • c. 「著名人の Twitter における発言とその後のトレンドへの影響」ドナルド・トランプの Twitter データを一括取得し, アメリカ/日本為替レートに与えた影響を測定. 感情推定やTF-IDF を活用. • d. 「医師数の偏りの要因についてのデータ分析」地方で医師が足りなくなる原因について, 政府統計データを一括してスパース推定を実施. 重回帰分析と組み合わせてクロスチェック. • e. 「マラソンの記録に対する気候条件の影響分析」マラソンの成績がどのような要因で決まるのか, 東京マラソンと北海道マラソンのデータを取得し, 気温や風などのデータを用いて分析. • f. 「先物取引のための実践的データ分析」コメの終了が気候から予測できるのか, 作況指数や高数量, 日照時間や気温のデータを取得し要因を分析.

Slide 64

Slide 64 text

ご相談 • 最終レポートについて • はやめにグループを作りたいと考えてみます • ランダムに割当か、友だち同士グループのほうどちらが良いでしょうか？ • 取り上げる内容について • やってほしい内容があればSlack やチャットで教えてください • 昨年度慶應義塾大で行った講義でのリクエスト • SNS の口コミ分析 • 感情分析 • RESAS データの一括取得 (API の利用方法) と解析

Slide 65

Slide 65 text

成績評価の方法

Slide 66

Slide 66 text

成績評価(1) • 平常レポート (40パーセント; 必須) • 講義計画に示したように、複数の回で学生にはレポートを課します。レポートは Word/PowerPoint形式のメールあるいは, github 経由での提出が求められます(どの方法を採用するかは、初回の講義で決定します)。 • レポートには、(A.) 利用したデータセットとその内容, (B.) 分析の問い, (C.) 分析手法, (D.) 分析結果を明記する必要があります。ページ数や文字数は問いませんが, これらの内容が含まれており, 講義中にアナウンスする評価手法を満たす場合, 高い得点を得ることが出来ます。 • 平常点 (10パーセント) • 本講義は実習が多く含まれており, また取り扱うデータセットや内容も多彩です。そのため、受講者同士が協力する必要があります。こうした受講者の態度を評価するために、平常点を設けます。

Slide 67

Slide 67 text

成績評価(2) • 最終レポート (40パーセント; 必須) • 講義の最終回では最終レポートの報告会を行います。受講者は3名から4名から構成されるグループで、最終レポートの報告を行う必要があります(人数は受講者の人数により変更される可能性があります)。最終レポートでは、プレゼンテーションの方法を学生は自由に選ぶことが出来ます。PowerPoint 以外にも、Prezi などのアクティブプレゼンテーションツールや、他のプレゼンテーション手法を用いることが出来ます(プレゼンテーションツールについては、必要であれば講義内で説明する機会を設けます)。最終レポートでは、以下の点について評価を行います。 (A.) グループ内の役割分担 (B.) データセットのユニークさおよび、それが適切に処理されているか (C.) 分析手法のユニークさおよび、それが適切に解析されているか (D.) プレゼンテーションのユニークさ (E.) 質疑応答にうまくリプライすることが出来ているか • 最終レポートの360°グループ評価 (10パーセント) • 3. の最終レポートについて、グループの自己評価および他のグループからの評価を行います。3. で挙げた評価ポイントに基づき、グループメンバーおよび他のグループは評価を行います。

Slide 68

Slide 68 text

履修撤回について • 履修撤回期間中に学務情報システム「CELS」で履修撤回を行います。 • 冬学期の場合 • 一橋HP の行事予定を参照のこと https://www.hit- u.ac.jp/kyomu/calendar/pdf/R2_0824_2020gakunenreki_gakubu_l ist.pdf • １１月２３日（月）～１１月２９日（日）

Slide 69

Slide 69 text

最高成績基準引用: 一橋大学授業ハンドブック

Slide 70

Slide 70 text

受講生に対するメッセージ • 講師は一年間パリで研究活動を行っていました。海外留学や大学院進学等について、質問がありましたらお寄せ頂けましたら幸いです。 • また、質問は Slack や, ツイッター (@harayasushi) でも受け付けます。不明な点などありましたらお問い合わせくださいませ。 • (すっかり流行らなくなりましたが、)ツイッターやフェイスブック上でハッシュタグ #経済学のための実践的データ分析で情報共有も行いたく思います。

Slide 71

Slide 71 text

1.3 統計ソフトの比較

Slide 72

Slide 72 text

そもそも。 • なぜこの講義は python やR を使うのか？ • 一番の理由: 無償だから • 有償の統計分析ソフト (ex. Stata) の場合 • 学生の間は導入コストはかなり低い • が、社会人になると継続して最新バージョンを継続的に導入するコストは極めて高くなる • (せっかく計量経済学を学んで、パネルデータで固定効果モデルを解析する方法を学んでも、日々の喧騒の中で人は思い出とともに統計学や経済学を忘れていく・・・) • マスターコースやドクターコースに行こう

Slide 73

Slide 73 text

経済/経営学部の統計ソフトの利用状況 {一橋, 東大, 早稲田, 慶應} • 各大学の2019年度シラバスから、 • SPSS • Eviews • Stata • SAS • Python • Excel というタームが含まれている講義を抽出。 ※. R は exact matching できないので除外。 • 経済学部・経営学部/MBAの講義で、どういった統計ソフトが使われているかを調査

Slide 74

Slide 74 text

経済学部の統計ソフトの利用状況 {一橋, 東大, 早稲田, 慶應}

Slide 75

Slide 75 text

経済学部の統計ソフトの利用状況 {一橋, 東大, 早稲田, 慶應, 東経大} • Findings • SPSS のユーザ数は減少 • Stata で統計分析を教えるシェアは未だ高い • 早稲田大学, 謎のSAS 人気 • Python はデータサイエンス系の講義で広く登場 • 一橋大学経済学部でpython というタームが出てくるのは、本講義以外だと山田先生の講義

Slide 76

Slide 76 text

SPSS is dying Source: http://lindeloev.net/spss-is-dying/

Slide 77

Slide 77 text

SPSS is dying (cont.) • “I predict that R overtakes SPSS in yearly citations by 2020. The implications are clear: • If you use SPSS in your business or research, move to R now rather than later. • Do not ask for SPSS competences in job postings. You will scare away the good candidates. • We are doing students a disservice by teaching SPSS. Switch to JASP for simple one-off analyses and R for complex or repeated analyses. Rstudio Desktop is a highly recommended interface to R.” Source: http://lindeloev.net/spss-is-dying/

Slide 78

Slide 78 text

Data Analytics Job Market The number of data science jobs for the more popular software (those with 250 jobs or more, 2/2017). Jobs trends for R (blue & lower) and Python (orange & upper). http://r4stats.com/articles/popularity/

Slide 79

Slide 79 text

各統計ソフトの比較 1. Stata 2. SPSS 3. EViews 4. (Microsoft) Excel 幸いなことにどのソフトウェアも持っているので、実機をお見せしながら説明します

Slide 80

Slide 80 text

1. Stata • 事実上のデファクトスタンダード(だった) • (重)回帰分析やパネルデータ分析, 主成分分析など, 経済学・経営学での多変量解析はほぼ網羅している • 大学の経済学・（定量分析を行う）経営学の先生の使用率も高い • ゼミによっては基本的な分析ソフトとして指定されている場合も • 主なテキストブック

Slide 81

Slide 81 text

1. Stata ・右下のインターフェースにコマンドを打ち込む・データはexcel 経由またはsql で流し込む

Slide 82

Slide 82 text

2. SPSS • Stata 以前のデファクトスタンダード • 12年前に一橋大でマーケティングサイエンスの講義を受講したときは、SPSS が指定されていました • 現在はIBM が保有 • GUI ベースでデータの処理および解析が行えることが特徴

Slide 83

Slide 83 text

2. SPSS

Slide 84

Slide 84 text

2. SPSS

Slide 85

Slide 85 text

3. EViews • やはり一世代前に主力の統計分析ソフト • ファイナンス・時系列分析 (ARCH, GARCH, MR, AR, VAR) などに特化 • 詳しくは関連するファイナンス・計量経済学の講義で • 回帰分析など、行える分析は Stata/SPSS とほぼ同じ

Slide 86

Slide 86 text

3. EViews ・変数をExcel or SAS or Stata or SPSS 経由で取り込み・変数の長さを最初に指定して・コマンドを上のウインドウに打ち込んで、解析を行う

Slide 87

Slide 87 text

4. Excel • Microsoft Office 365 で現在は主に提供 • 生協で買うパソコンや Surface に必ず入ってるやつ • 某省庁のデータ分析はだいたい Excel で完結してたりする(でビックデータの時代とか言いがち) • 記述統計や、基本的なデータの分析であればExcel で十分 • 一昔まえの「定量的な」卒論とか

Slide 88

Slide 88 text

4. Excel

Slide 89

Slide 89 text

5. SAS • 機能は充実 • 講義で多数の利用例 • 商用版は高価 • SAS University Edition は無償

Slide 90

Slide 90 text

まとめ名称 Stata SPSS EViews Excel 販売・提供母体 Stata IBM ライムストーンマイクロソフトインターフェース GUI (コマンドベース) GUI GUI (コマンドベース) GUI 主なメリット (経済学・経営学周りの)ユーザーが多いクリックだけでデータ解析ができる時系列解析をするときに、コマンドを書く必要がないすぐに手に入る。情報基盤センターのPCやスマホから扱えるコスト(学生編) ・イニシャルコスト 86,400円 (キャンペーン中) 124,000円 63,720円 0円 (一橋大学生は office 365 サブスクリプションあり) ・アップグレードコスト 101,520円 136,600円 49,680円 0円(一橋大学生は office 365 サブスクリプションあり) コスト(社会人編) 262,440円 310,000円 206,280円 12,744円・アップグレードコスト 172,,800円 54,900円 97,200円 12,744円

Slide 91

Slide 91 text

まとめ(2) • ランニングコストやサンクコストを考えると, 実は Excel でなんでも出来るようになるのが最適コースの可能性 • Stata や SPSS など統計ソフトは、学生の身分だと比較的安価に導入出来る。が、最新の機能をキャッチアップするのは辛い。 • （会社で稟議書が通るかというと、関連部局でも割と怪しい。） • ちなみに、IT スタートアップで働いていたときは、大学生の身分で買った Eviews やSPSS を用いて解析をしていました • 某広告代理店では, すべてのPCに R Studio が導入されている、らしい。 • ということで、Excel + 無償で導入できる R and/or Python が2019 年現時点での最適解！ • 会社によっては, Jupyter Notebook やR Studio が自由にインストールできる PC が供給されない可能性も (2019年現在は) • クラウドにアップしてもOKなデータは Google Colaboratory で

Slide 92

Slide 92 text

1.４ Python はじめ

Slide 93

Slide 93 text

Anaconda Distribution (aka Jupyter Notebook)とは • プログラムを実行し、実行結果を記録できるツール • 数値計算・データ解析で広く用いられている • 実行結果は notebook 形式で保存可能 • 便利なので使ってみましょう。

Slide 94

Slide 94 text

Jupyter Notebook のインストール(1) • 1. https://anaconda.com にアクセスし右上の [Download] をクリックする

Slide 95

Slide 95 text

Anaconda Distribution のインストール(1) • 利用しているオペレーティングシステム (Windows/Mac/Linux)に基づき, Python3.7 バージョンの [Download] をクリック Windows版 Mac版ダウンロードが終わるまで待つ。

Slide 96

Slide 96 text

Anaconda Distributionのインストール (3) • “Next >” をクリックする • “I Agree” をクリックする

Slide 97

Slide 97 text

Anaconda Distributionのインストール(3) • “Next >” をクリックする • “Next >” をクリックする

Slide 98

Slide 98 text

Anaconda Distributionのインストール (4) • “Install” をクリックする

Slide 99

Slide 99 text

Jupyter Lab の起動 (1) • スタートメニューから, Jupyter Lab を選択する

Slide 100

Slide 100 text

Jupyter Lab の起動 (2) • コンソールが表示される

Slide 101

Slide 101 text

Jupyter Lab の起動 (3) • New から Python 3 を選択する

Slide 102

Slide 102 text

Jupyter Lab の起動(4) • 1+1 を入力し, Run をクリック • “2” が出力される

Slide 103

Slide 103 text

Google Colaboratory • SaaS な Notebook by Google. • https://youtu.be/inN8seMm7UI

Slide 104

Slide 104 text

3-1. Google Colaboratory を開く • https://colab.research.google.com/notebooks/welcome.ipyn b?authuser=1#scrollTo=9J7p406abzgl を, google にログインした状態でオープンする.

Slide 105

Slide 105 text

3-1. Google Colaboratory を開く • 以下のような画面が表示される

Slide 106

Slide 106 text

3-2. 新しいnotebook を作成する • [ファイル]-[python3 の新しいノートブック] を選択する

Slide 107

Slide 107 text

次回予定. python, R, Jupyter notebook 事始め • Stata や SPSS, SAS など統計分析ソフトは多数存在します。これらのメリットや特徴について前半は説明します。 • 後半は、本講義で主に利用する jupyter notebook を用いて, python やR の基本的なコマンドについて実習を交え説明を行います。テーマは「サンクコスト」です。

Slide 108

Slide 108 text

THANKS [email protected]