Slide 1

Slide 1 text

一橋大学 「経済学のための 実践的データ分析」 2020冬: 1/12 1.はじめに 1.1データ分析とは 1.2講義の運営方法 1.3統計ソフトの比較 1.4Colaboratoryと Jupyter 利用方法 一橋大学大学院経済学研究科 原泰史 [email protected]

Slide 2

Slide 2 text

今日の内容 • 10:30-10:45 • プレ講義 [録画なし] • 10:45-11:05 • 1.1 データを分析すると いうこと [録画あり] • 11:05-11:10 • インターミッション[録画な し] • 11:10-11:30 • 1.2 この講義の運営スタ イルについて [録画あり] • 11:30-11:35 • インターミッション 2[録画なし] • 11:35-11:55 • 1.3 統計ソフトの比較 • 11:55-12:00 • インターミッション 3[録画なし] • 12:00-12:20 • 1.4 Jupyter Labs/Google Colaboratory の導 入の仕方 [録画]

Slide 3

Slide 3 text

1.1 データを 分析するということ

Slide 4

Slide 4 text

自己紹介 • 1998-2004 • TOYOTA NATIONAL COLLEGE OF TECHNOLOGY • 2000 • Exchange Student in Malaysia • 2002-2009 • CLARAONLINE, INC. • ICT Hosting Company, nowadays called Cloud system supplier • 2009-2015 • Institute of Innovation Research, HITOTSUBASHI UNIVERSITY • 2015-2017 • Science for RE-Designing Science, Technology and Innovation Policy Center, National Graduate Institute for Policy Studies (GRIPS) / NISTEP / Hitotsubashi UNIVERSITY/MANAGEMENT INNOVATION CENTER • 2018-2019 • EHESS Paris – CEAFJP/Michelin Research Fellow • OECD Expert Advisory Group: Digital Science and Innovation Policy and Governance (DSIP) and STI Policy Monitoring and Analysis (REITER) project • 2019- • TDB Center for Advanced Empirical Research on Enterprise and Economy, Faculty of Economics, Hitotsubashi University

Slide 5

Slide 5 text

最初に 2005年と2015年の話

Slide 6

Slide 6 text

ITスタートアップで 働いていたころの話

Slide 7

Slide 7 text

“IT スタートアップ” とは言っても… • 働き出したころ(2002年) は従業員7名 • 辞めるころ (2009年) でも従業員70名 • “レンタルサーバ”と呼ばれていた時代で、クラウドコンピュー ティングがまだまだ普及する前 (AWS の黎明期) • 仮想化 (virtualization) という、サーバのハードウェアレイヤー とOSレイヤーをカーネルレベルで独立させる技術が一般化しつ つ会った時代 (VMware や Parallels Container など) • Web で注文を掛けて、FAXで受注するような時代 • 購買システムと受注システムと会計システムがバラバラだった 時代

Slide 8

Slide 8 text

VPS(バーチャルプライベートサーバ) • サーバサービスは当時価格競争に 突入しており、3000円弱の新サー ビス(Demi)を投入することに • ところが、最低価格のプロダクト (Demi)ではなく、中価格帯(Solo) が最も売れるようになる • でも、なぜ一番安いモデルが売れない のか説明できない • 「相対価格」で説明して、なんと なく上司が納得する(腹落ちする) • Demi をベースにすると, 1.67 -> 2.34 -> 3.35 • その後最安価モデルは廃止 https://web.archive.org/web/20050208123052/http://clara.jp/service/vps/

Slide 9

Slide 9 text

No content

Slide 10

Slide 10 text

エビデンスに基づく 科学技術イノベーション政策と「ポンチ絵」 • いままでのキャリアで、ベンチャー(スタートアップ)とアカデミア をやったことに気づき、数年だけならばと、政策大学大学院大学の 文部科学省の科学技術イノベーション政策のセンター (SciREX セン ター) で働くことに • どうやら、研究内容やどういうジャーナルに載ったかとか、それが どういうインパクトファクター(IF)だったかよりも、政策立案のプ ロセス内で使われるポンチ絵の一部になっていることが重要らしい。 • ポンチ絵の要件 • 数十秒で読んで理解できること • しかも、内容が過不足なく明記されていること • 色がいっぱい使われていること • 何よりも予算が取れること

Slide 11

Slide 11 text

「ポンチ絵」 http://ryota-saeki-lifelog.hatenablog.com/entry/2016/09/02/105402

Slide 12

Slide 12 text

自分もこんな感じのポンチ絵をつくる mext.go.jp/b_menu/shingi/chousa/gijyutu/025/shiryo/__icsFiles/afieldfile/2016/02/24/1366973_11.pdf

Slide 13

Slide 13 text

ここまでのまとめ • (個人的には、)ITスタートアップも中央官庁も「データ分析」 に対するアティチュードはそんなに違いはなかった • 「直感でわからないことや、うまくいかなくなったことを分析した い」ことへの高いニーズはあるし、それぞれにデータもある • しかし、部署ごとにデータがバラバラになっており、繋がっていない • 解析を行うための方法論や理論もあまりない • 誘導系でも構造系でも、統計的な分析モデルを構築するというよりは、 棒グラフや線グラフで経過を見るだけで必要十分だった(意思決定プロ セスの上位過程にまわるタイミングで、説明が出来るレベルに留める ことが肝要)

Slide 14

Slide 14 text

2018 Paris

Slide 15

Slide 15 text

2019年春、パリから日本に戻ってきたら、 流行っていたもの • タピオカミルクティー • データサイエンス Credit: CC0 References: https://enterprisezine.jp/bizgene/detail/4739

Slide 16

Slide 16 text

No content

Slide 17

Slide 17 text

どうやら、この国では「データを使う」 ことが流行っているらしい • 実家の近くにある企業で開催された早稲田ビジネススクール入 山章栄先生の講演に妻と一緒に参加したところ、最終的に愛知 県豊田市でデータサイエンス講演・講習を担当することに • 経済学・(実証的な)経営学の学生・研究者向けに Python 3.x を 用いたデータ分析技法に特化した本を出版することに • 年末に出版予定です

Slide 18

Slide 18 text

なぜ、データが必要 なのだろう?

Slide 19

Slide 19 text

たとえば; 経営といえば ひと もの かね 情報

Slide 20

Slide 20 text

経営を分析する (オールドスクールな方法) ひと もの かね 情報 話を聞きにいくか、文献を調査することでなぜその企業/製品がうまく いったのか、要因を経営理論に照らし合わせて解析する(定性的調査)

Slide 21

Slide 21 text

経営を分析する (最近みんなが好きな手法) ひと もの かね 情報 データベースを入手するか、サーベイデータを作成し、それらの データセットを接合し合うことで、なぜその企業/製品がうまくいっ たのか、要因を経営理論に照らし合わせて解析する(定量的調査)

Slide 22

Slide 22 text

Q. データを使えばビジネスはわかるか? もしくは、政策評価はできるか? • ちょっと昔に言われたこと • 「データはあくまで数をみているだけ。経営者の心の機微や組織体制の細やかな変容や経 営者の意思決定の変化を、細かくデータで追うことは出来ない。」 • ここ数年、実際の世の中で起きたこと • テキスト解析手法の進化 • 因果推論の推定手法の開発と普及 • 機械学習のあっという間の普及 • データベースの普及と重要性が認識されるようになった • データ解析に係る導入コストの低下 • as 統計ソフトを買わなくても良くなった • A. 2020年5月段階の(個人的な)答え • データがあれば、かなり色々なことがわかる。データ分析の技法は取得したほうが良い。 • データで説明しきれない特殊性や特筆性については、まだ定性分析に出来ることはある

Slide 23

Slide 23 text

では、データを使った分析に必要なもの データ、もしくはデータベース 分析手法 分析を行うためのツール

Slide 24

Slide 24 text

企業活動に関連するデータベース 研究開発 調達 生産 販売 マーケ ティング 科学技術基本 調査(総務省) 企業活動基本調査 (経済産業省) 経済センサス (総務省) 政府系 データベース 商用 データベース 帝国 データバンク 特許 データ ベース 論文 データベース (WoS, Scopus, Lends) INITIAL (Entrepedia) POSデータ (ex. インテージ) SNS (Twitter, Facebook, TikTok) 商用と政府系のデータベー スを組み合わせれば、企業 行動をデータで「辿る」こ とは可能になる

Slide 25

Slide 25 text

帝国データバンクデータベース (Commercial) • 一橋CAREE センターで利用可能なデータセット • パネルデータ化が可能. • アーカイブデータも利用可能(政策フォーラム午前中の岡室先生の発表) • ご関心のある先生方は、是非ともお問い合わせください 企業信用調査報告書に関するデータ 取引データ,出資データ,銀行取引データ 企業財務データベースに関するデータ 決算書データ 企業概要ファイルに関するデータ 取引データ,企業情報データ,銀行取引データ その他企業に関するデータ 合併データ,倒産データ

Slide 26

Slide 26 text

企業活動に関連するデータベース(extended) 研究開発 調達 生産 販売 マーケ ティング 研究開発に関 わる作業ログ /ノート/機器 の稼働状況 調達や部品の調達 に関するログ/メー ル/電話のやり取り 販売価格決定 に関わる意思 決定に関わる エビデンス 企業内のログ 商用 データベース 帝国 データバンク 特許 データ ベース 論文 データベース (WoS, Scopus, Lends) INITIAL (Entrepedia) POSデータ (ex. インテージ) SNS (Twitter, Facebook, TikTok) さらに、企業内に介在する ログを組み合わせることで、 企業の意思決定をエビデン スベースに基づき実行する ことが可能になる

Slide 27

Slide 27 text

データを「データベース化」する • 不定形データをデータ化する • JSON やXML をCSV にして、人間が読めるようにする • もしくはその逆 • データをデータベース化する • Machine Readable • SQL, NoSQL etc… • データを管理し保持する (データマネジメント) • 大昔; 紙 • 昔; Excel • 一昔前; スタンドアロンのサーバ • ちょっと昔; パブリッククラウド (AWS, Microsoft Azure, GCP etc…) • 現代; サーバーレス

Slide 28

Slide 28 text

Data Lake • “データレイクは、規模にかかわ らず、すべての構造化データと 非構造化データを保存できる一 元化されたリポジトリです。 データをそのままの形で保存で きるため、データを構造化して おく必要がありません。また、 ダッシュボードや可視化、ビッ グデータ処理、リアルタイム分 析、機械学習など、さまざまな タイプの分析を実行し、的確な 意思決定に役立てることができ ます。” https://aws.amazon.com/jp/big-data/datalakes-and-analytics/what-is-a-data-lake/

Slide 29

Slide 29 text

データベースの種類 • RDB(OLTP; Online Transaction Processing) • DocDB • グラフDB • Hadoop • RDB(DWH) Hadoop (HDFS+MapReduce) • Apache Hadoop • CloudEra • MapR • Hortonworks RDB(DWH) • Oracle Exadata • Teradata • Netezza • RedShift KVS/DocDB KVS • Cassandra • Redis DocDB • MongoDB • CouchBase RDB(OLTP) • Oracle • SQL Server • MySQL • PostgreSQL GraphDB • Neo4j • Datadog • OrientDB 引用: RDB技術者のためのNoSQLガイド スケールアウトできる スケールアウトできない スループット重視 オペレーション用途

Slide 30

Slide 30 text

構造データと半構造データ データの分類 説明 データの例 非リレーショ ナルデータ 非構造データ バイナリや テキスト形 式など, データの構 造化が行わ れていない 半構造データ (ex. XML/JSON) 構造はある がスキーマ がない。頻 繁に構造が 変わる。 リレーショナ ルデータ 構造化データ (ex. RDBMS) スキーマが あり, 構造 が変わらな い。 電子 メール テキス ト・音声 データ システ ムログ オフィ ス文章 経理・財 務・人事 商品・ 在庫 営業・ CRM 決済・ 残高 センサ リング 情報 口コミ SNS 健康・ 医療 データ 統計 データ 行政 データ 他社保 有デー タ 引用: RDB技術者のためのNoSQLガイド

Slide 31

Slide 31 text

PATSTAT のモデル図 5/14/2015 31 • テーブルとテーブルをつなぎ合わせ るIDがあり • IDを介して複数のテーブルの関係性 (リレーショナル) が構築されている • これらのテーブルをつなぎ合わせる ことで、複雑なデータの解析を行う ことができる

Slide 32

Slide 32 text

グラフDBのデータ構造 :ラベル ノード 属性 {キー: バリュー, キー:バリュー} :ラベル ノード 属性 {キー: バリュー, キー:バリュー} :タイプ 属性 {キー: バリュー, キー:バリュー} 関係性 ラベル; 同じ種類のノードを識別するためのドメインの定義 ノード; RDB におけるレコードに相当。複数の属性を{キー:バリュー}で保持出来る 関係性; ノードとノードの間に存在, ノード間のつながりを表現する. 属性; RDB におけるカラム.

Slide 33

Slide 33 text

Ex2.) Singapore COVID-19 Dashboard • https://co.vid1 9.sg/singapore/ dashboard • Total Cases • Active Cases • Deceased • Discharged などが掲載され ている

Slide 34

Slide 34 text

No content

Slide 35

Slide 35 text

Data Lake(cont.) 特徴 データウェアハウス データレイク データ トランザクションシステム、業務 データベース、基幹業務アプリ ケーションからのリレーショナル データ IoT デバイス、ウェブサイト、モ バイルアプリケーション、ソー シャルメディア、企業アプリケー ションからの非リレーショナル データとリレーショナルデータ スキーマ DW の実装前に設計 (スキーマオ ンライト) 分析時に書き込み (スキーマオン リード) 料金/パフォーマンス 高コストのストレージを使用、ク エリ結果の取得は最速 低コストのストレージを使用して クエリ結果をより速く取得 データ品質 高度にキュレートされたデータで、 事実の情報源として機能 任意のデータで、キュレートでき るかどうかは不明 (raw データ) ユーザー ビジネスアナリスト (キュレートされたデータを使用す る) データサイエンティスト、 データ開発者、ビジネスアナリス ト 分析 バッチレポート、BI、可視化 機械学習、予測分析、データ検出、 プロファイリング https://aws.amazon.com/jp/big-data/datalakes-and-analytics/what-is-a-data-lake/

Slide 36

Slide 36 text

分析手法 • Step1; グラフにする • 「まずは散布図を書いてみる」 • Step2; 統計的処理を行う (平均値, 中央値, 最大値, 最小値 etc..) • このあたりから、内生性や見せかけの回帰との戦いがはじまる • Step3; 回帰分析など, 入力と出力間の関係性を見る • 重回帰分析 • スパース推定 • 決定木分析, SVM (教師あり/教師なしの機械学習) • Step4; 因果効果を識別する • 因果関係と相関関係を識別する(次のページ)

Slide 37

Slide 37 text

因果識別の手法(1) 実験対象 Treated Group Control Group y x Cut-off Point • ランダム化比較試験 (RCT) • 対象者と非対象者を無 作為抽出して比較実験 • 回帰不連続(RD) デザイン – 回帰直線シフト 37 実験対象 Treated Group Control Group • 傾向スコアマッチン グ(PSM): – 各政策対象企業と同じ「政 策対象傾向」を持つ企業を 対照群から抽出 引用:岡室博之 (2019) 産業クラスターと地方創生:地域イノベーション政策の展開と分析方法, 一橋大学公開講座

Slide 38

Slide 38 text

因果識別の手法(2) • 差の差の分析(DID) • 処置群と対照群の比較 と政策前後比較の二重 差 y t Control Group Treated Group t+u t-s ▲t • パネル固定効果分析 • パネルデータを用いて、 各企業の固有の属性の 影響を除去 y x t+i t • 操作変数法(IV): – 内生変数を外生変数 (操作変数)に置き換 える2段階推定 Z X Y U β α 引用:岡室博之 (2019) 産業クラスターと地方創生:地域イノベーション政策の展開と分析方法, 一橋大学公開講座

Slide 39

Slide 39 text

データサイエンスをタピオカミルクティー にしない方法 1. データを公開する. Linked Open Data を活用する. 2. データの知的財産権を明確化する. 3. 神エクセルをなくす. (as DX の推進) 4. オープンソースソフトウェアを使う, あるいは教育する. 2020年初頭の最適解はR もしくは Python (3.x系). 5. AI という言葉に踊らされない. 使い倒す.

Slide 40

Slide 40 text

(いくつかの)ギャップ • 願望投影型政策 (森田 2015) とEBPM • データが、推進したい施策に基づき構築される可能性 • ナラティブなストーリーとデータ解析 • 統計的な素養を政策立案者や企業戦略の決定者すべてが有しているわけでは ない。データに基づく解析結果を広く共有するためには、ストーリーに落と し込むことが必要 • データのオープン化と、ITセキュリティ対策 • RESAS や Notebook や Linked Open Data を利用しようとしても, 自治体や 中央政府、企業のITセキュリティ上制限が掛けられており(ex. 自治体のネッ トワーク分離), 業務用PC などでこれらのツールを利用することが出来ない。

Slide 41

Slide 41 text

Source: OECD (2017[3]), Core Skills for Public Sector Innovation, https://www.oecd.org/media/oecdorg/satellite sites/opsi/contents/files/OECD_OPSI-core_skills_for_public_sector_innovation-201704.pdf OECD が定義するデジタルスキル

Slide 42

Slide 42 text

Conclusion • データサイエンスと呼ばれているものは、プログラミングスキ ルと数学とエンジニアリングスキルと因果関係を特定するため のスキルが混ざりあったもの • 政府のみなさんへ • とりあえずデータを、Machine-Readable な形で公開してください • PDF でも Excel でもなくて、JSON やRDF 形式だとかなりベター • 企業のみなさんへ • 組織内のデータと、外部データを組み合わせることで新たな知見を得 られる可能性が • 経済学や(実証的な規範に基づく)経営学は思ったよりも「役に立 つ」と思います

Slide 43

Slide 43 text

1.2 「経済学のための実践的 データ分析」の運営方法について

Slide 44

Slide 44 text

目的と概要 • 統計解析手法の発達および、クラウドコンピュー ティングに代表されるコンピューティングパワー の増大により、従来は分析が困難だった様々な データを経済学の研究において活用することで、 より現実に即した形での実証研究を行うことが可 能になりつつあります。 • しかし、「ビッグデータ」とも呼称されるこれら のデータは不定形であり、解析を円滑に行うため にはデータ自体の整形処理等も必要です。 • 本講義では、(1) データの管理、(2) データの処理、 (3) データの解析それぞれに焦点を挙げ、Stata, R もしくは python を用いた演習を行うことで、体系 的な知識の修得を行うことを目指します。事前の プログラミング言語の知識は必要としませんが、 受講した内容を自らの研究で活用するためには、 自発的かつ継続的な学習を推奨します。また、 BYOD (Bring Your Own Device) を推奨します。

Slide 45

Slide 45 text

どういうことかというと… データの統計的処理だけではなく、データを「持ってきて」、「加工して」、 「整理して」、解析するまでをやりますよ データを使うだけではなく、データを管理したり、個人情報に配慮しながら調 達する方法についても取り上げますよ 統計ソフトやNotebook にデータを放り込んで、誘導系 and/or 構造系の解析 をするまでに必要な『泥臭い』作業の方法論をご紹介しますよ すごくスタイリッシュに見えて、実は地味なことを取り上げますよ

Slide 46

Slide 46 text

他の授業科目との関連・教育課程の中で の位置づけ 本講義は、統計学および計量経済学の講義内容と補完 的な内容となっています。受講者は事前に、あるいは 平行してこれらの講義を受講することを推奨します。 併せて、卒業論文、修士論文および博士論文にて定量 的な分析を行う学生は受講することを推奨します。

Slide 47

Slide 47 text

どういうことかというと… • 本講義のポジショニングはこんな感じです 計量経済学 統計学 経済学のための実 践的データ分析 ・統計学や計量経済学の講義ではカバー しきれない範囲を、本講義では取り上げ ます ・具体的な理論については、それぞれの 講義を並行して受講されることをオスス メします ・できるだけ、具体的なデータや事例に 基づいて実習を行います 教養のプログ ラミング講義

Slide 48

Slide 48 text

テキスト • Big Data and Social Science • 適宜講義資料をオンライン配布 します • 春/夏/秋学期の資料は Slideshare/SpeakerDeck に アップロードされています • https://www.slideshare.net/ya sushihara • https://speakerdeck.com/yasu shihara/

Slide 49

Slide 49 text

テキスト(2) • 『東京大学のデータサイエン ティスト育成講座』

Slide 50

Slide 50 text

授業時間外の学習 (求められる予習・ 復習等) • 講義ごとに取り上げた内容につい て、自発的に予習および復習を行 うことを勧めます。プログラミン グおよび分析ツールの習熟には、 自らの手で試行錯誤を行うことが 必要不可欠です。 • 講義では、こうした学習を支援す るサイトやツールを都度紹介しま す。 • また、講義内容の共有を行うため, Manaba あるいは Slack を用いた グループを運用する予定です。

Slide 51

Slide 51 text

講義の配信方法 • 本講義ではリアルタイム配信と録画配信を組み合わせます。受講者 は、講義時間にリアルタイムで講義を受講するか、録画を後ほど閲 覧することを選択出来ます。 • すでにいくつかのコンテンツについては春/夏学期で録画を取っているので、 それをご覧いただく形にしたく思います。 • リアルタイム配信は、継続性を考えいくつかの配信手段を検討して います。基本は Zoom (https://zoom.us/) を利用予定ですが, セ キュリティや通信の安定性などを勘案して、別の動画配信ツールを 用いる可能性があります。 • 2020/11/1 時点では, Zoom を含め以下の優先度にて、動画配信 ツールを利用予定にしています。 • 1. Zoom; https://zoom.us • 2. Google Classroom/Meet https://hangouts.google.com/ • 3. Bluejeans/jitsi meet • 4. Skype または LINE グループ

Slide 52

Slide 52 text

講義の配信方法(2) • Slack で次回講義のZoom URLとパスワードを告知します • 冬学期については、月曜日と木曜日の10:45-12:30 に講義をリ アルタイム配信します。 • 春・夏学期の講義録画はすべてご覧頂けます • その後、録画したものを Google Classroom および Slack に通 知します • 録画バージョンは、基本的に一回の講義あたり20分の動画 x4本になり ます。

Slide 53

Slide 53 text

講義の実施方法 (冬学期) • 本学は通常105分講義ですが, オンラインであることを鑑み以下のような構成で実施予定 にしています. • Youtuber 方式で、講義のコア部分は20分以内でまとめるようにします (ベストエフォート!) • 春学期/夏学期の場合は、以下のタイムラインで配信を行う予定です. • 10:30-10:45 プレ講義(雑談 etc…) (15分) • 10:45-11:05 講義モジュール1 [録画あり] • 11:05-11:10 休憩 • 11:10-11:25 講義モジュール2 [録画あり] • 11:25-11:30 休憩 • 11:30-11:50 講義モジュール3 [録画あり] • 11:50-11:55 休憩 • 11:55-12:15 講義モジュール4 [録画あり] • 12:15-12:30 Slack およびブレイクアウトルームを用いた質疑応答タイム

Slide 54

Slide 54 text

冬学期講義スケジュール(1) • 1. 11/5 [今日; Zoom配信+録画] • イントロダクション (ビッグデータと社会科学), 分析環境の構築とプログラ ミング言語入門 • 経済学で大量かつ様々なタイプのデータを用いることに、果たしてどのような意味が あるのでしょうか?初回の講義では、経済学はじめ社会科学の研究でデータを活用す る意義について、具体的な研究事例などを交えながら紹介します。また、今日広く用 いられている Jupyter Lab/Google Colaboratoryなどの分析環境の導入方法について 説明します。併せて、教養課程でプログラミング講習を履修していない学生に向けて、 プログラミングの基礎について解説します。 • 2. 11/9 [録画] • 記述統計と(重)回帰分析/統計ソフトの比較 • 本講義で主に利用する jupyter labs/google colaboratory を用いて, python やR の基 本的なコマンドについて実習を交え説明を行います。記述統計の導出や回帰分析など、 統計学や計量経済学の講義で扱う内容を、Notebook 環境上で行えるようにすること を目指します。今回のテーマは「サンクコスト」です。

Slide 55

Slide 55 text

秋学期講義スケジュール(2) • 3. 11/12 [録画] • データの取得と前処理 (Web スクレイピング, RPA, API そして手入力) / SQL の使い 方 • データといっても、そのほとんどは実のところ定型化されていません。Web サイトや書籍や国 会図書館から手作業でひとつひとつ入力し、あるいは、Web スクレイピングやAPI, RPA を用 いて, Web から取得する必要があります。データ分析は、こうした事前の作業が作業全体の60- 70パーセントを占めています。こうした手続きの具体例について、座学を用いて紹介した後、 雑誌や Web に掲載されたデータを取得する手法についてご紹介します。 • 後半では, SQL の使い方について概要を説明します。大量のデータを運用し活用するためには、 データベースを用いると便利です。Google BigQuery を用い、データから必要な情報を抽出し、 データ同士を接合する方法について簡単に解説を行います。また続いて, Google Big Query を 用いて解析を行いますまた, 必要に応じて MySQL サーバおよび MySQL Workbench の導入方 法、多変量データの展開方法について解説します。 • 4. 11/16 [録画] • データの可用性とプライバシー • インターネットには様々な情報が掲載されています。あるいは、大学の図書館からデータベー スにアクセスすれば、様々な情報を得ることが出来ます(一橋大学の場合は特に!)。しかしな がら、データには個人情報や企業の機密情報などが含まれており、これらの適切に管理し運用 することは極めて重要です。テキストブックの内容に基づき、説明を行います。

Slide 56

Slide 56 text

秋学期講義スケジュール(2) • 5. 11/19 質疑応答セッションその1 [Zoom配信+録画] • レポート1やこれまでの講義でわからなかったこと/解決したいことを ひたすら質疑応答する回です。 • リモート講義で、やりにくい部分もあるとたくさんあると思うので、 そもそもコーディングの考え方や配っている Notebook が動かない! などの課題を、peer に解く回にしようと思います。

Slide 57

Slide 57 text

秋学期講義スケジュール(2) • 6. 11/26 [Zoom 配信+録画] • 企業行動/産業のデータ分析 (企業情報、財務、特許と論文) • 帝国データバンク企業・経済高度実証研究センター (http://www7.econ.hit-u.ac.jp/tdb- caree/about-caree/) や、日経NEEDS などが提供する企業のデータベースについて説明を行い ます。本データベースには、企業の取引、出資、銀行取引データや、決算書データなどが含ま れています。こうしたデータセットに基づき、問いに基づきデータを解析することを目指しま す。また講義の後半では、RESASを用いて地域産業の情報の取得する方法と、NISTEP 企業名 辞書 (http://www.nistep.go.jp/research/scisip/rd-and-innovation-on-industry) などを用い, ID ベースでデータセット間を接合する手法について説明します。 • 企業の研究開発活動を解析するためには、特許や学術論文の動向について測ることで、産業内 での動態を観察することが出来ます。知的財産研究所が提供する IIP パテントデータベース (http://www.iip.or.jp/patentdb/), Clarivate Analytics 社が提供する Web of Science (https://clarivate.com/products/web-of-science/), Lens.org などを用いることで、 - 「どの企業が最も特許を出願しているのか?」 - 「どのような分野に特許を出願しているのか?」 - 「日本の大学で最も年ごとの論文数が多いのは何処か?」 - 「(指導教官の)○○先生が書いた論文はt年にx本で、その論文は累計 y 回引用された」 などの情報を取得し分析する方法を解説の上、実習を行います。

Slide 58

Slide 58 text

秋学期講義スケジュール(3) • 7. 11/30 [録画] Open Linked Data の活用 (RDF, RISIS などの事例紹介および試用) • オープンサイエンスやオープンガバメントの進展によって、特にヨーロッパでは Open Linked Data と呼ばれるデータセットを用いた解析プラットフォームや、解析手法が用いられはじめて います。本回では、RISIS (https://www.risis2.eu/)と呼ばれる、イノベーション分析のための データプラットフォームについて解説を行い、RDF を用いた解析について解説および簡単な実 習を行います。 • 8. 12/3 [録画] • テキスト分析 (Wordcloud, Word2vec, Topic Model, 計量テキスト分析)/SNS データ の取得および分析 • これまで用いてきたデータセットについて、異なるアプローチから解析することを目指します。 具体的にはすでに定量化されているデータではなく、特許における特許名、論文における論文 名、企業データベースにおける企業の概要などのテキストデータを解析する手法について学び ます。具体的には, Wordcloud, Word2vec, Topic モデルなどについて解説します。 • また計量テキスト分析、特に共起ネットワーク, 分散分析などの手法について, KHcoder (http://khcoder.net) を用い解析を行います。関連して、Twitter などのソーシャル・ネット ワークからAPI などの手法を用いてテキストデータを取得し解析する方法について解説します。

Slide 59

Slide 59 text

ケーススタディ1: SMAP会見 • 共起ネットワーク

Slide 60

Slide 60 text

Twitter の口コミを Wordcloud にプロット • 早稲田大学 • 慶應大学

Slide 61

Slide 61 text

秋学期講義スケジュール(2) • 9. 12/7 [録画] • データのビジュアライゼーションとネットワーク分析 • これまでの回で取り上げてきたデータをわかりやすく研究で活用する手法を学ぶ ことを目指します。Python やR などを用いたデータの可視化手法の確認や、 Ploty, D3.js やTableau (https://www.tableau.com/ja-jp) などのデータ可視化ソ フトウェアの紹介および実習を行います。 • 10. 12/10 質疑応答セッションその2 [Zoom配信+録画] • レポート2や最終レポートでわからなかったこと/解決したいことをひ たすら質疑応答する回です。 • リモート講義で、やりにくい部分もあるとたくさんあると思うので、 そもそもコーディングの考え方や配っている Notebook が動かない! などの課題を、peer に解く回にしようと思います。

Slide 62

Slide 62 text

春学期講義スケジュール(4) • 11. 12/14 [録画] • 機械学習と因果推論 [座学, 実習] • Python および R を用いて、決定木分析やSVM, スパース推定について、具体例 の紹介および実習を行います。また、DID や非連続回帰デザインなどの因果推論 の分析手法についても簡単な解説を行います。講義の後半では, 最終レポートに ついての説明を行います。これまでに学んだ手法を用いデータ解析を行うことで、 グループでのレポートをまとめます。このグループの決定を行います。 • 12. 12/17 [Zoom 配信] • まとめ、および最終レポート発表会 • これまでの講義の内容を振り返った上で、グループごとの最終レポートの発表を 行います。レポートは発表時間10分、質疑応答5分で、グループごとに実施しま す。

Slide 63

Slide 63 text

これまでの最終レポート例 • a. 「カジノ開設のための実践的データ分析」 カジノやパチンコが地域に与える影響についてクロスセクション分析. OECD や政府統計などの データソースを活用. • b. 「重大な交通事故に与える影響の実証分析」 Google Bigquery からアメリカの交通事故データをランダムサンプリングして取得し, 天候など, 事 故の主な要因を分析 • c. 「著名人の Twitter における発言とその後のトレンドへの影響」 ドナルド・トランプの Twitter データを一括取得し, アメリカ/日本為替レートに与えた影響を測定. 感情推定やTF-IDF を活用. • d. 「医師数の偏りの要因についてのデータ分析」 地方で医師が足りなくなる原因について, 政府統計データを一括してスパース推定を実施. 重回帰分 析と組み合わせてクロスチェック. • e. 「マラソンの記録に対する気候条件の影響分析」 マラソンの成績がどのような要因で決まるのか, 東京マラソンと北海道マラソンのデータを取得し, 気温や風などのデータを用いて分析. • f. 「先物取引のための実践的データ分析」 コメの終了が気候から予測できるのか, 作況指数や高数量, 日照時間や気温のデータを取得し要因を 分析.

Slide 64

Slide 64 text

ご相談 • 最終レポートについて • はやめにグループを作りたいと考えてみます • ランダムに割当か、友だち同士グループのほうどちらが良いでしょう か? • 取り上げる内容について • やってほしい内容があればSlack やチャットで教えてください • 昨年度慶應義塾大で行った講義でのリクエスト • SNS の口コミ分析 • 感情分析 • RESAS データの一括取得 (API の利用方法) と解析

Slide 65

Slide 65 text

成績評価の方法

Slide 66

Slide 66 text

成績評価(1) • 平常レポート (40パーセント; 必須) • 講義計画に示したように、複数の回で学生にはレポートを課します。 レポートは Word/PowerPoint形式のメールあるいは, github 経由で の提出が求められます(どの方法を採用するかは、初回の講義で決定し ます)。 • レポートには、(A.) 利用したデータセットとその内容, (B.) 分析の問 い, (C.) 分析手法, (D.) 分析結果 を明記する必要があります。ページ 数や文字数は問いませんが, これらの内容が含まれており, 講義中にア ナウンスする評価手法を満たす場合, 高い得点を得ることが出来ます。 • 平常点 (10パーセント) • 本講義は実習が多く含まれており, また取り扱うデータセットや内容も 多彩です。そのため、受講者同士が協力する必要があります。こうし た受講者の態度を評価するために、平常点を設けます。

Slide 67

Slide 67 text

成績評価(2) • 最終レポート (40パーセント; 必須) • 講義の最終回では最終レポートの報告会を行います。受講者は3名から4名か ら構成されるグループで、最終レポートの報告を行う必要があります(人数は 受講者の人数により変更される可能性があります)。最終レポートでは、プレ ゼンテーションの方法を学生は自由に選ぶことが出来ます。PowerPoint 以 外にも、Prezi などのアクティブプレゼンテーションツールや、他のプレゼ ンテーション手法を用いることが出来ます(プレゼンテーションツールについ ては、必要であれば講義内で説明する機会を設けます)。最終レポートでは、 以下の点について評価を行います。 (A.) グループ内の役割分担 (B.) データセットのユニークさおよび、それが適切に処理されているか (C.) 分析手法のユニークさおよび、それが適切に解析されているか (D.) プレゼンテーションのユニークさ (E.) 質疑応答にうまくリプライすることが出来ているか • 最終レポートの360°グループ評価 (10パーセント) • 3. の最終レポートについて、グループの自己評価および他のグループからの 評価を行います。3. で挙げた評価ポイントに基づき、グループメンバーおよ び他のグループは評価を行います。

Slide 68

Slide 68 text

履修撤回について • 履修撤回期間中に学務情報システム「CELS」で履修撤回を 行います。 • 冬学期の場合 • 一橋HP の行事予定を参照のこと https://www.hit- u.ac.jp/kyomu/calendar/pdf/R2_0824_2020gakunenreki_gakubu_l ist.pdf • 11月23日(月)~11月29日(日)

Slide 69

Slide 69 text

最高成績基準 引用: 一橋大学授業ハンドブック

Slide 70

Slide 70 text

受講生に対するメッセージ • 講師は一年間パリで研究活動を行っていました。海外留学や大 学院進学等について、質問がありましたらお寄せ頂けましたら 幸いです。 • また、質問は Slack や, ツイッター (@harayasushi) でも受け 付けます。不明な点などありましたらお問い合わせくださいま せ。 • (すっかり流行らなくなりましたが、)ツイッターやフェイス ブック上でハッシュタグ #経済学のための実践的データ分析 で 情報共有も行いたく思います。

Slide 71

Slide 71 text

1.3 統計ソフトの比較

Slide 72

Slide 72 text

そもそも。 • なぜこの講義は python やR を使うのか? • 一番の理由: 無償だから • 有償の統計分析ソフト (ex. Stata) の場合 • 学生の間は導入コストはかなり低い • が、社会人になると継続して最新バージョンを継続的に導入するコス トは極めて高くなる • (せっかく計量経済学を学んで、パネルデータで固定効果モデルを解析 する方法を学んでも、日々の喧騒の中で人は思い出とともに統計学や 経済学を忘れていく・・・) • マスターコースやドクターコースに行こう

Slide 73

Slide 73 text

経済/経営学部の統計ソフトの利用状況 {一橋, 東大, 早稲田, 慶應} • 各大学の2019年度シラバスから、 • SPSS • Eviews • Stata • SAS • Python • Excel というタームが含まれている講義を抽出。 ※. R は exact matching できないので除外。 • 経済学部・経営学部/MBAの講義で、どういった統計ソフトが 使われているかを調査

Slide 74

Slide 74 text

経済学部の統計ソフトの利用状況 {一橋, 東大, 早稲田, 慶應}

Slide 75

Slide 75 text

経済学部の統計ソフトの利用状況 {一橋, 東大, 早稲田, 慶應, 東経大} • Findings • SPSS のユーザ数は減少 • Stata で統計分析を教えるシェアは未だ高い • 早稲田大学, 謎のSAS 人気 • Python はデータサイエンス系の講義で広く登場 • 一橋大学経済学部でpython というタームが出てくるのは、本講義以外だと山田 先生の講義

Slide 76

Slide 76 text

SPSS is dying Source: http://lindeloev.net/spss-is-dying/

Slide 77

Slide 77 text

SPSS is dying (cont.) • “I predict that R overtakes SPSS in yearly citations by 2020. The implications are clear: • If you use SPSS in your business or research, move to R now rather than later. • Do not ask for SPSS competences in job postings. You will scare away the good candidates. • We are doing students a disservice by teaching SPSS. Switch to JASP for simple one-off analyses and R for complex or repeated analyses. Rstudio Desktop is a highly recommended interface to R.” Source: http://lindeloev.net/spss-is-dying/

Slide 78

Slide 78 text

Data Analytics Job Market The number of data science jobs for the more popular software (those with 250 jobs or more, 2/2017). Jobs trends for R (blue & lower) and Python (orange & upper). http://r4stats.com/articles/popularity/

Slide 79

Slide 79 text

各統計ソフトの比較 1. Stata 2. SPSS 3. EViews 4. (Microsoft) Excel 幸いなことにどのソフトウェアも持っているので、実機をお見せ しながら説明します

Slide 80

Slide 80 text

1. Stata • 事実上のデファクトスタンダー ド(だった) • (重)回帰分析やパネルデータ分 析, 主成分分析など, 経済学・経 営学での多変量解析はほぼ網羅 している • 大学の経済学・(定量分析を行 う)経営学の先生の使用率も高 い • ゼミによっては基本的な分析ソ フトとして指定されている場合 も • 主なテキストブック

Slide 81

Slide 81 text

1. Stata ・右下のインターフェースにコマンドを打ち込む ・データはexcel 経由またはsql で流し込む

Slide 82

Slide 82 text

2. SPSS • Stata 以前のデファクトスタ ンダード • 12年前に一橋大でマーケティ ングサイエンスの講義を受講 したときは、SPSS が指定さ れていました • 現在はIBM が保有 • GUI ベースでデータの処理お よび解析が行えることが特徴

Slide 83

Slide 83 text

2. SPSS

Slide 84

Slide 84 text

2. SPSS

Slide 85

Slide 85 text

3. EViews • やはり一世代前に主力の統計 分析ソフト • ファイナンス・時系列分析 (ARCH, GARCH, MR, AR, VAR) などに特化 • 詳しくは関連するファイナン ス・計量経済学の講義で • 回帰分析など、行える分析は Stata/SPSS とほぼ同じ

Slide 86

Slide 86 text

3. EViews ・変数をExcel or SAS or Stata or SPSS 経由で取り込み ・変数の長さを最初に指定して ・コマンドを上のウインドウに 打ち込んで、解析を行う

Slide 87

Slide 87 text

4. Excel • Microsoft Office 365 で現在は 主に提供 • 生協で買うパソコンや Surface に必ず入ってるやつ • 某省庁のデータ分析はだいたい Excel で完結してたりする(で ビックデータの時代とか言いが ち) • 記述統計や、基本的なデータの 分析であればExcel で十分 • 一昔まえの「定量的な」卒論とか

Slide 88

Slide 88 text

4. Excel

Slide 89

Slide 89 text

5. SAS • 機能は充実 • 講義で多数の利 用例 • 商用版は高価 • SAS University Edition は無償

Slide 90

Slide 90 text

まとめ 名称 Stata SPSS EViews Excel 販売・提供母体 Stata IBM ライムストーン マイクロソフト インターフェース GUI (コマンドベー ス) GUI GUI (コマンドベー ス) GUI 主なメリット (経済学・経営学周 りの)ユーザーが多 い クリックだけで データ解析ができ る 時系列解析をする ときに、コマンド を書く必要がない すぐに手に入る。 情報基盤センター のPCやスマホから 扱える コスト(学生編) ・イニシャルコス ト 86,400円 (キャン ペーン中) 124,000円 63,720円 0円 (一橋大学生は office 365 サブス クリプションあり) ・アップグレード コスト 101,520円 136,600円 49,680円 0円(一橋大学生は office 365 サブス クリプションあり) コスト(社会人編) 262,440円 310,000円 206,280円 12,744円 ・アップグレード コスト 172,,800円 54,900円 97,200円 12,744円

Slide 91

Slide 91 text

まとめ(2) • ランニングコストやサンクコストを考えると, 実は Excel でなんでも 出来るようになるのが最適コースの可能性 • Stata や SPSS など統計ソフトは、学生の身分だと比較的安価に導 入出来る。が、最新の機能をキャッチアップするのは辛い。 • (会社で稟議書が通るかというと、関連部局でも割と怪しい。) • ちなみに、IT スタートアップで働いていたときは、大学生の身分で買った Eviews やSPSS を用いて解析をしていました • 某広告代理店では, すべてのPCに R Studio が導入されている、らしい。 • ということで、Excel + 無償で導入できる R and/or Python が2019 年現時点での最適解! • 会社によっては, Jupyter Notebook やR Studio が自由にインストールできる PC が供給されない可能性も (2019年現在は) • クラウドにアップしてもOKなデータは Google Colaboratory で

Slide 92

Slide 92 text

1.4 Python はじめ

Slide 93

Slide 93 text

Anaconda Distribution (aka Jupyter Notebook)とは • プログラムを実行し、実行結果を記録できるツール • 数値計算・データ解析で広く用いられている • 実行結果は notebook 形式で保存可能 • 便利なので使ってみましょう。

Slide 94

Slide 94 text

Jupyter Notebook のインストール(1) • 1. https://anaconda.com にアクセスし 右上の [Download] を クリックする

Slide 95

Slide 95 text

Anaconda Distribution のインストール(1) • 利用しているオペレーティングシステム (Windows/Mac/Linux)に基づき, Python3.7 バージョンの [Download] をクリック Windows版 Mac版 ダウンロードが終わるまで待つ。

Slide 96

Slide 96 text

Anaconda Distributionのインストール (3) • “Next >” をクリックする • “I Agree” をクリックする

Slide 97

Slide 97 text

Anaconda Distributionのインストール(3) • “Next >” をクリックする • “Next >” をクリックする

Slide 98

Slide 98 text

Anaconda Distributionのインストール (4) • “Install” をクリックする

Slide 99

Slide 99 text

Jupyter Lab の起動 (1) • スタートメニューから, Jupyter Lab を選択する

Slide 100

Slide 100 text

Jupyter Lab の起動 (2) • コンソールが表示される

Slide 101

Slide 101 text

Jupyter Lab の起動 (3) • New から Python 3 を選択する

Slide 102

Slide 102 text

Jupyter Lab の起動(4) • 1+1 を入力し, Run をクリック • “2” が出力される

Slide 103

Slide 103 text

Google Colaboratory • SaaS な Notebook by Google. • https://youtu.be/inN8seMm7UI

Slide 104

Slide 104 text

3-1. Google Colaboratory を開く • https://colab.research.google.com/notebooks/welcome.ipyn b?authuser=1#scrollTo=9J7p406abzgl を, google にログインした状態でオープンする.

Slide 105

Slide 105 text

3-1. Google Colaboratory を開く • 以下のような画面が表示される

Slide 106

Slide 106 text

3-2. 新しいnotebook を作成する • [ファイル]-[python3 の新しいノートブック] を選択する

Slide 107

Slide 107 text

次回予定. python, R, Jupyter notebook 事始め • Stata や SPSS, SAS など統計分析ソフトは多数存在します。 これらのメリットや特徴について前半は説明します。 • 後半は、本講義で主に利用する jupyter notebook を用いて, python やR の基本的なコマンドについて実習を交え説明を行 います。テーマは「サンクコスト」です。

Slide 108

Slide 108 text