Upgrade to Pro — share decks privately, control downloads, hide ads and more …

#経済学のための実践的データ分析 4.11 データの可視化

yasushihara
December 19, 2019

#経済学のための実践的データ分析 4.11 データの可視化

#経済学のための実践的データ分析 4.11 データの可視化
一橋大学大学院経済学研究科
[email protected]
原泰史

yasushihara

December 19, 2019
Tweet

More Decks by yasushihara

Other Decks in Education

Transcript

  1. 残りの予定 • 12/9; 企業データベース+RESAS • 12/12; Linked Open Data •

    12/16; テキスト分析(その1) • 12/18(水曜); テキスト分析(その2; 補講) 38番教室 • 12/19; データの可視化 • ゲストあり〼 • 12/21; 一橋大学講座 • 12/22-29; イスラエル出張 • 2020/1/6; 機械学習 • 2020/1/9; 最終レポート
  2. グループ分け(1) • グループα • 2116157u • 2116205a • 2117044k •

    2117102m • グループβ • 2115096s • 2117156k • 2118025h • 2118091b • 2117003u • グループγ • 2113015y • 2116260h • 2117124s • 2117222s • 2117223k • 2116114h • グループμ • 1118077h • 1117199m • 1117044b • 1118051z • 1118256h • グループδ • 2117119z • 2117198z • 2118059x • 2118149u • 2118084y • グループε • 2116015m • 2115018k • 2116221c • 2117092k • 2117232h
  3. 最終レポートご相談セッション • 日時; • 2020年の年明け • 2020/1/6 の夜? • 場所の候補;

    • Hello Visits 一橋大学 • 〒186-0002東京都国立市東1-6-20小貝ビル2F西号室 • 内容 • 最終レポートの方向性についてご相談 • グループ内でのディスカッション • Free Drink Free Wifi
  4. MASASHI と YOSHIKI の共通点 • 幼少期からクラシックの素養がある • MASASHI : バイオリン

    • YOSHIKI : ピアノ • (生き様が)ロックである • MASASHI: バンドが解散したり, 映画で負債をかかえたり • YOSHIKI: バンドが解散したり, バンドが再結成したり • 身体的故障を抱え楽器演奏ができなかった時期がある • 名曲をたくさん作っている • MASASHI: 親父の一番長い日, 道化師のソネット, 精霊流し • YOSHIKI: FOREVER LOVE, 紅, ART OF LIFE
  5. 可視化の意味 • わかりやすく見せる • より多くの人, あるいは伝えるべきひとに伝える • でも、伝えるべき内容が伴っていないとあまり意味はない • MASASHIアプローチ

    (データを実直に, ありのままに伝える) • YOSHIKI アプローチ (データをよりわかりやすく見せて, より 広く伝える) • どちらにするかは対象とするオーディエンス次第
  6. ネットワーク分析な具体例1. JST/RISTEX 深堀調査 『科学的ブレークスルーとイノベーションをつなぐ研究に着目した「科学と技 術の相互作用」の明確化』 • IIR->Waseda 清水洋先生が研究代表者 • http://www.ristex.jp/examin/others/shinki-pj-result2010.html

    • 科学から技術に至る知識の流れを特許と論文データベースを接 合することで特定する • ケース • 青色LEDに至るまでに, どのような特許が参照されたのか後方引用関係 から特定する • Shuji Nakamura の2007 年の特許をベースに, そこから後方引用を5次 までたどり知識の流れを測定していく
  7. Network (delete pendants) Source: Web of Knowledge[Derwent Innovation Index]/Web of

    Science Red node indicates the “Main path”. ※. △が特許, ▪が論文
  8. 1-1. ネットワーク分析 • 無償のもの • R - https://www.r-project.org/ • KHCoder

    - http://khc.sourceforge.net/ • (前回の講義) • NetDraw- https://sites.google.com/site/netdrawsoftware/home • Gephi - http://oss.infoscience.co.jp/gephi/gephi.org/ • Sci2 - https://sci2.cns.iu.edu/user/index.php • Pajek - http://vlado.fmf.uni-lj.si/pub/networks/pajek/ • 有償のもの • Vantage Point
  9. 1-1. NetDraw • 無償のネットワーク分析 ソフトウェア • 少々古いが, その分(オン ライン上の)ドキュメン トが充実

    • ダウンロードからインス トール, 簡単なネットワー クを描画するところまで 解説します 2019/12/18 23
  10. 1-1. NetDraw のダウンロードとインストール • Analytic Technologies から Product を選び, Ucinet

    6 の Download をクリックする • EXE ファイルのダウンロード が終わったら, インストールを 行う • UCINET 6 を起動する 2019/12/18 24
  11. 1-2. Gephi の使い方 • Sample ファイルで試してみる • Les Miserables.gexf –

    レミゼラブルの共起情報ファイル 2019/12/18 34
  12. 1-2. Gephi の使い方 • データセットに慣れてみる • http://oss.infoscience.co.jp/gephi/wik i.gephi.org/index.php/Datasets.html のうち “[GEXF]

    EuroSiS Web マップ 調査: 欧州 12 か国の「社会における科学 (Science in Society)」活動主体の Web 上での相互関係をマップしたもの。”をダ ウンロードして表示する. ・ファイルを選択し, OK をクリックする 2019/12/18 38
  13. 1-3. Sci2 • ネットワーク分析ツール • エンジンとして, Gauss や Gephi, R

    を利用 • https://sci2.cns.iu.edu/use r/index.php 2019/12/18 40
  14. 1-3. Sci2 • 右側のData Manager から “NMB file….” を右クリック し,

    View をクリックする • 元データが表示される 2019/12/18 45
  15. Python で使える可視化ライブラリ (すごく一部) • Seaborn • これまでの講義で一部使用 • https://seaborn.pydata.org/ •

    https://seaborn.pydata.org/examples/index.html • Plotly • https://plot.ly/python/ • 後ほど解説。
  16. Tableau とは • “Tableau は、接続からコラボ レーションまでをスムーズに行え る、最も強力でセキュアかつ柔軟 なエンドツーエンドのデータ分析 プラットフォームです。 •

    データのパワーの活用を可能にし て、ビジネスをサポートします。 個人で利用できるように設計され、 エンタープライズ規模に拡張する こともできる Tableau は、アク ションを生み出すインサイトを データから引き出せる唯一の BI プラットフォームです。” https://www.tableau.com/ja-jp/products/what-is-tableau
  17. Tableau でデータを可視化してみる • 左下の”メジャー” から, 列に age を, 行に wage

    をド ロップする • 合計値が表示され ているので, 右上 に合計値がひとつ プロットされてい る
  18. 3. Plotly を使ってみる • https://plot.ly/Auth/login/ にアクセスする • 上部の Sign Up

    をクリック し, 必要な情報を記入する • Sing Up をクリックする
  19. 3. Plotly を使ってみる • API Settings 画面に遷移する • Username •

    API Key が取得できる. ・API Key がマスクされている ので, 必要に応じて Regenerate Key をクリックし, API key を表 示する • これと別に Confirmation Mail が届くので, クリックす る
  20. 3. Plotly を使ってみる • Sanky Diagram を書いてみる • Plotly をインポートする

    • データセットを構築する • データのフローをsource と target でそれぞれ指定する • Value に値を指定する 引用; https://plot.ly/python/sankey-diagram/
  21. 3. Plotly を使ってみる • グラフのタイトルを指定する • Dict で data と

    layout をそれ ぞれ指定し, fig に入れる • py.iplot に fig を指定する
  22. 3. Plotly を使ってみる • plotly.plotly と plotly.figure_factory をインポートする • Numpy

    を使って, 乱数 を生成し, それに基づ きデンドログラムを作 成する. https://plot.ly/python/dendrogram/
  23. 3. Plotly を使ってみる • 必要なパッケージをイン ポートする • データを取得する (今回は figshareから)

    • デンドログラムを縦方向と 横方向に作成する • ヒートマップを作成する
  24. 3. Plotly を使ってみる • X と Y 方向に作成したデンド ログラムを, Z

    方向にヒート マップのデータを指定する • ヒートマップデータを figure に流し込む
  25. 3. Plotly を使ってみる • インタラクティブなグラフを 作成する • グラフのズームが出来るように する •

    今回は元データを取得し, それ を操作できるようなウィジェッ トを用意する https://plot.ly/python/slider-widget/
  26. 今日の実習1 これまでの講義で利用した • (1)Dbpedia.org ソース • 東証一部/二部/マザーズの企業概要データ • 日本の経済/経営/社会/法学者の概要データ •

    日本のロック/ヒップホップ/フォークグループの概要データ • (2) FIFA19 の選手収録データ • (3) 日経NEEDS データ • 東証マザーズ • 東経2部 について, tableau を使って可視化を行いましょう
  27. 成績評価(1) • 平常レポート (40パーセント; 必須) • 講義計画に示したように、複数の回で学生にはレポートを課します。 レポートは Word/PowerPoint形式のメールあるいは, github

    経由で の提出が求められます(どの方法を採用するかは、初回の講義で決定し ます)。 • レポートには、(A.) 利用したデータセットとその内容, (B.) 分析の問 い, (C.) 分析手法, (D.) 分析結果 を明記する必要があります。ページ 数や文字数は問いませんが, これらの内容が含まれており, 講義中にア ナウンスする評価手法を満たす場合, 高い得点を得ることが出来ます。 • 平常点 (10パーセント) • 本講義は実習が多く含まれており, また取り扱うデータセットや内容も 多彩です。そのため、受講者同士が協力する必要があります。こうし た受講者の態度を評価するために、平常点を設けます。
  28. 成績評価(2) • 最終レポート (40パーセント; 必須) • 講義の最終回では最終レポートの報告会を行います。受講者は3名から4名か ら構成されるグループで、最終レポートの報告を行う必要があります(人数は 受講者の人数により変更される可能性があります)。最終レポートでは、プレ ゼンテーションの方法を学生は自由に選ぶことが出来ます。PowerPoint

    以 外にも、Prezi などのアクティブプレゼンテーションツールや、他のプレゼ ンテーション手法を用いることが出来ます(プレゼンテーションツールについ ては、必要であれば講義内で説明する機会を設けます)。最終レポートでは、 以下の点について評価を行います。 (A.) グループ内の役割分担 (B.) データセットのユニークさおよび、それが適切に処理されているか (C.) 分析手法のユニークさおよび、それが適切に解析されているか (D.) プレゼンテーションのユニークさ (E.) 質疑応答にうまくリプライすることが出来ているか • 最終レポートの360°グループ評価 (10パーセント) • 3. の最終レポートについて、グループの自己評価および他のグループからの 評価を行います。3. で挙げた評価ポイントに基づき、グループメンバーおよ び他のグループは評価を行います。
  29. 13. まとめと最終報告レポート • 1組3-4名のグループを作り, そのメンバーで最終レポートを作 成していただきます。 • データ分析組, データ調達組, プレゼンテーション作成組,

    プレゼンテーション担 当など役割分担はお任せします。 • 講義の最終回で, 発表時間10分, 質疑応答5分でプレゼンテーションを します。
  30. 13. まとめと最終報告レポート • テーマ • 「◦◦のための実践的データ分析」 • 卒論や修論や博論の作成の入り口になるような、データの調達とその データの解析を, 講義で取り上げたデータセットおよび分析手法で実施

    する • 分析単位はマクロ (国レベル) でもメソ (企業/産業レベル) でもミクロ (個人レベル) でも問いません • 利用できるデータセット • 特に制限なし • 利用できるツール • Tableau, Excel, SQL, Jupyternotebook (Python) など, 特に制限なし
  31. 13. まとめと最終報告レポート • 評価方法 • グループ内での自己評価 • グループ外からの評価 アンケートシステムをManaba or

    Google Docs で用意します。 • 評価基準 • (A.) グループ内の役割分担 (B.) データセットのユニークさおよび、それが適切に処理されているか (C.) 分析手法のユニークさおよび、それが適切に解析されているか (D.) プレゼンテーションのユニークさ (E.) 質疑応答にうまくリプライすることが出来ているか • 納品物 • プレゼンテーションに利用したファイル (Word か Powerpoint か Prezi か etc…) を, Manaba にアップロードすること
  32. 「定量分析の業務フロー」 2019/12/18 117 リサーチクエス チョンを決める 必要なデータを 探す 論文データ/書誌 情報を使う 特許データ/書誌

    情報を使う その他データを使う (プレスリリース /POS データ) デ ー タ の ク リ ー ニ ン グ / 接 合 を 行 う エクセル/Python/Rでグラフを描く Stata/R/Python で回帰分析する KHCoder/R/Python でテキスト分析 する R/Netdraw etc… でネットワーク分 析する 企業データを 使う
  33. 例.元 IIR 西口先生のネットワーク研究 • “コミュニティー・キャピタル 中国・温州人企業家ネットワー クの繁栄と限界” • http://doi.org/10.11207/taaos. 4.1_200

    • データに頼らずに, 足で稼いで ネットワークの動態をインタ ビュー調査から明らかにする • 足掛け10年(!) 2019/12/18 118
  34. 例. 元 IIR 西口先生のネットワーク研究 • “傑出したパフォーマンスで知られる中国・温州人企業家の国 際的ネットワークは、コミ ュニティー・キャピタルに依拠する 新たな社会ネットワーク分析に適した事例であり、近 年ビッグ

    データ一辺倒の観のある米国の定量分析 (Fleming et al. 2007) を補完する意味で、 詳細なフィールド調査に基づく豊かな実証 的知見を提供し得る。さらに Watts 等(1998, 1999, 2003) がシ ミュレーションで数学的に立証したスモールワールドの知見が、 現実に応用可 能なのは、実効的にコミュニティー・キャピタル に支えられた社会ネットワークに限定さ れることも示唆され る。 ” 2019/12/18 119