Upgrade to Pro — share decks privately, control downloads, hide ads and more …

学習院大学 #社会科学のための実践的データサイエンス 2020春: 9/11

学習院大学 #社会科学のための実践的データサイエンス 2020春: 9/11

学習院大学 #社会科学のための実践的データサイエンス 2020春: 9/11
9.データの可視化
9.1.データのビジュアリゼーション
9.2.tableau をつかってみよう
9.3.可視化ツール/ライブラリを使う
9.4.最終レポートのご相談
APPENDIX ネットワーク分析

yasushihara

July 09, 2020
Tweet

More Decks by yasushihara

Other Decks in Education

Transcript

  1. 今日の内容 • 16:10-16:20 • プレ講義 [録画なし] • 16:20-16:40 • 9.1データのビジュアリゼー

    ションでできること[録画あり] • 16:40-17:00 • 9.2 tableau をつかってみよ う[録画あり] • 17:00-17:10 • インターミッション2[録画なし] • 17:10-17:30 • 9.3 可視化ツール/ライブラリ を使ってみる [録画] • 17:30-17:50 • 9.4 最終レポートのご相談 [録画]
  2. 次回以降の 予定 • 7/9 9/11 • 7/13 補講なのでお休み • 7/16

    10/11回 • 「経済学と機械学習」 • 10.1 機械学習を経済学で 使う • 10.2 SVMとRidgeと決定 木分析 • 10.3 スパース推定 • 10.4 因果推論 • 7/23 10/10回 • 最終レポートプロポーサル 報告会 • 詳細については9.4 で • 8/3 最終レポートの納品日
  3. 1. 表やグラフ • グラフ • 棒グラフ • 線グラフ • 円グラフ

    • 表 • 回帰分析表 • 相関係数表 • 2020年5月に公表した3つの Working Paper から、グラフや 表を抜き出して説明してみます。
  4. 1. 表やグラフ • 2020年時点の(割とオールドスクールな)社会科学ワールドで生 きていくならば、とりあえずは表やグラフが「キッチリ」書け れば十分 • ここでのキッチリとは、たとえば有効数字を揃えるとか、論文誌や卒 論のフォーマットに従い表やグラフをまとめること •

    二次元で表現できないことを三次元で可視化することもあるけ れど、まずは、二次元のグラフや表で見せられれば、特に問題 は無いかなとおもいます。 • 残り3つは、可視化手法の中でも比較的モダンだったり、すご く狭い世界で通用するものをご紹介
  5. 2. インフォグラフィック • まとめ • インフォグラフィック ≒ かっこいいフォントとかわい いイラストをつかって、数字を 思ったよりも大きなフォントサ

    イズで見せること • デザイン能力がいろいろな意味 で必要 • Piktochart など、自分でイン フォグラフィックを作る方法も ございます (8.3 でご紹介) • ポスター発表などでご活用頂け る可能性が • 具体例
  6. ポンチ絵へのツッコミ • 数量的インパクトに対する言及がない • 投資に対する政策効果が明記されていな い • どのようにPDCAが行われるのか不明確 • EBPM

    (Evidence Based Policy Making) • こうした政策に対して因果関係を明確にす ること (where 経済学がすごく役に立ちそ う) • データを定期的に収集することの重要性 • かといって、EBPMを推進するリスクは 「減点主義」の官僚にあるらしい 引用; https://gendai.ismedia.jp/articles/-/70122?page=2
  7. とはいっても、私にもポンチ絵を書いて いた時期がありました(1.1 参照) • ポンチ絵の要件 • (〇〇党のせんせーや事務次 官が)数十秒で読んで理解で きること •

    しかも、内容が過不足なく明 記されていること • 「穴」がないようにすること • 色がいっぱい使われているこ と • 何よりも予算が取れること • で、どんなカッコいい ジャーナルに載るよりも、 きれいなポンチ絵が出来て いないと予算は取れない、 らしい。
  8. 3. ポンチ絵 • For Undergraduate Students • 中央官庁志望でも無い限り、書き方を覚えなくていいです • たぶん、民間で使う技術ではない気がします

    • For Graduate Students と社会人の皆様 • 中央官庁や地方自治体が、どういう力学で動いているのかを知るため にはこの上ない情報が埋まっているのがポンチ絵であります • 個人的には、ポンチ絵データを画像解析して分析したいなあとか考え ております
  9. 4. 動画 (Youtube や Netflix) • Bar Chart Race の作り方は

    8.3 で • https://public.flourish.studio/visualisation/2658794/?fbclid= IwAR3r9vPw9hp-Yy9fdRVJ2dIdyIG-wZZYFXQ- TyqPG1F47j6D3JdoJ0rd3Ks
  10. 4. 動画 (Youtube やNetflix) • Netflix; 世界の今をダイ ジェスト (Explained) •

    https://www.netflix.com /title/80216752 • インフォグラフィック+ナ レーション+動画というス タイル • だいたいの座学講義より わかりやすい気がしない でもない気がする
  11. 4. 動画 (youtube や netflix) • 中川先生のやさしい ビジネス研究 • https://www.youtube

    .com/channel/UCS8 9vRmX0PfWxmJWOjJ q6ZA • 研究成果や理論を動 画で解説 (日本中の大 学生が2020/5月時点 で受けているやつ)
  12. Tableau とは • “Tableau は、接続からコラボ レーションまでをスムーズに行え る、最も強力でセキュアかつ柔軟 なエンドツーエンドのデータ分析 プラットフォームです。 •

    データのパワーの活用を可能にし て、ビジネスをサポートします。 個人で利用できるように設計され、 エンタープライズ規模に拡張する こともできる Tableau は、アク ションを生み出すインサイトを データから引き出せる唯一の BI プラットフォームです。” https://www.tableau.com/ja-jp/products/what-is-tableau
  13. Tableau でデータを可視化してみる • 左下の”メジャー” から, 列に age を, 行に wage

    をド ロップする • 合計値が表示され ているので, 右上 に合計値がひとつ プロットされてい る
  14. 今日の実習 これまでの講義で利用した • (1)Dbpedia.org ソース • 東証一部/二部/マザーズの企業概要データ • 日本の経済/経営/社会/法学者の概要データ •

    日本のロック/ヒップホップ/フォークグループの概要データ • (2) FIFA19 の選手収録データ • (3) 日経NEEDS データ • 東証マザーズ • 東経2部 について, tableau を使って可視化を行いましょう
  15. 可視化の技法 • Piktochart • 8.1 でご紹介した, インフォグラ フィックを作るためのツール • Flourish

    • 8.1 でご紹介した, Bar Chart Race を作るためのツール • ヒートマップ • ハイライト表 • ツリーマップ • ガントチャート • Seaborn • これまでの講義で一部使用 • https://seaborn.pydata.org/ • https://seaborn.pydata.org/exam ples/index.html • Plotly • https://plot.ly/python/ • 後ほど解説。
  16. MASASHI と YOSHIKI の共通点 • 幼少期からクラシックの素養がある • MASASHI : バイオリン

    • YOSHIKI : ピアノ • (生き様が)ロックである • MASASHI: バンドが解散したり, 映画で負債をかかえたり • YOSHIKI: バンドが解散したり, バンドが再結成したり • 身体的故障を抱え楽器演奏ができなかった時期がある • 名曲をたくさん作っている • MASASHI: 親父の一番長い日, 道化師のソネット, 精霊流し • YOSHIKI: FOREVER LOVE, 紅, ART OF LIFE
  17. Flourish • 流し込むデータセットを準備 • 今回は2010年のFormula 1 ポイント数 (standings)推移 • https://en.wikipedia.org/wiki/2010_Formula_One_World_Championship

    • ドライバーと所属チームの情報、グランプリごとの得点数、累積値 を求める • スクレイピングして, Excel 上で ifs 関数を用いて、得点数を求める
  18. Plotly を使ってみる • API Settings 画面に遷移する • Username • API

    Key が取得できる. ・API Key がマスクされている ので, 必要に応じて Regenerate Key をクリックし, API key を表 示する • これと別に Confirmation Mail が届くので, クリックす る
  19. 3. Plotly を使ってみる • Sanky Diagram を書いてみる • Plotly をインポートする

    • データセットを構築する • データのフローをsource と target でそれぞれ指定する • Value に値を指定する 引用; https://plot.ly/python/sankey-diagram/
  20. 3. Plotly を使ってみる • グラフのタイトルを指定する • Dict で data と

    layout をそれ ぞれ指定し, fig に入れる • py.iplot に fig を指定する
  21. 3. Plotly を使ってみる • plotly.plotly と plotly.figure_factory をインポートする • Numpy

    を使って, 乱数 を生成し, それに基づ きデンドログラムを作 成する. https://plot.ly/python/dendrogram/
  22. 3. Plotly を使ってみる • 必要なパッケージをイン ポートする • データを取得する (今回は figshareから)

    • デンドログラムを縦方向と 横方向に作成する • ヒートマップを作成する
  23. 3. Plotly を使ってみる • X と Y 方向に作成したデンド ログラムを, Z

    方向にヒート マップのデータを指定する • ヒートマップデータを figure に流し込む
  24. 3. Plotly を使ってみる • インタラクティブなグラフを 作成する • グラフのズームが出来るように する •

    今回は元データを取得し, それ を操作できるようなウィジェッ トを用意する https://plot.ly/python/slider-widget/
  25. まとめと最終報告レポート • 1組3-4名のグループを作り, そのメンバーで最終レポートを作 成します。 • データ分析組, • データ調達組, •

    プレゼンテーション作成組, • プレゼンテーション担当 など役割分担はお任せします。 • 第10回で, 最終レポートのプロポーサルを発表します • 発表時間10分, 質疑応答5分 • データの初期的な分析結果がまとまっているとベター
  26. まとめと最終報告レポート • テーマ • 「◦◦のための実践的データ分析」 • 卒論や修論や博論の作成の入り口になるような、データの調達とその データの解析を, 講義で取り上げたデータセットおよび分析手法で実施 する

    • 分析単位はマクロ (国レベル) でもメソ (企業/産業レベル) でもミクロ (個人レベル) でも問いません • 利用できるデータセット • 特に制限なし • 利用できるツール • Tableau, Excel, Word, SQL, BigQuery, Google Colaboratory, Jupyternotebook (Python) など, 特に制限なし
  27. まとめと最終報告レポート • 評価方法 • グループ内での自己評価 • グループ外からの評価 アンケートシステムをPolly で用意します。 •

    評価基準 • (A.) グループ内の役割分担 (B.) データセットのユニークさおよび、それが適切に処理されているか (C.) 分析手法のユニークさおよび、それが適切に解析されているか (D.) プレゼンテーションのユニークさ (E.) 質疑応答にうまくリプライすることが出来ているか • 納品物 • プレゼンテーションに利用したファイル (Word か Powerpoint か Prezi か etc…) を, Slack のDM に代表者がアップすること
  28. 最終レポートの雛形 • 表紙 • イントロダクション • 先行研究 • 問い •

    仮説 • 集めたデータセット • データ解析結果 • 考察とインプリケーション
  29. 定量分析の業務フロー 2020/7/8 124 リサーチクエス チョンを決める 必要なデータを 探す 論文データ/書誌 情報を使う 特許データ/書誌

    情報を使う その他データを使う (プレスリリース /POS データ) デ ー タ の ク リ ー ニ ン グ / 接 合 を 行 う エクセル/Python/Rでグラフを描く Stata/R/Python で回帰分析する KHCoder/R/Python でテキスト分析 する R/Netdraw etc… でネットワーク分 析する 企業データを 使う
  30. 例.元 IIR 西口先生のネットワーク研究 • “コミュニティー・キャピタル 中国・温州人企業家ネットワー クの繁栄と限界” • http://doi.org/10.11207/taaos. 4.1_200

    • データに頼らずに, 足で稼いで ネットワークの動態をインタ ビュー調査から明らかにする • 足掛け10年(!) 2020/7/8 125
  31. 例. 元 IIR 西口先生のネットワーク研究 • “傑出したパフォーマンスで知られる中国・温州人企業家の国 際的ネットワークは、コミ ュニティー・キャピタルに依拠する 新たな社会ネットワーク分析に適した事例であり、近 年ビッグ

    データ一辺倒の観のある米国の定量分析 (Fleming et al. 2007) を補完する意味で、 詳細なフィールド調査に基づく豊かな実証 的知見を提供し得る。さらに Watts 等(1998, 1999, 2003) がシ ミュレーションで数学的に立証したスモールワールドの知見が、 現実に応用可 能なのは、実効的にコミュニティー・キャピタル に支えられた社会ネットワークに限定さ れることも示唆され る。 ” 2020/7/8 126
  32. ネットワーク分析な具体例1. JST/RISTEX 深堀調査 『科学的ブレークスルーとイノベーションをつなぐ研究に着目した「科学と技 術の相互作用」の明確化』 • IIR->Waseda 清水洋先生が研究代表者 • http://www.ristex.jp/examin/others/shinki-pj-result2010.html

    • 科学から技術に至る知識の流れを特許と論文データベースを接 合することで特定する • ケース • 青色LEDに至るまでに, どのような特許が参照されたのか後方引用関係 から特定する • Shuji Nakamura の2007 年の特許をベースに, そこから後方引用を5次 までたどり知識の流れを測定していく
  33. Network (delete pendants) Source: Web of Knowledge[Derwent Innovation Index]/Web of

    Science Red node indicates the “Main path”. ※. △が特許, ▪が論文
  34. 1-1. ネットワーク分析 • 無償のもの • R - https://www.r-project.org/ • KHCoder

    - http://khc.sourceforge.net/ • (前回の講義) • NetDraw- https://sites.google.com/site/netdrawsoftware/home • Gephi - http://oss.infoscience.co.jp/gephi/gephi.org/ • Sci2 - https://sci2.cns.iu.edu/user/index.php • Pajek - http://vlado.fmf.uni-lj.si/pub/networks/pajek/ • 有償のもの • Vantage Point
  35. 1-1. NetDraw • 無償のネットワーク分析 ソフトウェア • 少々古いが, その分(オン ライン上の)ドキュメン トが充実

    • ダウンロードからインス トール, 簡単なネットワー クを描画するところまで 解説します 2020/7/8 135
  36. 1-1. NetDraw のダウンロードとインストール • Analytic Technologies から Product を選び, Ucinet

    6 の Download をクリックする • EXE ファイルのダウンロード が終わったら, インストールを 行う • UCINET 6 を起動する 2020/7/8 136
  37. 1-2. Gephi の使い方 • データセットに慣れてみる • http://oss.infoscience.co.jp/gephi/wik i.gephi.org/index.php/Datasets.html のうち “[GEXF]

    EuroSiS Web マップ 調査: 欧州 12 か国の「社会における科学 (Science in Society)」活動主体の Web 上での相互関係をマップしたもの。”をダ ウンロードして表示する. ・ファイルを選択し, OK をクリックする 2020/7/8 150
  38. 1-3. Sci2 • ネットワーク分析ツール • エンジンとして, Gauss や Gephi, R

    を利用 • https://sci2.cns.iu.edu/use r/index.php 2020/7/8 152
  39. 1-3. Sci2 • 右側のData Manager から “NMB file….” を右クリック し,

    View をクリックする • 元データが表示される 2020/7/8 157