Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
#経済学のための実践的データ分析 11.1 tableau や plotly でデータ・ビジュ...
Search
yasushihara
July 08, 2019
Education
1
750
#経済学のための実践的データ分析 11.1 tableau や plotly でデータ・ビジュアライゼーション/ネットワーク分析
一橋大学 経済学部 28番教室
#経済学のための実践的データ分析 11.1 tableau や plotly でデータ・ビジュアライゼーション/ネットワーク分析
yasushihara
July 08, 2019
Tweet
Share
More Decks by yasushihara
See All by yasushihara
一橋大学 #経済学のための実践的データ分析 2020冬: 6/12
yasushihara
0
290
一橋大学 #経済学のための実践的データ分析 2020冬: 4/12
yasushihara
0
220
一橋大学 #経済学のための実践的データ分析 2020冬: 3/12
yasushihara
0
390
一橋大学 #経済学のための実践的データ分析 2020冬: 2/12
yasushihara
0
270
一橋大学「経済学のための実践的データ分析」2020冬 1/12
yasushihara
0
490
一橋大学 2020秋 #経済学のための実践的データ分析 12/12
yasushihara
0
170
一橋大学 #経済学のための実践的データ分析 2020秋: 10/12
yasushihara
1
310
一橋大学 #経済学のための実践的データ分析 2020秋: 9/12
yasushihara
0
410
一橋大学 #経済学のための実践的データ分析 2020秋: 8/12
yasushihara
0
420
Other Decks in Education
See All in Education
Diseño de estrategia de analítica del aprendizaje en tu centro educativo.
tecuribarri
0
150
XML and Related Technologies - Lecture 7 - Web Technologies (1019888BNR)
signer
PRO
0
2.7k
世界の将来人口を誰でも語れるようになる
jo76shin
0
110
認知情報科学科_キャリアデザイン_大学院の紹介
yuyakurodou
0
160
HCL Notes/Domino 14.5 EAP Drop1
harunakano
1
150
自己紹介 / who-am-i
yasulab
PRO
2
4.5k
1106
cbtlibrary
0
450
COO's Perspective : Code for Everyone 2020-2024
codeforeveryone
0
260
ニュースメディアにおける生成 AI の活用と開発 / UTokyo Lecture Business Introduction
upura
0
230
Evaluation Methods - Lecture 6 - Human-Computer Interaction (1023841ANR)
signer
PRO
0
820
中野区ミライ★ライター倶楽部presents『MINT』
nakamuramikumirai
0
620
リバースバケットリスト 〜 「死ぬまでにやることリスト」の欠点と対処法
takibi333
0
110
Featured
See All Featured
KATA
mclloyd
29
14k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
59k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
232
17k
Git: the NoSQL Database
bkeepers
PRO
427
64k
Six Lessons from altMBA
skipperchong
27
3.6k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.3k
Build The Right Thing And Hit Your Dates
maggiecrowley
34
2.5k
Done Done
chrislema
182
16k
Designing on Purpose - Digital PM Summit 2013
jponch
117
7.1k
How to Ace a Technical Interview
jacobian
276
23k
Embracing the Ebb and Flow
colly
84
4.6k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
33
2.1k
Transcript
経済学のための実践的データ分析 11.1 データのビジュアライゼーション 28教室 経済学研究科 原泰史
[email protected]
確認事項 • 電源タップは足りているでしょうか? • レポートの提出
はじめに • 最終レポートのグループ分け • 必要あらばトレードを行ってください
現時点での グループ • グループA • 1118123a • 2116255u • 2117235x
• 2117265z • グループB • 1118198c • 2115037a • 2116264s • 2117281b • グループC • 2115015z • 2115360k • 2117121b • 2118097a • グループD • 2116093u • 2117149b • 2118119m • グループE • 2117224c • 2118135u • 4116220z
今日の内容: データのビジュアライゼー ションとネットワーク分析 • これまでの回で取り上げてきたデータをわかりやすく研究で活 用する手法を学ぶことを目指します。 • Python やR などを用いたデータの可視化手法の確認や、
Tableau (https://www.tableau.com/ja-jp) などのデータ可 視化ソフトウェアの紹介および実習を行います。
Tableau のインストール • https://www.tableau.com/tft/activation からダウンロードしておいてください。 • メールアドレスを聞かれるので, 一橋の学生メールアドレス (hit-u.ac.jp が入ったもの)
を入力 • プロダクトキーには, TCA4-5FFD-6750-4FB1-591A を指定してください
今日の内容 (105分) 1: データをビジュアライゼーションすることとは? 2: tableau を使ってみよう 3: plotly を使ってみよう
3:最終レポートの話 4:成績評価の話
1. データビジュアライゼー ションで出来ること
Example; (SADA)MASASHI と YOSHIKI
MASASHI と YOSHIKI の共通点 • 幼少期からクラシックの素養がある • MASASHI : バイオリン
• YOSHIKI : ピアノ • (生き様が)ロックである • MASASHI: バンドが解散したり, 映画で負債をかかえたり • YOSHIKI: バンドが解散したり, バンドが再結成したり • 身体的故障を抱え楽器演奏ができなかった時期がある • 名曲をたくさん作っている • MASASHI: 親父の一番長い日, 道化師のソネット, 精霊流し • YOSHIKI: FOREVER LOVE, 紅, ART OF LIFE
ビジュアライゼーションすることの意味 • わかりやすく見せる • より多くの人, あるいは伝えるべきひとに伝える • でも、伝えるべき内容が伴っていないとあまり意味はない • MASASHIアプローチ
(データを実直に, ありのままに伝える) に するか, YOSHIKI アプローチ (データをよりわかりやすく見せ て, より広く伝える) にするかは対象とするオーディエンス次第
これまでに使ったビジュアライゼーション • (マルチ)散布図 • ヒストグラム • 回帰曲線 • 回帰モデル
None
まだあまり使っていない可視化技法 • ネットワーク分析 • 次のページから具体例を紹介 • インフォグラフィック • ヒートマップ •
ハイライト表 • ツリーマップ • ガントチャート
ネットワーク分析な具体例1. JST/RISTEX 深堀調査 『科学的ブレークスルーとイノベーションをつなぐ研究に着目した「科学と技 術の相互作用」の明確化』 • IIR->Waseda 清水洋先生が研究代表者 • http://www.ristex.jp/examin/others/shinki-pj-result2010.html
• 科学から技術に至る知識の流れを特許と論文データベースを接 合することで特定する • ケース • 青色LEDに至るまでに, どのような特許が参照されたのか後方引用関係 から特定する • Shuji Nakamura の2007 年の特許をベースに, そこから後方引用を5次 までたどり知識の流れを測定していく
Network (delete pendants) Source: Web of Knowledge[Derwent Innovation Index]/Web of
Science Red node indicates the “Main path”. ※. △が特許, ▪が論文
1930s 1960s 1970s 1990s 2000s 1910-2007 (1次引用すべて導入; 上位12社明記) 1980s
1-1. ネットワーク分析 • 無償のもの • R - https://www.r-project.org/ • KHCoder
- http://khc.sourceforge.net/ • (前回の講義) • NetDraw- https://sites.google.com/site/netdrawsoftware/home • Gephi - http://oss.infoscience.co.jp/gephi/gephi.org/ • Sci2 - https://sci2.cns.iu.edu/user/index.php • Pajek - http://vlado.fmf.uni-lj.si/pub/networks/pajek/ • 有償のもの • Vantage Point
1-1. NetDraw • 無償のネットワーク分析 ソフトウェア • 少々古いが, その分(オン ライン上の)ドキュメン トが充実
• ダウンロードからインス トール, 簡単なネットワー クを描画するところまで 解説します 2019/7/8 19
1-1. NetDraw のダウンロードとインストール • Analytic Technologies から Product を選び, Ucinet
6 の Download をクリックする • EXE ファイルのダウンロード が終わったら, インストールを 行う • UCINET 6 を起動する 2019/7/8 20
1-1. Netdraw を用いてネットワークを描画する • UCINET 6 を起動する 2019/7/8 21
1-1. Netdraw を用いてネットワークを描画する • Excel でかんたんなネットワーク情報図を用意する 2019/7/8 22
1-1. Netdraw を用いてネットワークを描画す る • UCINET 上でスプレッドシートのアイコンをクリックする 2019/7/8 23
1-1. Netdraw を用いてネットワークを描画する • UCINET Spreadsheet にはりつける 2019/7/8 24
1-1. Netdraw を用いてネットワークを描画する • ファイル名をつけて保存する 2019/7/8 25
1-1. Netdraw を用いてネットワークを描画する • UCINET より Netdrawをひらく 2019/7/8 26
1-1. Netdraw を用いてネットワークを描画する • 先ほど作成したファイルを NetDraw より開く 2019/7/8 27
1-1. Netdraw を用いてネットワークを描画する • 関係性が可視化される 2019/7/8 28
1-2. Gephi • オープンソース版ネットワー ク分析ソフトウェア 2019/7/8 29
1-2. Gephi の使い方 • Sample ファイルで試してみる • Les Miserables.gexf –
レミゼラブルの共起情報ファイル 2019/7/8 30
1-2. Gephi の使い方 • Import Report が表示されるので, OK をクリックする 2019/7/8
31
1-2. Gephi の使い方 • ネットワークグラフが表示される 2019/7/8 32
1-2. Gephi の使い方 • Layout を動かしてみる 2019/7/8 33
1-2. Gephi の使い方 • データセットに慣れてみる • http://oss.infoscience.co.jp/gephi/wik i.gephi.org/index.php/Datasets.html のうち “[GEXF]
EuroSiS Web マップ 調査: 欧州 12 か国の「社会における科学 (Science in Society)」活動主体の Web 上での相互関係をマップしたもの。”をダ ウンロードして表示する. ・ファイルを選択し, OK をクリックする 2019/7/8 34
1-2. Gephi の使い方 • ネットワークグラフが表示される 2019/7/8 35
1-3. Sci2 • ネットワーク分析ツール • エンジンとして, Gauss や Gephi, R
を利用 • https://sci2.cns.iu.edu/use r/index.php 2019/7/8 36
1-3. Sci2 • ダウンロード • ダウンロード前にアカウント 登録が必要 • 利用しているオペレーション システムを選択する
2019/7/8 37
1-3. Sci2 • ZIP ファイルがダウンロー ドされるので, 展開する • Sci2.exe をダブルクリック
2019/7/8 38
1-3. Sci2 • コンソールが開く • とりあえず, サンプル ファイルでネットワーク 図を書いてみる •
[File] – [Load]を選択す る 2019/7/8 39
1-3. Sci2 • Sampledata -> socialscience -> “Florentine.nwb” を選択 し,
開くをクリックする 2019/7/8 40
1-3. Sci2 • 右側のData Manager から “NMB file….” を右クリック し,
View をクリックする • 元データが表示される 2019/7/8 41
1-3. Sci2 • Visualization -> Networks -> GUESS を選択する 2019/7/8
42
1-3. Sci2 • ネットワーク図が表示される • Show Label をクリックして, ノード毎のラベルを表示させる 2019/7/8
43
D3.js • Java Script ライブラリ • https://d3js.org/ • 動的な可視化で広く活用
Zoomable Circule • https://observablehq.com/@ d3/zoomable-circle-packing
Scatter Plot Matrix https://observablehq.com/@d3/scatterplot-matrix
Sankey Diagram https://observablehq.com/@d3/sankey-diagram
Python で使える可視化ライブラリ (すごく一部) • Seaborn • これまでの講義で一部使用 • https://seaborn.pydata.org/ •
https://seaborn.pydata.org/examples/index.html • Plotly • https://plot.ly/python/ • 後ほど解説。
インフォグラフィック https://public.tableau.com/en-us/s/gallery/fifa-19-top-ranked-players
piktochart • インフォグラフィック作成用サイト • https://piktochart.com/
Web 上でグラフなどを作成可能
完成品
2. Tableau を使ってデー タの可視化をいろいろと やってみよう
今日やりたいこと • FIFA19 のデータ (レポート1で使ったもの) をtableau でいろい ろな手法を使ってビジュアライズしてみる
Tableau とは • “Tableau は、接続からコラボ レーションまでをスムーズに行え る、最も強力でセキュアかつ柔軟 なエンドツーエンドのデータ分析 プラットフォームです。 •
データのパワーの活用を可能にし て、ビジネスをサポートします。 個人で利用できるように設計され、 エンタープライズ規模に拡張する こともできる Tableau は、アク ションを生み出すインサイトを データから引き出せる唯一の BI プラットフォームです。” https://www.tableau.com/ja-jp/products/what-is-tableau
Tableau のインストール • https://www.tableau.com/tft/activation にアクセスする
Tableau のインストール • Download Tableau Desktop をクリックする • 大学のメールアドレスを指定し, Download
Free Trial をクリック
Tableau のインストール • exe (windows) または dmg (mac) がダウンロードされる ので,
インストールを行う
Tableau の起動 • Windows 10 の場合
Tableau にデータをインポートする • 接続から, “Microsoft Excel” を選択する
Tableau にデータをインポートする ファイルを選択する
Tableau にデータをインポートする • “データ インタープリターを使用してクリーニング” をクリック
Tableau でデータを可視化してみる • ウインドウ下のワークシートをクリックする
Tableau でデータを可視化してみる • 左下の”メジャー” から, 列に age を, 行に wage
をド ロップする • 合計値が表示され ているので, 右上 に合計値がひとつ プロットされてい る
Tableau でデータを可視化してみる • 列と行それぞれにつ いて▼をクリックし, “メジャー -> 合計値” から “ディメンジョ
ン” に選択しなおす
Tableau でデータを可視化してみる • 右下にある値をクリックし, “除外” をクリックする
Tableau でデータを可視化してみる • 散布図が生成される
Tableau で地域ごとの選手数をプロット してみる • “ディメンジョン” をクリックし, 地 理的役割から “国/ 地域”
を選択する
Tableau で地域ごとの選手数をプロット してみる • Nationality ごとの選手数を地図上にプロットできる
Tableau で地域ごとの選手数をプロット する • 右下をクリックし, マッピン グできていない国名同士を 手動で対応させる
Tableau で地域ごとの選手数をプロット する • 空欄だった中国 やイングランド, 韓国のデータが 埋め込まれる
様々な形式でプロットする • 表形式 • 箱ひげ図
様々な形式でプロットする • 棒グラフ
ツリーマップ
様々な形式でプロットする • パックバブル • バブルチャート
Wordcloud
3. Plotly を使ってみよう
3. Plotly を使ってみよう • https://plot.ly • Python やR で使えるビジュ アライゼーションフレーム
ワーク
3. Plotly を使ってみる • https://plot.ly/Auth/login/ にアクセスする • 上部の Sign Up
をクリック し, 必要な情報を記入する • Sing Up をクリックする
3. Plotly を使ってみる • API Settings 画面に遷移する • Username •
API Key が取得できる. ・API Key がマスクされている ので, 必要に応じて Regenerate Key をクリックし, API key を表 示する • これと別に Confirmation Mail が届くので, クリックす る
3. Plotly を使ってみる • Jupyter Notebook/Google Colaboratory 上で, “!pip install
plotly” する
3. Plotly を使ってみる • API Key を渡す
3. Plotly を使ってみる • Sanky Diagram を書いてみる • Plotly をインポートする
• データセットを構築する • データのフローをsource と target でそれぞれ指定する • Value に値を指定する 引用; https://plot.ly/python/sankey-diagram/
3. Plotly を使ってみる • データの中身を print(data) で確認する
3. Plotly を使ってみる • グラフのタイトルを指定する • Dict で data と
layout をそれ ぞれ指定し, fig に入れる • py.iplot に fig を指定する
3. Plotly を使ってみる • Sanky Diagram が表示される
3. Plotly を使ってみる • plotly.plotly と plotly.figure_factory をインポートする • Numpy
を使って, 乱数 を生成し, それに基づ きデンドログラムを作 成する. https://plot.ly/python/dendrogram/
3. Plotly を使ってみる • 必要なパッケージをイン ポートする • データを取得する (今回は figshareから)
• デンドログラムを縦方向と 横方向に作成する • ヒートマップを作成する
3. Plotly を使ってみる • X と Y 方向に作成したデンド ログラムを, Z
方向にヒート マップのデータを指定する • ヒートマップデータを figure に流し込む
3. Plotly を使ってみる • レイアウトの修正を行う • それぞれの軸方向でレイアウ トの修正を行う • py.iplot
にデータを流し込み, プロットする
3. Plotly を使ってみる • ヒートマップ付きのデンドロ グラムを作成する
3. Plotly を使ってみる • インタラクティブなグラフを 作成する • グラフのズームが出来るように する •
今回は元データを取得し, それ を操作できるようなウィジェッ トを用意する https://plot.ly/python/slider-widget/
3. Plotly を使ってみる • 出力結果
3. Plotly を使ってみる • じょうろ図を書いてみる • パッケージを指定 • データセットを指定 https://plot.ly/python/funnel-charts/
3. Plotly を使ってみる • 図が出力される
今日の実習1 • Manaba の[データ]セクションにアップロードされている, これ までに講義で利用した • (1)Dbpedia.org ソース •
東証一部/二部/マザーズの企業概要データ • 日本の経済/経営/社会/法学者の概要データ • 日本のロック/ヒップホップ/フォークグループの概要データ • (2) FIFA19 の選手収録データ • (3) 日経NEEDS データ • 東証マザーズ • 東経2部 について, tableau を使って可視化を行いましょう
今日の実習 • ワードクラウド • 地域や国にマッピングしたグラフ • 棒グラフ • 線グラフ などを作成してみること
今日の実習2 • Ploty を使ってデータの可視化をやってみよう • API キーを取得する • サンプルコードが手元の環境でも動くか確かめる •
必要に応じて, 自分が可視化したいデータで確認する
今日のまとめ • データのビジュアライゼーションは, データを使ってわかるこ とをより伝えるための手段 • 時と場合に応じて可視化の手法は使い分けよう • 経済学部や経営学部の場合、まだまだ2次元の棒グラフと線グラフ or
散布図が中心かもしれないけれど
4. 成績評価の方法
成績評価(1) • 平常レポート (40パーセント; 必須) • 講義計画に示したように、複数の回で学生にはレポートを課します。 レポートは Word/PowerPoint形式のメールあるいは, github
経由で の提出が求められます(どの方法を採用するかは、初回の講義で決定し ます)。 • レポートには、(A.) 利用したデータセットとその内容, (B.) 分析の問 い, (C.) 分析手法, (D.) 分析結果 を明記する必要があります。ページ 数や文字数は問いませんが, これらの内容が含まれており, 講義中にア ナウンスする評価手法を満たす場合, 高い得点を得ることが出来ます。 • 平常点 (10パーセント) • 本講義は実習が多く含まれており, また取り扱うデータセットや内容も 多彩です。そのため、受講者同士が協力する必要があります。こうし た受講者の態度を評価するために、平常点を設けます。
成績評価(2) • 最終レポート (40パーセント; 必須) • 講義の最終回では最終レポートの報告会を行います。受講者は3名から4名か ら構成されるグループで、最終レポートの報告を行う必要があります(人数は 受講者の人数により変更される可能性があります)。最終レポートでは、プレ ゼンテーションの方法を学生は自由に選ぶことが出来ます。PowerPoint
以 外にも、Prezi などのアクティブプレゼンテーションツールや、他のプレゼ ンテーション手法を用いることが出来ます(プレゼンテーションツールについ ては、必要であれば講義内で説明する機会を設けます)。最終レポートでは、 以下の点について評価を行います。 (A.) グループ内の役割分担 (B.) データセットのユニークさおよび、それが適切に処理されているか (C.) 分析手法のユニークさおよび、それが適切に解析されているか (D.) プレゼンテーションのユニークさ (E.) 質疑応答にうまくリプライすることが出来ているか • 最終レポートの360°グループ評価 (10パーセント) • 3. の最終レポートについて、グループの自己評価および他のグループからの 評価を行います。3. で挙げた評価ポイントに基づき、グループメンバーおよ び他のグループは評価を行います。
次回予告と 最終レポートについて
12. 機械学習 • R を用いて、木構造を用いて分類および回帰を行う決定木の手 法について、具体例の紹介および実習を行います。また、最終 レポートについての説明を行います。 • これまでに学んだ手法を用いデータ解析を行うことで、グルー プでのレポートをまとめます。このグループの決定を行います。
13. まとめと最終報告レポート • 1組3-4名のグループを作り, そのメンバーで最終レポートを作 成していただきます。 • データ分析組, データ調達組, プレゼンテーション作成組,
プレゼンテーション担 当など役割分担はお任せします。 • 講義の最終回で, 発表時間10分, 質疑応答5分でプレゼンテーションを します。
13. まとめと最終報告レポート • テーマ • 「◦◦のための実践的データ分析」 • 卒論や修論や博論の作成の入り口になるような、データの調達とその データの解析を, 講義で取り上げたデータセットおよび分析手法で実施
する • 分析単位はマクロ (国レベル) でもメソ (企業/産業レベル) でもミクロ (個人レベル) でも問いません • 利用できるデータセット • 特に制限なし • 利用できるツール • Tableau, Excel, SQL, Jupyternotebook (Python) など, 特に制限なし
13. まとめと最終報告レポート • 評価方法 • グループ内での自己評価 • グループ外からの評価 アンケートシステムをManaba or
Google Docs で用意します。 • 評価基準 • (A.) グループ内の役割分担 (B.) データセットのユニークさおよび、それが適切に処理されているか (C.) 分析手法のユニークさおよび、それが適切に解析されているか (D.) プレゼンテーションのユニークさ (E.) 質疑応答にうまくリプライすることが出来ているか • 納品物 • プレゼンテーションに利用したファイル (Word か Powerpoint か Prezi か etc…) を, Manaba にアップロードすること
「定量分析の業務フロー」 2019/7/8 108 リサーチクエス チョンを決める 必要なデータを 探す 論文データ/書誌 情報を使う 特許データ/書誌
情報を使う その他データを使う (プレスリリース /POS データ) デ ー タ の ク リ ー ニ ン グ / 接 合 を 行 う エクセル/Python/Rでグラフを描く Stata/R/Python で回帰分析する KHCoder/R/Python でテキスト分析 する R/Netdraw etc… でネットワーク分 析する 企業データを 使う
例.元 IIR 西口先生のネットワーク研究 • “コミュニティー・キャピタル 中国・温州人企業家ネットワー クの繁栄と限界” • http://doi.org/10.11207/taaos. 4.1_200
• データに頼らずに, 足で稼いで ネットワークの動態をインタ ビュー調査から明らかにする • 足掛け10年(!) 2019/7/8 109
例. 元 IIR 西口先生のネットワーク研究 • “傑出したパフォーマンスで知られる中国・温州人企業家の国 際的ネットワークは、コミ ュニティー・キャピタルに依拠する 新たな社会ネットワーク分析に適した事例であり、近 年ビッグ
データ一辺倒の観のある米国の定量分析 (Fleming et al. 2007) を補完する意味で、 詳細なフィールド調査に基づく豊かな実証 的知見を提供し得る。さらに Watts 等(1998, 1999, 2003) がシ ミュレーションで数学的に立証したスモールワールドの知見が、 現実に応用可 能なのは、実効的にコミュニティー・キャピタル に支えられた社会ネットワークに限定さ れることも示唆され る。 ” 2019/7/8 110
あくまでリサーチクエスチョンが大切 • データはあくまでデータ • 研究の問いに合わせて必要なデータを持ってくるのが大切で、 データに合わせて研究するのは本末転倒 (そういう研究も多い けど。。。) • 数年前に比べても利用できるデータはますますリッチになって
いるので、ますます、「どのような研究がしたくて」、「どの ような問いを立てている」のかが大切に。 2019/7/8 111
ディスカッション(15分くらい) • どういうテーマで解析を行うか/リサーチクエスチョンは何か • 解析を行うためには、どういうデータが必要か • メンバーの役割分担 について、グループ内で(いるメンバーで)ディスカッションをし てください。
THANKS
[email protected]