Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
#経済学のための実践的データ分析 11.1 tableau や plotly でデータ・ビジュ...
Search
yasushihara
July 08, 2019
Education
1
720
#経済学のための実践的データ分析 11.1 tableau や plotly でデータ・ビジュアライゼーション/ネットワーク分析
一橋大学 経済学部 28番教室
#経済学のための実践的データ分析 11.1 tableau や plotly でデータ・ビジュアライゼーション/ネットワーク分析
yasushihara
July 08, 2019
Tweet
Share
More Decks by yasushihara
See All by yasushihara
一橋大学 #経済学のための実践的データ分析 2020冬: 6/12
yasushihara
0
280
一橋大学 #経済学のための実践的データ分析 2020冬: 4/12
yasushihara
0
200
一橋大学 #経済学のための実践的データ分析 2020冬: 3/12
yasushihara
0
390
一橋大学 #経済学のための実践的データ分析 2020冬: 2/12
yasushihara
0
260
一橋大学「経済学のための実践的データ分析」2020冬 1/12
yasushihara
0
480
一橋大学 2020秋 #経済学のための実践的データ分析 12/12
yasushihara
0
160
一橋大学 #経済学のための実践的データ分析 2020秋: 10/12
yasushihara
1
300
一橋大学 #経済学のための実践的データ分析 2020秋: 9/12
yasushihara
0
410
一橋大学 #経済学のための実践的データ分析 2020秋: 8/12
yasushihara
0
400
Other Decks in Education
See All in Education
Nodiレクチャー 「CGと数学」講義資料 2024/11/19
masatatsu
2
190
認知情報科学科_キャリアデザイン_大学院の紹介
yuyakurodou
0
130
HCI and Interaction Design - Lecture 2 - Human-Computer Interaction (1023841ANR)
signer
PRO
0
820
RSJ2024学術ランチョンセミナー「若手・中堅による国際化リーダーシップに向けて」資料 (河原塚)
haraduka
0
220
勉強する必要ある?
mineo_matsuya
2
1.6k
"数学" をプログラミングしてもらう際に気をつけていること / Key Considerations When Programming "Mathematics"
guvalif
0
570
勉強したらどうなるの?
mineo_matsuya
10
6.5k
Medidas en informática
irocho
0
300
PSYC-560 R and R Studio Setup
jdbedics
0
520
20241004_Microsoft認定資格のFundamentals全部取ってみた
ponponmikankan
2
330
老人会? いえ、技術継承です @ builderscon 2024 LT
s3i7h
0
110
【COPILOT無料セミナー】エンゲージメントと自律性の高いプロジェクト型人材育成に向けて~プロジェクト・ベースド・ラーニング(PBL)という選択肢~
copilot
PRO
0
130
Featured
See All Featured
Speed Design
sergeychernyshev
25
620
Rails Girls Zürich Keynote
gr2m
94
13k
How To Stay Up To Date on Web Technology
chriscoyier
788
250k
Measuring & Analyzing Core Web Vitals
bluesmoon
4
130
Producing Creativity
orderedlist
PRO
341
39k
Unsuck your backbone
ammeep
668
57k
Raft: Consensus for Rubyists
vanstee
136
6.6k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
28
2k
The Language of Interfaces
destraynor
154
24k
RailsConf 2023
tenderlove
29
900
Product Roadmaps are Hard
iamctodd
PRO
49
11k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
191
16k
Transcript
経済学のための実践的データ分析 11.1 データのビジュアライゼーション 28教室 経済学研究科 原泰史
[email protected]
確認事項 • 電源タップは足りているでしょうか? • レポートの提出
はじめに • 最終レポートのグループ分け • 必要あらばトレードを行ってください
現時点での グループ • グループA • 1118123a • 2116255u • 2117235x
• 2117265z • グループB • 1118198c • 2115037a • 2116264s • 2117281b • グループC • 2115015z • 2115360k • 2117121b • 2118097a • グループD • 2116093u • 2117149b • 2118119m • グループE • 2117224c • 2118135u • 4116220z
今日の内容: データのビジュアライゼー ションとネットワーク分析 • これまでの回で取り上げてきたデータをわかりやすく研究で活 用する手法を学ぶことを目指します。 • Python やR などを用いたデータの可視化手法の確認や、
Tableau (https://www.tableau.com/ja-jp) などのデータ可 視化ソフトウェアの紹介および実習を行います。
Tableau のインストール • https://www.tableau.com/tft/activation からダウンロードしておいてください。 • メールアドレスを聞かれるので, 一橋の学生メールアドレス (hit-u.ac.jp が入ったもの)
を入力 • プロダクトキーには, TCA4-5FFD-6750-4FB1-591A を指定してください
今日の内容 (105分) 1: データをビジュアライゼーションすることとは? 2: tableau を使ってみよう 3: plotly を使ってみよう
3:最終レポートの話 4:成績評価の話
1. データビジュアライゼー ションで出来ること
Example; (SADA)MASASHI と YOSHIKI
MASASHI と YOSHIKI の共通点 • 幼少期からクラシックの素養がある • MASASHI : バイオリン
• YOSHIKI : ピアノ • (生き様が)ロックである • MASASHI: バンドが解散したり, 映画で負債をかかえたり • YOSHIKI: バンドが解散したり, バンドが再結成したり • 身体的故障を抱え楽器演奏ができなかった時期がある • 名曲をたくさん作っている • MASASHI: 親父の一番長い日, 道化師のソネット, 精霊流し • YOSHIKI: FOREVER LOVE, 紅, ART OF LIFE
ビジュアライゼーションすることの意味 • わかりやすく見せる • より多くの人, あるいは伝えるべきひとに伝える • でも、伝えるべき内容が伴っていないとあまり意味はない • MASASHIアプローチ
(データを実直に, ありのままに伝える) に するか, YOSHIKI アプローチ (データをよりわかりやすく見せ て, より広く伝える) にするかは対象とするオーディエンス次第
これまでに使ったビジュアライゼーション • (マルチ)散布図 • ヒストグラム • 回帰曲線 • 回帰モデル
None
まだあまり使っていない可視化技法 • ネットワーク分析 • 次のページから具体例を紹介 • インフォグラフィック • ヒートマップ •
ハイライト表 • ツリーマップ • ガントチャート
ネットワーク分析な具体例1. JST/RISTEX 深堀調査 『科学的ブレークスルーとイノベーションをつなぐ研究に着目した「科学と技 術の相互作用」の明確化』 • IIR->Waseda 清水洋先生が研究代表者 • http://www.ristex.jp/examin/others/shinki-pj-result2010.html
• 科学から技術に至る知識の流れを特許と論文データベースを接 合することで特定する • ケース • 青色LEDに至るまでに, どのような特許が参照されたのか後方引用関係 から特定する • Shuji Nakamura の2007 年の特許をベースに, そこから後方引用を5次 までたどり知識の流れを測定していく
Network (delete pendants) Source: Web of Knowledge[Derwent Innovation Index]/Web of
Science Red node indicates the “Main path”. ※. △が特許, ▪が論文
1930s 1960s 1970s 1990s 2000s 1910-2007 (1次引用すべて導入; 上位12社明記) 1980s
1-1. ネットワーク分析 • 無償のもの • R - https://www.r-project.org/ • KHCoder
- http://khc.sourceforge.net/ • (前回の講義) • NetDraw- https://sites.google.com/site/netdrawsoftware/home • Gephi - http://oss.infoscience.co.jp/gephi/gephi.org/ • Sci2 - https://sci2.cns.iu.edu/user/index.php • Pajek - http://vlado.fmf.uni-lj.si/pub/networks/pajek/ • 有償のもの • Vantage Point
1-1. NetDraw • 無償のネットワーク分析 ソフトウェア • 少々古いが, その分(オン ライン上の)ドキュメン トが充実
• ダウンロードからインス トール, 簡単なネットワー クを描画するところまで 解説します 2019/7/8 19
1-1. NetDraw のダウンロードとインストール • Analytic Technologies から Product を選び, Ucinet
6 の Download をクリックする • EXE ファイルのダウンロード が終わったら, インストールを 行う • UCINET 6 を起動する 2019/7/8 20
1-1. Netdraw を用いてネットワークを描画する • UCINET 6 を起動する 2019/7/8 21
1-1. Netdraw を用いてネットワークを描画する • Excel でかんたんなネットワーク情報図を用意する 2019/7/8 22
1-1. Netdraw を用いてネットワークを描画す る • UCINET 上でスプレッドシートのアイコンをクリックする 2019/7/8 23
1-1. Netdraw を用いてネットワークを描画する • UCINET Spreadsheet にはりつける 2019/7/8 24
1-1. Netdraw を用いてネットワークを描画する • ファイル名をつけて保存する 2019/7/8 25
1-1. Netdraw を用いてネットワークを描画する • UCINET より Netdrawをひらく 2019/7/8 26
1-1. Netdraw を用いてネットワークを描画する • 先ほど作成したファイルを NetDraw より開く 2019/7/8 27
1-1. Netdraw を用いてネットワークを描画する • 関係性が可視化される 2019/7/8 28
1-2. Gephi • オープンソース版ネットワー ク分析ソフトウェア 2019/7/8 29
1-2. Gephi の使い方 • Sample ファイルで試してみる • Les Miserables.gexf –
レミゼラブルの共起情報ファイル 2019/7/8 30
1-2. Gephi の使い方 • Import Report が表示されるので, OK をクリックする 2019/7/8
31
1-2. Gephi の使い方 • ネットワークグラフが表示される 2019/7/8 32
1-2. Gephi の使い方 • Layout を動かしてみる 2019/7/8 33
1-2. Gephi の使い方 • データセットに慣れてみる • http://oss.infoscience.co.jp/gephi/wik i.gephi.org/index.php/Datasets.html のうち “[GEXF]
EuroSiS Web マップ 調査: 欧州 12 か国の「社会における科学 (Science in Society)」活動主体の Web 上での相互関係をマップしたもの。”をダ ウンロードして表示する. ・ファイルを選択し, OK をクリックする 2019/7/8 34
1-2. Gephi の使い方 • ネットワークグラフが表示される 2019/7/8 35
1-3. Sci2 • ネットワーク分析ツール • エンジンとして, Gauss や Gephi, R
を利用 • https://sci2.cns.iu.edu/use r/index.php 2019/7/8 36
1-3. Sci2 • ダウンロード • ダウンロード前にアカウント 登録が必要 • 利用しているオペレーション システムを選択する
2019/7/8 37
1-3. Sci2 • ZIP ファイルがダウンロー ドされるので, 展開する • Sci2.exe をダブルクリック
2019/7/8 38
1-3. Sci2 • コンソールが開く • とりあえず, サンプル ファイルでネットワーク 図を書いてみる •
[File] – [Load]を選択す る 2019/7/8 39
1-3. Sci2 • Sampledata -> socialscience -> “Florentine.nwb” を選択 し,
開くをクリックする 2019/7/8 40
1-3. Sci2 • 右側のData Manager から “NMB file….” を右クリック し,
View をクリックする • 元データが表示される 2019/7/8 41
1-3. Sci2 • Visualization -> Networks -> GUESS を選択する 2019/7/8
42
1-3. Sci2 • ネットワーク図が表示される • Show Label をクリックして, ノード毎のラベルを表示させる 2019/7/8
43
D3.js • Java Script ライブラリ • https://d3js.org/ • 動的な可視化で広く活用
Zoomable Circule • https://observablehq.com/@ d3/zoomable-circle-packing
Scatter Plot Matrix https://observablehq.com/@d3/scatterplot-matrix
Sankey Diagram https://observablehq.com/@d3/sankey-diagram
Python で使える可視化ライブラリ (すごく一部) • Seaborn • これまでの講義で一部使用 • https://seaborn.pydata.org/ •
https://seaborn.pydata.org/examples/index.html • Plotly • https://plot.ly/python/ • 後ほど解説。
インフォグラフィック https://public.tableau.com/en-us/s/gallery/fifa-19-top-ranked-players
piktochart • インフォグラフィック作成用サイト • https://piktochart.com/
Web 上でグラフなどを作成可能
完成品
2. Tableau を使ってデー タの可視化をいろいろと やってみよう
今日やりたいこと • FIFA19 のデータ (レポート1で使ったもの) をtableau でいろい ろな手法を使ってビジュアライズしてみる
Tableau とは • “Tableau は、接続からコラボ レーションまでをスムーズに行え る、最も強力でセキュアかつ柔軟 なエンドツーエンドのデータ分析 プラットフォームです。 •
データのパワーの活用を可能にし て、ビジネスをサポートします。 個人で利用できるように設計され、 エンタープライズ規模に拡張する こともできる Tableau は、アク ションを生み出すインサイトを データから引き出せる唯一の BI プラットフォームです。” https://www.tableau.com/ja-jp/products/what-is-tableau
Tableau のインストール • https://www.tableau.com/tft/activation にアクセスする
Tableau のインストール • Download Tableau Desktop をクリックする • 大学のメールアドレスを指定し, Download
Free Trial をクリック
Tableau のインストール • exe (windows) または dmg (mac) がダウンロードされる ので,
インストールを行う
Tableau の起動 • Windows 10 の場合
Tableau にデータをインポートする • 接続から, “Microsoft Excel” を選択する
Tableau にデータをインポートする ファイルを選択する
Tableau にデータをインポートする • “データ インタープリターを使用してクリーニング” をクリック
Tableau でデータを可視化してみる • ウインドウ下のワークシートをクリックする
Tableau でデータを可視化してみる • 左下の”メジャー” から, 列に age を, 行に wage
をド ロップする • 合計値が表示され ているので, 右上 に合計値がひとつ プロットされてい る
Tableau でデータを可視化してみる • 列と行それぞれにつ いて▼をクリックし, “メジャー -> 合計値” から “ディメンジョ
ン” に選択しなおす
Tableau でデータを可視化してみる • 右下にある値をクリックし, “除外” をクリックする
Tableau でデータを可視化してみる • 散布図が生成される
Tableau で地域ごとの選手数をプロット してみる • “ディメンジョン” をクリックし, 地 理的役割から “国/ 地域”
を選択する
Tableau で地域ごとの選手数をプロット してみる • Nationality ごとの選手数を地図上にプロットできる
Tableau で地域ごとの選手数をプロット する • 右下をクリックし, マッピン グできていない国名同士を 手動で対応させる
Tableau で地域ごとの選手数をプロット する • 空欄だった中国 やイングランド, 韓国のデータが 埋め込まれる
様々な形式でプロットする • 表形式 • 箱ひげ図
様々な形式でプロットする • 棒グラフ
ツリーマップ
様々な形式でプロットする • パックバブル • バブルチャート
Wordcloud
3. Plotly を使ってみよう
3. Plotly を使ってみよう • https://plot.ly • Python やR で使えるビジュ アライゼーションフレーム
ワーク
3. Plotly を使ってみる • https://plot.ly/Auth/login/ にアクセスする • 上部の Sign Up
をクリック し, 必要な情報を記入する • Sing Up をクリックする
3. Plotly を使ってみる • API Settings 画面に遷移する • Username •
API Key が取得できる. ・API Key がマスクされている ので, 必要に応じて Regenerate Key をクリックし, API key を表 示する • これと別に Confirmation Mail が届くので, クリックす る
3. Plotly を使ってみる • Jupyter Notebook/Google Colaboratory 上で, “!pip install
plotly” する
3. Plotly を使ってみる • API Key を渡す
3. Plotly を使ってみる • Sanky Diagram を書いてみる • Plotly をインポートする
• データセットを構築する • データのフローをsource と target でそれぞれ指定する • Value に値を指定する 引用; https://plot.ly/python/sankey-diagram/
3. Plotly を使ってみる • データの中身を print(data) で確認する
3. Plotly を使ってみる • グラフのタイトルを指定する • Dict で data と
layout をそれ ぞれ指定し, fig に入れる • py.iplot に fig を指定する
3. Plotly を使ってみる • Sanky Diagram が表示される
3. Plotly を使ってみる • plotly.plotly と plotly.figure_factory をインポートする • Numpy
を使って, 乱数 を生成し, それに基づ きデンドログラムを作 成する. https://plot.ly/python/dendrogram/
3. Plotly を使ってみる • 必要なパッケージをイン ポートする • データを取得する (今回は figshareから)
• デンドログラムを縦方向と 横方向に作成する • ヒートマップを作成する
3. Plotly を使ってみる • X と Y 方向に作成したデンド ログラムを, Z
方向にヒート マップのデータを指定する • ヒートマップデータを figure に流し込む
3. Plotly を使ってみる • レイアウトの修正を行う • それぞれの軸方向でレイアウ トの修正を行う • py.iplot
にデータを流し込み, プロットする
3. Plotly を使ってみる • ヒートマップ付きのデンドロ グラムを作成する
3. Plotly を使ってみる • インタラクティブなグラフを 作成する • グラフのズームが出来るように する •
今回は元データを取得し, それ を操作できるようなウィジェッ トを用意する https://plot.ly/python/slider-widget/
3. Plotly を使ってみる • 出力結果
3. Plotly を使ってみる • じょうろ図を書いてみる • パッケージを指定 • データセットを指定 https://plot.ly/python/funnel-charts/
3. Plotly を使ってみる • 図が出力される
今日の実習1 • Manaba の[データ]セクションにアップロードされている, これ までに講義で利用した • (1)Dbpedia.org ソース •
東証一部/二部/マザーズの企業概要データ • 日本の経済/経営/社会/法学者の概要データ • 日本のロック/ヒップホップ/フォークグループの概要データ • (2) FIFA19 の選手収録データ • (3) 日経NEEDS データ • 東証マザーズ • 東経2部 について, tableau を使って可視化を行いましょう
今日の実習 • ワードクラウド • 地域や国にマッピングしたグラフ • 棒グラフ • 線グラフ などを作成してみること
今日の実習2 • Ploty を使ってデータの可視化をやってみよう • API キーを取得する • サンプルコードが手元の環境でも動くか確かめる •
必要に応じて, 自分が可視化したいデータで確認する
今日のまとめ • データのビジュアライゼーションは, データを使ってわかるこ とをより伝えるための手段 • 時と場合に応じて可視化の手法は使い分けよう • 経済学部や経営学部の場合、まだまだ2次元の棒グラフと線グラフ or
散布図が中心かもしれないけれど
4. 成績評価の方法
成績評価(1) • 平常レポート (40パーセント; 必須) • 講義計画に示したように、複数の回で学生にはレポートを課します。 レポートは Word/PowerPoint形式のメールあるいは, github
経由で の提出が求められます(どの方法を採用するかは、初回の講義で決定し ます)。 • レポートには、(A.) 利用したデータセットとその内容, (B.) 分析の問 い, (C.) 分析手法, (D.) 分析結果 を明記する必要があります。ページ 数や文字数は問いませんが, これらの内容が含まれており, 講義中にア ナウンスする評価手法を満たす場合, 高い得点を得ることが出来ます。 • 平常点 (10パーセント) • 本講義は実習が多く含まれており, また取り扱うデータセットや内容も 多彩です。そのため、受講者同士が協力する必要があります。こうし た受講者の態度を評価するために、平常点を設けます。
成績評価(2) • 最終レポート (40パーセント; 必須) • 講義の最終回では最終レポートの報告会を行います。受講者は3名から4名か ら構成されるグループで、最終レポートの報告を行う必要があります(人数は 受講者の人数により変更される可能性があります)。最終レポートでは、プレ ゼンテーションの方法を学生は自由に選ぶことが出来ます。PowerPoint
以 外にも、Prezi などのアクティブプレゼンテーションツールや、他のプレゼ ンテーション手法を用いることが出来ます(プレゼンテーションツールについ ては、必要であれば講義内で説明する機会を設けます)。最終レポートでは、 以下の点について評価を行います。 (A.) グループ内の役割分担 (B.) データセットのユニークさおよび、それが適切に処理されているか (C.) 分析手法のユニークさおよび、それが適切に解析されているか (D.) プレゼンテーションのユニークさ (E.) 質疑応答にうまくリプライすることが出来ているか • 最終レポートの360°グループ評価 (10パーセント) • 3. の最終レポートについて、グループの自己評価および他のグループからの 評価を行います。3. で挙げた評価ポイントに基づき、グループメンバーおよ び他のグループは評価を行います。
次回予告と 最終レポートについて
12. 機械学習 • R を用いて、木構造を用いて分類および回帰を行う決定木の手 法について、具体例の紹介および実習を行います。また、最終 レポートについての説明を行います。 • これまでに学んだ手法を用いデータ解析を行うことで、グルー プでのレポートをまとめます。このグループの決定を行います。
13. まとめと最終報告レポート • 1組3-4名のグループを作り, そのメンバーで最終レポートを作 成していただきます。 • データ分析組, データ調達組, プレゼンテーション作成組,
プレゼンテーション担 当など役割分担はお任せします。 • 講義の最終回で, 発表時間10分, 質疑応答5分でプレゼンテーションを します。
13. まとめと最終報告レポート • テーマ • 「◦◦のための実践的データ分析」 • 卒論や修論や博論の作成の入り口になるような、データの調達とその データの解析を, 講義で取り上げたデータセットおよび分析手法で実施
する • 分析単位はマクロ (国レベル) でもメソ (企業/産業レベル) でもミクロ (個人レベル) でも問いません • 利用できるデータセット • 特に制限なし • 利用できるツール • Tableau, Excel, SQL, Jupyternotebook (Python) など, 特に制限なし
13. まとめと最終報告レポート • 評価方法 • グループ内での自己評価 • グループ外からの評価 アンケートシステムをManaba or
Google Docs で用意します。 • 評価基準 • (A.) グループ内の役割分担 (B.) データセットのユニークさおよび、それが適切に処理されているか (C.) 分析手法のユニークさおよび、それが適切に解析されているか (D.) プレゼンテーションのユニークさ (E.) 質疑応答にうまくリプライすることが出来ているか • 納品物 • プレゼンテーションに利用したファイル (Word か Powerpoint か Prezi か etc…) を, Manaba にアップロードすること
「定量分析の業務フロー」 2019/7/8 108 リサーチクエス チョンを決める 必要なデータを 探す 論文データ/書誌 情報を使う 特許データ/書誌
情報を使う その他データを使う (プレスリリース /POS データ) デ ー タ の ク リ ー ニ ン グ / 接 合 を 行 う エクセル/Python/Rでグラフを描く Stata/R/Python で回帰分析する KHCoder/R/Python でテキスト分析 する R/Netdraw etc… でネットワーク分 析する 企業データを 使う
例.元 IIR 西口先生のネットワーク研究 • “コミュニティー・キャピタル 中国・温州人企業家ネットワー クの繁栄と限界” • http://doi.org/10.11207/taaos. 4.1_200
• データに頼らずに, 足で稼いで ネットワークの動態をインタ ビュー調査から明らかにする • 足掛け10年(!) 2019/7/8 109
例. 元 IIR 西口先生のネットワーク研究 • “傑出したパフォーマンスで知られる中国・温州人企業家の国 際的ネットワークは、コミ ュニティー・キャピタルに依拠する 新たな社会ネットワーク分析に適した事例であり、近 年ビッグ
データ一辺倒の観のある米国の定量分析 (Fleming et al. 2007) を補完する意味で、 詳細なフィールド調査に基づく豊かな実証 的知見を提供し得る。さらに Watts 等(1998, 1999, 2003) がシ ミュレーションで数学的に立証したスモールワールドの知見が、 現実に応用可 能なのは、実効的にコミュニティー・キャピタル に支えられた社会ネットワークに限定さ れることも示唆され る。 ” 2019/7/8 110
あくまでリサーチクエスチョンが大切 • データはあくまでデータ • 研究の問いに合わせて必要なデータを持ってくるのが大切で、 データに合わせて研究するのは本末転倒 (そういう研究も多い けど。。。) • 数年前に比べても利用できるデータはますますリッチになって
いるので、ますます、「どのような研究がしたくて」、「どの ような問いを立てている」のかが大切に。 2019/7/8 111
ディスカッション(15分くらい) • どういうテーマで解析を行うか/リサーチクエスチョンは何か • 解析を行うためには、どういうデータが必要か • メンバーの役割分担 について、グループ内で(いるメンバーで)ディスカッションをし てください。
THANKS
[email protected]