#イノベーション研究のための実践的データ分析 β. Python に慣れて, 回帰分析をやって, SPARQL Endpoint を使おう

経済学のための実践的データ分析 β. Python に慣れて, 回帰分析をやって, SPARQL Endpoint を使おう慶應義塾大学
三田キャンパス 322教室一橋大学経済学研究科原泰史 [email protected]

自己紹介

自己紹介 • Yasushi HARA • 1998-2004 • TOYOTA NATIONAL COLLEGE
OF TECHNOLOGY • 2000 • Exchange Student in Malaysia • 2002-2009 • CLARAONLINE, INC. • ICT Hosting Company, nowadays called Cloud system supplier • 2009-2015 • Institute of Innovation Research, HITOTSUBASHI UNIVERSITY • 2015-2017 • Science for RE-Designing Science, Technology and Innovation Policy Center, National Graduate Institute for Policy Studies (GRIPS) / NISTEP / Hitotsubashi UNIVERSITY/MANAGEMENT INNOVATION CENTER • 2018-2019 • EHESS Paris – CEAFJP/Michelin Research Fellow • OECD Expert Advisory Group: Digital Science and Innovation Policy and Governance (DSIP) and STI Policy Monitoring and Analysis (REITER) project • 2019- • TDB Center for Advanced Empirical Research on Enterprise and Economy, Faculty of Economics, Hitotsubashi University

自己紹介(2) • 主な研究テーマ • 大規模データを活用したイノベーションプロセスの解析が現在の主な研究テーマです。大学あるいは研究機関で生み出された基礎研究が、特許あるいは論文などの著作物を媒介して企業の研究開発へと活用され、それがどのような経済的・社会的価値を生み出すイノベーションへと結実するか、 •
複数のデータソースを組み合わせることでその動態を解析しています。特許、学術論文、財務データベースおよび、企業活動を包括的に記述したデータベースを相互に結合することで、定量的な解析を行っています。具体的なフィールドとしては、製薬・バイオ産業および再生医療分野に関連した解析を行ってきました。また、無形資産が果たす役割についても近年関心を持っています。

データで「出来ること」と「出来ないこと」

Framework of Innovation Indicators [modified.] (Pakes and Griliches 1984) Other
Economi c Factors Non-Knowledge Factors of Production Output: Productivity Firm’s Value Patent Patenting Propensity Inputs to Innovation R&D, designing, marketing research etc… Knowhow and First Mover Advantag Paper 3/8/2015 6

Framework of Innovation Indicators [modified. 2] (Pakes and Griliches 1984)
Other Economi c Factors Non-Knowledge Factors of Production Output: Productivity Firm’s Value Paten t Patenting Propensity Inputs to Innovation R&D, designing, marketing research etc… Knowhow and First Mover Advantag Paper In- tangible knowledg e 3/8/2015 7

研究手法のダイアグラム • 定性的なアプローチ • なにかしらの理論モデルにもとづき、文献調査や実地調査、インタビューなどを使って証拠を集める。集まった証拠にもとづきロジックを組み立てて、結果を観察する • データソース
• 誰かが書いた文章 (論文や特許や報告書や白書 etc…) • 誰かの頭のなか (をインタビューを使って収集する) • 定量的なアプローチ • なにかしらの理論モデルにもとづき、統計データベースを使ってデータを集める。それを回帰分析 etc… などの統計的な処理をして、結果を観察する • データソース • 統計データベースを使う • サーベイ調査をする • 政府統計を使う結論インプリケーション (ex. 政策的な含意) 問い (リサーチクエスチョン) Literature Review (先行研究の調査) Hypothesis (問いに対する仮説の提示) 3/8/2015 8

「定量分析の業務フロー」 2019/7/9 9 リサーチクエスチョンを決める必要なデータを探す論文データ/書誌情報を使う特許データ/書誌
情報を使うその他データを使う (プレスリリース /POS データ) データのクリーニング / 接合を行うエクセル/Python/Rでグラフを描く Stata/R/Python で回帰分析する KHCoder/R/Python でテキスト分析する R/Netdraw etc… でネットワーク分析する企業データを使う

研究手法(2) 1. ひとにきく 1. 発明したひと (=発明者) にきく 1. インタビューをする 2.
サーベイ調査をする (アンケートをとる) 2. 発明に関与したひとにきく 1. インタビューをする 2. サーベイ調査をする (アンケートをとる) 2. 測ってみる 1. 特許ではかってみる 1. だれとだれが特許を書いたかではかってみる 2. だれがだれの特許を引用しているかではかってみる 2. 論文ではかってみる 1. だれとだれが論文を書いたかではかってみる 2. だれとだれの論文を引用しているかではかってみる 3. 特許と論文のつながりではかってみる 1. どの特許が、どの論文を引用しているかで測ってみる 2. どの論文が、どの特許を引用しているかで測ってみる 3/8/2015 10

データベースを使った分析に必要な知識 • Excel で vlookup くらいを使ったことがある • (現在の)コンピュータは、「命令をしないと動かない」ことを知っている •
コンピュータに対して命令を書くときは（多くの場合） 2byte 文字ではなくて 1byte 文字で入力する必要があることを知っている • Ｓｅｌｅｃｔではなく, select と打つ必要があることを知っている • マニュアルの通りコンピュータは動かないことを知っている • 「コレは簡単ですよー」と, 技術者がいう「簡単」と, 自らが認識するところの「簡単」には相違があることを知っている • あきらめないこころ 3/8/2015 11

今日の内容 Notebook 環境を導入する Notebook で計算を行う Notebook で(重)回帰分析を行う SQARQL Endpoint でデータを取得する
RISIS API を使ってデータを取得する

1. Jupyter Notebook または Google Colaboratory の導入

Jupyter notebook とは • プログラムを実行し、実行結果を記録できるツール • 数値計算・データ解析で広く用いられている • 実行結果は notebook
形式で保存可能 • 便利なので使ってみましょう。

Jupyter Notebook のインストール(1) • 1. https://anaconda.com にアクセスし, Python3.7 バージョンの
[Download] をクリック Windows版 Mac版ダウンロードが終わるまで待つ。

Jupyter Notebook のインストール(1) • 2. [Download] をクリックする

Jupyter Notebook のインストール (3) • “Next >” をクリックする • “I
Agree” をクリックする

Jupyter Notebook のインストール(3) • “Next >” をクリックする • “Next >”
をクリックする

Jupyter Notebook のインストール (4) • “Install” をクリックする

Jupyter Notebook の起動 (1) • スタートメニューから, Jupyter Notebook を選択する

Jupyter Notebook の起動 (2) • コンソールが表示される

Jupyter Notebook の起動 (3) • New から Python 3 を選択する

Google Colaboratory • SaaS な Notebook by Google. • https://youtu.be/inN8seMm7UI

3-1. Google Colaboratory を開く • https://colab.research.google.com/notebooks/welcome.ipyn b?authuser=1#scrollTo=9J7p406abzgl を, google にログインした状態でオープンする.

3-1. Google Colaboratory を開く • 以下のような画面が表示される

3-2. 新しいnotebook を作成する • [ファイル]-[python3 の新しいノートブック] を選択する

Exercise 1: 数値計算をやってみる

今日の notebook Google Colaboratory 版 https://colab.research.google.com/drive/1 qeYXrHXGE5yTxP5SVSvfxK9zmmXnyokD Jupyter Notebook 版
https://www.dropbox.com/s/xj4uhfr6ycpt4 21/Empirical%20Analysis%20for%20Econo mics%20%232.ipynb?dl=0

Exercise 1: 1+1 = 2 を計算する • Jupyter notebook の
in: に, 1+1 をタイプする • 2 がout: に出力される

Exercise 2: 3*9-12+14/3 を計算する • Jupyter notebook の in: に,
3*9-12+14/3 をタイプする • 19.66666… がout: に出力される

Exercise 3(1): sin(1)+cos(2)+tan(3) を計算する Exercise 3(2): 円周率を確認する • Math パッケージをインポートする
• python の場合, データ処理 etc… を円滑を行うためにはパッケージをインポートします. • ここでは, 数学関数の含まれる math パッケージをインポートして, 続いて三角関数を計算してみます • Sin(1)+cos(2)+tan(3)を計算する • ついでに, 円周率を確認する • Out に以下の通り出力されます

Numpy パッケージを利用してみる • NumPy • 数値の配列・行列などを効率的に処理するパッケージ • http://www.numpy.org • インポートの方法
• 先程の数学関数と同じく import numpy as np とタイプし, ライブラリをインポートする

Exercise 4(1): ベクトル計算をやってみる • まずはnumpy をインポート • ベクトルaとベクトルbを定義 • ベクトルaとベクトルbの
中身を確認

Exercise 4(2): ベクトル計算をやってみる • ベクトルa の2乗を求める • ベクトルa+bの要素ごとの積を求める •
ベクトルの内積を求める

Exercise 5: 行列演算をやってみる • 5x5 の行列cをランダムな値で作成する • 出力してみる

Exercise 5(2): 行列演算をやってみる • 逆行列C-1を求める np.linalg.inv(c) • 行列C*C-1 して, 単位行列E
になることを確認する c.dot(np.linalg.inv(c))

Panda パッケージを利用してみる • pandas • Python でデータ解析を行うためのパッケージ • Excel の表やSQL
を直接取り込んで処理するのにピッタリ • データ構造 • 一次元: Series • 二次元: DataFrame (※. 個人的にはよく使います) • 行タイトルや列タイトルがつけられる • 文字列と数字を excel みたいに混在出来る • インポートの方法 • import pandas as pd

Exercise (6): Pandas パッケージで行列を DataFrame に変換する • Pandas パッケージをインポートする
• import pandas as pd • 先程作成した行列c を DataFrame に変換する • Data “F”rame になってるようにチェック • 出力する • 行番号と列番号が付いていることが確認できる

Exercise (6-2): 行番号と列番号を名称変更する • Pandas パッケージをインポートする • import pandas
as pd • 先程作成した行列c を DataFrame に変換する • Data “F”rame になってるようにチェック • 出力する • 行番号と列番号が付いていることが確認できる

Exercise (6-3): 行番号と列番号を名称変更する • 行番号を変更する • df1.columns で指定 • (データフレーム名).変更箇所
• 列番号を変更する • df1.index で指定 • (データフレーム名).変更箇所 • 出力して確認

Exercise (7): DataFrame 内の要素を指定する • 行と列の位置を指定して, 値を取り出す • 特定の列の値を取り出す
• at を用いて, 単一要素を取り出す • 特定の行の値を取り出す

回帰分析 • 変数 X, Y のデータがあるとき, データからY をX で説明する回帰方程式と呼ばれる式を求めること
• Y; 被説明変数 • X; 説明変数 • X と Y それぞれの観測数を i とすると、 • = 0 + 1 + , = 1,2, … , と書ける. 0 と1 は未知パラメータ. は誤差項または撹乱項となる.

回帰分析 (cont.) • 回帰分析における仮定 • Xi は確率変数ではなく, 固定された値をとる • 誤差項は確率変数であり,
期待値は0 となる. すなわち, E( ) = 0 • 誤差項とは無相関となる. ( , ) = = 0 • 誤差項の分散は一定となる. ( ) = 2 = 2

回帰分析 (cont.) • 最小自乗推定量 • ෢ 1 = σ(− ത
)(−ത ) σ(− ത )2 = σ(− ത ) σ(− ത )2 • ෢ 0 = ത - ෢ 1 ത • ത および ത はそれぞれ , の標本平均となる. • 前述の仮定において, 最小自乗推定量は最良線形不偏推定量を満たす. (ガウス・マルコフの定理) • 決定係数 • 誘導系 (reduced form) の回帰式の説明力を示す値 • R2 = σ(෢ − ത )2 σ(− ത )2 = 1 − σ 2 σ −ത 2 , ℎ = − ෢ 0 - ෢ 1

単回帰分析を廻してみる • Y=αX+β をベタに求めてみましょう • 決定係数や係数を求める • 使うデータ • 落合博満(ロッテ,
中日, 巨人, 日本ハム) の打率(X)と年俸(Y) • データソース • https://nipponbaseball.web.fc2.com/personal/batter/ochiai_hiromitsu.html

Excercize (8): 単回帰のために必要なライブラリを取り込み, データを入れ込む • matplot.lib.pyplot と scipy.stats をインポートする
• avg 変数と salary 変数を作成する

Exercise (8-2): 単回帰分析を回す • avg とsalary をそれぞれ, Numpy x, yに変換する
• 回帰分析を lingregress で実施する • 回帰分析の結果を出力する (p値的に, 打率は年俸を説明できていない可能性)

Exercise (8-3): 単回帰分析を回す • x,y の散布図と回帰曲線をプロットして表示する • どうやら、打率は年俸を説明出来ていない様子
• Self Exercise • 打率ではない、別の変数 (Ops やホームラン数) を引っ張ってきて, 同じように単回帰を廻してみましょう

Exercise (8-4); 単回帰を回す alternative バージョン • statsmodels.api モジュールを使う •
add_constatnt によって定数項を追加する • Excel やStata で解析したのと似たような表が出力される

重回帰分析 • 複数の説明変数が被説明変数に影響を与えると推定する • 複数の説明変数を, 1 , 2 , …
, と表した場合 • = 0 + 1 1 + ⋯ + + , = 1,2, … , と表される. 0 … は未知パラメータとなる. また, は誤差項である. • 仮定 • 説明変数1 , 2 , … , は確率変数ではなく, 固定された値を取る • 誤差項は確率変数であり, 期待値は0 となる. すなわち, E( ) = 0 • 誤差項とは無相関となる. ( , ) = = 0 • 誤差項の分散は一定となる. ( ) = 2 = 2 • 説明変数は他の変数の一次結合として表すことはできない. すなわち, 0 + 1 1 + ⋯ + = 0 となる 0 , 1 , … , は 0 = 1 = ⋯ = = 0以外に存在しない. このことを, 変数間に多重共線性がないという.

重回帰分析 (cont.) • それぞれ, 以下の通りベクトルおよび行列を仮定する. • = 1 2 …
, = 1 ⋯ ⋮ ⋱ ⋮ 1 ⋯ , = 0 1 … , = 1 2 … • 行列表示で表すと, • = + • = 0 • ′ = 2

重回帰分析 (cont.) • 最小自乗推定量 • ෡ = (′)−′ • 決定係数
• R2 = σ(෢ − ത )2 σ(− ത )2 = 1 − σ 2 σ −ത 2 , ℎ = − ෢ 0 - ෢ 1 • ところが, 重回帰分析の場合, 説明変数を増やすと誤差項 σ 2 が小さくなり, 結果, 決定係数が大きくなる可能性がある. そこで, 自由度修正済み決定係数を用いる • 2 = 1 − σ 2/(−−1) σ −ത 2/(−1)

重回帰分析 (cont.) • 多重共線性 • 0 + 1 1 +
⋯ + = 0; = 1,2, … , が成立するとき, 説明変数間に多重共線性があるという. • 多重共線性がある場合, ≠ 0であれば, = − 0 + 1 1 + ⋯ + −1 −1 となり, すなわち, を他の説明変数で説明できる. • 対処方法; • VIF を用い, 多重共線性のチェックを行う

重回帰分析を行う • サンプルデータ • Scikit-learn の住宅価格データ • ボストンの506地区について, 犯罪率や固定資産税率, 教師あたりの生
徒数などの属性値と, 住宅平均価格をテーブルに • 目的変数を target, 説明変数を boston に振り分ける

重回帰分析を行う CRIM 町ごとの人口一人あたりの犯罪率 AGE 1940年以前に建てられた、所有者が住む建物の割合 ZN 宅地の比率。25,000平
方フィート以上のゾーンで数えた値 DIS ボストンの5つの雇用中心からの距離 INDUS 町ごとの非小売業の面積比 RAD 放射状幹線道路からの距離 CHAS チャールズ川に道がつながっているか TAX 固定資産税率 NOX NOx 濃度 PTRATIO 町ごとの教師あたりの生徒数 RM 住宅あたり部屋数 B 町ごとの黒人比率 LSTAT 低階層人口の比率 MEDV 所有者が住む住宅の価値の中央値

Exercise(9) 重回帰分析を行う • データセットをsklearn から取り込む • データを dset に放り込む
• boston に説明変数を放り込む • target に被説明変数を放り込む • 結果をアウトプットする

Exercise(9-2) 重回帰分析を行う • 出力結果

Exercise(10): VIF 値を確認する • 多重共線性のチェック • statsmodels.stats.ou tliers_influence から
variance_inflation_fa ctor を使って VIF(Variance Inflation Factor) をチェックする

Extension; パネルデータ解析 • パネルデータ • N 個の主体（人，企業，団体，県，国など）の各々に関して T 期間にわたって観測された
データ • パネルデータのメリット • (a) データ数が増えることにより，自由度が大きくなるので，推定精度が向上する． • (b) 主体間の異質性をモデルに取り込むことは，単一の時系列，あるいはクロスセクションのみでは不可能であるが，それが可能になる． • (c) 主体間の異質性は，一般に観測不可能な主体固有の要因であり，そのような要因以外の全体の関係を分析することが主目的ならば，固有の要因を除去した分析が可能である． Source: https://www-cc.gakushuin.ac.jp/~20130021/ecmr/panel.pdf

Extension; パネルデータ解析 • = + ′ + (i =1 ,···,N;
t =1 ,···,T) • このとき, 誤差項は以下の仮定を満たす. • = 0, = { 2 = かつ = のとき , 0(その他) • ; 未知の係数ベクトル • ′ ; 説明変数の p*1 確率ベクトル • 誤差項との独立性が仮定される (狭義外生性; strict exogeneity) • ; 主体 i に特有の個別効果 (individual effect) Source: https://www-cc.gakushuin.ac.jp/~20130021/ecmr/panel.pdf

Extension; パネルデータ解析 • 固定効果モデル (Fixed Effect Model) • を定数のパラメータと仮定する •
変動効果モデル (Random Effect Model) • を主体ごとに独立な確率変数と仮定し, • = 0, 2 = 2, = 0 を満たす。

Extension; パネルデータ解析 • パネルデータ • 識別IDと時系列が含まれているデータ

Extension; パネルデータ分析 • Linearmodels パッケージをインストールする # !pip install linearmodels

Extension; パネルデータ分析 • Linearmodels から PanelOLS, RandomEffects パッケージをインポートする

Extension; パネルデータ分析 • サンプルのデータセットを読み出す • データセットから, 年データを取り出しインデックスとしての設定を行う

Extension; パネルデータ分析 • データの構造

Extension; パネルデータ分析 • 被説明変数と説明変数を指定し, 変動効果モデルを解析する

Extension; パネルデータ分析 • 固定効果モデルを解析する

Exercise 2: FIFA19のデータで重回帰分析を行う

今日の notebook (その2) Google Colaboratory 版 https://colab.research.google.com/drive/1 h7NY4ByUp5MkB1-eU__Lp8jAwTMLTFiT Jupyter Notebook
版 https://www.dropbox.com/s/y3xiinmkp6w 6lbj/fifa19%20%E3%81%AE%E3%83%87%E 3%83%BC%E3%82%BF%E3%81%A7%E5%8 D%98%E5%9B%9E%E5%B8%B0%E3%81% A8%E9%87%8D%E5%9B%9E%E5%B8%B0 %E5%88%86%E6%9E%90%E3%82%92%E8 %A1%8C%E3%81%A3%E3%81%9F%E7%B5 %90%E6%9E%9C..ipynb?dl=0

データセット CSV ファイル https://www.dropbox.com/s/n6vvh772nut nr75/data2.csv?dl=0 XLSX ファイル https://www.dropbox.com/s/7vl5p1vsfo3k bsf/data.xlsx?dl=0

データセット (その1) • FIFA19 Datasets; クロスセクションデータ • https://www.kaggle.com/karangadiya/fifa19 FIFA 19
に収録されているフットボールプレイヤー選手の能力値や市場価値をまとめたデータ

データセット(その1)

分析について • どれを説明変数/被説明変数にするかはおまかせします • サラリー and/or 市場価値 and/or 能力? •
ダミー変数の作成などもおまかせします • 必要あれば, 火曜日の講義で補足します

考えうる仮説 • 選手の加齢は市場価値を押し下げる • クラブの移籍は選手のサラリーを押し上げる • 国際的な認知度は選手の市場価値を押し上げる • 現在の契約終了年までの期間が短いほど、市場価値を上げる •
南米出身の選手は、欧州出身の選手に比べサラリーの水準が低い • Etc…

Notebook の解説やっていること・Excel にしたデータをJupyter Notebook に取り込む (同じディレクトリにデータを入れておくこと) ・シートの1枚目
(0番目) を input_sheet_df にインポートする・input_sheet_df.head(10) で, データの 10番目までを表示する Messi や Ronaldo, Suarez などのデータが表示されていることが確認できる

Notebook の解説やっていること・説明変数と被説明変数をそれぞれの列から取り出す (.iloc [行, 列]で, 行を指定せず列のみを指定する)
・scipy.stats.lingress(説明変数, 被説明変数) で単回帰を回す・散布図および, 単回帰分析の結果をアウトプットする

Notebook の解説被説明変数; overall (ゲーム上での総合評価) 説明変数; age (年齢) 年齢が高くなるほど, 総合的な評価が高くなる
-> おそらく, 評価の高くない選手は引退している

Notebook の解説 sm.OLS(被説明変数, 定数項+説明変数) で回帰分析を行い, 結果を表として出力する被説明変数; overall (ゲーム上での総合評価)
説明変数; age (年齢) 定数項および説明変数はそれぞれプラスに有意だが, R修正項は高くない。

Notebook の解説 sm.OLS(被説明変数, 定数項+説明変数) で回帰分析を行い, 結果を表として出力する被説明変数; wage (年俸)
説明変数; age (年齢) 定数項はマイナス, 説明変数はプラスに有意だが, R修正項はかなり高くない。

Notebook の解説 • plt.scatter パッケージを用い, wage (年俸)とage(年齢) をプロットする •
30歳までは年俸は上昇していくが, その後下方トレンドがあることが確認できる • いくつか外れ値があることが確認できる

Notebook の解説 • Seaborn パッケージで, ヒストグラムと散布図を同時にプロットする • 年齢はF分布,
年俸はべき乗分布に近いことが確認できる • 外れ値はメッシやクリスティアーノロナウドなど.

Notebook の解説 • 同様に, 重回帰分析を sm.OLS パッケージを用いて行う • 説明変数が空の行を削除する
(x_list.drop… 以下) • 年齢とレピュテーション, 契約満期までの残り年数および評価値はプラスに有意, 定数項はマイナスに有意, 利き足ダミーは有意であるとはいえないことが確認できる

Notebook の解説 • VIF値を確認する (第二回の講義参照) • いずれも10は超えてないことが確認できる

Notebook の解説 • sns.pairplot を使って, 変数間の散布図および, ヒストグラムを表示する •
.savefig を用いて, 出力結果を保存する

わかること・年俸の分布はかなりskew ・年齢と年俸の単回帰の傾きは, 右利きと左利きでかなり違う(メッシエフェクト?) ・年齢が高くなると, 残りの契約期間は短くなる（自明）・国際的なレピュテーションと, 総合的な
評価は正の関係・年齢と総合的な評価もやはり正の関係 (生存バイアス)

やってみよう • 被説明変数/説明変数を入れ替える • 異なるデータセットと接合する • 今までのケース in 一橋 •
FIFA ランキングのデータを持ってきて, 国名をベースにデータセットに統合する • OECD の per capita GDP のデータを持ってきて, 国名をベースにデータセットに統合する • 面白い結果が出たら発表してみましょう

2. Linked Open Data や API からデータを取得しよう

1. オープンデータで出来ること

今までのおさらい • 無償で利用できるデータ • 特許 • IIP パテントデータベース • 論文
• Microsoft Academics • J-global • 企業 • (Yahoo! ファイナンス) • 有償で利用できるデータ • 論文 • Web of Science • Scopus • 企業 • 帝国データバンク • 日経NEEDS

とにかくデータベースは高い • Web of Science • n年分のデータで数千万円 • 帝国データバンク •
一件データを取りに行くたびに数万円 • データを円滑に解析するためには, データそのものだけではなくそれを解析できる環境も必要不可欠 • オンプレミスの環境を社内/学内に構築したりとか, AWS か Windows Azure か Google Big Query をサブスクライブしたりとか • データを解析するにはとっても手間もお金もかかる(外注ならなおさら)

データベースが高すぎて分析できなあああああああい！

でもオープンデータを使えると世界は変わる

今日のメインテーマ; オープンデータ • オープンデータとは • “特定のデータが、一切の著作権、特許などの制御メカニズムの制限なしで、全ての人が望むように利用・再掲載できるような形で入手できるべきであるというアイデア” • “オープンデータとは、自由に使えて再利用もでき、かつ誰でも再配布
できるようなデータのことだ。従うべき決まりは、せいぜい「作者のクレジットを残す」あるいは「同じ条件で配布する」程度である“ https://ja.wikipedia.org/wiki/%E3%82%AA%E3%83%BC%E3%83 %97%E3%83%B3%E3%83%87%E3%83%BC%E3%82%BF

Level of Open Data ★ Available on the web (whatever
format) but with an open licence, to be Open Data ★★ Available as machine-readable structured data (e.g. excel instead of image scan of a table) ★★★ as (2) plus non-proprietary format (e.g. CSV instead of excel) ★★★★ All the above plus, Use open standards from W3C (RDF and SPARQL) to identify things, so that people can point at your stuff ★★★★★ All the above, plus: Link your data to other people’s data to provide context https://www.w3.org/DesignIssues/LinkedData.html https://5stardata.info/ja/

オープンデータのエッセンス • データがオープンライセンスで公開されていること • コンピューターが処理できる形式になっていること • オープンに利用できるフォーマットでデータが公開されていること • Web
標準でデータが公開されていること • 外部データともリンク可能なこと • これらを踏まえたのが, Linked Open Data

統計データのRDF (Resource Description Framework) 化 • 統計表のデータ定義では、統計表のセルごとにRDF化を行ないます。 •
統計表の各セルに対してIDを振り、それを主語とします。 • 各セルに対して、次元、測度、属性、観測値を、それぞれ述語、目的語として定義します。 • 主語、述語、目的語の３つの要素を「トリプル」といいますが、ひとつの統計値（統計表のセル）は複数のトリプルによって表されます。 http://data.e-stat.go.jp/lodw/outline/abstraction#1-1-1

オープンデータの具体例 1. Linked Brazilian Amazon Rainforest 2. Data.gov 3. 統計LOD
4. DBPedia

オープンデータの具体例; LINKED BRAZILIAN AMAZON RAINFOREST • Linked Brazilian Amazon Rainforest
Data is such a dataset that is openly available for anyone to use for non-commercial research. The data was produced as a joint effort by the Institute for Geoinformatics, University of Muenster, Germany and the National Institute for Space Research (INPE) in Brazil. • The data can be accessed in a Linked Data fashion via a SPARQL-endpoint, and via dereferenciable URIs. The data consists of 8250 cells—each of size of 25 km * 25 km—capturing the observations of deforestation in the Brazilian Amazon Rainforest and a number of related and relevant variables. This spatiotemporal deforestation data was created using a number of aggregation methods from different sources. The data covers the whole Brazilian Amazon Rainforest. http://linkedscience.org/data/linked-brazilian-amazon-rainforest/

オープンデータの具体例2; data.gov • アメリカの政府系データを収集したポータルサイト • CSV やRDF, XML
形式でデータを取得できる • https://catalog.data.gov/

オープンデータの具体例2; data.gov • Popular Baby Names • “Popular Baby Names
by Sex and Ethnic Group Data were collected through civil birth registration. Each record represents the ranking of a baby name in the order of frequency. Data can be used to represent the popularity of a name. Caution should be used when assessing the rank of a baby name if the frequency count is close to 10; the ranking may vary year to year.” • https://catalog.data.gov/dataset/ most-popular-baby-names-by- sex-and-mothers-ethnic-group- new-york-city-8c742

オープンデータの具体例2; data.gov

オープンデータの具体例3; 統計LOD • 日本の政府系機関が収集したデータがLOD として公開されている • http://data.e-stat.go.jp/lodw/ •
消費者物価指数や経済センサスなどが収録 • SPARQL Endpoint; http://data.e- stat.go.jp/lod/sparql/

新宿区にいる日本人の人口を取得する

オープンデータの具体例4; DBPedia • “DBpediaは，Wikipediaから構造化データセットを抽出することで，セマンティックWeb技術によるフリーの知識ベースを構築している。Wikipediaは，著作権者等の表示と同じライセンスの適用をすれば，自由に複製・改変・再配布等ができる。 • “そのため，DBpediaのようにWikipediaから構築したデータも問題なく活用できるようになっている”
https://www.jstage.jst.go.jp/article/johokanri/60/5/60_307/_html/-char/ja

日本語リンクトデータ・クラウド図 (at 2015-11-18)

Dbpedia のデータモデル • リンクトデータの4原則 1. 事物の名前づけにURIを使う 2. HTTP URIを使うことでそれをWeb上で調べられるようにする 3.
誰かがURIを引いたときには標準技術を使って有益な情報を提供する 4. 他のURIへのリンクを含むことで，人々がより多くの事物を発見できるように支援する • “人や施設のような実世界の物や，色や単語，物の関係といった抽象的な概念についてもWeb上で扱えるようにする。”

Dbpedia のデータモデル

Scientist 同士の関係をネットワーク化

“オープン”なデータプラットフォーム • Figshare • RESAS • RISIS

figshare • データセットの共有サイト • https://figshare.com/

figshare • type: Datasets を指定した上で, “Economics” を検索する

figshare • データセットおよび, 論文に掲載された図がダウンロードできる • URL: https://figshare.com/articles/ Impact_of_economic_growth_
on_international_reserve_holdi ngs_in_Brazil/5792712

RESAS • https://resas.go.jp • 地域経済分析システム（2015年4月～） • ～Regional Economy Society Analyzing
System～ • 地方創生のデータ利用の「入口」として、地域経済に関する官民の様々なデータを、地図やグラフ等で分かりやすく「見える化」しているシステム • 各地域が、自らの強み・弱みや課題を分析し、その解決策を検討することを後押しするツール • Evidence Based Policy Making を目指した活動引用; http://www.kantei.go.jp/jp/singi/sousei/resas/pdf/h31-01-07- newinfo.pdf

RESAS の収録データ http://www.kantei.go.jp/jp/singi/sousei/resas/pdf/h31-02-28-data.pdf

実習0. RESAS からサマリーデータを取得 • 1. RESAS のトップページにアクセスする

実習0. RESAS からサマリーデータを取得 • 2. サマリーをクリックする

実習0. RESAS からサマリーデータを取得 • 別ページに遷移する, Scroll をクリックする

実習0. RESAS からサマリーデータを取得 • 比較する地域を選択し, “一括サマリーデータ作成”をクリック

実習0. RESAS からサマリーデータを取得 • Zip ファイルがダウンロードされるので, “すべて展開”する

実習0. RESAS からサマリーデータを取得 • 適当なxlsm ファイルを開き, “編集を有効にする” および “マクロの有効化”をクリック

実習0. RESAS からサマリーデータを取得 • “サマリ抽出データ再読込” をクリックする

実習0. RESAS からサマリーデータを取得 • 財務データも確認できる

RISIS • 欧州の大学コンソーシアムが運営する, イノベーションアクティビティに関するデータの収集および解析プラットフォーム • RISIS2 Project like the
RISIS CORE FACILITY (RCF), is organised around 3 major dimensions and activities: • 1. A front end, focusing on users, the ways they access RISIS, work within RISIS and build RISIS user communities. At the core is the RISIS Core facility (WP4). The core facility supports virtual transnational access (WP8) and is accompanied by all the efforts we do to raise awareness, train researchers and interact with them (WP2) and to help them build active user communities (mobilising D4Science VRE, WP7). • 2. A service layer that helps users organise problem based integration of RISIS datasets (with possibilities to complement with their own datasets) – this entails the data integration and analysis services (WP5) and methodological support for advanced quantitative methods (WP6). • 3. A data layer that gathers the core RISIS datasets that we maintain (WP5) and enlarge (WP9), the datasets of interest for which we insure reliability and harmonisation for integration (WP4), and the new datasets that we develop and will progressively open (WP10). https://www.risis2.eu/project-description/

RISIS Core Facility • https://rcf.risis2.eu/datasets

今日の実習その1 (10分程度) • Python + Jupyternotebook で, DBPedia.org からデータを引っ張ってこよう
• 利用するもの • Jupyter Notebook + Python3 • DBPedia.org の SPARQL Endpoint

今日のNotebook (その3) Google Colaboratory https://colab.research.google.com/drive/1 npKxMcJhwzPW0GCrnQ2-o3tDjyPO538Z Jupyter Notebook https://www.dropbox.com/s/txm22odnjz5 0g2j/Python%20%E3%81%A7%20SPARQL
%20Endpoint%20%E3%81%A8API%20%E3 %82%92%E4%BD%BF%E3%81%A3%E3%81 %A6%E3%81%BF%E3%82%8B.ipynb?dl=0

1-a. 必要なパッケージをインストールする • pip のバージョンをアップデートする • Python のコマンドを実行する場合には, 先頭に !
をつける

1-b. 必要なパッケージをインストールする • sparqlwapper をインストールする

2. DBpedia.org から, 経済学に関連するカテゴリ情報を取得する • インポートした SPARQLWrapper をインスタンスにする •
そのとき, どの Endpoint からデータを読み出すか設定する (今回は http://dbpedia.org/ontology/) • どういったデータを取り出すかクエリを指定する (特許データベース回参照) • 今回は, 経済学に関するカテゴリの情報を一括取得する • Query() メソッドでデータを取得し, convert() で読みやすい形に変換する

3. 出力結果を確認する

4. 東証一部上場企業のデータを取得する • 東証一部上場企業のデータを一括取得する • Query() メソッドでデータを取得し, convert() で読みやすい形に変換する

5-5. データを整形して出力する

6. 都道府県別の科学者データを取得する • 都道府県ごとに DBPedia.org (Wikipedia) に収録された科学者の数をカウントする

8. データを整形する For 文を使ってデータの各行ごとを取り出し, 都道府県名と都道府県ごとの Scientist の数を取り出してみる

9. 試しにクリックすると, Dbpedia へリンクする

実習3; RESAS API からデータを取得する • https://opendata.resas- portal.go.jp/ • API経由でデータを取得する •
右上の “RESAS-API 利用登録・ログイン” からアカウント登録を行い, API キーを取得する

実習3; RESAS API からデータを取得する • 取得したAPI キーを, などの形式で保存する(このとき, utf-8 で保存すること)
{“X-API-KEY”:“(API 登録画面に表示されたAPI キー)"}

実習3; RESAS をAPI で利用する • Notebook 上で必要なライブラリをインポートする

実習3; RESAS をAPI で利用する • API キーを取得できるか確認する.

実習3; RESAS をAPI で利用する • 都道府県のコード情報を取り込む • データを読み込む先の URL
情報を指定 • URL とともに, APIキーを指定する • データを取り込み, 中身を確認する

実習3. RESAS をAPI で利用する • データを取得できる

実習3. RESAS をAPI で利用する • Panda Dataframe に変換する

実習3. RESAS をAPI で利用する • 東京都の市町村コードを取得する

実習3. RESAS をAPI で利用する • 指定したURL にAPI キーを渡す • 東京23区の地域コードが取得できる

実習3. RESAS をAPI で利用する • 出力結果

実習3. RESAS をAPI で利用する • 一人あたりの固定資産税を取得する • 今回は東京都 (prefCode =
13) 国立市 (cityCode = 13215) のデータをまとめて取り出す.

実習3. RESAS をAPI で利用する • 出力結果

実習3. RESAS をAPI で利用する • Panda DataFrame 形式に変換する

まとめ • Web スクレイピングしなくても, Wikipedia のデータはだいたい取得できる • RDF が使えると,
無償でデータが活用できる • 多変量データの場合, ローカルPC環境にデータを置かなくても, RISIS などのプラットフォームを使えば解析ができる

To whom it may concern… • 今日の内容は一橋大学講義「経済学のための実践的データ分析」の一部を加筆修正したものです • 講義資料は以下にアップロードしているので,
ご興味あれば御覧ください • https://speakerdeck.com/yasushihara/ • https://www.slideshare.net/yasushihara • 似たような出張編を, 7/20に早稲田大学でも開催予定です.

References • 羽森茂之 (2000) 計量経済学, 中央経済社

THANKS [email protected]

#イノベーション研究のための実践的データ分析 β. Python に慣れて, 回帰分析をやって...

#イノベーション研究のための実践的データ分析 β. Python に慣れて, 回帰分析をやって, SPARQL Endpoint を使おう

More Decks by yasushihara

Other Decks in Education

Featured

Transcript