#経済学のための実践的データ分析 12.1 機械学習(決定木とSVM)+最終レポート作業編

経済学のための実践的データ分析 12.1 機械学習(決定木とSVM) +最終レポート作業編 28教室経済学研究科原泰史 [email protected]

確認事項 • 電源タップは足りているでしょうか？ • 最終レポートのご相談(あとで)

今日の内容. 機械学習 • Python を用いて、木構造を用いて分類および回帰を行う決定木の手法について、具体例の紹介および実習を行います。また、最終レポートについての説明を行います。 • これまでに学んだ手法を用いデータ解析を行うことで、グループでのレポートをまとめます。このグループの決定を行います。

今日の内容 (105分) 0. 最終レポート相談セッションについて 1: 最終レポートについて 2: 機械学習の話 3:成績評価の話

0.最終レポート相談セッションについて

7/15 に最終レポート相談セッションを開催します • 時間 • 2019/7/15 14:00-16:00 (予定) •
場所 • 一橋大学図書館時計台コモンズ

相談セッションで出来ること • 最終レポートに向けた相談/共同作業 • データの解析作業 • 講師との相談

注意 • あくまで非公式セッションなので, 参加は必須ではありません • 入館には学生証が必要とのこと

1. 最終レポートについて

まとめと最終報告レポート • 1組3-4名のグループを作り, そのメンバーで最終レポートを作成していただきます。 • データ分析組, データ調達組, プレゼンテーション作成組, プレゼンテーション担
当など役割分担はお任せします。 • 講義の最終回で, 発表時間10分, 質疑応答5分でプレゼンテーションをします。

最終レポートグループ分け • グループA • 2117235x • 2117265z • 2117224c •
2117121b • グループB • 1118198c • 1118123a • 2118097a • 2118119m • グループC • 2116093u • 2117149b • 2117281b • グループD • 2115015z • 2115360k • 2116255u • グループE • 2118135u • 4116220z • 2115037a • 2116264s

まとめと最終報告レポート • テーマ • 「◦◦のための実践的データ分析」 • 卒論や修論や博論の作成の入り口になるような、データの調達とそのデータの解析を, 講義で取り上げたデータセットおよび分析手法で実施する
• 分析単位はマクロ (国レベル) でもメソ (企業/産業レベル) でもミクロ (個人レベル) でも問いません • 利用できるデータセット • 特に制限なし • 利用できるツール • Tableau, Excel, SQL, Jupyternotebook (Python) など, 特に制限なし

まとめと最終報告レポート • 評価方法 • グループ内での自己評価 • グループ外からの評価アンケートシステムをManaba or Google
Docs で用意します。 • 評価基準 • (A.) グループ内の役割分担 (B.) データセットのユニークさおよび、それが適切に処理されているか (C.) 分析手法のユニークさおよび、それが適切に解析されているか (D.) プレゼンテーションのユニークさ (E.) 質疑応答にうまくリプライすることが出来ているか • 納品物 • プレゼンテーションに利用したファイル (Word か Powerpoint か Prezi か etc…) を, Manaba にアップロードすること • 発表 • 2019/7/18

「定量分析の業務フロー」 2019/7/11 14 リサーチクエスチョンを決める必要なデータを探す論文データ/書誌情報を使う特許データ/書誌
情報を使うその他データを使う (プレスリリース /POS データ) データのクリーニング / 接合を行うエクセル/Python/Rでグラフを描く Stata/R/Python で回帰分析する KHCoder/R/Python でテキスト分析する R/Netdraw etc… でネットワーク分析する企業データを使う

例.元 IIR 西口先生のネットワーク研究 • “コミュニティー・キャピタル中国・温州人企業家ネットワークの繁栄と限界” • http://doi.org/10.11207/taaos. 4.1_200
• データに頼らずに, 足で稼いでネットワークの動態をインタビュー調査から明らかにする • 足掛け10年（！） 2019/7/11 15

例. 元 IIR 西口先生のネットワーク研究 • “傑出したパフォーマンスで知られる中国・温州人企業家の国際的ネットワークは、コミュニティー・キャピタルに依拠する新たな社会ネットワーク分析に適した事例であり、近年ビッグ
データ一辺倒の観のある米国の定量分析 (Fleming et al. 2007) を補完する意味で、詳細なフィールド調査に基づく豊かな実証的知見を提供し得る。さらに Watts 等(1998, 1999, 2003) がシミュレーションで数学的に立証したスモールワールドの知見が、現実に応用可能なのは、実効的にコミュニティー・キャピタルに支えられた社会ネットワークに限定されることも示唆される。 ” 2019/7/11 16

あくまでリサーチクエスチョンが大切 • データはあくまでデータ • 研究の問いに合わせて必要なデータを持ってくるのが大切で、データに合わせて研究するのは本末転倒 (そういう研究も多いけど。。。) • 数年前に比べても利用できるデータはますますリッチになって
いるので、ますます、「どのような研究がしたくて」、「どのような問いを立てている」のかが大切に。 2019/7/11 17

プレゼンの雛形 • 表紙 • イントロダクション • 先行研究 • 問い •
仮説 • 集めたデータセット • データ解析結果 • 考察とインプリケーション • プレゼンの形式はお任せします • パワーポイント • Prezi • Tableau ストーリーなど, プレゼンを行うにあたり最適だと思われる手法をご選択ください

Prezi • https://prezi.com/2vakd9k8q-je/knowledge-flow-analysis/

tableau のストーリー機能

質疑応答の内容 • どのように研究を発展できる可能性があるか • データの取得方法や分析方法の妥当性 • どのような含意が得られるのか • 単純に、気になったこと, 知りたいこと

最終レポート回のタイムスケジュール • 最初に; 10:45-10:50 1. グループA 10:50-11:00 11:00-11:05 2. グループB
11:05-11:15 11:15-11:20 3. グループC 11:20-11:30 11:30-11:35 4. グループD 11:35-11:45 11:45-11:50 5. グループE 11:50-12:00 12:00-12:05 • 最後に; 12:05-12:10

最終レポート時の評価は manaba/respon 経由で行います

最終レポートの360°評価 • Respon でプレゼン後に投票を行ってください • 0 から10点までで採点が出来るので, レポートにたいして評価を行ってください •
自分たちのプレゼンにも点数をつけてください

必要あらば respon アプリをダウンロードしておいてください • https://respon.jp/

今日の最終レポートに向けたディスカッション (講義の最後の30分くらい) • 役割分担を決める • プレゼンの方法を決める • 何を問いにするのか？ •
先行研究として何が挙げられて, 仮説としてどのような内容が提起できるか。 • データセットは何か？取得可能か？ • データはどのように解析するのか？ • 結論として何が言えるのか？

2. AI を経済学で ”分析する”

最も網羅的なもの • https://www.nber.or g/books/agra-1

Trends in the number of AI patents granted world-wide Figure
• The number of patents granted has rapidly increased. • It shows the number of artificial intelligence (AI) patents granted by application country and reveals that it has increased more than threefold (from 708 items in 2012 to 2,888 items in 2016).’ • In particular, AI patents granted in the US increased by 1,628 items during this period (Figure 1a), accounting for approximately 75% of the increase worldwide . 30 (Source: Fuji and Managi (2017))

Trends in the number of AI patents, technology-wise granted worldwide
Figure • The patent share of each AI technology type changed from 2012 to 2016. • In 2012, biological and knowledge-based models were the leaders in patented AI technologies. • However, from 2012 to 2016, the number of patents granted for specific mathematical models and other AI technologies rapidly increased, doubling from 2015 to 2016. 31 (Source: Fujii and Managi (2017))

AI : Number of Patents/Scientific Papers by Year Number of
Papers Number of Patents 0 50000 100000 150000 200000 250000 USA PEOPLES R CHINA GERMANY JAPAN ENGLAND France Canada ITALY SPAIN Australia 0 200 400 600 800 1000 1200 1400 United States Japan Europe (Patent Office) Germany Korea Unite Kingdom France China Taiwan Israel India Source: Web of Science Core Collection Source: PatentsView(USPTO)

Robotics : Number of Patents/Scientific Papers by Year Number of
Papers Number of Patents Source: Web of Science Core Collection Source: PatentsView(USPTO) 0 50 100 150 200 250 300 350 1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010 2012 2014 2016 USA PEOPLES R CHINA GERMANY ENGLAND CANADA ITALY JAPAN FRANCE SPAIN AUSTRALIA 0 20 40 60 80 100 120 140 160 180 19761978198019821984198619881990199219941996199820002002200420062008201020122014 United States Japan Germany Korea France Sweden United Kingdom Italy China Europe (Patent Office) Switzerland

Fact Findings • AI 分野はアメリカと中国が dominate している • 日本は1980年代後半から90年代はじめに集中的に投資したが, その後縮小

3. Google Colaboratory で機械学習をやってみよう (as known as AI を経済学
で ”活用する”)

今日のnotebook • Manaba にアップロードしています

決定木分析 • 入力したデータから特徴を学習し、構造を視覚化できる • データのカテゴリ化を行える • カテゴリカルデータと数値データの両方での解析が可能 • 決定木分析のアルゴリズム •
ID3 • C4.5 • C5.0 • CART https://pythondatascience.plavox.info/scikit-learn/scikit- learn%E3%81%A7%E6%B1%BA%E5%AE%9A%E6%9C%A8%E5%88%86%E6%9E%90

Google Colaboratory • SaaS な Notebook by Google. • https://youtu.be/inN8seMm7UI

3-1. Google Colaboratory を開く • https://colab.research.google.com/notebooks/welcome.ipyn b?authuser=1#scrollTo=9J7p406abzgl を, 一橋ID でオープンする.

3-1. Google Colaboratory を開く • 以下のような画面が表示される

3-2. 新しいnotebook を作成する • [ファイル]-[python3 の新しいノートブック] を選択する

今日の Notebook • Google Colaboratory 版 • https://colab.research.google.com/driv e/1_jrQhBfSh_mAKzVibjMvi2Ni4c4jAn 1l

3-3. 必要なライブラリをインポートする # tensorflow を tf として import する import
tensorflow as tf # numpy や pandas など, 計算やデータ処理のライブラリを import する import numpy as np import pandas as pd # データ可視化のライブラリをインポートする import matplotlib.pyplot as plt # データセットの取得&処理のライブラリをインポートする from sklearn.datasets import load_boston from sklearn.model_selection import train_test_split # インポートの確認 print(tf.__version__) print(np.__version__) print(pd.__version__)

tensorflow • tensorFlow™ は、データフローグラフを使用して数値計算を行うためのオープンソースソフトウェアライブラリです。グラフ内のノードは数値演算を表し、グラフのエッジはノード間でやり取りされたデータの多次元配列（テンソル）を表します。柔軟性の高いアーキテクチャが採
用されているため、単一のAPIを使用して、デスクトップ、サーバーまたはモバイル端末の1つ以上の CPU またはGPUに計算機能をデプロイすることができます • TensorFlow は本来、Google のマシンインテリジェンス研究組織内の Google Brain チームに参加している研究者やエンジニアが機械学習や高度なニュートラルネットワークの研究用に開発したものでしたが、このシステムは汎用性が高く、他の領域にも幅広く適用することができます。 • https://www.tensorflow.org/ https://data.wingarc.com/tensor-flow-16087

利用するデータ • Scikit-learn の住宅価格データ • ボストンの506地区について, 犯罪率や固定資産税率, 教師あたりの生徒数などの属性値と, 住宅平均価格をテーブルに
• 第二回目で利用したデータセットと同じ

データセットの中身 CRIM 町ごとの人口一人あたりの犯罪率 AGE 1940年以前に建てられた、所有者が住む建物の割合 ZN 宅地の比率。25,000平
方フィート以上のゾーンで数えた値 DIS ボストンの5つの雇用中心からの距離 INDUS 町ごとの非小売業の面積比 RAD 放射状幹線道路からの距離 CHAS チャールズ川に道がつながっているか TAX 固定資産税率 NOX NOx 濃度 PTRATIO 町ごとの教師あたりの生徒数 RM 住宅あたり部屋数 B 町ごとの黒人比率 LSTAT 低階層人口の比率 MEDV 所有者が住む住宅の価値の中央値

重回帰分析での結果(第二回参照) • 出力結果

3-4. データセットを読み込む # データの読み込み boston = load_boston() # Pandasのデータフレーム形式へ変換 df
= pd.DataFrame(boston.data, columns=boston.feature_names) df['target'] = boston.target # データの最初の5行を表示 df.head()

3-4. データセットを読み込む # 取り出したデータセットを, 特徴量 (回帰分析における説明変数)とターゲット (回帰分析における被説明変数) に切り分ける
X_data = np.array(boston.data) y_data = np.array(boston.target) # １行目のデータの特徴量（X)とターゲット（y）を確認 print(X_data[0:1]) print(y_data[0:1])

3-5. データの正規化を行う # 正規化 # 平均0, 分散1 となるように def norm(data):
mean = np.mean(data, axis=0) std = np.std(data, axis=0) return (data - mean) / std # データを正規化したものに入れ替える # 正規化されたデータを確認する X_data = norm(X_data) print(X_data[0:1])

3-6. データセットの整形 # 1を追加する前のサイズを確認する print(X_data.shape) # 1の行を作成する ones = np.ones((506,
1)) # 1の行をデータセットに追加する X_data = np.c_[ones, X_data] X_data.shape

3-7. テストデータと訓練データへの切り分けを行う # x とy について, 全体の2割をテストデータとして, 残りを訓練データへと切り分けする
X_train, X_test, y_train, y_test = train_test_split(X_data, y_data, test_size=0.2, random_state=42) y_train = y_train.reshape(404,1) y_test = y_test.reshape(102,1) #分割したデータの長さを確認する print(X_train.shape) print(y_train.shape) print(X_test.shape) print(y_test.shape)

3-8. 線形回帰モデルの設定を行う # 学習率とエポック（反復処理回数）を設定する learning_rate = 0.01 training_epochs = 1000
# 特徴量の数 n_dim = X_data.shape[1] # 特徴量（X)とターゲット（y）のプレースホルダー # (作成される変数のための空の箱)を用意する X = tf.placeholder(tf.float32,[None,n_dim]) Y = tf.placeholder(tf.float32,[None,1]) # 係数（W）と定数項（b）の変数を指定する W = tf.Variable(tf.ones([n_dim,1])) b = tf.Variable(0.0)

3-9. コスト関数の設定および最適化を行う # 線形モデルを規定する y = tf.add(b, tf.matmul(X, W)) #
コスト関数を設定する # 予測値と実際の値の差が極力最小化するように, # yの値とY の値の差分を取る cost = tf.reduce_mean(tf.square(y - Y)) # 最適化を行う training_step = tf.train.GradientDescentOptimizer(learning_rat e).minimize(cost)

3-10. モデルを実行し, 誤差を確認する # 初期化 init = tf.global_variables_initializer() # モデルの訓練を開始する
sess = tf.Session() sess.run(init) # cost_history 変数のために空の値を入れておく cost_history=0 # for文を使って, 学習ごとの誤差の値を # cost_history の配列に放り込んでいく for epoch in range(training_epochs): sess.run(training_step, feed_dict={X:X_train, Y:y_train}) cost_history = np.append(cost_history, sess.run(cost, feed_dict={X:X_train, Y:y_train})) if epoch % 1000 == 0: W_val = sess.run(W) b_val = sess.run(b) # 誤差（cost）を確認 print(cost_history[1]) print(cost_history[50]) print(cost_history[100]) print(cost_history[1000]) ←誤差が次第に減っていく

3-11. 学習に基づく推計結果と, 実際の値との比較を行う # テストデータを使って予測を行う pred_test = sess.run(y, feed_dict={X:
X_test}) # 予測した価格と実際の価格の比較を行う pred = pd.DataFrame({"実際の不動産価格 ":y_test[:,0], "予測した不動産価格 ":pred_test[:,0], "差分":y_test[:,0]- pred_test[:,0]}) pred.head()

3-12. 散布図をプロットしてみる import seaborn as sns sns.jointplot(y_test[:,0],pred_test[:,0])

3-13. 決定木モデルの作成 #決定木モデルの作成を行う #sklearn より tree パッケージをインポートする from sklearn import
tree #DesisionTreeRegressor でモデルを構築する #木の深さは3 にする (max_depth=3) clf = tree.DecisionTreeRegressor(max_depth=3) #X と y それぞれのtrain データで計測を行い clf = clf.fit(X_train, y_train) #X_test 値に基づき予測を行う pred = clf.predict(X_test)

3-13. 決定木モデルの作成 #pydotplus をインポートする import pydotplus #StringIO をインポートする from sklearn.externals.six
import StringIO dot_data = StringIO() #決定木を図示化する tree.export_graphviz(clf, out_file=dot_data, filled=True, rounded=True) graph = pydotplus.graph_from_dot_data(dot_data.getvalue()) #Notebook 上に表示する from IPython.display import Image Image(graph.create_png())

決定木

決定木(n=5)

決定木 (n=7)

3-14. どの変数が作用するか確認 import matplotlib.pyplot as plt %matplotlib inline features =
df.columns importances = clf.feature_importances_ indices = np.argsort(importances) plt.figure(figsize=(6,6)) plt.barh(range(len(indices)), importances[indices], color='b', align='center') plt.yticks(range(len(indices)), features[indices]) plt.show() AGE が寄与することが確認できる

3-15. 回帰モデルの可視化 from sklearn.linear_model import Ridge from yellowbrick.regressor import ResidualsPlot
model = Ridge() visualizer = ResidualsPlot(model) visualizer.fit(X_train, y_train) # テストデータとの比較を行う visualizer.score(X_test, y_test) visualizer.poof();

3.16 SVM モデルの構築 • “学習データに対する最小の距離を最大化するような直線(超平面)を見つける” • それぞれのグループの中で、最も境界線に近い点
(サポートベクター) との距離 (マージン) が最大化するように線を引く http://labs.eecs.tottori- u.ac.jp/sd/Member/oyamada/OpenCV/html/py_tutorials/ py_ml/py_svm/py_svm_basics/py_svm_basics.html

3.16 SVM モデルの構築 #svm のテストをする # データセットの取得&処理のライブラリをインポートする from sklearn.svm
import LinearSVC from sklearn.model_selection import train_test_split from sklearn.datasets import load_breast_cancer cancer = load_breast_cancer() # x とy について, テストデータと訓練データへの切り分けを行う X_train, X_test, y_train, y_test = train_test_split( cancer.data, cancer.target, stratify = cancer.target, random_state=0)

3.17 SVM モデルの構築(2) from sklearn.preprocessing import StandardScaler #標準化 sc =
StandardScaler() sc.fit(X_train) X_train_std = sc.transform(X_train) X_test_std = sc.transform(X_test) #クラスの初期化と学習 model = LinearSVC() model.fit(X_train_std, y_train)

3.18 SVM モデルの構築(3) print('正解率 (train):{:.3f}'.format(model.sco re(X_train_std, y_train))) print('正解率 (test):{:.3f}'.format(model.scor e(X_test_std,
y_test)))

Extension • 『東京大学のデータサイエンティスト養成講座』 • https://blog.ikedaosushi.com/entry/2019/05/16/192708 • https://github.com/GoogleCloudPlatform/gcp-getting- started-lab- jp/tree/master/machine_learning/cloud_ai_building_blocks

4. 成績評価の方法

成績評価(1) • 平常レポート (40パーセント; 必須) • 講義計画に示したように、複数の回で学生にはレポートを課します。レポートは Word/PowerPoint形式のメールあるいは, github
経由での提出が求められます(どの方法を採用するかは、初回の講義で決定します)。 • レポートには、(A.) 利用したデータセットとその内容, (B.) 分析の問い, (C.) 分析手法, (D.) 分析結果を明記する必要があります。ページ数や文字数は問いませんが, これらの内容が含まれており, 講義中にアナウンスする評価手法を満たす場合, 高い得点を得ることが出来ます。 • 平常点 (10パーセント) • 本講義は実習が多く含まれており, また取り扱うデータセットや内容も多彩です。そのため、受講者同士が協力する必要があります。こうした受講者の態度を評価するために、平常点を設けます。

成績評価(2) • 最終レポート (40パーセント; 必須) • 講義の最終回では最終レポートの報告会を行います。受講者は3名から4名から構成されるグループで、最終レポートの報告を行う必要があります(人数は受講者の人数により変更される可能性があります)。最終レポートでは、プレゼンテーションの方法を学生は自由に選ぶことが出来ます。PowerPoint
以外にも、Prezi などのアクティブプレゼンテーションツールや、他のプレゼンテーション手法を用いることが出来ます(プレゼンテーションツールについては、必要であれば講義内で説明する機会を設けます)。最終レポートでは、以下の点について評価を行います。 (A.) グループ内の役割分担 (B.) データセットのユニークさおよび、それが適切に処理されているか (C.) 分析手法のユニークさおよび、それが適切に解析されているか (D.) プレゼンテーションのユニークさ (E.) 質疑応答にうまくリプライすることが出来ているか • 最終レポートの360°グループ評価 (10パーセント) • 3. の最終レポートについて、グループの自己評価および他のグループからの評価を行います。3. で挙げた評価ポイントに基づき、グループメンバーおよび他のグループは評価を行います。

不受験採点基準引用: 一橋大学授業ハンドブック

最高成績基準引用: 一橋大学授業ハンドブック

成績評価 • 平常レポート • レポート1; max 15 • レポート2; max
10 • レポート3; max 15 • 最終レポート • 40点 • 最終レポートの360°評価 • 10点 • 投票システムから集計したデータを按分します

参考文献 • https://www.codexa.net/tensorflow-for-begginer/ • http://tekenuko.hatenablog.com/entry/2016/09/19/214330 • http://www.randpy.tokyo/entry/python_random_forest • FUJII Hidemichi,
MANAGI Shunsuke (2017) «Trends and Priority Shifts in Artificial Intelligence Technology Invention: A global patent analysis», RIETI Discussion Paper Series 17-E-066, https://www.rieti.go.jp/jp/publications/dp/17e066.pdf • The Economics of Artificial Intelligence: An Agenda, https://www.nber.org/books/agra-1

THANKS [email protected]

#経済学のための実践的データ分析 12.1 機械学習(決定木とSVM)+最終レポート作業編

#経済学のための実践的データ分析 12.1 機械学習(決定木とSVM)+最終レポート作業編

More Decks by yasushihara

Other Decks in Education

Featured

Transcript