#イノベーション研究のための実践的データ分析 γ. RESAS API からデータを取得して統計処理したり, テキスト分析で WordCloud や Word2vec で解析したり, Twitter API からツイートを取得して解析したり, 感情の分析をやってみよう

経済学のための実践的データ分析 γ. RESAS API からデータを取得して統計処理したり, テキスト分析で WordCloud や Word2vec
で解析したり, Twitter API からツイートを取得して解析したり, 感情の分析をやってみよう慶應義塾大学三田キャンパス 322教室 16:30-19:00 一橋大学経済学研究科原泰史 [email protected]

今日の目標エントリーシートに PYTHON と書けるようになるゼミのコンペで使えるデータを自分で取得できるようになる

今日までの宿題 Notebook 環境に慣れる自分が解析したいデータで重回帰分析できるようになる DBPedia.org から関心のあるカテゴリのデータを取得できるようになる

皆さんからのリクエストに基づき資料を用意しました

今日の内容 Notebook 環境を導入する RISIS API を使ってデータを取得するテキスト分析を行う (Wordcloud, Word2vec, Topic
Model) Twitter の口コミ分析を行うためにデータ取得を行い, テキスト分析を行う感情分析を行う

1. Jupyter Notebook または Google Colaboratory の導入

Jupyter notebook とは • プログラムを実行し、実行結果を記録できるツール • 数値計算・データ解析で広く用いられている • 実行結果は notebook
形式で保存可能 • 便利なので使ってみましょう。

Jupyter Notebook のインストール(1) • 1. https://anaconda.com にアクセスし, Python3.7 バージョンの
[Download] をクリック Windows版 Mac版ダウンロードが終わるまで待つ。

Jupyter Notebook のインストール(1) • 2. [Download] をクリックする

Jupyter Notebook のインストール (3) • “Next >” をクリックする • “I
Agree” をクリックする

Jupyter Notebook のインストール(3) • “Next >” をクリックする • “Next >”
をクリックする

Jupyter Notebook のインストール (4) • “Install” をクリックする

Jupyter Notebook の起動 (1) • スタートメニューから, Jupyter Notebook を選択する

Jupyter Notebook の起動 (2) • コンソールが表示される

Jupyter Notebook の起動 (3) • New から Python 3 を選択する

Google Colaboratory • SaaS な Notebook by Google. • https://youtu.be/inN8seMm7UI

3-1. Google Colaboratory を開く • https://colab.research.google.com/notebooks/welcome.ipyn b?authuser=1#scrollTo=9J7p406abzgl を, google にログインした状態でオープンする.

3-1. Google Colaboratory を開く • 以下のような画面が表示される

3-2. 新しいnotebook を作成する • [ファイル]-[python3 の新しいノートブック] を選択する

2. Linked Open Data や API からデータを取得しよう

1. オープンデータで出来ること

“オープン”なデータプラットフォーム • Figshare • RESAS • RISIS

figshare • データセットの共有サイト • https://figshare.com/

figshare • type: Datasets を指定した上で, “Economics” を検索する

figshare • データセットおよび, 論文に掲載された図がダウンロードできる • URL: https://figshare.com/articles/ Impact_of_economic_growth_
on_international_reserve_holdi ngs_in_Brazil/5792712

RESAS • https://resas.go.jp • 地域経済分析システム（2015年4月～） • ～Regional Economy Society Analyzing
System～ • 地方創生のデータ利用の「入口」として、地域経済に関する官民の様々なデータを、地図やグラフ等で分かりやすく「見える化」しているシステム • 各地域が、自らの強み・弱みや課題を分析し、その解決策を検討することを後押しするツール • Evidence Based Policy Making を目指した活動引用; http://www.kantei.go.jp/jp/singi/sousei/resas/pdf/h31-01-07- newinfo.pdf

RESAS の収録データ http://www.kantei.go.jp/jp/singi/sousei/resas/pdf/h31-02-28-data.pdf

実習0. RESAS からサマリーデータを取得 • 1. RESAS のトップページにアクセスする

実習0. RESAS からサマリーデータを取得 • 2. サマリーをクリックする

実習0. RESAS からサマリーデータを取得 • 別ページに遷移する, Scroll をクリックする

実習0. RESAS からサマリーデータを取得 • 比較する地域を選択し, “一括サマリーデータ作成”をクリック

実習0. RESAS からサマリーデータを取得 • Zip ファイルがダウンロードされるので, “すべて展開”する

実習0. RESAS からサマリーデータを取得 • 適当なxlsm ファイルを開き, “編集を有効にする” および “マクロの有効化”をクリック

実習0. RESAS からサマリーデータを取得 • “サマリ抽出データ再読込” をクリックする

実習0. RESAS からサマリーデータを取得 • 財務データも確認できる

RISIS • 欧州の大学コンソーシアムが運営する, イノベーションアクティビティに関するデータの収集および解析プラットフォーム • RISIS2 Project like the
RISIS CORE FACILITY (RCF), is organised around 3 major dimensions and activities: • 1. A front end, focusing on users, the ways they access RISIS, work within RISIS and build RISIS user communities. At the core is the RISIS Core facility (WP4). The core facility supports virtual transnational access (WP8) and is accompanied by all the efforts we do to raise awareness, train researchers and interact with them (WP2) and to help them build active user communities (mobilising D4Science VRE, WP7). • 2. A service layer that helps users organise problem based integration of RISIS datasets (with possibilities to complement with their own datasets) – this entails the data integration and analysis services (WP5) and methodological support for advanced quantitative methods (WP6). • 3. A data layer that gathers the core RISIS datasets that we maintain (WP5) and enlarge (WP9), the datasets of interest for which we insure reliability and harmonisation for integration (WP4), and the new datasets that we develop and will progressively open (WP10). https://www.risis2.eu/project-description/

RISIS Core Facility • https://rcf.risis2.eu/datasets

今日の実習その1 (10分程度) • Python + Jupyternotebook で, DBPedia.org からデータを引っ張ってこよう
• 利用するもの • Jupyter Notebook + Python3 • DBPedia.org の SPARQL Endpoint

今日のNotebook (その3) Google Colaboratory https://colab.research.google.com/drive/1 FkwWLOcnUa_cLjr_oNPGbRaZ_sRguyVp Jupyter Notebook https://www.dropbox.com/s/hgqweaq1w6 to7vu/Python%20%E3%81%A7%20SPARQL
%20Endpoint%20%E3%81%A8API%20%E3 %82%92%E4%BD%BF%E3%81%A3%E3%81 %A6%E3%81%BF%E3%82%8B.ipynb?dl=0

1-a. 必要なパッケージをインストールする • pip のバージョンをアップデートする • Python のコマンドを実行する場合には, 先頭に !
をつける

1-b. 必要なパッケージをインストールする • sparqlwapper をインストールする

2. DBpedia.org から, 経済学に関連するカテゴリ情報を取得する • インポートした SPARQLWrapper をインスタンスにする •
そのとき, どの Endpoint からデータを読み出すか設定する (今回は http://dbpedia.org/ontology/) • どういったデータを取り出すかクエリを指定する (特許データベース回参照) • 今回は, 経済学に関するカテゴリの情報を一括取得する • Query() メソッドでデータを取得し, convert() で読みやすい形に変換する

3. 出力結果を確認する

4. 東証一部上場企業のデータを取得する • 東証一部上場企業のデータを一括取得する • Query() メソッドでデータを取得し, convert() で読みやすい形に変換する

5-5. データを整形して出力する

6. 都道府県別の科学者データを取得する • 都道府県ごとに DBPedia.org (Wikipedia) に収録された科学者の数をカウントする

8. データを整形する For 文を使ってデータの各行ごとを取り出し, 都道府県名と都道府県ごとの Scientist の数を取り出してみる

9. 試しにクリックすると, Dbpedia へリンクする

実習3; RESAS API からデータを取得する • https://opendata.resas- portal.go.jp/ • API経由でデータを取得する •
右上の “RESAS-API 利用登録・ログイン” からアカウント登録を行い, API キーを取得する

実習3; RESAS API からデータを取得する • 取得したAPI キーを, などの形式で保存する(このとき, utf-8 で保存すること)
{“X-API-KEY”:“(API 登録画面に表示されたAPI キー)"}

実習3; RESAS をAPI で利用する • Notebook 上で必要なライブラリをインポートする

実習3; RESAS をAPI で利用する • API キーを取得できるか確認する.

実習3; RESAS をAPI で利用する • 都道府県のコード情報を取り込む • データを読み込む先の URL
情報を指定 • URL とともに, APIキーを指定する • データを取り込み, 中身を確認する

実習3. RESAS をAPI で利用する • データを取得できる

実習3. RESAS をAPI で利用する • Panda Dataframe に変換する

実習3. RESAS をAPI で利用する • 東京都の市町村コードを取得する

実習3. RESAS をAPI で利用する • 指定したURL にAPI キーを渡す • 東京23区の地域コードが取得できる

実習3. RESAS をAPI で利用する • 出力結果

実習3. RESAS を API で利用する • Panda Dataframe 形式に変換する

実習3. RESAS を API で利用する • 出力結果

実習3. RESAS をAPI で利用する • 一人あたりの固定資産税を取得する • 今回は東京都 (prefCode =
13) 国立市 (cityCode = 13215) のデータをまとめて取り出す.

実習3. RESAS をAPI で利用する • 出力結果

実習3. RESAS をAPI で利用する • Panda DataFrame 形式に変換する

実習3. RESAS をAPI で利用する • 都道府県ごとの集計値を取得する • For 文で47都道府県分
のデータを取得する • 創業比率のデータ • https://opendata.res as- portal.go.jp/docs/api /v1/municipality/foun dation/perYear.html

実習3. RESAS を API で利用する • データの取得結果

実習3. RESAS を API で利用する • 市町村コードを Dataframe で保存し, コードのみ取り出す

実習3. RESAS をAPI で利用する • 出力結果 • 東京都の市町村コードのみ取得できる

実習3. RESAS を API で利用する • 先程取得した東京都の区別コードリストを用い, 各区ご
との創業比率を取得する • DataFrame 形式に変換し, 保存する

実習3. RESAS をAPI で利用する • 全都道府県の市区町村コードを取得し, DataFrame として保存する

実習3. RESAS を API で利用する • データの取得結果

実習3. RESAS をAPI で利用する • 市町村レベルの企業数のデータを取得する • https://opendata.resas- portal.go.jp/docs/api/v1/muni
cipality/company/perYear.htm l • 必要あらば, 産業分類のデータも取得できる • 先程作成した city_list を利用して, 全市区町村+特別区の企業数データを取得する

実習3. RESAS を API で利用する • 細かな解説(1) • 取得するAPIのURL を指定する
• 後ほどデータを放り込む空の DataFrame を用意する • Zip 関数を使って, city_list.prefCode および city_list.cityCode ごとに繰り返しの処理を行う • 今回の場合は, prefCode=1 の北海道から, 取得した cityCode ごとにデータを取得する

実習3. RESAS をAPI で利用する • 細かな解説(2) • データが存在しない市区町村があるため, そ
の場合 “not available” と表示させる • 企業数 (result), 市区町村名/コード, 都道府県名/コードを取得する • JSON からDataFrame 形式に変換して, それをs に追記していく

実習3. RESAS をAPI で利用する • 出力結果 • データが取得できなかった市区町村は not
available と表示される • それ以外のデータがリストとして表示される

実習3. RESAS をAPI で利用する • 都道府県ごとの累計企業数を集計する • 出力結果 s.groupby('prefName')['value'].sum()

実習3. RESAS をAPI で利用する • 都道府県ごとに平均値と総数を導出する import numpy as np
s.groupby('prefName').agg({'value' : [np.sum, np.mean]}) graph_s=s.groupby('prefName').agg({'value' : [np.sum, np.mean]}) print(graph_s)

実習3. RESAS を API で利用する • 棒グラフをプロットする import matplotlib import
pandas as pd from matplotlib import pylab as plt # matplotlibのデフォルトフォントをKozuka Gothic Pro に設定 font = {'family' : 'Kozuka Gothic Pro'} matplotlib.rc('font', **font) graph_s graph_s.plot.bar(y=['value'], alpha=0.6, figsize=(15,4)) • デフォルトのplot は日本語に対応していないため, フォントを指定する作業を行う

やってみよう • RESAS のAPI を使って, 都道府県や市区町村, 産業分類ごとにデータを取得し, 基礎統計の確認などを行う •
データリストはこちら; • https://opendata.resas-portal.go.jp/docs/api/v1/index.html

ここまでのまとめ • Web スクレイピングしなくても, Wikipedia のデータはだいたい取得できる • RDF が使えると,
無償でデータが活用できる • 多変量データの場合, ローカルPC環境にデータを置かなくても, RISIS などのプラットフォームを使えば解析ができる

3. テキスト分析: Mecab+word2vecで解析し, wordcloud を書いてみる

3. Mecab+word2vecで解析し, wordcloud を書いてみる • Jupyter Notebook/Google Colaboratory • Mecab
• Mecab-ipadic-neologd • Mecab-python-windows (Windows ユーザーの場合) 利用するもの • テキストデータ • 企業の概要データ • 日本の社会科学研究者リストデータセット

a. Mecab のインストール

MeCab とは • https://taku910.github.io/mec ab/ • 京都大学情報学研究科−日本電信電話株式会社コミュニケーション科学基礎研究所共同研
究ユニットプロジェクトを通じて開発されたオープンソース形態素解析エンジン • 言語, 辞書,コーパスに依存しない汎用的な設計 • パラメータの推定に Conditional Random Fields (CRF) を用いており, ChaSen が採用している隠れマルコフモデルに比べ性能が向上 MeCab ChaSen JUMAN KAKASI 解析モデル bi-gram マルコフモデル可変長マルコフモデル bi-gram マルコフモデル最長一致コスト推定コーパスから学習コーパスから学習人手コストという概念無し学習モデル CRF (識別モデル) HMM (生成モデル) 辞書引きアルゴリズム Double Array Double Array パトリシア木 Hash? 解探索アルゴリズム Viterbi Viterbi Viterbi 決定的? 連接表の実装 2次元 Table オートマトン 2次元 Table? 連接表無し? 品詞の階層無制限多階層品詞無制限多階層品詞 2段階固定品詞という概念無し? 未知語処理字種 (動作定義を変更可能) 字種 (変更不可能) 字種 (変更不可能) 制約つき解析可能 2.4.0で可能不可能不可能 N-best解可能不可能不可能不可能

Mecab をダウンロードする • Windows 10 環境の場合 • https://github.com/ikegami-yukino/mecab/releases • MeCab
0.996 64bit version を導入する • UTF-8 版で辞書を作成すること • MacOS 環境の場合 • HomeBrew 環境を利用する • https://www.karelie.net/install-mecab-mac/

Mecab のインストール (Windows ver.) • 言語を指定する • 文字コードを指定する

Mecab のインストール (Mac ver.) • Mecab とMecab 辞書のインストールをする brew install
mecab brew install mecab-ipadic

Mecab のテストをする (Windows 版) • 以下の通り, 分かち書きと品詞への分類が行われる

Mecab のテストをする (Mac版)

b. Mecab-ipadic-neologd のインストール

Mecab-ipadic-NEOlogd とは • https://github.com/neologd/ mecab-ipadic- neologd/blob/master/READ ME.ja.md • 多数のWeb上の言語資源から得た新語を追加することでカ
スタマイズした MeCab 用のシステム辞書 • Web上の文書の解析をする際に活用できる • 収録データ(一部) • 人名(姓/名)エントリデータ • ニュース記事から抽出した新語や未知語をエントリ化したデータ • ネット上で流行した単語や慣用句やハッシュタグをエントリ化したデータ • Web からクロールした大量の文書データ • 一般名詞/固有名詞の表記ゆれ文字列とその原型の組のリストをエントリ化したデータ

Mecab-ipadic-neologd を取得する git clone –depth 1 https://github.com/neologd/mecab-ipadic-neologd.git (git のインストールが必要)

7zip を使って辞書ファイルを解凍する (Windows の場合) 7zip のインストールが必要

辞書ファイルを作成する $ mecab-dict-index –d /Mecab/dic/ipadic –u Neologd.20190625-u.dic -f utf-8 –t
utf-8 mecab-user-dict-seed.20190624.csv

辞書をMeCab ディレクトリ内に配置

C:¥Program Files¥MeCab¥etc 以下にある mecabrc ファイルを差し替える NEologd の辞書を参照するようになる

固有名詞が取り出せるか確認するうさまると、田村麻美以外の固有名詞は抽出できる

c. mecab-python-windows のインストール

mecab-python-windows のインストール • Notebook 上で, !pip install mecab-python-windows を実行する

ここまでが下ごしらえ

テキスト解析をやってみる 1. Wordcloud を作る 2. Word2vec で特徴量を抽出する 3.
Topic モデルを構築する

1. Wordcloud • 言葉の出現頻度をプロットする • マスク画像を使えば任意の画像上にプロットすることが可能 http://kennycason.com/posts/2014-07-03-kumo-wordcloud.html

1. Wordcloud • “Mecabと WordCloud を使ってワードクラウドを作る” Notebook を参照のこと •
https://www.dropbox.com/s/fmjsp5ml 82deqps/Mecab%20%E3%82%92%E4% BD%BF%E3%81%A3%E3%81%A6%20w ordcloud%20%E3%82%92%E4%BD%9C %E3%82%8B.ipynb?dl=0

1. Wordcloud • 必要なパッケージをインポートする • 開くファイルを指定する • 今回は, DBpedia.org から取得した経済学者の概要を抽出し,
UTF-8 でエンコーディングしたテキストデータとして保存 • マスク画像も別途用意

1. wordcloud • Mecab パッケージを用いて, 分かち書きを行う • Text.replace() を用いて, 改行を取り外す
• Windows の場合には ¥r¥n

1. Wordcloud • 抽出した用語から, 助詞と助動詞を取り外す • ストップワード (解析対象に含めないターム) を指定する

1. Wordcloud • Wordcloud関数を用いて, ワードクラウドを出力する • Font_path で利用する日本語フォントを指定する(今回は同じパスに配置)
• Mask で, プロットするマスク画像を指定する • Stopwords に, プロットしないタームを指定したベクトル stop_wordsを指定する • wordc.to_file でファイルの保存名を指定する

1. Wordcloud • 出力結果 • Dbpediaから取得した経済学者の概要データが, 分かち書きされている

1. Wordcloud • 経済学者 • 経営学者

1. Wordcloud • 社会学者 • 法学者

これっぽい

2. Word2vec • テキストデータを解析し, 各単語の意味をベクトル表現化する • 単語間の近接性などを測定することが可能に
• Skip-Gram Model • 入力された単語を元に周辺語を出力する, 入力層, 隠れ層, 出力層から構成されたニューラルネットワークを規定する引用; https://www.randpy.tokyo/entry/word2vec_skip_gram_model

2. Word2Vec • 文を単語に分かち書きし, それぞれ入力層と出力層にインプットしニューラルネットに学習させていく • 入力層から隠れ層への重み行列;
W 隠れ層から出力層への重み行列; W’ をそれぞれ計算する • このとき、重み行列の各行のベクトルが, 単語の特徴を示すベクトルになる引用; https://www.randpy.tokyo/entry/word2vec_skip_gram_model

2. Word2vec • “Mecabと word2vec で解析する” Notebook を参照のこと • https://www.dropbox.com/s/kt3fxfgzx
1i6j3g/mecab%20%E3%81%A8word2ve c%20%E3%81%A7%E8%A7%A3%E6%9 E%90%E3%81%99%E3%82%8B.ipynb? dl=0

2. Word2vec • 必要なパッケージをインポートする • ファイルを読み込み, 分かち書きしたファイルを出力する

2. Word2vec • 出力結果

2. Word2vec • 分かち書きしたファイルに基づき, Word2vec モデルを生成する • このとき
• Min_count; 単語の出現回数 • Window; 入力単語からの最大距離 • Size; ベクトルの次元数 • Sg=1; skip-gram 形式でのモデリング • iter; 学習の反復回数 • 最後にファイルを保存する

わりと時間がかかるので, コーヒーでも飲んで待つ

2. Word2Vec • 学習したファイルを読み込む • 抽出したベクトルをリストアップする

2. Word2Vec • 経営学っぽいタームが抽出されている

2. Word2vec • 特定のタームと類似している単語リストを抽出する

Similarity Words の抽出(from 経営学者リスト) イノベーションマーケティング論技術経営コーポレート・ガバナンス医療 0.92人的資源
0.92MOT 0.98 神戸大学大学院経営学研究科 0.93 静岡 0.91評価 0.92開発 0.92第一人者 0.92 地域 0.91ほか 0.91システム 0.92人 0.91 経営情報学部 0.9勲 0.91知識 0.91組織論 0.91 県立大学 0.88技術 0.9マネジメント 0.9および 0.9 センター 0.88流通 0.9監事 0.88消費者 0.89 研究科 0.87分析 0.9課題 0.85にて 0.89 経営情報 0.87委員会 0.9Certified 0.85問題 0.88 研究所 0.84課題 0.9客員研究員 0.84受章 0.88 所長 0.83人 0.89技術 0.82期 0.87 長 0.82監事 0.89関係 0.82現代 0.87 准教授 0.81および 0.89プロジェクト 0.82勲 0.87 国際企業 0.8多摩大学 0.89 マーケティング論 0.81アドバイザー 0.87 経済 0.8地域経済 0.88領域 0.81及び 0.87 研究員 0.79サービス 0.88ホスピタリティ 0.8社会学 0.86

2. Word2vec • 特定タームのベクトル表現を確認する出力結果

2. word2vec • 語句ベクトル同士で近い言葉のリストを抽出する • 東大と一橋なので, 「組織学会」などそれっぽいタームが。

2. word2vec • 語句同士の類似度を抽出する • 一橋大学(の商学部)は九大よりは東大に近い • 一橋大学(の商学部)は経済学よりもイノベーションのほうが近い • 一橋大学(の商学部)は組織学会にとても近い

3. Topic モデル • 文章における単語の出現確率を推定するためのモデル • 出現する単語の種類と数が, トピック(カテゴリ) によって
異なると仮定する • 各文章は複数のトピックによって構成されており, 各トピックの単語分布を合算された形で単語が生成される https://qiita.com/icoxfog417/items/7c944cb29dd7cdf5e2b1

3. Topic モデル • “トピックモデルで解析する” Notebook を参照のこと

3. Topic モデル • 必要なパッケージをインポートする • 元文章からタームを取り出し, キー
ワードを抽出する • 今回のデータの場合, 社会学者ひとりひとりのタームが抽出されたベクトルが形成される参考文献; https://paper.hatenadiary.jp/entry/2016/11/06/212149

3. Topic モデル • 出力結果

3. Topic モデル • 辞書とコーパスをそれぞれ作成する • no_below; 2回以下表示しない単語は無視する • no_abobe;
全体の文章の10％以上に出現するタームを無視する

3. Topic モデル • 出力結果 1602 ソーシャルワーク 2 1265 ソーシャル・キャピタル
2 1524 タレント 2 1403 テレコム 2 725 テレビ 6 793 テーマ 5 559 デザイン 3 1451 デュルケーム 2 395 ドイツ 8 811 ニュース 3 1153 ネット 3 414 ネットワーク 10 310 ノンフィクション 3 33 バークレー 2 1467 フィールドワーク 3 1204 フェミニスト 2 1154 フェミニズム 3 1311 フェリス女学院大学 2 34 フランス 8 458 プロジェクト 3 415 ヘイトスピーチ 2 649 ペンネーム 2 1608 ホームレス 2 1057 ポスト 2 1058 ポストコロニアル 2 101 ポピュラー 3 679 マス 8 620 マスコミ 2 54 マスコミュニケーション 9 55 マスメディア 4 1126 マックス・ウェーバー 2 571 マックス・ヴェーバー 4

3. Topic モデル • 辞書とコーパスを読み込む

3. Topic モデル • topic_N で表示するトピック数を指定し, 出力する

3. Topic モデル

まとめ; テキスト分析で出来そうなこと • 共起ネットワーク • 言葉同士の関係性を明示化し, 可視化する • WordCloud •
みんなのなんとなくのイメージの可視化 • Word2vec • 言葉のベクトル化により, モデルへの組み込みが可能 • 被説明変数？説明変数？ • Topic モデル • グルーピングの可視化 • 類似語の提案

今日の実習; その2 • 取得したテキストデータを用いて, 分析を行う • Wordcloud の作成 •
Word2vec モデルの作成 • Topic モデルの作成などを試行して, 結果を出力すること

4. (Twitterを使った) 口コミ分析

利用する Notebook • Google Colaboratory 版 • https://colab.research.google.com/driv e/1qkYPKMmD86fEC4EKc_rR6mlqXE mB_8Er

Twitter のAPI を申請する • https://developer.twitter.com にアクセスする

Twitter の API を申請する • Apply for a developer account
をクリックする

Twitter の API を申請する • 利用目的を選択する

Twitter の API を申請する必要事項を入力し, Next をクリックする

Twitter の API を申請する • なぜ API を利用したいのか記入する

Twitter の API を申請する • 内容を確認し, Looks Good! をクリックする

Twitter の API を申請する • Submit Application をクリックする

Twitter の API を申請する • E-mail でメッセージが届くので Confirmation をする

Twitter の API を申請する • E-mail での Confirm を終えると, Developer
ページに遷移する

b. Twitter の API キーを取得する • Create an App をクリックする

b. Twitter の API キーを取得する • “Create an App” をクリックする

b. Twitter の API キーを取得する • Application の詳細を記入する

b. Twitter の API キーを取得する • Create をクリックする

b. Twitter の API キーを取得する • Keys and Tokens をクリックする

b. Twitter の API キーを取得する • Access Token & access
token secret の Create をクリックする

b. Twitter の API キーを取得する • Access Token が生成される

c. 自分のタイムライン情報を取得する • Twitter パッケージをインストールする

c. 自分のタイムライン情報を取得する • 先程取得したAPI キー情報を指定する • Twitter に Oauth 経由でアクセスする
• 自分のタイムライン情報を取得する

c. 自分のタイムライン情報を取得する • 自分がフォローしているユーザーのツイートが取得される

d. ハッシュタグに基づきデータを取得する • 利用するパッケージ (tweepyと datetime) をインポートする • b.
の作業で取得した Consumer_key, Consumer_secret, Access_token, Access_secret を指定する • 検索キーワードを変数として格納する • ツイートを取得する参考; https://qiita.com/kngsym2018/items/3719f8da1f129793257c

d. ハッシュタグに基づきデータを取得する • ファイル名を指定する • ファイルをテキストファイルとして出力する

d. ハッシュタグに基づきデータを取得するキーワードと出力するファイル名を指定すると, Twitter から取得したツイートの一覧が出力される

e. 取得したデータを解析する (wordcloud) • 早稲田大学 • 慶應大学

5. 感情分析

5. 感情分析 • Ekman and Friesen (1971) • 表情の研究を通じ, 感情表現には普遍的
な6つの感情 (怒り, 嫌悪, 恐怖, 喜び, 悲しみ, 驚き) があることを示す. • ただし, 西洋文化圏と東洋文化圏では表情の表出に違いがある. • 参照 • 日本人の基本6感情の表情は「エクマン理論」に従うか？ – 人工知能を用いて検証 • https://academist- cf.com/journal/?p=10185 • https://ocw.mit.edu/courses/brain-and- cognitive-sciences/9-00sc-introduction- to-psychology-fall-2011/emotion- motivation/discussion-emotion/ © Paul Ekman. All rights reserved.

利用する Notebook • Google Colaboratory • https://colab.research.google.com/driv e/1EZ3NMw3I9FrjTFEPBQQRiD4TtUD zJ4YF

5. 感情分析 • git から sentiment_ja パッケージを取得する • https://github.com/sugiyam
ath/sentiment_ja • 展開したディレクトリ (sentiment_ja) に移動する

5. 感情分析 • “!python setup.py install” でインストールする

5. 感情分析 • Analyzer パッケージをインポートして, 文字列を取り込む • 「三田でラーメン二郎の本店でヤサイカラメアブラマシマシの二郎を食べるのは素晴らしい」 •
「行列は切ない」

5. 感情分析 • 出力結果 • [{'sentence': '三田でラーメン二郎の本店でヤサイカラメアブラマシマシの二郎を食べるのは素晴らしい', 'emotions': {'happy':
'7.0', 'sad': '1.0', 'disgust': '1.0', 'angry': '1.0', 'fear': '1.0', 'surprise': '12.0'}}, {'sentence': '行列は切ない', 'emotions': {'happy': '1.0', 'sad': '8.0', 'disgust': '5.0', 'angry': '3.0', 'fear': '1.0', 'surprise': '1.0’}}] • Happy, sad, disgust, angry, fear, surprise で分類される

参考文献 • pythonでgensimを使ってトピックモデル(LDA)を行う • https://paper.hatenadiary.jp/entry/2016/11/06/212149 • 「OK word2vec ! "マジ卍"の意味を教えて」
Pythonで word2vec実践してみた • https://www.randpy.tokyo/entry/python_word2vec • models.word2vec – Word2vec embeddings • https://radimrehurek.com/gensim/models/word2vec.html • 15分でできる日本語Word2Vec • https://qiita.com/makaishi2/items/63b7986f6da93dc55edd

参考文献(2) • Pythonで文字列を分割（区切り文字、改行、正規表現、文字数） • https://note.nkmk.me/python-split-rsplit-splitlines-re/ • WindowsでNEologd辞書を比較的簡単に入れる方法 • https://qiita.com/zincjp/items/c61c441426b9482b5a48
• Windows 10 64bit で python + Mecab • https://qiita.com/kuro_hane/items/64e39d5deeb3f876b421 • Windows10(64bit)/Python3.6でmecab-python環境構築 • http://blog.livedoor.jp/oyajieng_memo/archives/1777479.html

参考文献(3) • MeCab: Yet Another Part-of-Speech and Morphological Analyzer •
https://taku910.github.io/mecab • mecab-ipadic-NEologd : Neologism dictionary for MeCab • https://github.com/neologd/mecab-ipadic-neologd • Word2Vecを用いた類義語の抽出が上手く行ったので、分析をまとめてみた • https://qiita.com/To_Murakami/items/cc225e7c9cd9c0ab641e • 自然言語処理による文書分類の基礎の基礎、トピックモデルを学ぶ • https://qiita.com/icoxfog417/items/7c944cb29dd7cdf5e2b1

参考文献(4) • 日本語ツイートをEkmanの基本6感情で評価 • https://qiita.com/sugiyamath/items/7cabef39390c4a07e4d8 • ツイートから学習した感情分析モデル • https://qiita.com/sugiyamath/items/dc342d53b4e4e4ef9308

To whom it may concern… • 今日の内容は一橋大学講義「経済学のための実践的データ分析」の一部を加筆修正したものです • 講義資料は以下にアップロードしているので,
ご興味あれば御覧ください • https://speakerdeck.com/yasushihara/ • https://www.slideshare.net/yasushihara • 似たような出張編を, 7/20に早稲田大学でも開催予定です.

THANKS [email protected] Twitter: @harayasushi

#イノベーション研究のための実践的データ分析 γ. RESAS API からデータを取得して統...

#イノベーション研究のための実践的データ分析 γ. RESAS API からデータを取得して統計処理したり, テキスト分析で WordCloud や Word2vec で解析したり, Twitter API からツイートを取得して解析したり, 感情の分析をやってみよう

More Decks by yasushihara

Other Decks in Education

Featured

Transcript