#経済学のための実践的データ分析 3.10 テキスト分析(後半; SNS 口コミ分析, KHcoder etc...))

経済学のための実践的データ分析 3.10. テキスト分析 (後半) 38教室一橋大学経済学研究科原泰史 [email protected]

確認事項 • 電源タップは足りているでしょうか？

オーランドのおもいで

3.10. テキスト分析(1) • この回では、これまで用いてきたデータセットについて、異なるアプローチから解析することを目指します。 • 具体的にはすでに定量化されているデータではなく、特許における特許名、論文における論文名、企業データベースにおける企業の概要などのテキストデータを解析する手法について学びます。
• 講義ではPython, R および, KHCoder (http://khcoder.net/) を用い、解析を行います。学生は分析した結果についてレポートにまとめ、提出する必要があります。

ケーススタディ2: 小室さんと華原さんのトークを分析してみよう • TK MUSIC CRAMP • 1995年から1998年まで放送してた音楽番組 •
1995年度は小室哲哉さんが • 1996年度はSMAPの中居正広さんが • 1997年度は華原朋美さんが司会を担当 • 二人の会話を共起グラフ分析して、二人がどのくらいラブラブだったのか、どのくらい冷めちゃったのか可視化できるかやってみよう • 分析対象 • 1996/3/6 オンエアのトーク • 1998/3/25 オンエアのトーク 3/8/2015 5

結果 • 1996/3/6 OA 版 • 1998/3/25 OA 版 3/8/2015
6 ※. 動詞, 名詞, 形容詞を抽出

結果(2) : 頻出語のみに限定 • 1996/3/6 OA版 • 1998/3/25 OA 版
3/8/2015 7 ※. 動詞, 名詞, 形容詞を抽出

今日のコンテンツ SNSの口コミ分析 KHCoder の使い方 (for Windows ユーザ) 感情分析レポートの説明
最終レポートの説明

1. (Twitterを使った) 口コミ分析

利用する Notebook • Jupyter Notebook https://www.dropbox.com/s/xw8sltq0kp4e y2g/Twitter%20API%20%E3%81%8B%E3%8 2%89%E5%A4%A7%E5%AD%A6%E3%81%A B%E9%96%A2%E4%BF%82%E3%81%99%E 3%82%8B%E3%81%A4%E3%81%B6%E3%82
%84%E3%81%8D%E3%82%92%E5%8F%96 %E5%BE%97%E3%81%97%E3%81%A6%2C %20WordCloud%20%E3%82%92%E4%BD%9 C%E3%82%8B.ipynb?dl=0

Twitter のAPI を申請する • https://developer.twitter.com にアクセスする

Twitter の API を申請する • Apply for a developer account
をクリックする

Twitter の API を申請する • 利用目的を選択する

Twitter の API を申請する必要事項を入力し, Next をクリックする

Twitter の API を申請する • なぜ API を利用したいのか記入する

Twitter の API を申請する • 内容を確認し, Looks Good! をクリックする

Twitter の API を申請する • Submit Application をクリックする

Twitter の API を申請する • E-mail でメッセージが届くので Confirmation をする

Twitter の API を申請する • E-mail での Confirm を終えると, Developer
ページに遷移する

b. Twitter の API キーを取得する • Create an App をクリックする

b. Twitter の API キーを取得する • “Create an App” をクリックする

b. Twitter の API キーを取得する • Application の詳細を記入する

b. Twitter の API キーを取得する • Create をクリックする

b. Twitter の API キーを取得する • Keys and Tokens をクリックする

b. Twitter の API キーを取得する • Access Token & access
token secret の Create をクリックする

b. Twitter の API キーを取得する • Access Token が生成される

c. 自分のタイムライン情報を取得する • Twitter パッケージをインストールする

c. 自分のタイムライン情報を取得する • 先程取得したAPI キー情報を指定する • Twitter に Oauth 経由でアクセスする
• 自分のタイムライン情報を取得する

c. 自分のタイムライン情報を取得する • 自分がフォローしているユーザーのツイートが取得される

d. ハッシュタグに基づきデータを取得する • 利用するパッケージ (tweepyと datetime) をインポートする • b.
の作業で取得した Consumer_key, Consumer_secret, Access_token, Access_secret を指定する • 検索キーワードを変数として格納する • ツイートを取得する参考; https://qiita.com/kngsym2018/items/3719f8da1f129793257c

d. ハッシュタグに基づきデータを取得する • ファイル名を指定する • ファイルをテキストファイルとして出力する

d. ハッシュタグに基づきデータを取得するキーワードと出力するファイル名を指定すると, Twitter から取得したツイートの一覧が出力される

e. 取得したデータを解析する (wordcloud) • 早稲田大学 • 慶應大学

2. khcoder で解析しよう

やりたいこと • Dbpedia.org の東証一部/東証二部/マザーズの会社概要データを持ってきて, 1. どのようなことばがよく出てくるのかを知りたい 2. どのようなことばと、どのようなことばがつながっているのかを知りたい
2019/10/23 35

やること 1. KHCoder をインストールする 2. Dbpedia.org から SPARQL Endpoint 経由でデータセットを取得する
• 前回の内容 3. Manaba からデータセットをダウンロードする 4. KHCoder に定点調査の自由記述データを読み込む 5. データ分析前の処理をする 6. 頻出語の取り出しを行う 7. 共起ネットワークを書く 8. 属性情報ごとの特徴を抽出する 9. 対応分析を行う 2019/10/23 36

1. KHCoder をインストールする • KHCoder とは？ • テキスト型データの計量的な内容分析（計量テキスト分析）もしくはテキストマイニングのためのフリーソフトウェアである。各種の
検索を行えるほか、どんな言葉が多く出現していたのかを頻度表から見ることができる。さらに多変量解析によって、一緒に出現することが多い言葉のグループや、同じ言葉を含む文書のグループを見ることで、データ中に含まれるコンセプトを探索できる。 • また一部の文書群に注目した場合に、その文書群に特に多く出現する言葉をリストアップすることで、その文書群の特徴を探索できる。あるいは分析者が指定した基準によって、文書の分類を自動的に行うこともできる。 • 引用: https://ja.wikipedia.org/wiki/KH_Coder 2019/10/23 37

1. KHCoder をインストールする • https://khcoder.net/dl3. htmlにアクセスする • Download をクリックする
2019/10/23 38

1. KHCoder をインストールする • ダウンロードしたファイル (khcoder-3a16.exe) を選択し, クリックする •
Unzip を選択し, ファイルを展開する 2019/10/23 39

1. Khcoder をインストールする • スタートメニューなどに登録して, 起動する 2019/10/23 40

1. KHCoder をインストールする • アプリケーションが表示される 2019/10/23 41

1. Khcoder をインストールする • Tips: Mac な場合 • かなりめんどくさい •
Perl やR の個別パッケージの導入が必要 • 有償版のインストールパッケージが提供されている. • https://khcoder.stores.jp/#!/it ems/536a53268a56108414000 1dd 2019/10/23 42

2. Dbpedia.org から SPARQL Endpoint 経由でデータセットを取得する • 前回の講義で説明した Dbpedia.org
の SPARQL Endpoint から, 東証一部, 東証二部, およびマザーズの企業名とその企業概要を取得する • 日経NEEDS などに採録されたオフィシャルなデータではなくて、 Wikipedia で執筆された企業の「紹介文」 2019/10/23 43

2. Dbpedia.org から SPARQL Endpoint 経由でデータセットを取得する • Jupyter Notebook
で以下のように記述する (詳しくは前回配布した notebook を参照のこと)

2. Dbpedia.org から SPARQL Endpoint 経由でデータセットを取得する • 以下の通り, 企業名と概要がアウトプットされる

2. Dbpedia.org から SPARQL Endpoint 経由でデータセットを取得する • 同様の作業を, 東証一部と東証二部で繰り返す
#東証マザーズ上場企業の情報を取得する sparql2 = SPARQLWrapper(endpoint='http://ja.dbpedia.org/sparql', returnFormat='json') sparql2.setQuery(""" PREFIX dbpedia-owl: <http://dbpedia.org/ontology/> select distinct ?name ?abstract where { ?company <http://dbpedia.org/ontology/wikiPageWikiLink> <http://ja.dbpedia.org/resource/Category:東証マザーズ上場企業> . ?company rdfs:label ?name . ?company <http://dbpedia.org/ontology/abstract> ?abstract . } """) results2 = sparql2.query().convert()

2. Dbpedia.org から SPARQL Endpoint 経由でデータセットを取得する • Excel or
panda で適宜整形する

3. KHCoder にデータを読み込む • データ • 東証一部/東証二部/マザーズ: https://www.dropbox.com/s/9jtwyxw4ae3nntz/%E6%9D%B1%E8%A8%BC%E4%B 8%80%E9%83%A8%E6%9D%B1%E8%A8%BC%E4%BA%8C%E9%83%A8%E3%83%9 E%E3%82%B6%E3%83%BC%E3%82%BA.xlsx?dl=0
• 経済学者/経営学者/社会学者: • https://www.dropbox.com/s/jmvz8fv25aqecsj/%E6%97%A5%E6%9C%AC%E3%81 %AE%E7%B5%8C%E6%B8%88%E7%B5%8C%E5%96%B6%E7%A4%BE%E4%BC%9 A%E6%B3%95%E5%AD%A6%E8%80%85%E4%B8%80%E8%A6%A7.xlsx?dl=0 • ヒップホップ/ロック/フォークグループ: • https://www.dropbox.com/s/5iye8puor1eg52r/%E6%97%A5%E6%9C%AC%E3%81 %AE%E3%83%92%E3%83%83%E3%83%97%E3%83%9B%E3%83%83%E3%83%97% E3%83%AD%E3%83%83%E3%82%AF%E3%83%95%E3%82%A9%E3%83%BC%E3% 82%AF%E3%82%B0%E3%83%AB%E3%83%BC%E3%83%97.xlsx?dl=0 • 2019/10/24 48

3. KHCoder に定点調査の自由記述データを読み込む • KHCoder を開く • [プロジェクト] –[新規]
を選択する 2019/10/23 49

3. KHCoder にデータを読み込む • [参照]をクリックして, 分析対象ファイルを選ぶ • 分析対象とする列について[詳細]
をクリックする • OK をクリックする • ファイルが読み込まれる 2019/10/23 50

4. データ分析前の処理をする • [前処理] – [テキストのチェック]をクリックする • OKをクリックする 2019/10/23
51

4. データ分析前の処理をする • 修正が必要である旨メッセージが表示される • [画面に表示] をクリックして, 問題点をチェックする • “テキストの自動修正”
より[実行]をクリックする 2019/10/23 52

4. データ分析前の処理をする • 問題点が修正される. • [閉じる]をクリックする. 2019/10/23 53

4. データ分析前の処理をする • [前処理] – [前処理の実行] を選択する • OKをクリックする 2019/10/23
54

4. データ分析前の処理をする • 正常に処理が終了した場合, 以下のメッセージが表示される. • 集計値が表示される 2019/10/23 55

4. データ分析前の処理をする • 複合語の検出を行う • [前処理]-[複合語の検出]-[茶筌を利用]をクリックする

4. データ分析前の処理をする • 解析が終わると, 複合語のリストが抽出される

5. 頻出語の取り出しを行う • [ツール]-[抽出語]-[抽出語リスト(Excel)]を選択する 2019/10/23 58

5. 頻出語の取り出しを行う • “抽出語リストの形式” • 品詞別 • “記入する数値” • 出現回数(TF)
• “出力するファイルの形式” • Excel (*.xlsx) を選択し, OK をクリックする 2019/10/23 59

5. 頻出語の取り出しを行う • 品詞ごとにタームが抽出される 2019/10/23 60

5. 頻出語の取り出しを行う • 頻出語を選択した場合 2019/10/23 61

6. ストップワードの設定 • 品詞リストをみると, 企業データでは当たり前のものがたくさん含まれている • 解析に使わない言葉は、ストップワードとして指定する
必要がある • [前処理]から[語の取捨選択] をクリックする

6. ストップワードの設定 • Force ignore “使用しない語の指定” にストップワードを指定する • 株式会社
• 本社 • 会社 • 企業 • LTD. • CO., • CORPORATION • INC. • ょ • CO.,LTD. • HOLDINGS • THE • ELECTRIC • コーポレートなど….

6. ストップワードの指定 • --cell– は消さないようにして, 項目に指定しOK をクリックする

6. 共起ネットワークを書く • [ツール]-[抽出語]-[共起ネットワーク]を選択する 2019/10/23 65

6. 共起ネットワークを書く • パラメータを指定して, OK をクリックする. • “動詞” のチェックを外す 2019/10/23
66

6.共起ネットワークを書く • 共起では, ある特定のタームで共に出てくる語の確認ができる • 東証一部と東証二部とマザーズでは企業が取り組んでいることが違う
• マザーズはインターネット系, 東証二部は自動車や食品, 東証一部は持ち株などのタームが出ている 2019/10/23 67

7. 対応分析を行う • 抽出語を用いた対応分析を行い、その結果を二次元の散布図に示す • 出現パターンの似通った語にはどのようなものがあったのか探ることができる
• [ツール]-[抽出語]-[対応分析] を選択する 2019/10/23 68

7. 対応分析を行う • “対応分析のオプション” – “分析に仕様するデータ表の種類”から, [抽出語 x 外部変
数] から分類を選択し, OK をクリックする 2019/10/23 69

7. 対応分析を行う • マザーズ • 東証一部 • 東証二部ごとに特徴的な言葉が抽出される 2019/10/23
70

8. 多次元尺度構成法で解析する • 近接している語のパターンを解析できる • [ツール]-[抽出語]-[多次元尺度構成法]を選択する

8. 多次元尺度構成法で解析する • パラメータを適宜指定する • 最小出現数を調整すれば, マッピングできる語の数が調整できる • OK
をクリックする

8. 多次元尺度構成法で解析する • 近似した言葉がマッピングされる • 近いところにマッピングされている語は, 似たようなコンテクストで出現している
• バブルをクリックすると, 該当する語が利用されているテキストが確認できる

9. マッチングルールを作成する • 特定の語のグループを作成し, それらでグルーピングすることで特徴を抽出する • 今回の場合, 自動車産業, 電気
産業, 銀行, ICT など産業分類ごとにグルーピングする • 記述方法 *グループ名1 みかん or いちご or りんご *グループ名2 ごりら or らっこ or こんどる *グループ名3 るびー or びーどる

9. マッチングルールを作成する • 例.

10. コーディングルールに基づき単純推計する • [ツール]-[コーディング]-[単純推計] をクリックする

10. コーディングルールに基づき単純推計する • コーディングルール・ファイルから, コーディングルールを記述したテキストファイルを指定する •
集計をクリックする

10. コーディングルールに基づき単純推計する • コーディングにマッチする文章がそれぞれ抽出される • IT や持株会社群が多そうなことが確認できる

11. コーディングルールに基づきクロス集計する • [ツール]-[コーディング]-[クロス集計] をクリックする

11. コーディングルールに基づきクロス集計する • クロス集計[分類]を選択した上で, [集計] をクリックする • マザーズはITの割合が高いことが確認できる

11. コーディングルールに基づきクロス集計する • ヒートマップを作成する • バブルマップを作成する

12. Jacaard 係数に基づき類似度行列を導出する • [ツール]-[コーディング]-[類似度行列]をクリックする

13. コーディングルールに基づき対応分析を行う • [ツール]-[コーディング]-[対応分析]をクリックする

13. コーディングルールに基づき対応分析を行う • コードx外部変数から”分類”を選択する • “原点を拡大” を選択する •
OK をクリックする

13. コーディングルールに基づき対応分析を行う • マザーズはIT と製薬系 (おそらくバイオスタートアップ) • 東証一部は自動車と銀行
• 東証二部は半導体が近いことが確認できる • 市場ごとの特性が見える

14. コーディングルールに基づき共起ネットワーク分析を行う • [ツール]-[コーディング]-[共起ネットワーク] をクリックする

14. コーディングルールに基づき共起ネットワーク分析を行う語 – 外部変数・見出しから分類または企業名を選択する

14. コーディングルールに基づき共起ネットワーク分析を行う • 分類と企業名でマッピングする • 分類とマッピングルールでプロットする

今日の実習; その1 (windows ユーザ向け) • アップロードされている • (1) 東証一部/二部/マザーズの企業概要データ
• (2)日本の経済/経営/社会/法学者の概要データ • (3)日本のロック/ヒップホップ /フォークグループの概要データを用いて, テキスト分析を行う • 語句の抽出 • 共起ネットワーク • 対応分析 • 多次元尺度構成法 • コーディングルールの設定などを行い解析すること

共起ネットワーク • KHCoder で共起ネットワークを作成(いくつかストップワードを指定済み)。 • 経済学者は政策と、経済学者と社会学者は社会と、経営学者は企業と共起する。法学者
は弁護士や民法や憲法と。これもいろんな意味で妥当。

対応分析 • 経済と経営が近い距離に • マルクスは経営の近くに

3. 感情分析

5. 感情分析 • Ekman and Friesen (1971) • 表情の研究を通じ, 感情表現には普遍的
な6つの感情 (怒り, 嫌悪, 恐怖, 喜び, 悲しみ, 驚き) があることを示す. • ただし, 西洋文化圏と東洋文化圏では表情の表出に違いがある. • 参照 • 日本人の基本6感情の表情は「エクマン理論」に従うか？ – 人工知能を用いて検証 • https://academist- cf.com/journal/?p=10185 • https://ocw.mit.edu/courses/brain-and- cognitive-sciences/9-00sc-introduction- to-psychology-fall-2011/emotion- motivation/discussion-emotion/ © Paul Ekman. All rights reserved.

利用する Notebook • Google Colaboratory • https://colab.research.google.com/driv e/1EZ3NMw3I9FrjTFEPBQQRiD4TtUD zJ4YF

5. 感情分析 • git から sentiment_ja パッケージを取得する • https://github.com/sugiyam
ath/sentiment_ja • 展開したディレクトリ (sentiment_ja) に移動する

5. 感情分析 • “!python setup.py install” でインストールする

5. 感情分析 • Analyzer パッケージをインポートして, 文字列を取り込む • 「三田でラーメン二郎の本店でヤサイカラメアブラマシマシの二郎を食べるのは素晴らしい」 •
「行列は切ない」

5. 感情分析 • 出力結果 • [{'sentence': '三田でラーメン二郎の本店でヤサイカラメアブラマシマシの二郎を食べるのは素晴らしい', 'emotions': {'happy':
'7.0', 'sad': '1.0', 'disgust': '1.0', 'angry': '1.0', 'fear': '1.0', 'surprise': '12.0'}}, {'sentence': '行列は切ない', 'emotions': {'happy': '1.0', 'sad': '8.0', 'disgust': '5.0', 'angry': '3.0', 'fear': '1.0', 'surprise': '1.0’}}] • Happy, sad, disgust, angry, fear, surprise で分類される

参考文献 • pythonでgensimを使ってトピックモデル(LDA)を行う • https://paper.hatenadiary.jp/entry/2016/11/06/212149 • 「OK word2vec ! "マジ卍"の意味を教えて」
Pythonで word2vec実践してみた • https://www.randpy.tokyo/entry/python_word2vec • models.word2vec – Word2vec embeddings • https://radimrehurek.com/gensim/models/word2vec.html • 15分でできる日本語Word2Vec • https://qiita.com/makaishi2/items/63b7986f6da93dc55edd

参考文献(2) • Pythonで文字列を分割（区切り文字、改行、正規表現、文字数） • https://note.nkmk.me/python-split-rsplit-splitlines-re/ • WindowsでNEologd辞書を比較的簡単に入れる方法 • https://qiita.com/zincjp/items/c61c441426b9482b5a48
• Windows 10 64bit で python + Mecab • https://qiita.com/kuro_hane/items/64e39d5deeb3f876b421 • Windows10(64bit)/Python3.6でmecab-python環境構築 • http://blog.livedoor.jp/oyajieng_memo/archives/1777479.html

参考文献(3) • MeCab: Yet Another Part-of-Speech and Morphological Analyzer •
https://taku910.github.io/mecab • mecab-ipadic-NEologd : Neologism dictionary for MeCab • https://github.com/neologd/mecab-ipadic-neologd • Word2Vecを用いた類義語の抽出が上手く行ったので、分析をまとめてみた • https://qiita.com/To_Murakami/items/cc225e7c9cd9c0ab641e • 自然言語処理による文書分類の基礎の基礎、トピックモデルを学ぶ • https://qiita.com/icoxfog417/items/7c944cb29dd7cdf5e2b1

参考文献(4) • 日本語ツイートをEkmanの基本6感情で評価 • https://qiita.com/sugiyamath/items/7cabef39390c4a07e4d8 • ツイートから学習した感情分析モデル • https://qiita.com/sugiyamath/items/dc342d53b4e4e4ef9308

4. レポート 2+3回目について

レポート(2+3回目)の内容 • 概要 • テーマ; とても細かくやってみる「企業研究」 • 講義で取り上げたデータセット (BigQuery Sandbox/RESAS/Lens.org)
ないしは企業の財務データベースからデータセットを入手し, 特定の産業, 企業グループについて比較分析を行い, レポートにまとめる. • レポートでは • (1) とりあげた産業/企業グループの特徴の抽出, 基礎統計の分析 • (2) 売上高, 資本金, ROE, ROA など主なパフォーマンスのデータおよびその比較を行った上で, 「もしも自分が就職するのなら」どの企業を選択するか明記すること • 提出期間: 2019/10/29 13:15:00 (JST) • 提出方法:Slack DM

「企業研究」 https://job.rikunabi.com/contents/company/2536/

「企業研究」 https://syukatsu-pro.com/column/5754

レポート(2+3回目) の構成 (テンプレ) • はじめに • 対象企業について • 利用するデータベースについて •
分析結果と考察 • まとめ

レポート(2+3回目)の進め方 1. まず, 対象とする企業とその競合企業を決める 2. 1. で決めた企業群について, データベースサイトから解析にあたり必要だと思われるデータを取得する 3.
Excel and/or Jupyter Notebook で解析を行う 4. Word and/or Jupyter Notebook でレポートにまとめる

1. (産業組織論的な)市場画定 • どの財とどの財が同じ市場に属しているのか画定する必要がある • 似通った多数の財が存在する場合、生産要素や生産方法が共通するなどの理由で同じ市場と設定してもよいのか • 市場支配力を図るためには、「どこからどこまで」が同じ財な
のか画定させる • 市場範囲の画定は、市場支配力の評価にあたって必要不可欠な分析プロセス

日本標準産業分類 • 供給される財の性質にもとづいて, 産業を分類する • 財の性質にもとづいて便宜的に産業を分類する • そのため、経済学における財の分類手法とは異なる • 経済学での「市場」
• 密接な需要の代替関係や密接な供給の代替関係が存在する財のグループが1つの市場を形成する

日本標準産業分類 • A. 農業，林業 • B. 漁業 • C. 鉱業，採石業，砂利採取業
• D. 建設業 • E. 製造業 • F. 電気・ガス・熱供給・水道業 • G. 情報通信業 • H. 運輸業，郵便業 • I. 卸売業，小売業 • J. 金融業，保険業 • K. 不動産業，物品賃貸業 • L. 学術研究，専門・技術サービス業 • M. 宿泊業，飲食サービス業 • N. 生活関連サービス業，娯楽業 • O. 教育，学習支援業 • P. 医療，福祉 • Q. 複合サービス事業 • R. サービス業（他に分類されないもの） • S. 公務（他に分類されるものを除く） • T. 分類不能の産業 http://www.soumu.go.jp/toukei_toukatsu/index/seido/ sangyo/02toukatsu01_03000022.html

日本標準産業分類から, ローソンが属する産業群を抽出する comp_name read comp_size_l aw comp_size_ cap comp_size_emp
jsic_code jsic_l jsic_m jsic_s アスモあすも大企業 10億円以上 300～999人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業アペックスあぺっくす大企業 5000万円以上 1,000～4,999人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業清水製薬しみずせいやく jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業えがおえがお中小企業 1億円以上 300～999人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業柿安本店かきやすほんてん大企業 10億円以上 1,000～4,999人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業サンクスさんくす jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業シー・ヴイ・エス・ベイエリアしーうﾞいえすべいえりあ大企業 10億円以上 100～299人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業ショクブンしょくぶん大企業 10億円以上 300～999人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業スリーエフすりーえふ大企業 10億円以上 300～999人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業ＴＡＡＮＥたあね jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業日本レストランエンタプライズにっぽんれすとらんえんたぷらいず大企業 1億円以上 1,000～4,999人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業ファンデリーふぁんでりー中小企業 1億円以上 30～99人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業プレナスぷれなす大企業 10億円以上 1,000～4,999人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業ポプラぽぷら大企業 10億円以上 300～999人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業マッシュ・テックまっしゅてっく小規模企業者 1000万円以上 5人未満 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業ミニストップみにすとっぷ大企業 10億円以上 300～999人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業メルカード東京農大めるかーどとうきょうのうだい中小企業 1000万円以上 5～29人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業ユニー・ファミリーマートホールディングスゆにーふぁみりーまーとほーるでぃんぐす大企業 10億円以上 1,000～4,999人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業ファミリーマートふぁみりーまーと大企業 10億円以上 1,000～4,999人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業ローソンろーそん大企業 10億円以上 1,000～4,999人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業わかさ生活わかさせいかつ中小企業 1000万円以上 300～999人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業出典: NISTEP 企業名辞書

1.(就活的な)「業界」画定 • “就職活動における業界とは、企業を産業や商業で分類したものです。業界によって取り扱う商品やサービスはさまざまで、メーカーが製造した商品を商社が仕入れ、小売が販売するなど各業界は密接な関わりを持っています。”
• たぶん、SCM とか商流における上流とか下流とかは意図的に？説明していないっぽい。 https://shinsotsu.mynavi- agent.jp/knowhow/article/industry-list.html

1. (就活的な)「業界」画定 https://gyokai-search.com/2nd-genre.htm

1. これらを踏まえ, 本レポートでの市場画定 • 特定の企業をひとつ取り上げてください • 当該企業と同じ産業に属するであろう、複数の企業を抽出する。このとき、レポートでは抽出方法について明らかにすること。抽出方法については
(1) 日本標準産業分類に基づく抽出, (2) 業界情報 (例. https://gyokai-search.com/2nd-genre.htm) などに基づく抽出, (3) その他の方法に基づく抽出など幾つかの手法が考えうるが, 選択した手法について明記すること

2. データベースの選択とデータの抽出 • データベースの選択 • 企業データベース • 日経NEEDS, Entrepedia, 法人インフォ,
RESAS etc… • 論文データベース • Lens.org, Google Scholar, Web of Science etc… • 特許データベース • Lens.org, Google Big Query, 特許庁データベース, IIP パテントデータベース etc… • 1. で指定した企業群について, 解析にあたり必要なデータを取得すること. これら以外のデータベースを利用しても構わない

Big Queryおすすめのデータセット(1) • Google Patents Research Data • “Google Patents
Research Data contains the output of much of the data analysis work used in Google Patents (patents.google.com), including machine translations of titles and abstracts from Google Translate, embedding vectors, extracted top terms, similar documents, and forward references.”

Big Queryおすすめのデータセット(2) • World Development Indicators – World Bank •
“This dataset contains the most current and accurate global development data available including national, regional and global estimates. Data has been collected from the early 1960’s to present and is updated regularly depending on new data available on the indicators. This time series data offers indicators such as agriculture and food security, climate change, population growth, economic growth, education, energy, natural Resources and many more. • This public dataset is hosted in Google BigQuery and is included in BigQuery's 1TB/mo of free tier processing. This means that each user receives 1TB of free BigQuery processing every month, which can be used to run queries on this public dataset.”

Big Queryおすすめのデータセット(3) • Chicago Taxi Trips • “This dataset includes
taxi trips from 2013 to the present, reported to the City of Chicago in its role as a regulatory agency. To protect privacy but allow for aggregate analyses, the Taxi ID is consistent for any given taxi medallion number but does not show the number, Census Tracts are suppressed in some cases, and times are rounded to the nearest 15 minutes. Due to the data reporting process, not all trips are reported but the City believes that most are. For more information about this dataset and how it was created, see this post on the City of Chicago's blog.”

Big Queryおすすめのデータセット(3)

Lens.org • 出来ること • 特許関連 • 特定企業/産業の特許数の変化についてデータを取得する • AI や機械学習に関する特許がどのくらい出ているか調査する
• 論文関連 • 日本の私立/国立大学の論文生産数について比較する • ノーベル賞を受賞した科学者が書いた論文のうち, どれが重要が論文だったかを特定し, その前方引用数を調査する

RESAS API • 出来ること • ふるさと納税制度導入前後による地方財政への影響 • 人口動態と地域経済の生産性 • 企業の海外取引額
• 農業産出額 • 産業構造の推移

3. & 4. データの解析およびレポートの作成 • 2. で取得したデータに関して, 主に以下の分析を行い報告すること • 産業
(あるいは業界) 構造の特性の抽出 • 主な企業の売上高, 資本金および収益率など, 財務パラメータの比較分析 • 特許や地域特性の分析 • 統計分析 (基本統計量の抽出, 散布図の作成, 回帰分析 etc…) • レポートの最後に、「もしも自分が就職するのなら」どの企業を選択するのか明記してください • オチとして、「解析の結果こういう理由から、どうもいい企業がないので自分でスタートアップを作ります」でもOKです。

レポートの評価方法 • Excellent • データおよび適切な分析手法に基づき、独自の視点で十分に考察がなされている • Good • データおよび適切な分析手法に基づき、独自の視点で考察がなされている •
Fair • データに対して分析が行われているが、一般的な範囲での考察にとどまる • Bad • 考察がなされていない，あるいはデータの解析が十分に行われていない • Failed • 断りなく他者の見解を引用している，その他不正行為に相当する

レポートの評価基準 • 説明の順序は適切か．特に重要な項目の抜けや漏れはないか． • 原典からの引用内容に事実誤認はないか． • 誤字脱字（誤植）はないか．文法上の誤りはないか．文法ルールが統一されているか． • 文章は明快か．誤解を招くような内容・表現はないか．
• 参照，引用のルールに準拠しているか．剽窃はないか． • 不正行為に相当する事項はないか． • 提出期限を厳守しているか．

5. 成績評価の方法

成績評価(1) • 平常レポート (40パーセント; 必須) • 講義計画に示したように、複数の回で学生にはレポートを課します。レポートは Word/PowerPoint形式のメールあるいは, github
経由での提出が求められます(どの方法を採用するかは、初回の講義で決定します)。 • レポートには、(A.) 利用したデータセットとその内容, (B.) 分析の問い, (C.) 分析手法, (D.) 分析結果を明記する必要があります。ページ数や文字数は問いませんが, これらの内容が含まれており, 講義中にアナウンスする評価手法を満たす場合, 高い得点を得ることが出来ます。 • 平常点 (10パーセント) • 本講義は実習が多く含まれており, また取り扱うデータセットや内容も多彩です。そのため、受講者同士が協力する必要があります。こうした受講者の態度を評価するために、平常点を設けます。

成績評価(2) • 最終レポート (40パーセント; 必須) • 講義の最終回では最終レポートの報告会を行います。受講者は3名から4名から構成されるグループで、最終レポートの報告を行う必要があります(人数は受講者の人数により変更される可能性があります)。最終レポートでは、プレゼンテーションの方法を学生は自由に選ぶことが出来ます。PowerPoint
以外にも、Prezi などのアクティブプレゼンテーションツールや、他のプレゼンテーション手法を用いることが出来ます(プレゼンテーションツールについては、必要であれば講義内で説明する機会を設けます)。最終レポートでは、以下の点について評価を行います。 (A.) グループ内の役割分担 (B.) データセットのユニークさおよび、それが適切に処理されているか (C.) 分析手法のユニークさおよび、それが適切に解析されているか (D.) プレゼンテーションのユニークさ (E.) 質疑応答にうまくリプライすることが出来ているか • 最終レポートの360°グループ評価 (10パーセント) • 3. の最終レポートについて、グループの自己評価および他のグループからの評価を行います。3. で挙げた評価ポイントに基づき、グループメンバーおよび他のグループは評価を行います。

Withdraw について • レポートを一回も提出していない場合 • Withdraw として扱います • レポートを1回または2回提出している場合 •
Withdraw ではなく、単位取得の意思があるとみなします • ただ, レポートの回数を一回減らしたため, もしレポート1回目提出後単位取得に進まない場合には, 10/22 23:59 (JST) までにSlack DM にてその旨おしらせください

次回以降の予告

11. データのビジュアライゼーションとネットワーク分析 • これまでの回で取り上げてきたデータをわかりやすく研究で活用する手法を学ぶことを目指します。 • Python やR などを用いたデータの可視化手法の確認や、
Tableau (https://www.tableau.com/ja-jp) などのデータ可視化ソフトウェアの紹介および実習を行います。

11. Tableau のインストール • https://www.tableau.com/tft/activation からダウンロードしておいてください。 • メールアドレスを聞かれるので, 一橋の学生メールアドレス (hit-u.ac.jp
が入ったもの) を入力 • プロダクトキーには, (Slack でアナウンスしたコード) を指定してください

12. 機械学習 • R を用いて、木構造を用いて分類および回帰を行う決定木の手法について、具体例の紹介および実習を行います。また、最終レポートについての説明を行います。 • これまでに学んだ手法を用いデータ解析を行うことで、グループでのレポートをまとめます。このグループの決定を行います。

13. まとめと最終報告レポート • テーマ • 「◦◦のための実践的データ分析」 • 卒論や修論や博論の作成の入り口になるような、データの調達とそのデータの解析を, 講義で取り上げたデータセットおよび分析手法で実施
する • 分析単位はマクロ (国レベル) でもメソ (企業/産業レベル) でもミクロ (個人レベル) でも問いません • 利用できるデータセット • 特に制限なし • 利用できるツール • Tableau, Excel, SQL, Jupyternotebook (Python), R など, 特に制限なし

13. まとめと最終報告レポート • 評価方法 • グループ内での自己評価 • グループ外からの評価アンケートシステムをManaba or
Google Docs で用意します。 • 評価基準 • (A.) グループ内の役割分担 (B.) データセットのユニークさおよび、それが適切に処理されているか (C.) 分析手法のユニークさおよび、それが適切に解析されているか (D.) プレゼンテーションのユニークさ (E.) 質疑応答にうまくリプライすることが出来ているか • 納品物 • プレゼンテーションに利用したSlack グループにアップロードすること

グループ分け(1) • グループA • 2115288x • 2116001m • 2116086k •
2117015a • 2117249x • グループB • 2115149a • 2116017b • 2116105k • 2117139k • グループC • 2117063a • 2117197b • 2118024m • 2118138b • グループD • 1117050s • 2118029s • 2118051c • 2118198m • グループE • 1116055b • 2116198k • 2117169s • 2118043b • 2118080s • グループF • EM185021 • EM195071 • EM195074 • SM182011

グループ分け(2) • グループG • 2115183a • 2116190y • 2117110s •
2118125z • 2118199h • グループH • 2116095h • 2116251k • 2117007z • 2117236s • 2118173z • グループI • 2116141a • 2116330x • 2117073x • 2118096c • 2118131k • グループJ • 2116118s • 2116215x • 2117135b • 2118245a

THANKS [email protected]

#経済学のための実践的データ分析 3.10 テキスト分析(後半; SNS 口コミ分析, KHc...

#経済学のための実践的データ分析 3.10 テキスト分析(後半; SNS 口コミ分析, KHcoder etc...))

More Decks by yasushihara

Other Decks in Education

Featured

Transcript