一橋大学「#経済学のための実践的データ分析」 2020春: 7/10回

一橋大学「経済学のための実践的データ分析」 2020春: 7/10 7.テキスト分析をやってみよう 7.1.テキスト分析でできること 7.2.WordCloudを書いてみよう 7.3.Word2vecやTopicモデル 7.4.計量テキスト分析をやろう
APPENDIX 感情分析一橋大学大学院経済学研究科原泰史 [email protected]

今日の内容 • 13:00-13:15 • プレ講義 [録画なし] • 13:15-13:35 • 7.1テキスト分析でできること
[録画あり] • 13:35-13:40 • インターミッション[録画なし] • 13:40-14:00 • 7.2 wordcloud を書いてみよう [録画あり] • 14:00-14:05 • インターミッション2[録画なし] • 14:05-14:25 • 7.3 word2vec やtopic model [録画] • 14:25-14:30 • インターミッション3[録画なし] • 14:30-14:50 • 7.4 khcoder で計量テキスト分析 [録画]

7.1 テキスト分析でできること

はじめに; (経済学や経営学にとっての)テキスト分析 • これまでとりあげたデータ (企業情報, 特許, 論文, スクレイピングで取れるデータ etc…)
にはいろいろなテキストが含まれている • だけど、処理の仕方がわからないため今までどちらかというと放置していた • たとえば、特許の請求項 (Claim) の文字数をカウントするなどはあったけれど • ところが、自然言語処理 (Natural Language Processing) の技法が発達したため、適用できる分野が増えつつあるところ • 今回は、そんな自然言語処理で今までに紹介したデータをいろいろと調理してみる回です

これまでメインに使っていたところ出典: ローソンの報告書売上や営業総収入や営業利益がどうなっているかグラフがどんな風に推移しているか

すでにつかえるところ出典: ローソンの報告書新規事業にどのくらい取り組んでいるか CEOがどんな表情をしているか

テキストを使うことで分析出来そうなこと • 口コミの製品ブランディングへの効果 • 組織体制の変化 • 特許の新規性の測定 • 論文のトレンド変化 •
スタートアップがいかに資金を調達しているか • 企業の打ち出したい姿と、市場での評価の差分

Janka I. Stoker,Harry Garretsen,and Luuk J. Spreeuwers (2016) The Facial
Appearance of CEOs: Faces Signal Selection but Not Performance, PLos One doi: 10.1371/journal.pone.0159950

今日の流れ • Step1; 分析を行うための前環境を準備する • 分かち書き, 形態素解析, 正規化 etc… •
Step2; テキストを取得する (これまでの数回で詳説したため省略) • Step3; テキストを処理する • Step4; テキストを分析する

テキスト分析のレシピ • Jupyter Notebook/Google Colaboratory • Mecab • Mecab-ipadic-neologd •
Mecab-python-windows (Windows ユーザーの場合) 利用するもの • テキストデータ • 企業の概要データ • 日本の社会科学研究者リストデータセット

今日利用するデータセット +Notebook • https://drive.google.com/open?id=1psenA lby9XPL-np_yZX70GFYvZps-hGD

下準備 Mecab のインストールと国語の授業を思い出す

MeCab とは • https://taku910.github.io/mec ab/ • 京都大学情報学研究科−日本電信電話株式会社コミュニケーション科学基礎研究所共同研
究ユニットプロジェクトを通じて開発されたオープンソース形態素解析エンジン • 言語, 辞書,コーパスに依存しない汎用的な設計 • パラメータの推定に Conditional Random Fields (CRF) を用いており, ChaSen が採用している隠れマルコフモデルに比べ性能が向上 MeCab ChaSen JUMAN KAKASI 解析モデル bi-gram マルコフモデル可変長マルコフモデル bi-gram マルコフモデル最長一致コスト推定コーパスから学習コーパスから学習人手コストという概念無し学習モデル CRF (識別モデル) HMM (生成モデル) 辞書引きアルゴリズム Double Array Double Array パトリシア木 Hash? 解探索アルゴリズム Viterbi Viterbi Viterbi 決定的? 連接表の実装 2次元 Table オートマトン 2次元 Table? 連接表無し? 品詞の階層無制限多階層品詞無制限多階層品詞 2段階固定品詞という概念無し? 未知語処理字種 (動作定義を変更可能) 字種 (変更不可能) 字種 (変更不可能) 制約つき解析可能 2.4.0で可能不可能不可能 N-best解可能不可能不可能不可能

形態素解析 • 文章を意味を持つ最小限の単位に分解すること • 例 • 「何処の誰か知らないが出会う前の君に捧ぐ。この世未来切り開く何でもない君に」(Hello song, 星野源)
→ • 「何処/の/誰/か/知ら/ない/が/出会う/前/の/君/に/捧ぐ/。/この/世 /未来/切り/開く/何でも/ない/君/に」 • 主語と述語と目的語… など, 品詞ごとに分割し文章の意味合いを抽出することを可能にする。

日本語の品詞 Source: https://commons.wikimedia.org/wiki/File:%E6%97%A5%E6%9C% AC%E8%AA%9E%E6%96%87%E6%A7%8B%E9%80%A0.svg

Mecab をダウンロードする • Windows 10 環境の場合 • https://github.com/ikegami-yukino/mecab/releases • MeCab
0.996 64bit version を導入する • UTF-8 版で辞書を作成すること • MacOS 環境の場合 • HomeBrew 環境を利用する • https://www.karelie.net/install-mecab-mac/

Mecab のインストール (Windows ver.) • 言語を指定する • 文字コードを指定する

Mecab のインストール (Mac ver.) • Mecab とMecab 辞書のインストールをする brew install
mecab brew install mecab-ipadic

Mecab のテストをする (Windows 版) • 以下の通り, 分かち書きと品詞への分類が行われる

Mecab のテストをする (Mac版)

b. Mecab-ipadic-neologd のインストール

Mecab-ipadic-NEOlogd とは • https://github.com/neologd/ mecab-ipadic- neologd/blob/master/READ ME.ja.md • 多数のWeb上の言語資源から得た新語を追加することでカ
スタマイズした MeCab 用のシステム辞書 • Web上の文書の解析をする際に活用できる • 収録データ(一部) • 人名(姓/名)エントリデータ • ニュース記事から抽出した新語や未知語をエントリ化したデータ • ネット上で流行した単語や慣用句やハッシュタグをエントリ化したデータ • Web からクロールした大量の文書データ • 一般名詞/固有名詞の表記ゆれ文字列とその原型の組のリストをエントリ化したデータ

Mecab-ipadic-neologd を取得する git clone –depth 1 https://github.com/neologd/mecab-ipadic-neologd.git (git のインストールが必要)

7zip を使って辞書ファイルを解凍する (Windows の場合) 7zip のインストールが必要

辞書ファイルを作成する $ mecab-dict-index –d /Mecab/dic/ipadic –u Neologd.20190625-u.dic -f utf-8 –t
utf-8 mecab-user-dict-seed.20190624.csv

辞書をMeCab ディレクトリ内に配置

C:¥Program Files¥MeCab¥etc 以下にある mecabrc ファイルを差し替える NEologd の辞書を参照するようになる

固有名詞が取り出せるか確認するうさまると、田村麻美以外の固有名詞は抽出できる

c. mecab-python-windows のインストール

mecab-python-windows のインストール • Notebook 上で, !pip install mecab-python-windows を実行する

ここまでが下ごしらえ

ここまでのまとめ • テキスト分析が出来るようになると、これまであまり分析できていなかった箇所も見られるようになります • 自然言語処理なので、文字コードやOSの違いにより処理の仕方が違ったりしますが、下準備をしておくとこの後の作業が楽になります

7.2 wordcloud を書いてみよう

7.2 の流れ • テキストを取得する • テキストを分かち書きする • 品詞を数えてみる • WordCloud
を書いてみる

0. テキストを取得する • Twitter からデータを集めてくる (第三回参照)

0. テキストを取得する • あつまる

1. 分かち書きする • 品詞ごとに言葉を取り出す • Mecab (7.1参照)で分かち書きする • 品詞ごとに、出てきたター
ムの数をカウントする • While 文とif 文の組み合わせ • 参照 • https://qiita.com/ganariya/it ems/68fdcfed953f066ad4b7

1. 分かち書きする • 品詞ごとの単語数をカウントする • 名詞や動詞や記号が多い感じ

Wordcloud • 言葉の出現頻度をプロットする • マスク画像を使えば任意の画像上にプロットすることが可能 http://kennycason.com/posts/2014-07-03-kumo-wordcloud.html

Wordcloud • “Mecabと WordCloud を使ってワードクラウドを作る” Notebook を参照のこと • https://drive.google.com/open?id=1ps
enAlby9XPL-np_yZX70GFYvZps-hGD

2. Wordcloud • 必要なパッケージをインポートする • 開くファイルを指定する • 今回は, DBpedia.org から取得した経済学者の概要を抽出し,
UTF-8 でエンコーディングしたテキストデータとして保存 • データの取得の仕方は前回講義を参照 • マスク画像も別途用意(使わない場合はコメントアウト)

2. wordcloud • Mecab パッケージを用いて, 分かち書きを行う • Text.replace() を用いて, 改行を取り外す
• Windows の場合には ¥r¥n

2. Wordcloud • 抽出した用語から, 助詞と助動詞を取り外す • ストップワード (解析対象に含めないターム) を指定する

2. Wordcloud • Wordcloud関数を用いて, ワードクラウドを出力する • Font_path で利用する日本語フォントを指定する(今回は同じパスに配置)
• Mask で, プロットするマスク画像を指定する • Stopwords に, プロットしないタームを指定したベクトル stop_wordsを指定する • wordc.to_file でファイルの保存名を指定する

2. Wordcloud • 出力結果 • Dbpediaから取得した経済学者の概要データが, 分かち書きされている

Wordcloudの出力結果 • 経済学者 • 経営学者

Wordcloud の出力結果 • 社会学者 • 法学者

Wordcloud の出力結果 • 一橋大学 ?

Wordcloud の出力結果 • 早稲田大学 ?ハロウィンパーティーはどうやら、BOTを拾っているらしい

Wordcloud の出力結果 • 学習院大学 ?ラクロス部はどうやらすごくアクティブに SNSで活動しているらしい

まとめ; これっぽい - なんとなくの傾向を可視化する - レポートやインゼミの表紙がこれだと相手に対する示威行為になる気がする
- リアルタイムのリアクションを可視化する (ツイッターで時々みつけるやつ)

７.3 word2vecとTopicModel

7.3 でやりたいこと • とりあえず日本語話者がサザエさんと大学ネタとアナゴさんが好きなことが分かったので、もうちょっと詳しく解析してみる • 今回使うものは, Word2Vec と Topic
モデル

Word2vec • テキストデータを解析し, 各単語の意味をベクトル表現化する • 単語間の近接性などを測定することが可能に •
Skip-Gram Model • 入力された単語を元に周辺語を出力する, 入力層, 隠れ層, 出力層から構成されたニューラルネットワークを規定する引用; https://www.randpy.tokyo/entry/word2vec_skip_gram_model

Word2Vec • 文を単語に分かち書きし, それぞれ入力層と出力層にインプットしニューラルネットに学習させていく • 入力層から隠れ層への重み行列; W
隠れ層から出力層への重み行列; W’ をそれぞれ計算する • このとき、重み行列の各行のベクトルが, 単語の特徴を示すベクトルになる引用; https://www.randpy.tokyo/entry/word2vec_skip_gram_model

word2vec • “Mecabと word2vec で解析する” Notebook を参照のこと • https://drive.google.com/open?id=1ps enAlby9XPL-np_yZX70GFYvZps-hGD

Word2vec • 必要なパッケージをインポートする • ファイルを読み込み, 分かち書きしたファイルを出力する

Word2vec • 出力結果

Word2vec • 分かち書きしたファイルに基づき, Word2vec モデルを生成する • このとき •
Min_count; 単語の出現回数 • Window; 入力単語からの最大距離 • Size; ベクトルの次元数 • Sg=1; skip-gram 形式でのモデリング • iter; 学習の反復回数 • 最後にファイルを保存する

わりと時間がかかるので, コーヒーでも飲んで待つ

2. Word2Vec • 学習したファイルを読み込む • 抽出したベクトルをリストアップする

2. Word2Vec • 経営学っぽいタームが抽出されている

2. Word2vec • 特定のタームと類似している単語リストを抽出する

Similarity Words の抽出(from 経営学者リスト) イノベーションマーケティング論技術経営コーポレート・ガバナンス医療 0.92人的資源
0.92MOT 0.98 神戸大学大学院経営学研究科 0.93 静岡 0.91評価 0.92開発 0.92第一人者 0.92 地域 0.91ほか 0.91システム 0.92人 0.91 経営情報学部 0.9勲 0.91知識 0.91組織論 0.91 県立大学 0.88技術 0.9マネジメント 0.9および 0.9 センター 0.88流通 0.9監事 0.88消費者 0.89 研究科 0.87分析 0.9課題 0.85にて 0.89 経営情報 0.87委員会 0.9Certified 0.85問題 0.88 研究所 0.84課題 0.9客員研究員 0.84受章 0.88 所長 0.83人 0.89技術 0.82期 0.87 長 0.82監事 0.89関係 0.82現代 0.87 准教授 0.81および 0.89プロジェクト 0.82勲 0.87 国際企業 0.8多摩大学 0.89 マーケティング論 0.81アドバイザー 0.87 経済 0.8地域経済 0.88領域 0.81及び 0.87 研究員 0.79サービス 0.88ホスピタリティ 0.8社会学 0.86

2. Word2vec • 特定タームのベクトル表現を確認する出力結果

2. word2vec • 語句ベクトル同士で近い言葉のリストを抽出する • 東大と一橋なので, 「組織学会」などそれっぽいタームが。

2. word2vec • 語句同士の類似度を抽出する • 一橋大学(の商学部)は九大よりは東大に近い • 一橋大学(の商学部)は経済学よりもイノベーションのほうが近い • 一橋大学(の商学部)は組織学会にとても近い

3. Topic モデル • 文章における単語の出現確率を推定するためのモデル • 出現する単語の種類と数が, トピック(カテゴリ) によって
異なると仮定する • 各文章は複数のトピックによって構成されており, 各トピックの単語分布を合算された形で単語が生成される https://qiita.com/icoxfog417/items/7c944cb29dd7cdf5e2b1

3. Topic モデル • “トピックモデルで解析する” Notebook を参照のこと • https://drive.google.com/open?id=1psenAlby9XPL- np_yZX70GFYvZps-hGD

3. Topic モデル • 必要なパッケージをインポートする • 元文章からタームを取り出し, キー
ワードを抽出する • 今回のデータの場合, 社会学者ひとりひとりのタームが抽出されたベクトルが形成される参考文献; https://paper.hatenadiary.jp/entry/2016/11/06/212149

3. Topic モデル • 出力結果

3. Topic モデル • 辞書とコーパスをそれぞれ作成する • no_below; 2回以下表示しない単語は無視する • no_abobe;
全体の文章の10％以上に出現するタームを無視する

3. Topic モデル • 出力結果 1602 ソーシャルワーク 2 1265 ソーシャル・キャピタル
2 1524 タレント 2 1403 テレコム 2 725 テレビ 6 793 テーマ 5 559 デザイン 3 1451 デュルケーム 2 395 ドイツ 8 811 ニュース 3 1153 ネット 3 414 ネットワーク 10 310 ノンフィクション 3 33 バークレー 2 1467 フィールドワーク 3 1204 フェミニスト 2 1154 フェミニズム 3 1311 フェリス女学院大学 2 34 フランス 8 458 プロジェクト 3 415 ヘイトスピーチ 2 649 ペンネーム 2 1608 ホームレス 2 1057 ポスト 2 1058 ポストコロニアル 2 101 ポピュラー 3 679 マス 8 620 マスコミ 2 54 マスコミュニケーション 9 55 マスメディア 4 1126 マックス・ウェーバー 2 571 マックス・ヴェーバー 4

3. Topic モデル • 辞書とコーパスを読み込む

3. Topic モデル • topic_N で表示するトピック数を指定し, 出力する

3. Topic モデル

まとめ; テキスト分析で出来そうなこと • WordCloud • みんなのなんとなくのイメージの可視化 • Word2vec • 言葉のベクトル化により,
モデルへの組み込みが可能 • 被説明変数？説明変数？ • Topic モデル • グルーピングの可視化 • 類似語の提案

まとめ(2); じゃあ、経済学/経営学でどう使えるの？ (a.) 不定形のデータをベクトル化してモデリングする (b.) 被説明変数または説明変数のひとつとして、多変量解析モデルに組み込む • 新規性の測定など

今日の実習 • テキストデータ取得して、それを用いて, 分析を行いましょう • Wordcloud の作成 •
Word2vec モデルの作成 • Topic モデルの作成などを試行して, 結果を出力すること Extended;) Dbpedia.org を使いテキストデータを取得して解析する

7.4 計量テキスト分析をやろう

計量テキスト分析 • 語句と語句の結びつきや、関係性について可視化を行う • 多変量のテキストデータから意味や傾向を取り出すことに活用する • 実用例
• 松井剛「ことばとマーケティング」 • 佐々木ほか (2020)新型コロナウィルス感染症への組織対応に関する緊急調査: 第三報 • http://pubs.iir.hit- u.ac.jp/admin/ja/pdfs/show/2393 • COVID-19 に関連して、企業がどのように対応したかをサーベイの自由記述欄から可視化する

計量テキスト分析(cont.) • COVID-19 調査

このモジュールでやること •Dbpedia.org の東証一部/東証二部/マザーズの会社概要データを持ってきて, 1. どのようなことばがよく出てくるのかを知りたい 2. どのようなことばと、どのようなことばがつながっているのかを知りたい 2020/5/27
83

レシピ 1. KHCoder をインストールする 2. Dbpedia.org から SPARQL Endpoint 経由でデータセットを取得する
• 前回の内容 3. Manaba からデータセットをダウンロードする 4. KHCoder に定点調査の自由記述データを読み込む 5. データ分析前の処理をする 6. 頻出語の取り出しを行う 7. 共起ネットワークを書く 8. 属性情報ごとの特徴を抽出する 9. 対応分析を行う 2020/5/27 84

1. KHCoder をインストールする • KHCoder とは？ • テキスト型データの計量的な内容分析（計量テキスト分析）もしくはテキストマイニングのためのフリーソフトウェアである。各種の
検索を行えるほか、どんな言葉が多く出現していたのかを頻度表から見ることができる。さらに多変量解析によって、一緒に出現することが多い言葉のグループや、同じ言葉を含む文書のグループを見ることで、データ中に含まれるコンセプトを探索できる。 • また一部の文書群に注目した場合に、その文書群に特に多く出現する言葉をリストアップすることで、その文書群の特徴を探索できる。あるいは分析者が指定した基準によって、文書の分類を自動的に行うこともできる。 • 引用: https://ja.wikipedia.org/wiki/KH_Coder 2020/5/27 85

1. KHCoder をインストールする • https://khcoder.net/dl3. htmlにアクセスする • Download をクリックする
2020/5/27 86

1. KHCoder をインストールする • ダウンロードしたファイル (khcoder-3a16.exe) を選択し, クリックする •
Unzip を選択し, ファイルを展開する 2020/5/27 87

1. Khcoder をインストールする • スタートメニューなどに登録して, 起動する 2020/5/27 88

1. KHCoder をインストールする • アプリケーションが表示される 2020/5/27 89

1. Khcoder をインストールする • Tips: Mac な場合 • かなりめんどくさい •
Perl やR の個別パッケージの導入が必要 • 有償版のインストールパッケージが提供されている. • https://khcoder.stores.jp/#!/it ems/536a53268a56108414000 1dd 2020/5/27 90

2. Dbpedia.org から SPARQL Endpoint 経由でデータセットを取得する • 前回の講義で説明した Dbpedia.org
の SPARQL Endpoint から, 東証一部, 東証二部, およびマザーズの企業名とその企業概要を取得する • 日経NEEDS などに採録されたオフィシャルなデータではなくて、 Wikipedia で執筆された企業の「紹介文」 2020/5/27 91

2. Dbpedia.org から SPARQL Endpoint 経由でデータセットを取得する • Jupyter Notebook
で以下のように記述する (詳しくは前回配布した notebook を参照のこと)

2. Dbpedia.org から SPARQL Endpoint 経由でデータセットを取得する • 以下の通り, 企業名と概要がアウトプットされる

2. Dbpedia.org から SPARQL Endpoint 経由でデータセットを取得する • 同様の作業を, 東証一部と東証二部で繰り返す
#東証マザーズ上場企業の情報を取得する sparql2 = SPARQLWrapper(endpoint='http://ja.dbpedia.org/sparql', returnFormat='json') sparql2.setQuery(""" PREFIX dbpedia-owl: <http://dbpedia.org/ontology/> select distinct ?name ?abstract where { ?company <http://dbpedia.org/ontology/wikiPageWikiLink> <http://ja.dbpedia.org/resource/Category:東証マザーズ上場企業> . ?company rdfs:label ?name . ?company <http://dbpedia.org/ontology/abstract> ?abstract . } """) results2 = sparql2.query().convert()

2. Dbpedia.org から SPARQL Endpoint 経由でデータセットを取得する • Excel or
panda で適宜整形する

3. KHCoder にデータを読み込む • データ • 東証一部/東証二部/マザーズ: • https://www.dropbox.com/s/9jtwyxw4ae3nntz/%E6%9D%B1%E8%A8%BC%E4%B 8%80%E9%83%A8%E6%9D%B1%E8%A8%BC%E4%BA%8C%E9%83%A8%E3%83%9
E%E3%82%B6%E3%83%BC%E3%82%BA.xlsx?dl=0 • 経済学者/経営学者/社会学者: • https://www.dropbox.com/s/jmvz8fv25aqecsj/%E6%97%A5%E6%9C%AC%E3%81 %AE%E7%B5%8C%E6%B8%88%E7%B5%8C%E5%96%B6%E7%A4%BE%E4%BC%9 A%E6%B3%95%E5%AD%A6%E8%80%85%E4%B8%80%E8%A6%A7.xlsx?dl=0 • ヒップホップ/ロック/フォークグループ: • https://www.dropbox.com/s/5iye8puor1eg52r/%E6%97%A5%E6%9C%AC%E3%81 %AE%E3%83%92%E3%83%83%E3%83%97%E3%83%9B%E3%83%83%E3%83%97% E3%83%AD%E3%83%83%E3%82%AF%E3%83%95%E3%82%A9%E3%83%BC%E3% 82%AF%E3%82%B0%E3%83%AB%E3%83%BC%E3%83%97.xlsx?dl=0 2020/5/27 96

3. KHCoder に定点調査の自由記述データを読み込む • KHCoder を開く • [プロジェクト] –[新規]
を選択する 2020/5/27 97

3. KHCoder にデータを読み込む • [参照]をクリックして, 分析対象ファイルを選ぶ • 分析対象とする列について[詳細]
をクリックする • OK をクリックする • ファイルが読み込まれる 2020/5/27 98

4. データ分析前の処理をする • [前処理] – [テキストのチェック]をクリックする • OKをクリックする 2020/5/27
99

4. データ分析前の処理をする • 修正が必要である旨メッセージが表示される • [画面に表示] をクリックして, 問題点をチェックする • “テキストの自動修正”
より[実行]をクリックする 2020/5/27 100

4. データ分析前の処理をする • 問題点が修正される. • [閉じる]をクリックする. 2020/5/27 101

4. データ分析前の処理をする • [前処理] – [前処理の実行] を選択する • OKをクリックする 2020/5/27
102

4. データ分析前の処理をする • 正常に処理が終了した場合, 以下のメッセージが表示される. • 集計値が表示される 2020/5/27 103

4. データ分析前の処理をする • 複合語の検出を行う • [前処理]-[複合語の検出]-[茶筌を利用]をクリックする

4. データ分析前の処理をする • 解析が終わると, 複合語のリストが抽出される

5. 頻出語の取り出しを行う • [ツール]-[抽出語]-[抽出語リスト(Excel)]を選択する 2020/5/27 106

5. 頻出語の取り出しを行う • “抽出語リストの形式” • 品詞別 • “記入する数値” • 出現回数(TF)
• “出力するファイルの形式” • Excel (*.xlsx) を選択し, OK をクリックする 2020/5/27 107

5. 頻出語の取り出しを行う • 品詞ごとにタームが抽出される 2020/5/27 108

5. 頻出語の取り出しを行う • 頻出語を選択した場合 2020/5/27 109

6. ストップワードの設定 • 品詞リストをみると, 企業データでは当たり前のものがたくさん含まれている • 解析に使わない言葉は、ストップワードとして指定する
必要がある • [前処理]から[語の取捨選択] をクリックする

6. ストップワードの設定 • Force ignore “使用しない語の指定” にストップワードを指定する • 株式会社
• 本社 • 会社 • 企業 • LTD. • CO., • CORPORATION • INC. • ょ • CO.,LTD. • HOLDINGS • THE • ELECTRIC • コーポレートなど….

6. ストップワードの指定 • --cell– は消さないようにして, 項目に指定しOK をクリックする

6. 共起ネットワークを書く • [ツール]-[抽出語]-[共起ネットワーク]を選択する 2020/5/27 113

6. 共起ネットワークを書く • パラメータを指定して, OK をクリックする. • “動詞” のチェックを外す 2020/5/27
114

6.共起ネットワークを書く • 共起では, ある特定のタームで共に出てくる語の確認ができる • 東証一部と東証二部とマザーズでは企業が取り組んでいることが違う
• マザーズはインターネット系, 東証二部は自動車や食品, 東証一部は持ち株などのタームが出ている 2020/5/27 115

7. 対応分析を行う • 抽出語を用いた対応分析を行い、その結果を二次元の散布図に示す • 出現パターンの似通った語にはどのようなものがあったのか探ることができる
• [ツール]-[抽出語]-[対応分析] を選択する 2020/5/27 116

7. 対応分析を行う • “対応分析のオプション” – “分析に仕様するデータ表の種類”から, [抽出語 x 外部変
数] から分類を選択し, OK をクリックする 2020/5/27 117

7. 対応分析を行う • マザーズ • 東証一部 • 東証二部ごとに特徴的な言葉が抽出される 2020/5/27
118

8. 多次元尺度構成法で解析する • 近接している語のパターンを解析できる • [ツール]-[抽出語]-[多次元尺度構成法]を選択する

8. 多次元尺度構成法で解析する • パラメータを適宜指定する • 最小出現数を調整すれば, マッピングできる語の数が調整できる • OK
をクリックする

8. 多次元尺度構成法で解析する • 近似した言葉がマッピングされる • 近いところにマッピングされている語は, 似たようなコンテクストで出現している
• バブルをクリックすると, 該当する語が利用されているテキストが確認できる

9. マッチングルールを作成する • 特定の語のグループを作成し, それらでグルーピングすることで特徴を抽出する • 今回の場合, 自動車産業, 電気
産業, 銀行, ICT など産業分類ごとにグルーピングする • 記述方法 *グループ名1 みかん or いちご or りんご *グループ名2 ごりら or らっこ or こんどる *グループ名3 るびー or びーどる

9. マッチングルールを作成する • 例.

10. コーディングルールに基づき単純推計する • [ツール]-[コーディング]-[単純推計] をクリックする

10. コーディングルールに基づき単純推計する • コーディングルール・ファイルから, コーディングルールを記述したテキストファイルを指定する •
集計をクリックする

10. コーディングルールに基づき単純推計する • コーディングにマッチする文章がそれぞれ抽出される • IT や持株会社群が多そうなことが確認できる

11. コーディングルールに基づきクロス集計する • [ツール]-[コーディング]-[クロス集計] をクリックする

11. コーディングルールに基づきクロス集計する • クロス集計[分類]を選択した上で, [集計] をクリックする • マザーズはITの割合が高いことが確認できる

11. コーディングルールに基づきクロス集計する • ヒートマップを作成する • バブルマップを作成する

12. Jacaard 係数に基づき類似度行列を導出する • [ツール]-[コーディング]-[類似度行列]をクリックする

13. コーディングルールに基づき対応分析を行う • [ツール]-[コーディング]-[対応分析]をクリックする

13. コーディングルールに基づき対応分析を行う • コードx外部変数から”分類”を選択する • “原点を拡大” を選択する •
OK をクリックする

13. コーディングルールに基づき対応分析を行う • マザーズはIT と製薬系 (おそらくバイオスタートアップ) • 東証一部は自動車と銀行
• 東証二部は半導体が近いことが確認できる • 市場ごとの特性が見える

14. コーディングルールに基づき共起ネットワーク分析を行う • [ツール]-[コーディング]-[共起ネットワーク] をクリックする

14. コーディングルールに基づき共起ネットワーク分析を行う語 – 外部変数・見出しから分類または企業名を選択する

14. コーディングルールに基づき共起ネットワーク分析を行う • 分類と企業名でマッピングする • 分類とマッピングルールでプロットする

今日の実習 (windows ユーザ向け) • アップロードされている • (1) 東証一部/二部/マザーズの企業概要データ •
(2)日本の経済/経営/社会/法学者の概要データ • (3)日本のロック/ヒップホップ /フォークグループの概要データを用いて, テキスト分析を行う • 語句の抽出 • 共起ネットワーク • 対応分析 • 多次元尺度構成法 • コーディングルールの設定などを行い解析すること

共起ネットワーク • KHCoder で共起ネットワークを作成(いくつかストップワードを指定済み)。 • 経済学者は政策と、経済学者と社会学者は社会と、経営学者は企業と共起する。法学者
は弁護士や民法や憲法と。これもいろんな意味で妥当。

対応分析 • 経済と経営が近い距離に • マルクスは経営の近くに

まとめ • 計量テキスト分析を使うと、特定の事象に対するグループ間の反応などが可視化できます • きれいな解析をするためには、品詞ごとの整理や、ストップワードの指定が大切

THANKS [email protected]

Appendix. 感情分析

5. 感情分析 • Ekman and Friesen (1971) • 表情の研究を通じ, 感情表現には普遍的
な6つの感情 (怒り, 嫌悪, 恐怖, 喜び, 悲しみ, 驚き) があることを示す. • ただし, 西洋文化圏と東洋文化圏では表情の表出に違いがある. • 参照 • 日本人の基本6感情の表情は「エクマン理論」に従うか？ – 人工知能を用いて検証 • https://academist- cf.com/journal/?p=10185 • https://ocw.mit.edu/courses/brain-and- cognitive-sciences/9-00sc-introduction- to-psychology-fall-2011/emotion- motivation/discussion-emotion/ © Paul Ekman. All rights reserved.

利用する Notebook • Google Colaboratory • https://colab.research.google.com/driv e/1EZ3NMw3I9FrjTFEPBQQRiD4TtUD zJ4YF

5. 感情分析 • git から sentiment_ja パッケージを取得する • https://github.com/sugiyam
ath/sentiment_ja • 展開したディレクトリ (sentiment_ja) に移動する

5. 感情分析 • “!python setup.py install” でインストールする

5. 感情分析 • Analyzer パッケージをインポートして, 文字列を取り込む • 「三田でラーメン二郎の本店でヤサイカラメアブラマシマシの二郎を食べるのは素晴らしい」 •
「行列は切ない」

5. 感情分析 • 出力結果 • [{'sentence': '三田でラーメン二郎の本店でヤサイカラメアブラマシマシの二郎を食べるのは素晴らしい', 'emotions': {'happy':
'7.0', 'sad': '1.0', 'disgust': '1.0', 'angry': '1.0', 'fear': '1.0', 'surprise': '12.0'}}, {'sentence': '行列は切ない', 'emotions': {'happy': '1.0', 'sad': '8.0', 'disgust': '5.0', 'angry': '3.0', 'fear': '1.0', 'surprise': '1.0’}}] • Happy, sad, disgust, angry, fear, surprise で分類される

参考文献 • pythonでgensimを使ってトピックモデル(LDA)を行う • https://paper.hatenadiary.jp/entry/2016/11/06/212149 • 「OK word2vec ! "マジ卍"の意味を教えて」
Pythonで word2vec実践してみた • https://www.randpy.tokyo/entry/python_word2vec • models.word2vec – Word2vec embeddings • https://radimrehurek.com/gensim/models/word2vec.html • 15分でできる日本語Word2Vec • https://qiita.com/makaishi2/items/63b7986f6da93dc55edd

参考文献(2) • Pythonで文字列を分割（区切り文字、改行、正規表現、文字数） • https://note.nkmk.me/python-split-rsplit-splitlines-re/ • WindowsでNEologd辞書を比較的簡単に入れる方法 • https://qiita.com/zincjp/items/c61c441426b9482b5a48
• Windows 10 64bit で python + Mecab • https://qiita.com/kuro_hane/items/64e39d5deeb3f876b421 • Windows10(64bit)/Python3.6でmecab-python環境構築 • http://blog.livedoor.jp/oyajieng_memo/archives/1777479.html

参考文献(3) • MeCab: Yet Another Part-of-Speech and Morphological Analyzer •
https://taku910.github.io/mecab • mecab-ipadic-NEologd : Neologism dictionary for MeCab • https://github.com/neologd/mecab-ipadic-neologd • Word2Vecを用いた類義語の抽出が上手く行ったので、分析をまとめてみた • https://qiita.com/To_Murakami/items/cc225e7c9cd9c0ab641e • 自然言語処理による文書分類の基礎の基礎、トピックモデルを学ぶ • https://qiita.com/icoxfog417/items/7c944cb29dd7cdf5e2b1

参考文献(4) • 日本語ツイートをEkmanの基本6感情で評価 • https://qiita.com/sugiyamath/items/7cabef39390c4a07e4d8 • ツイートから学習した感情分析モデル • https://qiita.com/sugiyamath/items/dc342d53b4e4e4ef9308

一橋大学「#経済学のための実践的データ分析」 2020春: 7/10回

一橋大学「#経済学のための実践的データ分析」 2020春: 7/10回

More Decks by yasushihara

Other Decks in Education

Featured

Transcript