#経済学のための実践的データ分析 3.9 テキスト分析(前半; wordcloud, word2vec, LDA etc...))

経済学のための実践的データ分析 3.9. テキスト分析 (前半) 38教室一橋大学経済学研究科原泰史 [email protected]

確認事項 • 電源タップは足りているでしょうか？

3.9. テキスト分析(1) • この回では、これまで用いてきたデータセットについて、異なるアプローチから解析することを目指します。 • 具体的にはすでに定量化されているデータではなく、特許における特許名、論文における論文名、企業データベースにおける企業の概要などのテキストデータを解析する手法について学びます。
• 講義ではPython, R および, KHCoder (http://khcoder.net/) を用い、解析を行います。学生は分析した結果についてレポートにまとめ、提出する必要があります。

ケーススタディ2: 小室さんと華原さんのトークを分析してみよう • TK MUSIC CRAMP • 1995年から1998年まで放送してた音楽番組 •
1995年度は小室哲哉さんが • 1996年度はSMAPの中居正広さんが • 1997年度は華原朋美さんが司会を担当 • 二人の会話を共起グラフ分析して、二人がどのくらいラブラブだったのか、どのくらい冷めちゃったのか可視化できるかやってみよう • 分析対象 • 1996/3/6 オンエアのトーク • 1998/3/25 オンエアのトーク 3/8/2015 4

結果 • 1996/3/6 OA 版 • 1998/3/25 OA 版 3/8/2015
5 ※. 動詞, 名詞, 形容詞を抽出

結果(2) : 頻出語のみに限定 • 1996/3/6 OA版 • 1998/3/25 OA 版
3/8/2015 6 ※. 動詞, 名詞, 形容詞を抽出

今日のコンテンツテキスト分析レポートの説明最終レポートの説明

1. テキスト分析: Mecab+word2vecで解析し, wordcloud を書いてみる

1. Mecab+word2vecで解析し, wordcloud を書いてみる • Jupyter Notebook/Google Colaboratory • Mecab
• Mecab-ipadic-neologd • Mecab-python-windows (Windows ユーザーの場合) 利用するもの • テキストデータ • 企業の概要データ • 日本の社会科学研究者リストデータセット

今日利用するデータセット +Notebook • https://drive.google.com/open?id=1psenA lby9XPL-np_yZX70GFYvZps-hGD

a. Mecab のインストール

MeCab とは • https://taku910.github.io/mec ab/ • 京都大学情報学研究科−日本電信電話株式会社コミュニケーション科学基礎研究所共同研
究ユニットプロジェクトを通じて開発されたオープンソース形態素解析エンジン • 言語, 辞書,コーパスに依存しない汎用的な設計 • パラメータの推定に Conditional Random Fields (CRF) を用いており, ChaSen が採用している隠れマルコフモデルに比べ性能が向上 MeCab ChaSen JUMAN KAKASI 解析モデル bi-gram マルコフモデル可変長マルコフモデル bi-gram マルコフモデル最長一致コスト推定コーパスから学習コーパスから学習人手コストという概念無し学習モデル CRF (識別モデル) HMM (生成モデル) 辞書引きアルゴリズム Double Array Double Array パトリシア木 Hash? 解探索アルゴリズム Viterbi Viterbi Viterbi 決定的? 連接表の実装 2次元 Table オートマトン 2次元 Table? 連接表無し? 品詞の階層無制限多階層品詞無制限多階層品詞 2段階固定品詞という概念無し? 未知語処理字種 (動作定義を変更可能) 字種 (変更不可能) 字種 (変更不可能) 制約つき解析可能 2.4.0で可能不可能不可能 N-best解可能不可能不可能不可能

形態素解析 • 文章を意味を持つ最小限の単位に分解すること • 例 • 「何処の誰か知らないが出会う前の君に捧ぐ。この世未来切り開く何でもない君に」(Hello song, 星野源)
→ • 「何処/の/誰/か/知ら/ない/が/出会う/前/の/君/に/捧ぐ/。/この/世 /未来/切り/開く/何でも/ない/君/に」 • 主語と述語と目的語… など, 品詞ごとに分割し文章の意味合いを抽出することを可能にする。

Mecab をダウンロードする • Windows 10 環境の場合 • https://github.com/ikegami-yukino/mecab/releases • MeCab
0.996 64bit version を導入する • UTF-8 版で辞書を作成すること • MacOS 環境の場合 • HomeBrew 環境を利用する • https://www.karelie.net/install-mecab-mac/

Mecab のインストール (Windows ver.) • 言語を指定する • 文字コードを指定する

Mecab のインストール (Mac ver.) • Mecab とMecab 辞書のインストールをする brew install
mecab brew install mecab-ipadic

Mecab のテストをする (Windows 版) • 以下の通り, 分かち書きと品詞への分類が行われる

Mecab のテストをする (Mac版)

b. Mecab-ipadic-neologd のインストール

Mecab-ipadic-NEOlogd とは • https://github.com/neologd/ mecab-ipadic- neologd/blob/master/READ ME.ja.md • 多数のWeb上の言語資源から得た新語を追加することでカ
スタマイズした MeCab 用のシステム辞書 • Web上の文書の解析をする際に活用できる • 収録データ(一部) • 人名(姓/名)エントリデータ • ニュース記事から抽出した新語や未知語をエントリ化したデータ • ネット上で流行した単語や慣用句やハッシュタグをエントリ化したデータ • Web からクロールした大量の文書データ • 一般名詞/固有名詞の表記ゆれ文字列とその原型の組のリストをエントリ化したデータ

Mecab-ipadic-neologd を取得する git clone –depth 1 https://github.com/neologd/mecab-ipadic-neologd.git (git のインストールが必要)

7zip を使って辞書ファイルを解凍する (Windows の場合) 7zip のインストールが必要

辞書ファイルを作成する $ mecab-dict-index –d /Mecab/dic/ipadic –u Neologd.20190625-u.dic -f utf-8 –t
utf-8 mecab-user-dict-seed.20190624.csv

辞書をMeCab ディレクトリ内に配置

C:¥Program Files¥MeCab¥etc 以下にある mecabrc ファイルを差し替える NEologd の辞書を参照するようになる

固有名詞が取り出せるか確認するうさまると、田村麻美以外の固有名詞は抽出できる

c. mecab-python-windows のインストール

mecab-python-windows のインストール • Notebook 上で, !pip install mecab-python-windows を実行する

ここまでが下ごしらえ

テキスト解析をやってみる 1. Wordcloud を作る 2. Word2vec で特徴量を抽出する
3. Topic モデルを構築する

1. Wordcloud • 言葉の出現頻度をプロットする • マスク画像を使えば任意の画像上にプロットすることが可能 http://kennycason.com/posts/2014-07-03-kumo-wordcloud.html

1. Wordcloud • “Mecabと WordCloud を使ってワードクラウドを作る” Notebook を参照のこと •
https://drive.google.com/open?id=1ps enAlby9XPL-np_yZX70GFYvZps-hGD

1. Wordcloud • 必要なパッケージをインポートする • 開くファイルを指定する • 今回は, DBpedia.org から取得した経済学者の概要を抽出し,
UTF-8 でエンコーディングしたテキストデータとして保存 • マスク画像も別途用意(使わない場合はコメントアウト)

1. wordcloud • Mecab パッケージを用いて, 分かち書きを行う • Text.replace() を用いて, 改行を取り外す
• Windows の場合には ¥r¥n

1. Wordcloud • 抽出した用語から, 助詞と助動詞を取り外す • ストップワード (解析対象に含めないターム) を指定する

1. Wordcloud • Wordcloud関数を用いて, ワードクラウドを出力する • Font_path で利用する日本語フォントを指定する(今回は同じパスに配置)
• Mask で, プロットするマスク画像を指定する • Stopwords に, プロットしないタームを指定したベクトル stop_wordsを指定する • wordc.to_file でファイルの保存名を指定する

1. Wordcloud • 出力結果 • Dbpediaから取得した経済学者の概要データが, 分かち書きされている

1. Wordcloud • 経済学者 • 経営学者

1. Wordcloud • 社会学者 • 法学者

これっぽい - なんとなくの傾向を可視化する - リアルタイムで一橋祭のリアクションを可視化する (ツイッターで時々みつ
けるやつ)

2. Word2vec • テキストデータを解析し, 各単語の意味をベクトル表現化する • 単語間の近接性などを測定することが可能に
• Skip-Gram Model • 入力された単語を元に周辺語を出力する, 入力層, 隠れ層, 出力層から構成されたニューラルネットワークを規定する引用; https://www.randpy.tokyo/entry/word2vec_skip_gram_model

2. Word2Vec • 文を単語に分かち書きし, それぞれ入力層と出力層にインプットしニューラルネットに学習させていく • 入力層から隠れ層への重み行列;
W 隠れ層から出力層への重み行列; W’ をそれぞれ計算する • このとき、重み行列の各行のベクトルが, 単語の特徴を示すベクトルになる引用; https://www.randpy.tokyo/entry/word2vec_skip_gram_model

2. word2vec • “Mecabと word2vec で解析する” Notebook を参照のこと • https://drive.google.com/open?id=1ps
enAlby9XPL-np_yZX70GFYvZps-hGD

2. Word2vec • 必要なパッケージをインポートする • ファイルを読み込み, 分かち書きしたファイルを出力する

2. Word2vec • 出力結果

2. Word2vec • 分かち書きしたファイルに基づき, Word2vec モデルを生成する • このとき
• Min_count; 単語の出現回数 • Window; 入力単語からの最大距離 • Size; ベクトルの次元数 • Sg=1; skip-gram 形式でのモデリング • iter; 学習の反復回数 • 最後にファイルを保存する

わりと時間がかかるので, コーヒーでも飲んで待つ

2. Word2Vec • 学習したファイルを読み込む • 抽出したベクトルをリストアップする

2. Word2Vec • 経営学っぽいタームが抽出されている

2. Word2vec • 特定のタームと類似している単語リストを抽出する

Similarity Words の抽出(from 経営学者リスト) イノベーションマーケティング論技術経営コーポレート・ガバナンス医療 0.92人的資源
0.92MOT 0.98 神戸大学大学院経営学研究科 0.93 静岡 0.91評価 0.92開発 0.92第一人者 0.92 地域 0.91ほか 0.91システム 0.92人 0.91 経営情報学部 0.9勲 0.91知識 0.91組織論 0.91 県立大学 0.88技術 0.9マネジメント 0.9および 0.9 センター 0.88流通 0.9監事 0.88消費者 0.89 研究科 0.87分析 0.9課題 0.85にて 0.89 経営情報 0.87委員会 0.9Certified 0.85問題 0.88 研究所 0.84課題 0.9客員研究員 0.84受章 0.88 所長 0.83人 0.89技術 0.82期 0.87 長 0.82監事 0.89関係 0.82現代 0.87 准教授 0.81および 0.89プロジェクト 0.82勲 0.87 国際企業 0.8多摩大学 0.89 マーケティング論 0.81アドバイザー 0.87 経済 0.8地域経済 0.88領域 0.81及び 0.87 研究員 0.79サービス 0.88ホスピタリティ 0.8社会学 0.86

2. Word2vec • 特定タームのベクトル表現を確認する出力結果

2. word2vec • 語句ベクトル同士で近い言葉のリストを抽出する • 東大と一橋なので, 「組織学会」などそれっぽいタームが。

2. word2vec • 語句同士の類似度を抽出する • 一橋大学(の商学部)は九大よりは東大に近い • 一橋大学(の商学部)は経済学よりもイノベーションのほうが近い • 一橋大学(の商学部)は組織学会にとても近い

3. Topic モデル • 文章における単語の出現確率を推定するためのモデル • 出現する単語の種類と数が, トピック(カテゴリ) によって
異なると仮定する • 各文章は複数のトピックによって構成されており, 各トピックの単語分布を合算された形で単語が生成される https://qiita.com/icoxfog417/items/7c944cb29dd7cdf5e2b1

3. Topic モデル • “トピックモデルで解析する” Notebook を参照のこと • https://drive.google.com/open?id=1psenAlby9XPL- np_yZX70GFYvZps-hGD

3. Topic モデル • 必要なパッケージをインポートする • 元文章からタームを取り出し, キー
ワードを抽出する • 今回のデータの場合, 社会学者ひとりひとりのタームが抽出されたベクトルが形成される参考文献; https://paper.hatenadiary.jp/entry/2016/11/06/212149

3. Topic モデル • 出力結果

3. Topic モデル • 辞書とコーパスをそれぞれ作成する • no_below; 2回以下表示しない単語は無視する • no_abobe;
全体の文章の10％以上に出現するタームを無視する

3. Topic モデル • 出力結果 1602 ソーシャルワーク 2 1265 ソーシャル・キャピタル
2 1524 タレント 2 1403 テレコム 2 725 テレビ 6 793 テーマ 5 559 デザイン 3 1451 デュルケーム 2 395 ドイツ 8 811 ニュース 3 1153 ネット 3 414 ネットワーク 10 310 ノンフィクション 3 33 バークレー 2 1467 フィールドワーク 3 1204 フェミニスト 2 1154 フェミニズム 3 1311 フェリス女学院大学 2 34 フランス 8 458 プロジェクト 3 415 ヘイトスピーチ 2 649 ペンネーム 2 1608 ホームレス 2 1057 ポスト 2 1058 ポストコロニアル 2 101 ポピュラー 3 679 マス 8 620 マスコミ 2 54 マスコミュニケーション 9 55 マスメディア 4 1126 マックス・ウェーバー 2 571 マックス・ヴェーバー 4

3. Topic モデル • 辞書とコーパスを読み込む

3. Topic モデル • topic_N で表示するトピック数を指定し, 出力する

3. Topic モデル

まとめ; テキスト分析で出来そうなこと • 共起ネットワーク • 言葉同士の関係性を明示化し, 可視化する • WordCloud •
みんなのなんとなくのイメージの可視化 • Word2vec • 言葉のベクトル化により, モデルへの組み込みが可能 • 被説明変数？説明変数？ • Topic モデル • グルーピングの可視化 • 類似語の提案

まとめ(2); じゃあ、経済学/経営学でどう使えるの？ (a.) 不定形のデータをベクトル化してモデリングする (b.) 被説明変数または説明変数のひとつとして、多変量解析モデルに組み込む • 新規性の測定など

今日の実習; その2 • 取得したテキストデータを用いて, 分析を行う • Wordcloud の作成 •
Word2vec モデルの作成 • Topic モデルの作成などを試行して, 結果を出力すること Extended;) Dbpedia.org を使いテキストデータを取得して解析する

3. レポート 2+3回目について

レポート(2+3回目)の内容 • 概要 • テーマ; とても細かくやってみる「企業研究」 • 講義で取り上げたデータセット (BigQuery Sandbox/RESAS/Lens.org)
ないしは企業の財務データベースからデータセットを入手し, 特定の産業, 企業グループについて比較分析を行い, レポートにまとめる. • レポートでは • (1) とりあげた産業/企業グループの特徴の抽出, 基礎統計の分析 • (2) 売上高, 資本金, ROE, ROA など主なパフォーマンスのデータおよびその比較を行った上で, 「もしも自分が就職するのなら」どの企業を選択するか明記すること • 提出期間: 2019/10/29 13:15:00 (JST) • 提出方法:Slack DM

「企業研究」 https://job.rikunabi.com/contents/company/2536/

「企業研究」 https://syukatsu-pro.com/column/5754

レポート(2+3回目) の構成 (テンプレ) • はじめに • 対象企業について • 利用するデータベースについて •
分析結果と考察 • まとめ

レポート(2+3回目)の進め方 1. まず, 対象とする企業とその競合企業を決める 2. 1. で決めた企業群について, データベースサイトから解析にあたり必要だと思われるデータを取得する 3.
Excel and/or Jupyter Notebook で解析を行う 4. Word and/or Jupyter Notebook でレポートにまとめる

1. (産業組織論的な)市場画定 • どの財とどの財が同じ市場に属しているのか画定する必要がある • 似通った多数の財が存在する場合、生産要素や生産方法が共通するなどの理由で同じ市場と設定してもよいのか • 市場支配力を図るためには、「どこからどこまで」が同じ財な
のか画定させる • 市場範囲の画定は、市場支配力の評価にあたって必要不可欠な分析プロセス

日本標準産業分類 • 供給される財の性質にもとづいて, 産業を分類する • 財の性質にもとづいて便宜的に産業を分類する • そのため、経済学における財の分類手法とは異なる • 経済学での「市場」
• 密接な需要の代替関係や密接な供給の代替関係が存在する財のグループが1つの市場を形成する

日本標準産業分類 • A. 農業，林業 • B. 漁業 • C. 鉱業，採石業，砂利採取業
• D. 建設業 • E. 製造業 • F. 電気・ガス・熱供給・水道業 • G. 情報通信業 • H. 運輸業，郵便業 • I. 卸売業，小売業 • J. 金融業，保険業 • K. 不動産業，物品賃貸業 • L. 学術研究，専門・技術サービス業 • M. 宿泊業，飲食サービス業 • N. 生活関連サービス業，娯楽業 • O. 教育，学習支援業 • P. 医療，福祉 • Q. 複合サービス事業 • R. サービス業（他に分類されないもの） • S. 公務（他に分類されるものを除く） • T. 分類不能の産業 http://www.soumu.go.jp/toukei_toukatsu/index/seido/ sangyo/02toukatsu01_03000022.html

日本標準産業分類から, ローソンが属する産業群を抽出する comp_name read comp_size_l aw comp_size_ cap comp_size_emp
jsic_code jsic_l jsic_m jsic_s アスモあすも大企業 10億円以上 300～999人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業アペックスあぺっくす大企業 5000万円以上 1,000～4,999人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業清水製薬しみずせいやく jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業えがおえがお中小企業 1億円以上 300～999人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業柿安本店かきやすほんてん大企業 10億円以上 1,000～4,999人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業サンクスさんくす jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業シー・ヴイ・エス・ベイエリアしーうﾞいえすべいえりあ大企業 10億円以上 100～299人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業ショクブンしょくぶん大企業 10億円以上 300～999人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業スリーエフすりーえふ大企業 10億円以上 300～999人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業ＴＡＡＮＥたあね jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業日本レストランエンタプライズにっぽんれすとらんえんたぷらいず大企業 1億円以上 1,000～4,999人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業ファンデリーふぁんでりー中小企業 1億円以上 30～99人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業プレナスぷれなす大企業 10億円以上 1,000～4,999人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業ポプラぽぷら大企業 10億円以上 300～999人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業マッシュ・テックまっしゅてっく小規模企業者 1000万円以上 5人未満 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業ミニストップみにすとっぷ大企業 10億円以上 300～999人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業メルカード東京農大めるかーどとうきょうのうだい中小企業 1000万円以上 5～29人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業ユニー・ファミリーマートホールディングスゆにーふぁみりーまーとほーるでぃんぐす大企業 10億円以上 1,000～4,999人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業ファミリーマートふぁみりーまーと大企業 10億円以上 1,000～4,999人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業ローソンろーそん大企業 10億円以上 1,000～4,999人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業わかさ生活わかさせいかつ中小企業 1000万円以上 300～999人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業出典: NISTEP 企業名辞書

1.(就活的な)「業界」画定 • “就職活動における業界とは、企業を産業や商業で分類したものです。業界によって取り扱う商品やサービスはさまざまで、メーカーが製造した商品を商社が仕入れ、小売が販売するなど各業界は密接な関わりを持っています。”
• たぶん、SCM とか商流における上流とか下流とかは意図的に？説明していないっぽい。 https://shinsotsu.mynavi- agent.jp/knowhow/article/industry-list.html

1. (就活的な)「業界」画定 https://gyokai-search.com/2nd-genre.htm

1. これらを踏まえ, 本レポートでの市場画定 • 特定の企業をひとつ取り上げてください • 当該企業と同じ産業に属するであろう、複数の企業を抽出する。このとき、レポートでは抽出方法について明らかにすること。抽出方法については
(1) 日本標準産業分類に基づく抽出, (2) 業界情報 (例. https://gyokai-search.com/2nd-genre.htm) などに基づく抽出, (3) その他の方法に基づく抽出など幾つかの手法が考えうるが, 選択した手法について明記すること

2. データベースの選択とデータの抽出 • データベースの選択 • 企業データベース • 日経NEEDS, Entrepedia, 法人インフォ,
RESAS etc… • 論文データベース • Lens.org, Google Scholar, Web of Science etc… • 特許データベース • Lens.org, Google Big Query, 特許庁データベース, IIP パテントデータベース etc… • 1. で指定した企業群について, 解析にあたり必要なデータを取得すること. これら以外のデータベースを利用しても構わない

Big Queryおすすめのデータセット(1) • Google Patents Research Data • “Google Patents
Research Data contains the output of much of the data analysis work used in Google Patents (patents.google.com), including machine translations of titles and abstracts from Google Translate, embedding vectors, extracted top terms, similar documents, and forward references.”

Big Queryおすすめのデータセット(2) • World Development Indicators – World Bank •
“This dataset contains the most current and accurate global development data available including national, regional and global estimates. Data has been collected from the early 1960’s to present and is updated regularly depending on new data available on the indicators. This time series data offers indicators such as agriculture and food security, climate change, population growth, economic growth, education, energy, natural Resources and many more. • This public dataset is hosted in Google BigQuery and is included in BigQuery's 1TB/mo of free tier processing. This means that each user receives 1TB of free BigQuery processing every month, which can be used to run queries on this public dataset.”

Big Queryおすすめのデータセット(3) • Chicago Taxi Trips • “This dataset includes
taxi trips from 2013 to the present, reported to the City of Chicago in its role as a regulatory agency. To protect privacy but allow for aggregate analyses, the Taxi ID is consistent for any given taxi medallion number but does not show the number, Census Tracts are suppressed in some cases, and times are rounded to the nearest 15 minutes. Due to the data reporting process, not all trips are reported but the City believes that most are. For more information about this dataset and how it was created, see this post on the City of Chicago's blog.”

Big Queryおすすめのデータセット(3)

Lens.org • 出来ること • 特許関連 • 特定企業/産業の特許数の変化についてデータを取得する • AI や機械学習に関する特許がどのくらい出ているか調査する
• 論文関連 • 日本の私立/国立大学の論文生産数について比較する • ノーベル賞を受賞した科学者が書いた論文のうち, どれが重要が論文だったかを特定し, その前方引用数を調査する

RESAS API • 出来ること • ふるさと納税制度導入前後による地方財政への影響 • 人口動態と地域経済の生産性 • 企業の海外取引額
• 農業産出額 • 産業構造の推移

3. & 4. データの解析およびレポートの作成 • 2. で取得したデータに関して, 主に以下の分析を行い報告すること • 産業
(あるいは業界) 構造の特性の抽出 • 主な企業の売上高, 資本金および収益率など, 財務パラメータの比較分析 • 特許や地域特性の分析 • 統計分析 (基本統計量の抽出, 散布図の作成, 回帰分析 etc…) • レポートの最後に、「もしも自分が就職するのなら」どの企業を選択するのか明記してください • オチとして、「解析の結果こういう理由から、どうもいい企業がないので自分でスタートアップを作ります」でもOKです。

レポートの評価方法 • Excellent • データおよび適切な分析手法に基づき、独自の視点で十分に考察がなされている • Good • データおよび適切な分析手法に基づき、独自の視点で考察がなされている •
Fair • データに対して分析が行われているが、一般的な範囲での考察にとどまる • Bad • 考察がなされていない，あるいはデータの解析が十分に行われていない • Failed • 断りなく他者の見解を引用している，その他不正行為に相当する

レポートの評価基準 • 説明の順序は適切か．特に重要な項目の抜けや漏れはないか． • 原典からの引用内容に事実誤認はないか． • 誤字脱字（誤植）はないか．文法上の誤りはないか．文法ルールが統一されているか． • 文章は明快か．誤解を招くような内容・表現はないか．
• 参照，引用のルールに準拠しているか．剽窃はないか． • 不正行為に相当する事項はないか． • 提出期限を厳守しているか．

5. 成績評価の方法

成績評価(1) • 平常レポート (40パーセント; 必須) • 講義計画に示したように、複数の回で学生にはレポートを課します。レポートは Word/PowerPoint形式のメールあるいは, github
経由での提出が求められます(どの方法を採用するかは、初回の講義で決定します)。 • レポートには、(A.) 利用したデータセットとその内容, (B.) 分析の問い, (C.) 分析手法, (D.) 分析結果を明記する必要があります。ページ数や文字数は問いませんが, これらの内容が含まれており, 講義中にアナウンスする評価手法を満たす場合, 高い得点を得ることが出来ます。 • 平常点 (10パーセント) • 本講義は実習が多く含まれており, また取り扱うデータセットや内容も多彩です。そのため、受講者同士が協力する必要があります。こうした受講者の態度を評価するために、平常点を設けます。

成績評価(2) • 最終レポート (40パーセント; 必須) • 講義の最終回では最終レポートの報告会を行います。受講者は3名から4名から構成されるグループで、最終レポートの報告を行う必要があります(人数は受講者の人数により変更される可能性があります)。最終レポートでは、プレゼンテーションの方法を学生は自由に選ぶことが出来ます。PowerPoint
以外にも、Prezi などのアクティブプレゼンテーションツールや、他のプレゼンテーション手法を用いることが出来ます(プレゼンテーションツールについては、必要であれば講義内で説明する機会を設けます)。最終レポートでは、以下の点について評価を行います。 (A.) グループ内の役割分担 (B.) データセットのユニークさおよび、それが適切に処理されているか (C.) 分析手法のユニークさおよび、それが適切に解析されているか (D.) プレゼンテーションのユニークさ (E.) 質疑応答にうまくリプライすることが出来ているか • 最終レポートの360°グループ評価 (10パーセント) • 3. の最終レポートについて、グループの自己評価および他のグループからの評価を行います。3. で挙げた評価ポイントに基づき、グループメンバーおよび他のグループは評価を行います。

Withdraw について • レポートを一回も提出していない場合 • Withdraw として扱います • レポートを1回または2回提出している場合 •
Withdraw ではなく、単位取得の意思があるとみなします • ただ, レポートの回数を一回減らしたため, もしレポート1回目提出後単位取得に進まない場合には, 10/22 23:59 (JST) までにSlack DM にてその旨おしらせください

次回予告

10. テキスト分析(つづき) • この回では、これまで用いてきたデータセットについて、異なるアプローチから解析することを目指します。 • 具体的にはすでに定量化されているデータではなく、特許における特許名、論文における論文名、企業データベースにおける企業の概要などのテキストデータを解析する手法について学びます。
• 講義ではPython, R および, KHCoder (http://khcoder.net/) を用い、解析を行います。学生は分析した結果についてレポートにまとめ、提出する必要があります。

ケーススタディ1: SMAP会見 • 共起ネットワーク

13. まとめと最終報告レポート • テーマ • 「◦◦のための実践的データ分析」 • 卒論や修論や博論の作成の入り口になるような、データの調達とそのデータの解析を, 講義で取り上げたデータセットおよび分析手法で実施
する • 分析単位はマクロ (国レベル) でもメソ (企業/産業レベル) でもミクロ (個人レベル) でも問いません • 利用できるデータセット • 特に制限なし • 利用できるツール • Tableau, Excel, SQL, Jupyternotebook (Python), R など, 特に制限なし

13. まとめと最終報告レポート • 評価方法 • グループ内での自己評価 • グループ外からの評価アンケートシステムをManaba or
Google Docs で用意します。 • 評価基準 • (A.) グループ内の役割分担 (B.) データセットのユニークさおよび、それが適切に処理されているか (C.) 分析手法のユニークさおよび、それが適切に解析されているか (D.) プレゼンテーションのユニークさ (E.) 質疑応答にうまくリプライすることが出来ているか • 納品物 • プレゼンテーションに利用したSlack グループにアップロードすること

グループ分け(1) • グループA • 2115288x • 2116001m • 2116086k •
2117015a • 2117249x • グループB • 2115149a • 2116017b • 2116105k • 2117139k • グループC • 2117063a • 2117197b • 2118024m • 2118138b • グループD • 1117050s • 2118029s • 2118051c • 2118198m • グループE • 1116055b • 2116198k • 2117169s • 2118043b • 2118080s • グループF • EM185021 • EM195071 • EM195074 • SM182011

グループ分け(2) • グループG • 2115183a • 2116190y • 2117110s •
2118125z • 2118199h • グループH • 2116095h • 2116251k • 2117007z • 2117236s • 2118173z • グループI • 2116141a • 2116330x • 2117073x • 2118096c • 2118131k • グループJ • 2116118s • 2116215x • 2117135b • 2118245a

10/18 日と10/22 日は休講次回の講義は10/25 日の予定です

THANKS [email protected]

#経済学のための実践的データ分析 3.9 テキスト分析(前半; wordcloud, word...

#経済学のための実践的データ分析 3.9 テキスト分析(前半; wordcloud, word2vec, LDA etc...))

More Decks by yasushihara

Other Decks in Education

Featured

Transcript