#経済学のための実践的データ分析 4.8 Linked Open Data

経済学のための実践的データ分析 4.8. Linked Open Data を使おう 28教室一橋大学大学院経済学研究科原泰史
[email protected]

確認事項 • 電源タップは足りているでしょうか？ • レポートの提出

今年残りの予定 • 12/9; 企業データベース+RESAS • 12/12; Linked Open Data •
12/16; テキスト分析(その1) • 12/18(水曜); テキスト分析(その2; 補講) 38番教室 • 12/19; データの可視化 • ゲストあり〼 • 12/21; 一橋大学講座 • 12/22-29; イスラエル出張

今日の内容; Open Linked Data の活用 (RDF, RISIS などの事例紹介および試用) [座学、実習]
• オープンサイエンスやオープンガバメントの進展によって、特にヨーロッパでは Open Linked Data と呼ばれるデータセットを用いた解析プラットフォームや、解析手法が用いられはじめています。 • 後半では、RISIS (https://www.risis2.eu/)と呼ばれる、イノベーション分析のためのデータプラットフォームについて解説を行い、RDF を用いた解析について解説および簡単な実習を行います。

Open Linked Data の具体例 • 科学者とPhD Advisor の関係性アメリカの場合ドイツの場合
日本の場合 DBpedia.org (Wikipedia の掲載情報をRDF にしたサイト)のSPARQL Endpointに、Linked Data Reactor (http://ld-r.org/) から接続し、Wikipedia に掲載されているScientist の全情報を取り込み

今日の内容 (105分) 1: オープンデータで分析できること 2: データプラットフォームで分析してみよう 3:レポート(2+3回目)の話

1. オープンデータで出来ること

今までのおさらい • 無償で利用できるデータ • 特許 • Google Patents/BigQuery Sandbox •
IIP パテントデータベース • 論文 • Microsoft Academics • J-global • Lens.org • 企業 • (Yahoo! ファイナンス) • 有償で利用できるデータ • 論文 • Web of Science • Scopus • Lens.org • 企業 • 帝国データバンク • 日経NEEDS

とにかくデータベースは高い • Web of Science • n年分のデータで数千万円 • 帝国データバンク •
一件データを取りに行くたびに数万円 • データを円滑に解析するためには, データそのものだけではなくそれを解析できる環境も必要不可欠 • オンプレミスの環境を社内/学内に構築したりとか, AWS か Windows Azure か Google Big Query の有償版をサブスクライブしたりとか • データを解析するにはとっても手間もお金もかかる(外注ならなおさら)

データベースが高すぎて分析できなあああああああい！

でもオープンデータを使えると世界は変わる

今日のメインテーマ; オープンデータ • オープンデータとは • “特定のデータが、一切の著作権、特許などの制御メカニズムの制限なしで、全ての人が望むように利用・再掲載できるような形で入手できるべきであるというアイデア” • “オープンデータとは、自由に使えて再利用もでき、かつ誰でも再配布
できるようなデータのことだ。従うべき決まりは、せいぜい「作者のクレジットを残す」あるいは「同じ条件で配布する」程度である“ https://ja.wikipedia.org/wiki/%E3%82%AA%E3%83%BC%E3%83 %97%E3%83%B3%E3%83%87%E3%83%BC%E3%82%BF

Level of Open Data ★ Available on the web (whatever
format) but with an open licence, to be Open Data ★★ Available as machine-readable structured data (e.g. excel instead of image scan of a table) ★★★ as (2) plus non-proprietary format (e.g. CSV instead of excel) ★★★★ All the above plus, Use open standards from W3C (RDF and SPARQL) to identify things, so that people can point at your stuff ★★★★★ All the above, plus: Link your data to other people’s data to provide context https://www.w3.org/DesignIssues/LinkedData.html https://5stardata.info/ja/

オープンデータのエッセンス • データがオープンライセンスで公開されていること • コンピューターが処理できる形式になっていること • オープンに利用できるフォーマットでデータが公開されていること • Web
標準でデータが公開されていること • 外部データともリンク可能なこと • これらを踏まえたのが, Linked Open Data

“オープン”なデータプラットフォーム • Figshare • RESAS • RISIS • DBPedia.org

figshare • データセットの共有サイト • https://figshare.com/

figshare • type: Datasets を指定した上で, “Economics” を検索する

figshare • データセットおよび, 論文に掲載された図がダウンロードできる • URL: https://figshare.com/articles/ Impact_of_economic_growth_
on_international_reserve_holdi ngs_in_Brazil/5792712

RESAS • https://resas.go.jp • 地域経済分析システム（2015年4月～） • ～Regional Economy Society Analyzing
System～ • 地方創生のデータ利用の「入口」として、地域経済に関する官民の様々なデータを、地図やグラフ等で分かりやすく「見える化」しているシステム • 各地域が、自らの強み・弱みや課題を分析し、その解決策を検討することを後押しするツール • Evidence Based Policy Making を目指した活動引用; http://www.kantei.go.jp/jp/singi/sousei/resas/pdf/h31-01-07- newinfo.pdf

RESAS の収録データ http://www.kantei.go.jp/jp/singi/sousei/resas/pdf/h31-02-28-data.pdf

実習0. RESAS からサマリーデータを取得 • 1. RESAS のトップページにアクセスする

実習0. RESAS からサマリーデータを取得 • 2. サマリーをクリックする

実習0. RESAS からサマリーデータを取得 • 別ページに遷移する, Scroll をクリックする

実習0. RESAS からサマリーデータを取得 • 比較する地域を選択し, “一括サマリーデータ作成”をクリック

実習0. RESAS からサマリーデータを取得 • Zip ファイルがダウンロードされるので, “すべて展開”する

実習0. RESAS からサマリーデータを取得 • 適当なxlsm ファイルを開き, “編集を有効にする” および “マクロの有効化”をクリック

実習0. RESAS からサマリーデータを取得 • “サマリ抽出データ再読込” をクリックする

実習0. RESAS からサマリーデータを取得 • 財務データも確認できる

RISIS • 欧州の大学コンソーシアムが運営する, イノベーションアクティビティに関するデータの収集および解析プラットフォーム • RISIS2 Project like the
RISIS CORE FACILITY (RCF), is organised around 3 major dimensions and activities: • 1. A front end, focusing on users, the ways they access RISIS, work within RISIS and build RISIS user communities. At the core is the RISIS Core facility (WP4). The core facility supports virtual transnational access (WP8) and is accompanied by all the efforts we do to raise awareness, train researchers and interact with them (WP2) and to help them build active user communities (mobilising D4Science VRE, WP7). • 2. A service layer that helps users organise problem based integration of RISIS datasets (with possibilities to complement with their own datasets) – this entails the data integration and analysis services (WP5) and methodological support for advanced quantitative methods (WP6). • 3. A data layer that gathers the core RISIS datasets that we maintain (WP5) and enlarge (WP9), the datasets of interest for which we insure reliability and harmonisation for integration (WP4), and the new datasets that we develop and will progressively open (WP10). https://www.risis2.eu/project-description/

RISIS Core Facility • https://rcf.risis2.eu/datasets

統計データのRDF (Resource Description Framework) 化 • 統計表のデータ定義では、統計表のセルごとにRDF化を行ないます。 •
統計表の各セルに対してIDを振り、それを主語とします。 • 各セルに対して、次元、測度、属性、観測値を、それぞれ述語、目的語として定義します。 • 主語、述語、目的語の３つの要素を「トリプル」といいますが、ひとつの統計値（統計表のセル）は複数のトリプルによって表されます。 http://data.e-stat.go.jp/lodw/outline/abstraction#1-1-1

オープンデータの具体例 1. Linked Brazilian Amazon Rainforest 2. Data.gov 3. 統計LOD
4. 行政事業レビューシートLOD 5. DBPedia

オープンデータの具体例; LINKED BRAZILIAN AMAZON RAINFOREST • Linked Brazilian Amazon Rainforest
Data is such a dataset that is openly available for anyone to use for non-commercial research. The data was produced as a joint effort by the Institute for Geoinformatics, University of Muenster, Germany and the National Institute for Space Research (INPE) in Brazil. • The data can be accessed in a Linked Data fashion via a SPARQL-endpoint, and via dereferenciable URIs. The data consists of 8250 cells—each of size of 25 km * 25 km—capturing the observations of deforestation in the Brazilian Amazon Rainforest and a number of related and relevant variables. This spatiotemporal deforestation data was created using a number of aggregation methods from different sources. The data covers the whole Brazilian Amazon Rainforest. http://linkedscience.org/data/linked-brazilian-amazon-rainforest/

オープンデータの具体例2; data.gov • アメリカの政府系データを収集したポータルサイト • CSV やRDF, XML
形式でデータを取得できる • https://catalog.data.gov/

オープンデータの具体例2; data.gov • Popular Baby Names • “Popular Baby Names
by Sex and Ethnic Group Data were collected through civil birth registration. Each record represents the ranking of a baby name in the order of frequency. Data can be used to represent the popularity of a name. Caution should be used when assessing the rank of a baby name if the frequency count is close to 10; the ranking may vary year to year.” • https://catalog.data.gov/dataset/ most-popular-baby-names-by- sex-and-mothers-ethnic-group- new-york-city-8c742

オープンデータの具体例2; data.gov

オープンデータの具体例3; 統計LOD • 日本の政府系機関が収集したデータがLOD として公開されている • http://data.e-stat.go.jp/lodw/ •
消費者物価指数や経済センサスなどが収録 • SPARQL Endpoint; http://data.e- stat.go.jp/lod/sparql/

新宿区にいる日本人の人口を取得する

行政事業レビューシートLOD • 内閣官房によって公開されている行政事業レビューシート（https://www.gyoukaku.go.jp/review/revie w.html）の主要な項目をLOD化しました。 • 本データには、中央省庁が行っている年間約 5000の事業毎に「何が目的か」「事業の内容」「予算額」「事業予算の支払い先」「ど
んな成果があったか」などの項目が含まれています。 • 本データを利用することで、行政事業が適切に実施されているかのチェックができるだけでなく、国の事業を受注したい企業などが事業の特徴や競争相手を調べることでビジネスに活用することもできます。多くの人々が政治・行政のことを「自分ごと」として関心を高めてくれることを期待しています。以下のリポジトリでJSON形式でのデータ配布も行なっています。 https://github.com/judgit/data http://idea.linkdata.org/idea/idea1s2869i?fbclid=IwAR3KBJe6i HBttcpyuCvnBdR9yKAFSNvINLE_DcJ0-JGaGSPtwpXhmzoh7vo

データの中身はこんな感じ

オープンデータの具体例4; DBPedia • “DBpediaは，Wikipediaから構造化データセットを抽出することで，セマンティックWeb技術によるフリーの知識ベースを構築している。Wikipediaは，著作権者等の表示と同じライセンスの適用をすれば，自由に複製・改変・再配布等ができる。 • “そのため，DBpediaのようにWikipediaから構築したデータも問題なく活用できるようになっている”
https://www.jstage.jst.go.jp/article/johokanri/60/5/60_307/_html/-char/ja

日本語リンクトデータ・クラウド図 (at 2015-11-18)

Dbpedia のデータモデル • リンクトデータの4原則 1. 事物の名前づけにURIを使う 2. HTTP URIを使うことでそれをWeb上で調べられるようにする 3.
誰かがURIを引いたときには標準技術を使って有益な情報を提供する 4. 他のURIへのリンクを含むことで，人々がより多くの事物を発見できるように支援する • “人や施設のような実世界の物や，色や単語，物の関係といった抽象的な概念についてもWeb上で扱えるようにする。”

Dbpedia のデータモデル

Scientist 同士の関係をネットワーク化

2. データプラットフォームで分析してみよう

今日の実習その1 • Python + Jupyternotebook で, DBPedia.org からデータを引っ張ってこよう •
利用するもの • Jupyter Notebook + Python3 • DBPedia.org の SPARQL Endpoint

今日の Notebook • Jupyter Notebook/Lab https://www.dropbox.com/ s/bplqjcqay7j06b3/Python %20%E3%81%A7%20SPAR QL%20Endpoint%20%2B%2 0DBpedia.org%20%E3%82
%92%E4%BD%BF%E3%81 %A3%E3%81%A6%E3%81% BF%E3%82%8B.ipynb?dl=0 • Google Colaboratory https://colab.research.go ogle.com/drive/17gLr9cS zX9zSLQGHh3C- thgoC6RvdysG

今日の実習 • Slack からダウンロードしてください

1-a. 必要なパッケージをインストールする • pip のバージョンをアップデートする • Python のコマンドを実行する場合には, 先頭に !
をつける

1-b. 必要なパッケージをインストールする • sparqlwapper をインストールする

2. DBpedia.org から, 経済学に関連するカテゴリ情報を取得する • インポートした SPARQLWrapper をインスタンスにする •
そのとき, どの Endpoint からデータを読み出すか設定する (今回は http://dbpedia.org/ontology/) • どういったデータを取り出すかクエリを指定する (特許データベース回参照) • 今回は, 経済学に関するカテゴリの情報を一括取得する • Query() メソッドでデータを取得し, convert() で読みやすい形に変換する

3. 出力結果を確認する

4. 東証一部上場企業のデータを取得する • 東証一部上場企業のデータを一括取得する • Query() メソッドでデータを取得し, convert() で読みやすい形に変換する

5-5. データを整形して出力する

6. 都道府県別の科学者データを取得する • 都道府県ごとに DBPedia.org (Wikipedia) に収録された科学者の数をカウントする

8. データを整形する For 文を使ってデータの各行ごとを取り出し, 都道府県名と都道府県ごとの Scientist の数を取り出してみる

9. 試しにクリックすると, Dbpedia へリンクする

10. 日本の経済学者の情報を取得する Wikipedia でカテゴリ Category タグがつけられているものは, 一気に取得できる

11. 結果を整形する我々の見知る名前がいくつか登場する

12. 経済用語一覧を取得する

やってみよう • Category: 以下の文字列を変えていろいろなデータを取得してみる。たとえば、以下のカテゴリのデータを一気にfetch できる。 • 日本の経営学者 •
日本の社会学者 • 日本のロックグループ • 日本のフォークグループ • 日本のヒップホップグループ

今日の実習その2 (Supplimental) • データプラットフォームを使って, Raw Data を解析してネットワーク分析を行う • 利用するもの;
• RISIS プラットフォーム • Web of Science Raw Data (Slack にアップロード済み) • “データ” タブの ohsumi.txt

今回のレシピ 1. まず何を調べるのか決めます 2. 調べる対象のデータがあるか考えます 3. データを探します 4. データを処理できる状態に加工します (正規化？)
5. 処理したデータで解析します 6. 解析結果を論文にしたりパワポにしたりします

1.まず何を調べるのか？ • 2016年にノーベル賞を受賞した大隅良典先生が誰と一緒に仕事をしてきたのかを知りたい！ • 論文データを使って、共著ネットワーク構造を解析する • 誰が一緒に仕事をしてきたかを、グラフィカルにわかるようにする

2.調べる対象のデータがあるか考えます 3.データを探します • 対象となるデータ • 論文の書誌情報 • おそらく、Web of Science
か Scopus • データを探す • Web of Science か Scopus にアクセスする • 大隅良典教授の論文データ一式を取得する

データの中身を見てみる・これだとよくわからない・がんばって自力で解析するのもできるけど、今回は解析できるプラットフォームを使いましょう

CorText • RISISという、イノベーション研究のためのデータ提供・解析プラットフォームの一プロジェクト • データの加工、処理および解析を
Web ブラウザの上で行うことが可能 http://www.cortext.net/

CorText の使い方 • 1. http://www.cortext.net/projects/cortext-manager/ にアクセス • 2.Access to
Context Manager をクリック

CorText の使い方 • Subscribe をクリック

CorTextの使い方 • アカウントを作成する • Name • Email • Password •
City • Country • Institution などを記入

CorText の使い方 • Log in をクリック

CorText の使い方 • 画面が遷移し, Welcome 画面に • Go check it
out をクリック

CorText の使い方 • ”ohsumi” と記入し, Create Project をクリックする

CorText の使い方 • Upload a new corpus をクリックする

CorTextの使い方 • ファイルを Drug & Drop する • 次いで, Accept
& Upload をクリック

CorText の使い方 • Start script をクリック

CorTextの使い方 • データの処理が終わり, *.db ファイルとしてストアされる

CorText の使い方 • Start a new script をクリックする

CorText の使い方 • Analysis -> Network Mapping をクリックする

CorTextの使い方 • Network.mapping という項目が作成される • /map 以下の *.pdf から下矢印を選択する

CorTextの使い方 • FirstField • Author • SecondField • WOS Category
を選択し, Start Script をクリックする

CorTextの使い方 • ネットワーク図が生成されている • 分野ごとの大隅先生の共著者がマッピングされている • （前述した）オートファジー分野の広まりを示している

まとめ • Web スクレイピングしなくても, Wikipedia のデータはだいたい取得できる • RDF が使えると,
無償でデータが活用できる • 多変量データの場合, ローカルPC環境にデータを置かなくても, RISIS などのプラットフォームを使えば解析ができる

4. 成績評価の方法

成績評価(1) • 平常レポート (40パーセント; 必須) • 講義計画に示したように、複数の回で学生にはレポートを課します。レポートは Word/PowerPoint形式のメールあるいは, github
経由での提出が求められます(どの方法を採用するかは、初回の講義で決定します)。 • レポートには、(A.) 利用したデータセットとその内容, (B.) 分析の問い, (C.) 分析手法, (D.) 分析結果を明記する必要があります。ページ数や文字数は問いませんが, これらの内容が含まれており, 講義中にアナウンスする評価手法を満たす場合, 高い得点を得ることが出来ます。 • 平常点 (10パーセント) • 本講義は実習が多く含まれており, また取り扱うデータセットや内容も多彩です。そのため、受講者同士が協力する必要があります。こうした受講者の態度を評価するために、平常点を設けます。

成績評価(2) • 最終レポート (40パーセント; 必須) • 講義の最終回では最終レポートの報告会を行います。受講者は3名から4名から構成されるグループで、最終レポートの報告を行う必要があります(人数は受講者の人数により変更される可能性があります)。最終レポートでは、プレゼンテーションの方法を学生は自由に選ぶことが出来ます。PowerPoint
以外にも、Prezi などのアクティブプレゼンテーションツールや、他のプレゼンテーション手法を用いることが出来ます(プレゼンテーションツールについては、必要であれば講義内で説明する機会を設けます)。最終レポートでは、以下の点について評価を行います。 (A.) グループ内の役割分担 (B.) データセットのユニークさおよび、それが適切に処理されているか (C.) 分析手法のユニークさおよび、それが適切に解析されているか (D.) プレゼンテーションのユニークさ (E.) 質疑応答にうまくリプライすることが出来ているか • 最終レポートの360°グループ評価 (10パーセント) • 3. の最終レポートについて、グループの自己評価および他のグループからの評価を行います。3. で挙げた評価ポイントに基づき、グループメンバーおよび他のグループは評価を行います。

3. レポート 2回目について

レポート(2回目) • 概要 • テーマ; とても細かくやってみる「企業研究」 • 講義で取り上げたデータセット (BigQuery Sandbox/RESAS/Lens.org)
ないしは企業の財務データベースからデータセットを入手し, 特定の産業, 企業グループについて比較分析を行い, レポートにまとめる. • レポートでは • (1) とりあげた産業/企業グループの特徴の抽出, 基礎統計の分析 • (2) 売上高, 資本金, ROE, ROA など主なパフォーマンスのデータおよびその比較を行った上で, 「もしも自分が就職するのなら」どの企業を選択するか明記すること • 提出期間: 2019/12/27 10:45:00 (JST) • 提出方法:Slack DM

「企業研究」 https://job.rikunabi.com/contents/company/2536/

「企業研究」 https://syukatsu-pro.com/column/5754

レポート(2+3回目) の構成 (テンプレ) • はじめに • 対象企業について • 利用するデータベースについて •
分析結果と考察 • まとめ

レポート(2+3回目)の進め方 1. まず, 対象とする企業とその競合企業を決める 2. 1. で決めた企業群について, データベースサイトから解析にあたり必要だと思われるデータを取得する 3.
Excel and/or Jupyter Notebook で解析を行う 4. Word and/or Jupyter Notebook でレポートにまとめる

1. (産業組織論的な)市場画定 • どの財とどの財が同じ市場に属しているのか画定する必要がある • 似通った多数の財が存在する場合、生産要素や生産方法が共通するなどの理由で同じ市場と設定してもよいのか • 市場支配力を図るためには、「どこからどこまで」が同じ財な
のか画定させる • 市場範囲の画定は、市場支配力の評価にあたって必要不可欠な分析プロセス

日本標準産業分類 • 供給される財の性質にもとづいて, 産業を分類する • 財の性質にもとづいて便宜的に産業を分類する • そのため、経済学における財の分類手法とは異なる • 経済学での「市場」
• 密接な需要の代替関係や密接な供給の代替関係が存在する財のグループが1つの市場を形成する

日本標準産業分類 • A. 農業，林業 • B. 漁業 • C. 鉱業，採石業，砂利採取業
• D. 建設業 • E. 製造業 • F. 電気・ガス・熱供給・水道業 • G. 情報通信業 • H. 運輸業，郵便業 • I. 卸売業，小売業 • J. 金融業，保険業 • K. 不動産業，物品賃貸業 • L. 学術研究，専門・技術サービス業 • M. 宿泊業，飲食サービス業 • N. 生活関連サービス業，娯楽業 • O. 教育，学習支援業 • P. 医療，福祉 • Q. 複合サービス事業 • R. サービス業（他に分類されないもの） • S. 公務（他に分類されるものを除く） • T. 分類不能の産業 http://www.soumu.go.jp/toukei_toukatsu/index/seido/ sangyo/02toukatsu01_03000022.html

日本標準産業分類から, ローソンが属する産業群を抽出する comp_name read comp_size_l aw comp_size_ cap comp_size_emp
jsic_code jsic_l jsic_m jsic_s アスモあすも大企業 10億円以上 300～999人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業アペックスあぺっくす大企業 5000万円以上 1,000～4,999人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業清水製薬しみずせいやく jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業えがおえがお中小企業 1億円以上 300～999人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業柿安本店かきやすほんてん大企業 10億円以上 1,000～4,999人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業サンクスさんくす jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業シー・ヴイ・エス・ベイエリアしーうﾞいえすべいえりあ大企業 10億円以上 100～299人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業ショクブンしょくぶん大企業 10億円以上 300～999人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業スリーエフすりーえふ大企業 10億円以上 300～999人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業ＴＡＡＮＥたあね jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業日本レストランエンタプライズにっぽんれすとらんえんたぷらいず大企業 1億円以上 1,000～4,999人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業ファンデリーふぁんでりー中小企業 1億円以上 30～99人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業プレナスぷれなす大企業 10億円以上 1,000～4,999人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業ポプラぽぷら大企業 10億円以上 300～999人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業マッシュ・テックまっしゅてっく小規模企業者 1000万円以上 5人未満 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業ミニストップみにすとっぷ大企業 10億円以上 300～999人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業メルカード東京農大めるかーどとうきょうのうだい中小企業 1000万円以上 5～29人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業ユニー・ファミリーマートホールディングスゆにーふぁみりーまーとほーるでぃんぐす大企業 10億円以上 1,000～4,999人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業ファミリーマートふぁみりーまーと大企業 10億円以上 1,000～4,999人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業ローソンろーそん大企業 10億円以上 1,000～4,999人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業わかさ生活わかさせいかつ中小企業 1000万円以上 300～999人 jsic589 卸売業，小売業飲食料品小売業その他の飲食料品小売業出典: NISTEP 企業名辞書

1.(就活的な)「業界」画定 • “就職活動における業界とは、企業を産業や商業で分類したものです。業界によって取り扱う商品やサービスはさまざまで、メーカーが製造した商品を商社が仕入れ、小売が販売するなど各業界は密接な関わりを持っています。”
• たぶん、SCM とか商流における上流とか下流とかは意図的に？説明していないっぽい。 https://shinsotsu.mynavi- agent.jp/knowhow/article/industry-list.html

1. (就活的な)「業界」画定 https://gyokai-search.com/2nd-genre.htm

1. これらを踏まえ, 本レポートでの市場画定 • 特定の企業をひとつ取り上げてください • 当該企業と同じ産業に属するであろう、複数の企業を抽出する。このとき、レポートでは抽出方法について明らかにすること。抽出方法については
(1) 日本標準産業分類に基づく抽出, (2) 業界情報 (例. https://gyokai-search.com/2nd-genre.htm) などに基づく抽出, (3) その他の方法に基づく抽出など幾つかの手法が考えうるが, 選択した手法について明記すること

2. データベースの選択とデータの抽出 • データベースの選択 • 企業データベース • 日経NEEDS, Entrepedia, 法人インフォ,
RESAS etc… • 論文データベース • Lens.org, Google Scholar, Web of Science etc… • 特許データベース • Lens.org, Google Big Query, 特許庁データベース, IIP パテントデータベース etc… • 1. で指定した企業群について, 解析にあたり必要なデータを取得すること. これら以外のデータベースを利用しても構わない

Big Queryおすすめのデータセット(1) • Google Patents Research Data • “Google Patents
Research Data contains the output of much of the data analysis work used in Google Patents (patents.google.com), including machine translations of titles and abstracts from Google Translate, embedding vectors, extracted top terms, similar documents, and forward references.”

Big Queryおすすめのデータセット(2) • World Development Indicators – World Bank •
“This dataset contains the most current and accurate global development data available including national, regional and global estimates. Data has been collected from the early 1960’s to present and is updated regularly depending on new data available on the indicators. This time series data offers indicators such as agriculture and food security, climate change, population growth, economic growth, education, energy, natural Resources and many more. • This public dataset is hosted in Google BigQuery and is included in BigQuery's 1TB/mo of free tier processing. This means that each user receives 1TB of free BigQuery processing every month, which can be used to run queries on this public dataset.”

Big Queryおすすめのデータセット(3) • Chicago Taxi Trips • “This dataset includes
taxi trips from 2013 to the present, reported to the City of Chicago in its role as a regulatory agency. To protect privacy but allow for aggregate analyses, the Taxi ID is consistent for any given taxi medallion number but does not show the number, Census Tracts are suppressed in some cases, and times are rounded to the nearest 15 minutes. Due to the data reporting process, not all trips are reported but the City believes that most are. For more information about this dataset and how it was created, see this post on the City of Chicago's blog.”

Big Queryおすすめのデータセット(3)

Lens.org • 出来ること • 特許関連 • 特定企業/産業の特許数の変化についてデータを取得する • AI や機械学習に関する特許がどのくらい出ているか調査する
• 論文関連 • 日本の私立/国立大学の論文生産数について比較する • ノーベル賞を受賞した科学者が書いた論文のうち, どれが重要が論文だったかを特定し, その前方引用数を調査する

RESAS API • 出来ること • ふるさと納税制度導入前後による地方財政への影響 • 人口動態と地域経済の生産性 • 企業の海外取引額
• 農業産出額 • 産業構造の推移

3. & 4. データの解析およびレポートの作成 • 2. で取得したデータに関して, 主に以下の分析を行い報告すること • 産業
(あるいは業界) 構造の特性の抽出 • 主な企業の売上高, 資本金および収益率など, 財務パラメータの比較分析 • 特許や地域特性の分析 • 統計分析 (基本統計量の抽出, 散布図の作成, 回帰分析 etc…) • レポートの最後に、「もしも自分が就職するのなら」どの企業を選択するのか明記してください • オチとして、「解析の結果こういう理由から、どうもいい企業がないので自分でスタートアップを作ります」でもOKです。

レポートの評価方法 • Excellent • データおよび適切な分析手法に基づき、独自の視点で十分に考察がなされている • Good • データおよび適切な分析手法に基づき、独自の視点で考察がなされている •
Fair • データに対して分析が行われているが、一般的な範囲での考察にとどまる • Bad • 考察がなされていない，あるいはデータの解析が十分に行われていない • Failed • 断りなく他者の見解を引用している，その他不正行為に相当する

レポートの評価基準 • 説明の順序は適切か．特に重要な項目の抜けや漏れはないか． • 原典からの引用内容に事実誤認はないか． • 誤字脱字（誤植）はないか．文法上の誤りはないか．文法ルールが統一されているか． • 文章は明快か．誤解を招くような内容・表現はないか．
• 参照，引用のルールに準拠しているか．剽窃はないか． • 不正行為に相当する事項はないか． • 提出期限を厳守しているか．

次回予告

9. テキスト分析(1) • この回では、これまで用いてきたデータセットについて、異なるアプローチから解析することを目指します。 • 具体的にはすでに定量化されているデータではなく、特許における特許名、論文における論文名、企業データベースにおける企業の概要などのテキストデータを解析する手法について学びます。
• 講義ではPython, R および, KHCoder (http://khcoder.net/) を用い、解析を行います。学生は分析した結果についてレポートにまとめ、提出する必要があります。

ケーススタディ1: SMAP会見 • 共起ネットワーク

ケーススタディ2: 小室さんと華原さんのトークを分析してみよう • TK MUSIC CRAMP • 1995年から1998年まで放送してた音楽番組 •
1995年度は小室哲哉さんが • 1996年度はSMAPの中居正広さんが • 1997年度は華原朋美さんが司会を担当 • 二人の会話を共起グラフ分析して、二人がどのくらいラブラブだったのか、どのくらい冷めちゃったのか可視化できるかやってみよう • 分析対象 • 1996/3/6 オンエアのトーク • 1998/3/25 オンエアのトーク 3/8/2015 116

結果 • 1996/3/6 OA 版 • 1998/3/25 OA 版 3/8/2015
117 ※. 動詞, 名詞, 形容詞を抽出

結果(2) : 頻出語のみに限定 • 1996/3/6 OA版 • 1998/3/25 OA 版
3/8/2015 118 ※. 動詞, 名詞, 形容詞を抽出

共起グラフからわかること • どういう用語がどういう文脈で使われているのか • 会話の「温度」の可視化？ • 1996年: 難しい → 嬉しい
→ 高い • 1998年: 嬉しい → 難しい → かわいい • 難しいの Centrality (他の用語との結びつき) が高くなっている？ • 小室さんと華原さんの会話を別々に解析したらどうなる？ • 詳しくは第9回で 3/8/2015 119

References • 加藤文彦 (2017) DBpediaの現在：リンクトデータ・プロジェクト, https://doi.org/10.1241/johokanri.60.307 • Python で
DBpedia から情報抽出する, https://hironsan.hatenablog.com/entry/python-dbpedia- sparql • PythonでSparql使ってLinked Open Dataをいじってみた, http://blog.shigepon.info/blog/2015/03/19/use-sparql-with- python/#.XNlhOuj7RaQ • DBPedia を使った都道府県別ランキング, https://qiita.com/koujikozaki/items/439fa7ce3e28b738fe10

THANKS [email protected]

#経済学のための実践的データ分析 4.8 Linked Open Data

#経済学のための実践的データ分析 4.8 Linked Open Data

More Decks by yasushihara

Other Decks in Business

Featured

Transcript