Upgrade to Pro — share decks privately, control downloads, hide ads and more …

#経済学のための実践的データ分析 9.1 Linked Open Data や RESAS や...

#経済学のための実践的データ分析 9.1 Linked Open Data や RESAS や RISIS を使ってみよう

経済学部 28番教室
#経済学のための実践的データ分析 9.1 Linked Open Data や RESAS や RISIS を使ってみよう

yasushihara

July 01, 2019
Tweet

More Decks by yasushihara

Other Decks in Education

Transcript

  1. 今日の内容; Open Linked Data の活用 (RDF, RISIS などの事例紹介および試用) [座学、実 習]

    • オープンサイエンスやオープンガバメントの進展によって、特 にヨーロッパでは Open Linked Data と呼ばれるデータセット を用いた解析プラットフォームや、解析手法が用いられはじめ ています。 • 本回では、RISIS (https://www.risis2.eu/)と呼ばれる、イノ ベーション分析のためのデータプラットフォームについて解説 を行い、RDF を用いた解析について解説および簡単な実習を行 います。
  2. Open Linked Data の具体例 • 科学者とPhD Advisor の関係性 アメリカの場合 ドイツの場合

    日本の場合 DBpedia.org (Wikipedia の掲載情報をRDF にしたサイト)のSPARQL Endpointに、Linked Data Reactor (http://ld-r.org/) から接続し、Wikipedia に掲載されているScientist の全情報を取り込み
  3. 今までのおさらい • 無償で利用できるデータ • 特許 • IIP パテントデータベース • 論文

    • Microsoft Academics • J-global • 企業 • (Yahoo! ファイナンス) • 有償で利用できるデータ • 論文 • Web of Science • Scopus • 企業 • 帝国データバンク • 日経NEEDS
  4. とにかくデータベースは高い • Web of Science • n年分のデータで数千万円 • 帝国データバンク •

    一件データを取りに行くたびに数万円 • データを円滑に解析するためには, データそのものだけではなくそれ を解析できる環境も必要不可欠 • オンプレミスの環境を社内/学内に構築したりとか, AWS か Windows Azure か Google Big Query をサブスクライブしたりとか • データを解析するにはとっても手間もお金もかかる(外注ならなおさ ら)
  5. 今日のメインテーマ; オープンデータ • オープンデータとは • “特定のデータが、一切の著作権、特許などの制御メカニズムの制限な しで、全ての人が望むように利用・再掲載できるような形で入手でき るべきであるというアイデア” • “オープンデータとは、自由に使えて再利用もでき、かつ誰でも再配布

    できるようなデータのことだ。従うべき決まりは、せいぜい「作者の クレジットを残す」あるいは「同じ条件で配布する」程度である“ https://ja.wikipedia.org/wiki/%E3%82%AA%E3%83%BC%E3%83 %97%E3%83%B3%E3%83%87%E3%83%BC%E3%82%BF
  6. Level of Open Data ★ Available on the web (whatever

    format) but with an open licence, to be Open Data ★★ Available as machine-readable structured data (e.g. excel instead of image scan of a table) ★★★ as (2) plus non-proprietary format (e.g. CSV instead of excel) ★★★★ All the above plus, Use open standards from W3C (RDF and SPARQL) to identify things, so that people can point at your stuff ★★★★★ All the above, plus: Link your data to other people’s data to provide context https://www.w3.org/DesignIssues/LinkedData.html https://5stardata.info/ja/
  7. 統計データのRDF (Resource Description Framework) 化 • 統計表のデータ定義では、統計 表のセルごとにRDF化を行ない ます。 •

    統計表の各セルに対してIDを振 り、それを主語とします。 • 各セルに対して、次元、測度、 属性、観測値を、それぞれ述語、 目的語として定義します。 • 主語、述語、目的語の3つの要 素を「トリプル」といいますが、 ひとつの統計値(統計表のセ ル)は複数のトリプルによって 表されます。 http://data.e-stat.go.jp/lodw/outline/abstraction#1-1-1
  8. オープンデータの具体例; LINKED BRAZILIAN AMAZON RAINFOREST • Linked Brazilian Amazon Rainforest

    Data is such a dataset that is openly available for anyone to use for non-commercial research. The data was produced as a joint effort by the Institute for Geoinformatics, University of Muenster, Germany and the National Institute for Space Research (INPE) in Brazil. • The data can be accessed in a Linked Data fashion via a SPARQL-endpoint, and via dereferenciable URIs. The data consists of 8250 cells—each of size of 25 km * 25 km—capturing the observations of deforestation in the Brazilian Amazon Rainforest and a number of related and relevant variables. This spatiotemporal deforestation data was created using a number of aggregation methods from different sources. The data covers the whole Brazilian Amazon Rainforest. http://linkedscience.org/data/linked-brazilian-amazon-rainforest/
  9. オープンデータの具体例2; data.gov • Popular Baby Names • “Popular Baby Names

    by Sex and Ethnic Group Data were collected through civil birth registration. Each record represents the ranking of a baby name in the order of frequency. Data can be used to represent the popularity of a name. Caution should be used when assessing the rank of a baby name if the frequency count is close to 10; the ranking may vary year to year.” • https://catalog.data.gov/dataset/ most-popular-baby-names-by- sex-and-mothers-ethnic-group- new-york-city-8c742
  10. オープンデータの具体例3; 統計LOD • 日本の政府系機関が収集した データがLOD として公開され ている • http://data.e-stat.go.jp/lodw/ •

    消費者物価指数や経済センサス などが収録 • SPARQL Endpoint; http://data.e- stat.go.jp/lod/sparql/
  11. Dbpedia のデータモデル • リンクトデータの4原則 1. 事物の名前づけにURIを使う 2. HTTP URIを使うことでそれをWeb上で調べられるようにする 3.

    誰かがURIを引いたときには標準技術を使って有益な情報を提供する 4. 他のURIへのリンクを含むことで,人々がより多くの事物を発見でき るように支援する • “人や施設のような実世界の物や,色や単語,物の関係といっ た抽象的な概念についてもWeb上で扱えるようにする。”
  12. RESAS • https://resas.go.jp • 地域経済分析システム(2015年4月~) • ~Regional Economy Society Analyzing

    System~ • 地方創生のデータ利用の「入口」として、地域経済に関する官民の 様々 なデータを、地図やグラフ等で分かりやすく「見える化」してい るシステム • 各地域が、自らの強み・弱みや課題を分析し、その解決策を検討する ことを後押しするツール • Evidence Based Policy Making を目指した活動 引用; http://www.kantei.go.jp/jp/singi/sousei/resas/pdf/h31-01-07- newinfo.pdf
  13. RISIS • 欧州の大学コンソーシアムが運営する, イノベーションアクティビティに関する データの収集および解析プラットフォーム • RISIS2 Project like the

    RISIS CORE FACILITY (RCF), is organised around 3 major dimensions and activities: • 1. A front end, focusing on users, the ways they access RISIS, work within RISIS and build RISIS user communities. At the core is the RISIS Core facility (WP4). The core facility supports virtual transnational access (WP8) and is accompanied by all the efforts we do to raise awareness, train researchers and interact with them (WP2) and to help them build active user communities (mobilising D4Science VRE, WP7). • 2. A service layer that helps users organise problem based integration of RISIS datasets (with possibilities to complement with their own datasets) – this entails the data integration and analysis services (WP5) and methodological support for advanced quantitative methods (WP6). • 3. A data layer that gathers the core RISIS datasets that we maintain (WP5) and enlarge (WP9), the datasets of interest for which we insure reliability and harmonisation for integration (WP4), and the new datasets that we develop and will progressively open (WP10). https://www.risis2.eu/project-description/
  14. 今日の実習その1 (10分程度) • Python + Jupyternotebook で, DBPedia.org からデータを引っ 張ってこよう

    • 利用するもの • Jupyter Notebook + Python3 • DBPedia.org の SPARQL Endpoint
  15. 2. DBpedia.org から, 経済学に関連するカ テゴリ情報を取得する • インポートした SPARQLWrapper をインスタンスにする •

    そのとき, どの Endpoint からデータを読み出すか設定する (今回は http://dbpedia.org/ontology/) • どういったデータを取り出すかクエリを指定する (特許データベース回参照) • 今回は, 経済学 に関するカテゴリの情報を一括取得する • Query() メソッドでデータを取得し, convert() で読みやすい形に変換する
  16. 今日の実習その2 (20分程度) • データプラットフォームを使って, Raw Data を解析してネット ワーク分析を行う • 利用するもの;

    • RISIS プラットフォーム • Web of Science Raw Data (Manaba にアップロード済み) • “データ” タブの ohsumi.txt
  17. 2.調べる対象のデータがあるか考えます 3.データを探します • 対象となるデータ • 論文の書誌情報 • おそらく、Web of Science

    か Scopus • データを探す • Web of Science か Scopus にアクセスする • 大隅良典教授の論文データ一式を取得する
  18. 実習3; RESAS API からデータを取得する • https://opendata.resas- portal.go.jp/ • API経由でデータを取得する •

    右上の “RESAS-API 利用登 録・ログイン” からアカウン ト登録を行い, API キーを取 得する
  19. 実習3; RESAS をAPI で利用する • 都道府県のコード情報 を取り込む • データを読み込む先の URL

    情報を指定 • URL とともに, APIキー を指定する • データを取り込み, 中身 を確認する
  20. まとめ • Web スクレイピングしなくても, Wikipedia のデータはだいた い取得できる • RDF が使えると,

    無償でデータが活用できる • 多変量データの場合, ローカルPC環境にデータを置かなくても, RISIS などのプラットフォームを使えば解析ができる
  21. レポート(3回目)の内容 • 概要 • テーマ; とっても細かくやってみる「企業研究」 • 日経NEEDS からデータセットを入手し, 特定の産業,

    企業グループにおける財務パ フォーマンスについて比較分析を行い, レポートにまとめる. • レポートでは • (1) とりあげた産業/企業グループの特徴の抽出 • (2) 売上高, 資本金, ROE, ROA など主な財務パフォーマンスのデータおよびその比較 を行った上で, 「もしも自分が就職するのなら」どの企業を選択するか明記すること • 提出期間: 2019/7/2 12:30:00 - 2019/7/9 10:45:00 (JST) • 提出方法: Manaba のレポート提出ページに, ipynbまたはPDF 形式 で提出すること • ※. Word または LaTeX で作成した場合, PDF でアウトプットすること
  22. 日本標準産業分類 • A. 農業,林業 • B. 漁業 • C. 鉱業,採石業,砂利採取業

    • D. 建設業 • E. 製造業 • F. 電気・ガス・熱供給・水道業 • G. 情報通信業 • H. 運輸業,郵便業 • I. 卸売業,小売業 • J. 金融業,保険業 • K. 不動産業,物品賃貸業 • L. 学術研究,専門・技術サービス業 • M. 宿泊業,飲食サービス業 • N. 生活関連サービス業,娯楽業 • O. 教育,学習支援業 • P. 医療,福祉 • Q. 複合サービス事業 • R. サービス業(他に分類されないもの) • S. 公務(他に分類されるものを除く) • T. 分類不能の産業 http://www.soumu.go.jp/toukei_toukatsu/index/seido/ sangyo/02toukatsu01_03000022.html
  23. 日本標準産業分類から, ローソンが属す る産業群を抽出する comp_name read comp_size_l aw comp_size_ cap comp_size_emp

    jsic_code jsic_l jsic_m jsic_s アスモ あすも 大企業 10億円以上 300~999人 jsic589 卸売業,小売業 飲食料品小売業 その他の飲食料品小売業 アペックス あぺっくす 大企業 5000万円以 上 1,000~4,999人 jsic589 卸売業,小売業 飲食料品小売業 その他の飲食料品小売業 清水製薬 しみずせいやく jsic589 卸売業,小売業 飲食料品小売業 その他の飲食料品小売業 えがお えがお 中小企業 1億円以上 300~999人 jsic589 卸売業,小売業 飲食料品小売業 その他の飲食料品小売業 柿安本店 かきやすほんてん 大企業 10億円以上 1,000~4,999人 jsic589 卸売業,小売業 飲食料品小売業 その他の飲食料品小売業 サンクス さんくす jsic589 卸売業,小売業 飲食料品小売業 その他の飲食料品小売業 シー・ヴイ・エス・ベイエリア しーゔいえすべいえりあ 大企業 10億円以上 100~299人 jsic589 卸売業,小売業 飲食料品小売業 その他の飲食料品小売業 ショクブン しょくぶん 大企業 10億円以上 300~999人 jsic589 卸売業,小売業 飲食料品小売業 その他の飲食料品小売業 スリーエフ すりーえふ 大企業 10億円以上 300~999人 jsic589 卸売業,小売業 飲食料品小売業 その他の飲食料品小売業 TAANE たあね jsic589 卸売業,小売業 飲食料品小売業 その他の飲食料品小売業 日本レストランエンタプライズ にっぽんれすとらんえんたぷらい ず 大企業 1億円以上 1,000~4,999人 jsic589 卸売業,小売業 飲食料品小売業 その他の飲食料品小売業 ファンデリー ふぁんでりー 中小企業 1億円以上 30~99人 jsic589 卸売業,小売業 飲食料品小売業 その他の飲食料品小売業 プレナス ぷれなす 大企業 10億円以上 1,000~4,999人 jsic589 卸売業,小売業 飲食料品小売業 その他の飲食料品小売業 ポプラ ぽぷら 大企業 10億円以上 300~999人 jsic589 卸売業,小売業 飲食料品小売業 その他の飲食料品小売業 マッシュ・テック まっしゅてっく 小規模企業 者 1000万円以 上 5人未満 jsic589 卸売業,小売業 飲食料品小売業 その他の飲食料品小売業 ミニストップ みにすとっぷ 大企業 10億円以上 300~999人 jsic589 卸売業,小売業 飲食料品小売業 その他の飲食料品小売業 メルカード東京農大 めるかーどとうきょうのうだい 中小企業 1000万円以 上 5~29人 jsic589 卸売業,小売業 飲食料品小売業 その他の飲食料品小売業 ユニー・ファミリーマートホール ディングス ゆにーふぁみりーまーとほーる でぃんぐす 大企業 10億円以上 1,000~4,999人 jsic589 卸売業,小売業 飲食料品小売業 その他の飲食料品小売業 ファミリーマート ふぁみりーまーと 大企業 10億円以上 1,000~4,999人 jsic589 卸売業,小売業 飲食料品小売業 その他の飲食料品小売業 ローソン ろーそん 大企業 10億円以上 1,000~4,999人 jsic589 卸売業,小売業 飲食料品小売業 その他の飲食料品小売業 わかさ生活 わかさせいかつ 中小企業 1000万円以 上 300~999人 jsic589 卸売業,小売業 飲食料品小売業 その他の飲食料品小売業 出典: NISTEP 企業名辞書
  24. 1. これらを踏まえ, 本レポートでの市場 画定 • 特定の企業をひとつ取り上げてください • 当該企業と同じ産業に属するであろう、複数の企業を抽出する。 このとき、レポートでは抽出方法について明らかにすること。 抽出方法については

    (1) 日本標準産業分類に基づく抽出, (2) 業 界情報 (例. https://gyokai-search.com/2nd-genre.htm) など に基づく抽出, (3) その他の方法に基づく抽出 など幾つかの手 法が考えうるが, 選択した手法について明記すること
  25. 2. データベースの選択とデータの抽出 • データベースの選択 • 企業データベース • 日経NEEDS etc… •

    論文データベース • Google Scholar, Web of Science etc… • 特許データベース • 特許庁データベース, IIP パテントデータベース etc… • 1. で指定した企業群について, 解析にあたり必要なデータを取 得すること. これら以外のデータベースを利用しても構わない
  26. 3. & 4. データの解析およびレポートの作成 • 2. で取得したデータに関して, 主に以下の分析を行い報告する こと •

    産業 (あるいは業界) 構造の特性の抽出 • 主な企業の売上高, 資本金および収益率など, 財務パラメータの比較分 析 • 統計分析 (基本統計量の抽出, 散布図の作成, 回帰分析 etc…) • レポートの最後に、「もしも自分が就職するのなら」どの企業 を選択するのか明記してください • オチとして、「解析の結果こういう理由から、どうもいい企業がない ので自分でスタートアップを作ります」でもOKです。
  27. 成績評価(1) • 平常レポート (40パーセント; 必須) • 講義計画に示したように、複数の回で学生にはレポートを課します。 レポートは Word/PowerPoint形式のメールあるいは, github

    経由で の提出が求められます(どの方法を採用するかは、初回の講義で決定し ます)。 • レポートには、(A.) 利用したデータセットとその内容, (B.) 分析の問 い, (C.) 分析手法, (D.) 分析結果 を明記する必要があります。ページ 数や文字数は問いませんが, これらの内容が含まれており, 講義中にア ナウンスする評価手法を満たす場合, 高い得点を得ることが出来ます。 • 平常点 (10パーセント) • 本講義は実習が多く含まれており, また取り扱うデータセットや内容も 多彩です。そのため、受講者同士が協力する必要があります。こうし た受講者の態度を評価するために、平常点を設けます。
  28. 成績評価(2) • 最終レポート (40パーセント; 必須) • 講義の最終回では最終レポートの報告会を行います。受講者は3名から4名か ら構成されるグループで、最終レポートの報告を行う必要があります(人数は 受講者の人数により変更される可能性があります)。最終レポートでは、プレ ゼンテーションの方法を学生は自由に選ぶことが出来ます。PowerPoint

    以 外にも、Prezi などのアクティブプレゼンテーションツールや、他のプレゼ ンテーション手法を用いることが出来ます(プレゼンテーションツールについ ては、必要であれば講義内で説明する機会を設けます)。最終レポートでは、 以下の点について評価を行います。 (A.) グループ内の役割分担 (B.) データセットのユニークさおよび、それが適切に処理されているか (C.) 分析手法のユニークさおよび、それが適切に解析されているか (D.) プレゼンテーションのユニークさ (E.) 質疑応答にうまくリプライすることが出来ているか • 最終レポートの360°グループ評価 (10パーセント) • 3. の最終レポートについて、グループの自己評価および他のグループからの 評価を行います。3. で挙げた評価ポイントに基づき、グループメンバーおよ び他のグループは評価を行います。
  29. ケーススタディ2: 小室さんと華原さんのトークを分析してみよ う • TK MUSIC CRAMP • 1995年から1998年まで放送してた音楽番組 •

    1995年度は小室哲哉さんが • 1996年度はSMAPの中居正広さんが • 1997年度は華原朋美さんが司会を担当 • 二人の会話を共起グラフ分析して、二人がどのくらいラブラブ だったのか、どのくらい冷めちゃったのか可視化できるかやっ てみよう • 分析対象 • 1996/3/6 オンエアのトーク • 1998/3/25 オンエアのトーク 3/8/2015 113
  30. 結果 • 1996/3/6 OA 版 • 1998/3/25 OA 版 3/8/2015

    114 ※. 動詞, 名詞, 形容詞を抽出
  31. 結果(2) : 頻出語のみに限定 • 1996/3/6 OA版 • 1998/3/25 OA 版

    3/8/2015 115 ※. 動詞, 名詞, 形容詞を抽出
  32. 共起グラフからわかること • どういう用語がどういう文脈で使われているのか • 会話の「温度」の可視化? • 1996年: 難しい → 嬉しい

    → 高い • 1998年: 嬉しい → 難しい → かわいい • 難しいの Centrality (他の用語との結びつき) が高くなっている? • 小室さんと華原さんの会話を別々に解析したらどうなる? • 詳しくは第10回で 3/8/2015 116
  33. References • 加藤文彦 (2017) DBpediaの現在:リンクトデータ・プロジェ クト, https://doi.org/10.1241/johokanri.60.307 • Python で

    DBpedia から情報抽出する, https://hironsan.hatenablog.com/entry/python-dbpedia- sparql • PythonでSparql使ってLinked Open Dataをいじってみた, http://blog.shigepon.info/blog/2015/03/19/use-sparql-with- python/#.XNlhOuj7RaQ • DBPedia を使った都道府県別ランキング, https://qiita.com/koujikozaki/items/439fa7ce3e28b738fe10