一橋大学 #経済学のための実践的データ分析 2020秋: 7/12

Slide 1

Slide 1 text

一橋大学「経済学のための実践的データ分析」 2020秋: 7/12 7.オープンなデータを使って万事を調べる 7.1.Lens.org で特許/論文データを探す 7.2.Linked Open Data とは 7.3.LODとSPARQL Endpointを使う 7.4.レポート2 のお知らせ一橋大学大学院経済学研究科原泰史 [email protected]

Slide 2

Slide 2 text

今日の内容 • 13:00-13:15 • プレ講義 [録画なし] • 13:15-13:35 • 7.1 Lens.org で特許/論文データを探す[録画あり] • 13:35-13:40 • インターミッション[録画なし] • 13:40-14:00 • 7.2 Linked Open Data とは [録画あり] • 14:00-14:05 • インターミッション2[録画なし] • 14:05-14:25 • 7.3 LODとSPARQL Endpointを使う[録画] • 14:25-14:30 • インターミッション3[録画なし] • 14:30-14:50 • 7.4 レポート2 のお知らせ [録画]

Slide 3

Slide 3 text

7.1 Lens.org でデータを探す

Slide 4

Slide 4 text

Lens.org • 特許と論文をまとめて検索できるデータベース • APIも提供

Slide 5

Slide 5 text

Lens.org のデータカバレッジ • Patents • The European Patent Office’s DocDB bibliographic data from 1907 - present: 81+ Million documents from nearly 100 jurisdictions. • USPTO Applications from 2001 – present with full text and images. • USPTO Grants from 1976 – present with full text and images. • USPTO Assignments (14+ Million). • European Patent Office (EP) Grants from 1980 – present with full text and images. • WIPO PCT Applications from 1978 – present with full text and images. • Australian Patent Full Text from IP Australia • Paper • PubMed • Crossref • Microsoft Academic • CORE • PubMed Central https://about.lens.org/

Slide 6

Slide 6 text

Data Coverage Source: Martijn Visser, Nees Jan van Eck, Ludo Waltman (2020) Large-scale comparison of bibliographic data sources: Scopus, Web of Science, Dimensions, Crossref, and Microsoft Academic, https://arxiv.org/abs/2005.10732

Slide 7

Slide 7 text

COVID-19 Datasets https://about.lens.org/covid-19/ • Patents • Publications

Slide 8

Slide 8 text

実習4-1. Lens.org で Ikujiro Nonaka の論文を探す • 左上の欄に Ikujiro Nonaka と記入し, Enterする.

Slide 9

Slide 9 text

実習4-1. Lens.org で Ikujiro Nonaka の論文を探す • Ikujiro Nonaka に関するあらゆる特許や論文の情報が出てくる

Slide 10

Slide 10 text

実習4-1. Lens.org で Ikujiro Nonaka の論文を探す • Filters -> Author から Ikujiro Nonaka を選択する

Slide 11

Slide 11 text

実習4-1. Lens.org で Ikujiro Nonaka の論文を探す • 引用数の高い研究が確認できる (「私の履歴書」で書いてたやーつ)

Slide 12

Slide 12 text

No content

Slide 13

Slide 13 text

実習2. Lens.org で Toyotaの特許リストを取得する • Patents に Toyota と入力し Enter

Slide 14

Slide 14 text

実習2. Lens.org で Toyotaの特許リストを取得する • Filters から Applicants を開き, Toyota Motor Co Ltd と Toyota Motor Corp を選択し Refine をクリック

Slide 15

Slide 15 text

実習2. Lens.org でToyota の特許リストを取得する • Toyota の特許一覧が表示される

Slide 16

Slide 16 text

実習2. Lens.org でToyota の特許リストを取得する • 年ごとの特許数の推移などが表示されている

Slide 17

Slide 17 text

実習2. Lens.org でToyota の特許リストを取得する • Analysis をクリックする

Slide 18

Slide 18 text

実習2. Lens.org でToyota の特許リストを取得する • 結果が表示される

Slide 19

Slide 19 text

実習2. Lens.org でToyota の特許リストを取得する • Export Results をクリックする

Slide 20

Slide 20 text

実習2. Lens.org でToyota の特許リストを取得する • JSON や CSV 形式を選び, Export をクリックする

Slide 21

Slide 21 text

Additional: Lens.org に登録してAPI でデータを取得する

Slide 22

Slide 22 text

Additional: Lens.org に登録してAPI でデータを取得する • Twitter API 同様, 利用理由について委細を記述し、申請を行う。 • 内容に問題がない場合、許可される • 審査に10時間くらいかかります

Slide 23

Slide 23 text

Additional: Lens.org に登録してAPI でデータを取得する • Token を作成する

Slide 24

Slide 24 text

Additional: Lens.org に登録してAPI でデータを取得する • API Token が発行される

Slide 25

Slide 25 text

Additional: Lens.org とAPI で話す • Pythonの場合 import requests url = 'https://api.lens.org/scholarly/search' data = '''{ "query": { "match_phrase":{ "author.affiliation.name": "Hitotsubashi University" } }, "size": 1, "sort": [ { "year_published": "desc" } ] }''' headers = {'Authorization': 'Bearer your-access-token', 'Content-Type': 'application/json'} response = requests.post(url, data=data, headers=headers) if response.status_code != requests.codes.ok: print(response.status_code) else: print(response.text) https://docs.api.lens.org/samples.html

Slide 26

Slide 26 text

Additional: Lens.org とAPI で話す • 出力結果

Slide 27

Slide 27 text

現時点での論文データベース利用法 • Web of ScienceとScopus, どちらにもデメリットとメリットがある • Web of Science: データベース全体の構造が複雑, かつノイズデータも多いけど長い期間をカバーしている • Scopus: Web of Science に比べればデータベース全体の構造は比較的単純. Author ID や Affiliation ID などを備えているので一見 Name-Matching の手間は省けそうだけど, やはりノイズデータが含まれている. 今後に期待. • （高いから比べられないし, だいたいの大学ではひとつしか使えないし）論文データベースは Web of Science, Scopus のいずれかを使う • 恐らく, 両データベースの接合を試みるだけでたくさんの Paper が書ける（けれど大変） • 指標を使って, クエリを投げてデータを取り出した後, 整合性が取れているかチェックしていく (別の組織が入っていないか, 別の国が入っていないか, ダブルカウントしていないか etc…) • Lens.org (Microsoft Academics) のニーズが増えそう 2020/10/5 27

Slide 28

Slide 28 text

まとめ • 論文データベースは大学にいる間に活用しよう • かと思ったらLens.org なども出てきているので, そんなに困らないかも • 論文データベースは完璧ではないことを知ろう • かと思ったら Lengs.org などもあるので, Scopus と Web of Science 含め相互補完的に使うのが吉 • 論文データベースを使って分析するには、データの整理や名寄せが必要不可欠である • NISTEP製テーブルをたくさん使いましょう • 論文データベースからデータを取得して多変量解析するには、やっぱりデータベース処理の知識が必要になってくる • いまのうちにNoSQL とか覚えておくと、すごい論文が書けちゃうかも 2020/10/5 28

Slide 29

Slide 29 text

7.2 Linked Open Data とは

Slide 30

Slide 30 text

ここまでのおさらい • 無償で利用できるデータ • 特許 • Google Patents/BigQuery Sandbox • IIP パテントデータベース • Lens.org (無償 API, Web) • 論文 • Microsoft Academics • J-global • Lens.org (無償 API, Web) • 企業 • (Yahoo! ファイナンス) • FOR STARTUP • 有償で利用できるデータ • 論文 • Web of Science • Scopus • Lens.org (有償API) • 特許 • Lens.org (有償API) • 企業 • 帝国データバンク • BvD • 日経NEEDS • 日経 FINANCIAL QUEST • INITIAL

Slide 31

Slide 31 text

とにかくデータベースは高い • Web of Science • n年分のデータで数千万円 • 帝国データバンク • 一件データを取りに行くたびに数万円 • データを円滑に解析するためには, データそのものだけではなくそれを解析できる環境も必要不可欠 • オンプレミスの環境を社内/学内に構築したりとか, AWS か Windows Azure か Google Big Query の有償版をサブスクライブしたりとか • データを解析するにはとっても手間もお金もかかる(外注ならなおさら)

Slide 32

Slide 32 text

今日のテーマ; オープンデータ • オープンデータとは • “特定のデータが、一切の著作権、特許などの制御メカニズムの制限なしで、全ての人が望むように利用・再掲載できるような形で入手できるべきであるというアイデア” • “オープンデータとは、自由に使えて再利用もでき、かつ誰でも再配布できるようなデータのことだ。従うべき決まりは、せいぜい「作者のクレジットを残す」あるいは「同じ条件で配布する」程度である“ https://ja.wikipedia.org/wiki/%E3%82%AA%E3%83%BC%E3%83 %97%E3%83%B3%E3%83%87%E3%83%BC%E3%82%BF

Slide 33

Slide 33 text

Level of Open Data ★ Available on the web (whatever format) but with an open licence, to be Open Data ★★ Available as machine-readable structured data (e.g. excel instead of image scan of a table) ★★★ as (2) plus non-proprietary format (e.g. CSV instead of excel) ★★★★ All the above plus, Use open standards from W3C (RDF and SPARQL) to identify things, so that people can point at your stuff ★★★★★ All the above, plus: Link your data to other people’s data to provide context https://www.w3.org/DesignIssues/LinkedData.html https://5stardata.info/ja/

Slide 34

Slide 34 text

オープンデータのエッセンス • データがオープンライセンスで公開されていること • コンピューターが処理できる形式になっていること • オープンに利用できるフォーマットでデータが公開されていること • Web 標準でデータが公開されていること • 外部データともリンク可能なこと • これらを踏まえたのが, Linked Open Data

Slide 35

Slide 35 text

統計データのRDF (Resource Description Framework) 化 • 統計表のデータ定義では、統計表のセルごとにRDF化を行ないます。 • 統計表の各セルに対してIDを振り、それを主語とします。 • 各セルに対して、次元、測度、属性、観測値を、それぞれ述語、目的語として定義します。 • 主語、述語、目的語の３つの要素を「トリプル」といいますが、ひとつの統計値（統計表のセル）は複数のトリプルによって表されます。 http://data.e-stat.go.jp/lodw/outline/abstraction#1-1-1

Slide 36

Slide 36 text

Linked Open Data Cloud • https://lod-cloud.net/

Slide 37

Slide 37 text

オープンデータの具体例 1. Linked Brazilian Amazon Rainforest 2. Data.gov 3. 統計LOD 4. 行政事業レビューシートLOD 5. 漫画ゲームアニメデータベース 6. 国会図書館 Linked Open Data 7. gBizInfo (旧法人インフォ) 8. DBPedia

Slide 38

Slide 38 text

オープンデータの具体例; LINKED BRAZILIAN AMAZON RAINFOREST • Linked Brazilian Amazon Rainforest Data is such a dataset that is openly available for anyone to use for non-commercial research. The data was produced as a joint effort by the Institute for Geoinformatics, University of Muenster, Germany and the National Institute for Space Research (INPE) in Brazil. • The data can be accessed in a Linked Data fashion via a SPARQL-endpoint, and via dereferenciable URIs. The data consists of 8250 cells—each of size of 25 km * 25 km—capturing the observations of deforestation in the Brazilian Amazon Rainforest and a number of related and relevant variables. This spatiotemporal deforestation data was created using a number of aggregation methods from different sources. The data covers the whole Brazilian Amazon Rainforest. http://linkedscience.org/data/linked-brazilian-amazon-rainforest/

Slide 39

Slide 39 text

オープンデータの具体例2; data.gov • アメリカの政府系データを収集したポータルサイト • CSV やRDF, XML 形式でデータを取得できる • https://catalog.data.gov/

Slide 40

Slide 40 text

オープンデータの具体例2; data.gov • Popular Baby Names • “Popular Baby Names by Sex and Ethnic Group Data were collected through civil birth registration. Each record represents the ranking of a baby name in the order of frequency. Data can be used to represent the popularity of a name. Caution should be used when assessing the rank of a baby name if the frequency count is close to 10; the ranking may vary year to year.” • https://catalog.data.gov/dataset/ most-popular-baby-names-by- sex-and-mothers-ethnic-group- new-york-city-8c742

Slide 41

Slide 41 text

オープンデータの具体例2; data.gov

Slide 42

Slide 42 text

オープンデータの具体例3; 統計LOD • 日本の政府系機関が収集したデータがLOD として公開されている • http://data.e-stat.go.jp/lodw/ • 消費者物価指数や経済センサスなどが収録 • SPARQL Endpoint; http://data.e- stat.go.jp/lod/sparql/

Slide 43

Slide 43 text

新宿区にいる日本人の人口を取得する

Slide 44

Slide 44 text

行政事業レビューシートLOD • 内閣官房によって公開されている行政事業レビューシート（https://www.gyoukaku.go.jp/review/revie w.html）の主要な項目をLOD化しました。 • 本データには、中央省庁が行っている年間約 5000の事業毎に「何が目的か」「事業の内容」「予算額」「事業予算の支払い先」「どんな成果があったか」などの項目が含まれています。 • 本データを利用することで、行政事業が適切に実施されているかのチェックができるだけでなく、国の事業を受注したい企業などが事業の特徴や競争相手を調べることでビジネスに活用することもできます。多くの人々が政治・行政のことを「自分ごと」として関心を高めてくれることを期待しています。以下のリポジトリでJSON形式でのデータ配布も行なっています。 https://github.com/judgit/data http://idea.linkdata.org/idea/idea1s2869i?fbclid=IwAR3KBJe6i HBttcpyuCvnBdR9yKAFSNvINLE_DcJ0-JGaGSPtwpXhmzoh7vo

Slide 45

Slide 45 text

データの中身はこんな感じ

Slide 46

Slide 46 text

オープンデータの具体例4; メディア芸術データベース LOD • メディア芸術データベース • マンガ • アニメーション • ゲーム • メディア・アートに係る情報が集約されたデータベース

Slide 47

Slide 47 text

メディア芸術データベース • 検索結果 • 監督 • 演者 • 作成者などの情報が取得できる

Slide 48

Slide 48 text

メディア芸術データベースLOD • https://metadata.moe/madb-lod/

Slide 49

Slide 49 text

Slide 50

Slide 50 text

メディア芸術データベースLOD • 公開年ごとにTVアニメ数を集計する PREFIX schema: PREFIX rdf: PREFIX rdfs: PREFIX ma: SELECT ?y (COUNT(DISTINCT *) AS ?cnt) WHERE { ?s a ma:Collection ; ma:media "TVレギュラー" ; schema:startDate ?startDate . } GROUP BY (SUBSTR(?startDate, 1, 4) AS ?y) ORDER BY DESC(?y) 接頭辞 PREFIX を指定するたとえば, PREFIX ma: は文化庁 DBの叙述構造を取得する

Slide 51

Slide 51 text

メディア芸術データベースLOD • 公開年ごとにTVアニメ数を集計する PREFIX schema: PREFIX rdf: PREFIX rdfs: PREFIX ma: SELECT ?y (COUNT(DISTINCT *) AS ?cnt) WHERE { ?s a ma:Collection ; ma:media "TVレギュラー" ; schema:startDate ?startDate . } GROUP BY (SUBSTR(?startDate, 1, 4) AS ?y) ORDER BY DESC(?y) Select では, ?y と ?cnt を取得する Where 中では, ma:Collection の中で, ma:media で “TVレギュラー” に当てはまるデータを取得し, schema:startDate の情報を ?startDate に渡すことを明記する

Slide 52

Slide 52 text

メディア芸術データベースLOD • 公開年ごとにTVアニメ数を集計する PREFIX schema: PREFIX rdf: PREFIX rdfs: PREFIX ma: SELECT ?y (COUNT(DISTINCT *) AS ?cnt) WHERE { ?s a ma:Collection ; ma:media "TVレギュラー" ; schema:startDate ?startDate . } GROUP BY (SUBSTR(?startDate, 1, 4) AS ?y) ORDER BY DESC(?y) ?startDate を substr 関数を使って, 年数だけにする、それを ?y と名づけ、年ごとにグルーピングする ?y の値で並べ替える (order by)

Slide 53

Slide 53 text

メディア芸術データベースLOD • 出力結果

Slide 54

Slide 54 text

メディア芸術データベースLOD • 年別のテレビアニメ数 0 50 100 150 200 250 300 350 1950 1960 1970 1980 1990 2000 2010 2020

Slide 55

Slide 55 text

メディア芸術データベースLOD 年次アニメ映画数の推移 0 20 40 60 80 100 120 1900 1920 1940 1960 1980 2000 2020 2040

Slide 56

Slide 56 text

国会図書館 Linked Open Data • https://www.ndl.go.jp/jp/dlib/standards/lod/index.html

Slide 57

Slide 57 text

gBizInfo (旧法人インフォ) • https://info.gbiz.go.jp/ • (政府に関連する)企業の情報を一元的に取得できる • Web インターフェースのみならず, API も提供 • 取得できる主な情報 • 財務 • 特許 • 届け出・認定 • 補助金 • 調達 • 表彰 • 職場 • ローソンを出力した場合

Slide 58

Slide 58 text

gBizInfo (旧法人インフォ) • SPARQL Endpoint • http://api.hojin-info.go.jp/sparql

Slide 59

Slide 59 text

オープンデータの具体例; DBPedia • “DBpediaは，Wikipediaから構造化データセットを抽出することで，セマンティックWeb技術によるフリーの知識ベースを構築している。Wikipediaは，著作権者等の表示と同じライセンスの適用をすれば，自由に複製・改変・再配布等ができる。 • “そのため，DBpediaのようにWikipediaから構築したデータも問題なく活用できるようになっている” https://www.jstage.jst.go.jp/article/johokanri/60/5/60_307/_html/-char/ja

Slide 60

Slide 60 text

日本語リンクトデータ・クラウド図 (at 2015-11-18)

Slide 61

Slide 61 text

Dbpedia のデータモデル • リンクトデータの4原則 1. 事物の名前づけにURIを使う 2. HTTP URIを使うことでそれをWeb上で調べられるようにする 3. 誰かがURIを引いたときには標準技術を使って有益な情報を提供する 4. 他のURIへのリンクを含むことで，人々がより多くの事物を発見できるように支援する • “人や施設のような実世界の物や，色や単語，物の関係といった抽象的な概念についてもWeb上で扱えるようにする。”

Slide 62

Slide 62 text

Dbpedia のデータモデル

Slide 63

Slide 63 text

Scientist 同士の関係をネットワーク化

Slide 64

Slide 64 text

まとめ • 社会的な事象をオープンなデータセットとして取得して、解析出来る時代はもうそこまできている！(ぺこぱ) • 今まで定性的な分析しか出来ないと思い込まれていた分野も、だいたい定量的な分析が出来るようになってる (アニメとかゲームとか) • 記法としてはSQLとだいたいおんなじ。この講義の中ではSQL と同じく自分でデータの fetch をするところまでで留めていますが、必要に応じて、データを自動的に取得してフロントエンドにつなげるなども可能ではあります

Slide 65

Slide 65 text

References • Linked Open Data（LOD）の基本的な使い方 • https://www.slideshare.net/KoujiKozaki/linked-open-datalod- 155413298 • SPARQL入門 • http://www.aise.ics.saitama-u.ac.jp/~gotoh/IntroSPARQL.html • https://www.w3.org/TR/sparql11-query/#grammar

Slide 66

Slide 66 text

7.3 Linked Open Data の使い方

Slide 67

Slide 67 text

今日の実習 • Python + Jupyternotebook or Google Colaboratory で, DBPedia.org や文化庁DBやgbizInfoからデータを引っ張ってこよう • 利用するもの • Jupyter Notebook + Python3 • DBPedia.org の SPARQL Endpoint

Slide 68

Slide 68 text

今日の Notebook • Jupyter Notebook/Lab https://www.dropbox.com/ s/bplqjcqay7j06b3/Python %20%E3%81%A7%20SPAR QL%20Endpoint%20%2B%2 0DBpedia.org%20%E3%82 %92%E4%BD%BF%E3%81 %A3%E3%81%A6%E3%81% BF%E3%82%8B.ipynb?dl=0 • Google Colaboratory https://colab.research.go ogle.com/drive/17gLr9cS zX9zSLQGHh3C- thgoC6RvdysG

Slide 69

Slide 69 text

1-a. 必要なパッケージをインストールする • pip のバージョンをアップデートする • Python のコマンドを実行する場合には, 先頭に ! をつける

Slide 70

Slide 70 text

1-b. 必要なパッケージをインストールする • sparqlwapper をインストールする

Slide 71

Slide 71 text

2. DBpedia.org から, 経済学に関連するカテゴリ情報を取得する • インポートした SPARQLWrapper をインスタンスにする • そのとき, どの Endpoint からデータを読み出すか設定する (今回は http://ja.dbpedia.org/sparql) • どういったデータを取り出すかクエリを指定する (特許データベース回参照) • 今回は, 経済学に関するカテゴリの情報を一括取得する • Query() メソッドでデータを取得し, convert() で読みやすい形に変換する

Slide 72

Slide 72 text

3. 出力結果を確認する

Slide 73

Slide 73 text

4. 東証一部上場企業のデータを取得する • 東証一部上場企業のデータを一括取得する • Query() メソッドでデータを取得し, convert() で読みやすい形に変換する

Slide 74

Slide 74 text

5. 出力結果を確認する

Slide 75

Slide 75 text

5-5. データを整形して出力する

Slide 76

Slide 76 text

6. 都道府県別の科学者データを取得する • 都道府県ごとに DBPedia.org (Wikipedia) に収録された科学者の数をカウントする

Slide 77

Slide 77 text

7. 出力結果を確認する

Slide 78

Slide 78 text

8. データを整形する For 文を使ってデータの各行ごとを取り出し, 都道府県名と都道府県ごとの Scientist の数を取り出してみる

Slide 79

Slide 79 text

9. 試しにクリックすると, Dbpedia へリンクする

Slide 80

Slide 80 text

10. 日本の経済学者の情報を取得する Wikipedia でカテゴリ Category タグがつけられているものは, 一気に取得できる

Slide 81

Slide 81 text

11. 結果を整形する我々の見知る名前がいくつか登場する

Slide 82

Slide 82 text

12. 経済用語一覧を取得する

Slide 83

Slide 83 text

13. 文化庁DB LOD からデータを取得する • 年ごとのTVアニメ数の推移を取得する

Slide 84

Slide 84 text

13. 文化庁DB LOD からデータを取得する • データを整形する

Slide 85

Slide 85 text

13. 文化庁DB LOD からデータを取得する • 年ごとのアニメ映画の数をカウントする

Slide 86

Slide 86 text

13. 文化庁DB LOD からデータを取得する • データを整形する

Slide 87

Slide 87 text

14. gBizInfo LOD からデータを取得する • ソニーの法人番号を調べて, そこからソニーによる政府調達の情報を一元的に取得する

Slide 88

Slide 88 text

14. gBizinfo LOD からデータを取得する • 結果を成形する

Slide 89

Slide 89 text

やってみよう • Dbpedia.org の場合 • Category: 以下の文字列を変えていろいろなデータを取得してみる。たとえば、以下のカテゴリのデータを一気にfetch できる。 • 日本の経営学者 • 日本の社会学者 • 日本のロックグループ • 日本のフォークグループ • 日本のヒップホップグループ • 文化庁DBやgBizInfoの場合 • 取得するデータの形式を変更してみる

Slide 90

Slide 90 text

まとめ • LOD からデータが取得出来ると、データ分析でユニークなデータセットで分析が出来る (少なくとも社会科学の分野にとって)

Slide 91

Slide 91 text

7.4 レポート2について

Slide 92

Slide 92 text

レポート(1回目)について • わからないことは、お互いに助け合う感じにしたいと思います (どうやら、ラーニングコミュニティというらしい) • 是非、Slack で助け合いをお願いします

Slide 93

Slide 93 text

レポート1回目の引っかかりそうなポイント • Excel からデータを取るときに、一つずれる問題

Slide 94

Slide 94 text

レポート1回目の引っかかりそうなポイント • COVID-19 で関連しそうな国別データを集める • World Bank; World Competitiveness Report http://reports.weforum.org/global-competitiveness-report- 2019/?doing_wp_cron=1570623935.4483180046081542968750 • OECD; OECD Statistics https://stats.oecd.org/ • コントロール変数や操作変数として何をつかう？

Slide 95

Slide 95 text

レポート(2回目) • 概要 • テーマ; データを集めて分析して、卒論の足がかりをつくってみよう • 講義で取り上げたデータセット (BigQuery Sandbox/RESAS/Lens.org/いろいろな SPARQL Endpoint) からデータを入手し, 四年生の卒論でやってみたい研究の足がかりを作り, レポートにまとめる. • 条件; データセットを見つけてきて、分析をすること • 一次提出期間: 2020/10/20 13:15:00 (JST) • 提出方法:Slack のDMで

Slide 96

Slide 96 text

レポートに記載して欲しいこと • Motivation (なぜそのデータセットに興味を持ったのか) • Research Question (データセットに基づき、どのような問いを明らかにするのか) • Hypothesis (どのような仮説が挙げられるか) • Methods (どのようにデータを取得できるか) • Result (データを取得した結果、明らかにできたこと) • Conclusion (まとめ) • Research Limitation (今後やりたいこと)

Slide 97

Slide 97 text

レポート(2回目)の進め方 1. まず, 何を分析するのか決める 2. 1. で分析と決めた対象群について, 以下の作業を行う 2-1. データセットが存在するか確認する 2-2. どのようにすれば、データセットが入手出来るか確認する 2-3. 2. で定めた方法でデータを取得する 3. Excel and/or R and/or Python で解析を行う 4. Word and/or Google Docs and/or Notebook でレポートにまとめる

Slide 98

Slide 98 text

1. 何を分析するか決める • テーマ決め • 卒論でやりたいこと • 後期ゼミの課題のひとつ • なんとなく今知りたいことなど、今やってみたいことで、かつ「データがありそうなもの」を選択してください。 • 事例 • パチンコホールが閉まっていない！とワイドショーがいっぱい話しているので、とりあえず関連するデータを営業情報を掲載されている Web サイトから収集した (データ分析講義の第ゼロ回) • COVID-19に関連して、テレワークによる企業への影響を知りたい (IIR Working Paper x3)

Slide 99

Slide 99 text

2. データベースの選択とデータの抽出 • データベースの選択 • 企業データベース • 日経NEEDS, Entrepedia, 法人インフォ, RESAS etc… • 論文データベース • Lens.org, Google Scholar, Web of Science etc… • 特許データベース • Lens.org, Google Big Query, 特許庁データベース, IIP パテントデータベース etc… • Linked Open Data • 1. で定めた疑問について, 解析にあたり必要なデータを取得すること. もちろん、これら以外のデータベースを利用しても構わない

Slide 100

Slide 100 text

Big Queryおすすめのデータセット(1) • Google Patents Research Data • “Google Patents Research Data contains the output of much of the data analysis work used in Google Patents (patents.google.com), including machine translations of titles and abstracts from Google Translate, embedding vectors, extracted top terms, similar documents, and forward references.”

Slide 101

Slide 101 text

Big Queryおすすめのデータセット(2) • World Development Indicators – World Bank • “This dataset contains the most current and accurate global development data available including national, regional and global estimates. Data has been collected from the early 1960’s to present and is updated regularly depending on new data available on the indicators. This time series data offers indicators such as agriculture and food security, climate change, population growth, economic growth, education, energy, natural Resources and many more. • This public dataset is hosted in Google BigQuery and is included in BigQuery's 1TB/mo of free tier processing. This means that each user receives 1TB of free BigQuery processing every month, which can be used to run queries on this public dataset.”

Slide 102

Slide 102 text

Big Queryおすすめのデータセット(3) • Chicago Taxi Trips • “This dataset includes taxi trips from 2013 to the present, reported to the City of Chicago in its role as a regulatory agency. To protect privacy but allow for aggregate analyses, the Taxi ID is consistent for any given taxi medallion number but does not show the number, Census Tracts are suppressed in some cases, and times are rounded to the nearest 15 minutes. Due to the data reporting process, not all trips are reported but the City believes that most are. For more information about this dataset and how it was created, see this post on the City of Chicago's blog.”

Slide 103

Slide 103 text

Big Queryおすすめのデータセット(3)

Slide 104

Slide 104 text

Lens.org • 出来ること • 特許関連 • 特定企業/産業の特許数の変化についてデータを取得する • AI や機械学習に関する特許がどのくらい出ているか調査する • 論文関連 • 日本の私立/国立大学の論文生産数について比較する • ノーベル賞を受賞した科学者が書いた論文のうち, どれが重要が論文だったかを特定し, その前方引用数を調査する

Slide 105

Slide 105 text

RESAS API • 出来ること • ふるさと納税制度導入前後による地方財政への影響 • 人口動態と地域経済の生産性 • 企業の海外取引額 • 農業産出額 • 産業構造の推移

Slide 106

Slide 106 text

3. & 4. データの解析およびレポートの作成 • 2. で取得したデータに関して, 主に以下の分析を行い報告すること • 産業 (あるいは業界) 構造の特性の抽出 • 主な企業の売上高, 資本金および収益率など, 財務パラメータの比較分析 • 特許や地域特性の分析 • 統計分析 (基本統計量の抽出, 散布図の作成, 回帰分析 etc…) • レポートの最後には、研究の発展性について明記するようにしてください。

Slide 107

Slide 107 text

レポートの評価方法 • Excellent • データおよび適切な分析手法に基づき、独自の視点で十分に考察がなされている • Good • データおよび適切な分析手法に基づき、独自の視点で考察がなされている • Fair • データに対して分析が行われているが、一般的な範囲での考察にとどまる • Bad • 考察がなされていない，あるいはデータの解析が十分に行われていない • Failed • 断りなく他者の見解を引用している，その他不正行為に相当する

Slide 108

Slide 108 text

レポートの評価基準 • 説明の順序は適切か．特に重要な項目の抜けや漏れはないか． • 原典からの引用内容に事実誤認はないか． • 誤字脱字（誤植）はないか．文法上の誤りはないか．文法ルールが統一されているか． • 文章は明快か．誤解を招くような内容・表現はないか． • 参照，引用のルールに準拠しているか．剽窃はないか． • 不正行為に相当する事項はないか． • 提出期限を厳守しているか．

Slide 109

Slide 109 text

成績評価の方法

Slide 110

Slide 110 text

成績評価(1) • 平常レポート (40パーセント; 必須) • 講義計画に示したように、複数の回で学生にはレポートを課します。レポートは Word/PowerPoint形式のメールあるいは, github 経由での提出が求められます(どの方法を採用するかは、初回の講義で決定します)。 • レポートには、(A.) 利用したデータセットとその内容, (B.) 分析の問い, (C.) 分析手法, (D.) 分析結果を明記する必要があります。ページ数や文字数は問いませんが, これらの内容が含まれており, 講義中にアナウンスする評価手法を満たす場合, 高い得点を得ることが出来ます。 • 平常点 (10パーセント) • 本講義は実習が多く含まれており, また取り扱うデータセットや内容も多彩です。そのため、受講者同士が協力する必要があります。こうした受講者の態度を評価するために、平常点を設けます。

Slide 111

Slide 111 text

成績評価(2) • 最終レポート (40パーセント; 必須) • 講義の最終回では最終レポートの報告会を行います。受講者は3名から4名から構成されるグループで、最終レポートの報告を行う必要があります(人数は受講者の人数により変更される可能性があります)。最終レポートでは、プレゼンテーションの方法を学生は自由に選ぶことが出来ます。PowerPoint 以外にも、Prezi などのアクティブプレゼンテーションツールや、他のプレゼンテーション手法を用いることが出来ます(プレゼンテーションツールについては、必要であれば講義内で説明する機会を設けます)。最終レポートでは、以下の点について評価を行います。 (A.) グループ内の役割分担 (B.) データセットのユニークさおよび、それが適切に処理されているか (C.) 分析手法のユニークさおよび、それが適切に解析されているか (D.) プレゼンテーションのユニークさ (E.) 質疑応答にうまくリプライすることが出来ているか • 最終レポートの360°グループ評価 (10パーセント) • 3. の最終レポートについて、グループの自己評価および他のグループからの評価を行います。3. で挙げた評価ポイントに基づき、グループメンバーおよび他のグループは評価を行います。

Slide 112

Slide 112 text

春学期講義スケジュール(3) • 8. 10/9 • テキスト分析 (Wordcloud, Word2vec, Topic Model, 計量テキスト分析)/SNS データの取得および分析 • これまで用いてきたデータセットについて、異なるアプローチから解析することを目指します。具体的にはすでに定量化されているデータではなく、特許における特許名、論文における論文名、企業データベースにおける企業の概要などのテキストデータを解析する手法について学びます。具体的には, Wordcloud, Word2vec, Topic モデルなどについて解説します。 • また計量テキスト分析、特に共起ネットワーク, 分散分析などの手法について, KHcoder (http://khcoder.net) を用い解析を行います。関連して、Twitter などのソーシャル・ネットワークからAPI などの手法を用いてテキストデータを取得し解析する方法について解説します。

Slide 113

Slide 113 text

ケーススタディ1: SMAP会見 • 共起ネットワーク

Slide 114

Slide 114 text

Twitter の口コミを Wordcloud にプロット • 早稲田大学 • 慶應大学

Slide 115

Slide 115 text

THANKS [email protected]