Slide 1

Slide 1 text

一橋大学 「経済学のための 実践的データ分析」 2020冬: 6/12 6.企業/地域経済にまつわるエトセトラ 6.1.企業データの使い方 6.2.特許データの使い方 6.3.論文データの使い方 6.4.RESAS の使い方 一橋大学大学院経済学研究科 原泰史 [email protected]

Slide 2

Slide 2 text

今日の内容 • 10:30-10:45 • プレ講義 [録画なし] • 10:45-11:05 • 6.1企業データの使い方 [録画あり] • 11:05-11:10 • インターミッション[録画な し] • 11:10-11:30 • 6.2特許データの使い方 [録画あり] • 11:30-11:35 • インターミッション 2[録画なし] • 11:35-11:55 • 6.3 論文データの使い 方 [録画あり] • 11:55-12:00 • インターミッション3 [録画なし] • 12:00-12:20 • 6.4 RESAS の使い 方 [録画あり] ※. 次回の7.1と7.2 も関連す る内容の予定です

Slide 3

Slide 3 text

6.1 企業情報を分析するには

Slide 4

Slide 4 text

企業/特許/論文データを使った 研究プロジェクト • 日本企業とアメリカ企業の研究開発パフォーマンスの比較 • 特許データ、財務データ、研究開発投資データを接合すること で、企業のROA, ROI が研究開発パフォーマンスによってどう 説明付けられるか定量的に分析 • 2019年4月の終わりの日経新聞や, 経産省, 内閣官房の資料で 「引用」 • 一橋大学イノベーション研究センターの Working Paper として 昨年発表 • Yamaguchi, Nitta, Hara, and Shimizu (2018) Staying Young at Heart or Wisdom of Age: Longitudinal. Analysis of Age and Performance in US and Japanese Firms., IIR Working Paper,

Slide 5

Slide 5 text

No content

Slide 6

Slide 6 text

Firm Age And Profitability United States Japan

Slide 7

Slide 7 text

東証上場企業(連結、事業会社)の平均年齢(2012年時点) 7 企業数 年齢 0 20 40 60 80 100 120 1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 91 96 101 106 112 118 124 平均は60.5歳、中央値は63歳

Slide 8

Slide 8 text

NYSE上場企業(連結、事業会社)の年齢分布(2012年時点) 8 企業数 年齢 0 5 10 15 20 25 30 35 1 8 14 20 26 32 38 44 50 56 62 68 74 80 86 92 98 104 110 116 123 129 135 142 148 155 162 168 179 206 268 平均は60.95歳、中央値は51歳 • 実は平均年齢は日本と同じ、但し中央値は12歳若い

Slide 9

Slide 9 text

企業情報/データベースでわかること • (上場)企業の製品, 財務パフォーマンス • 株価, ROA, ROI, ROE などのパラメータ • 売上高, 従業員数 • 創業年, 登記年 → 面接を受ける企業の財務, 経営パフォーマンスを同業他社と比 較して生産性を解析。面接で経営の改善案を提示する!(たぶん 面接官にとっては面倒くさいやつかもしれない)

Slide 10

Slide 10 text

(一橋大学で利用できる)企業データベース • 日経NEEDS • 日経テレコン21 • ビューロバンダイク (部局による) • Orbis データベースはIIRのみ利用可能とのこと • 帝国データバンクデータベース • Entrepedia • FOR STARTUP • DBJ データベース • EDINET

Slide 11

Slide 11 text

1. 日経テレコン21 • https://t21.nikkei.co.jp/g3/CMNDF11.do • 1975年4月以降の日経各紙(日本経済新聞、日経産業新聞、日 経MJ(流通新聞)、日経金融新聞(※休止))の新聞記事や日 経会社プロフィル、財務情報、各種統計データを収録するデー タベース • 日経ヴェリタスも契約中

Slide 12

Slide 12 text

1. 日経テレコン21

Slide 13

Slide 13 text

1-1. 財務情報を検索する

Slide 14

Slide 14 text

1-1. 財務情報を検索する メルカリ関連の採録情報が表示 される ・データベースで、「すべての 媒体を選択」をクリックする ・「再検索」をクリックする 件名数から「見出しを表示」を クリックする

Slide 15

Slide 15 text

1-1. 財務情報を検索する • “一括チェック” をクリックする

Slide 16

Slide 16 text

1-1. 財務情報を検索する • 本文表示をクリックする

Slide 17

Slide 17 text

1-1. 財務情報を検索する

Slide 18

Slide 18 text

1-2. 企業プロフィールを検索する • 企業のプロフィールから、 検索する企業名を入力す る

Slide 19

Slide 19 text

1-2. 企業プロフィールを検索する • “見出しを表示” をクリックする

Slide 20

Slide 20 text

1-2. 企業プロフィールを検索する • 詳細を出力する

Slide 21

Slide 21 text

1-3. ニュースを検索する • メイン画面で, 検索したい企業名を入力する

Slide 22

Slide 22 text

1-3. ニュースを検索する • “見出しを表示” をクリックする

Slide 23

Slide 23 text

1-3. ニュースを検索する • ニュース記事の一覧が表示される

Slide 24

Slide 24 text

1-3. ニュースを検索する • ニュース記事

Slide 25

Slide 25 text

実習1. 日経テレコンを使ってみる • エントリーシートや内定先やちょっと気になる会社を、日経テ レコンで検索してみる • 企業に関して、どのような情報が検索できるか確認する • ただし、今は難しいので図書館が開いたり、大学に入れるよう になってから。

Slide 26

Slide 26 text

2. 日経BP記事検索サービス • URL http://bizboard.nikkeibp.co.jp/academic/ を開く

Slide 27

Slide 27 text

2. 日経BP 記事検索サービス • 検索した文字列に関連する日経の記事が一覧表示される

Slide 28

Slide 28 text

3. INITIAL (旧 Entrepedia) • スタートアップのデータベース • https://biz.entrepedia.jp/

Slide 29

Slide 29 text

3. INITIAL

Slide 30

Slide 30 text

3. INITIAL 無償ユーザとして登録後, メルカリを検索

Slide 31

Slide 31 text

3. INITIAL • メルカリ関連の情報が表示されるが, 有償版でないと細かな データは取得できない

Slide 32

Slide 32 text

3-2. FOR STARTUP/START UP DB • https://startup-db.com/ • スタートアップ企業12156社の情報を網羅 • INITIAL とは異なり、無償で参照できる • だけど、スクレイピング。ダメ、ぜったい。 • 関西学院大学とは共同研究しているとのこと。 • フォースタートアップス、関西学院大学と共同研究開始 「日本のスタート アップ企業の資金調達と成長に関する経済分析」にSTARTUP DBを活用 • https://forstartups.com/pressrelease/kwansei-university-startupdb- 20200326/

Slide 33

Slide 33 text

3-2. FOR STARTUP/START UP DB • メルカリの場合

Slide 34

Slide 34 text

4.日経NEEDS • 日本経済新聞社の総合経済データバンク・システム • 日経NEEDS-FinancialQUESTでは、WEBから以下の内容を用 途に併せてエクセル形式でダウンロードできる。 • 国内マクロパッケージ • 新ミクロ総合パッケージ • 地域統計オプション • 企業ファイナンスデータ

Slide 35

Slide 35 text

日経NEEDS の利用条件 • (一橋ネットワーク内からの)同時接続10台 • 範囲: • 一橋大キャンパス内 • サービス時間 • 月曜日 5:00 ~ 日曜日 15:00 • 対応ブラウザ • Internet Explorer, Microsoft Edge • Google Chrome ですとクレデンシャル情報が渡されませんでした • ということで、これも大学がオープンになっている間に活用しましょう

Slide 36

Slide 36 text

日経NEEDS • データの概要; • http://www.lib.hit- u.ac.jp/retrieval/e_resource/documents/nikkeifq/needsfq_list.html • ミクロ系 • 決算短信 • 有価証券報告書 • 業績予想 • 企業属性 • 株価データ • 業績予想データ • マクロ系 • 生産統計 • 在庫統計 • 貿易統計

Slide 37

Slide 37 text

実習. 日経NEEDS のデータを一橋大学図 書館から入手し解析する • 一橋大学付属図書館の電子リソースを参照する • https://www.lib.hit-u.ac.jp/retrieval/e_resource/dblist.html

Slide 38

Slide 38 text

実習. 日経NEEDS のデータを一橋大学図 書 館から入手し解析する • 「ナ」をクリックする

Slide 39

Slide 39 text

日経NEEDS-FinancialQUEST のメイン画面

Slide 40

Slide 40 text

財務データを引っ張ってくる • 【概要】 • 全国証券取引所(ジャスダック 含む)上場会社及び非上場有価 証券報告書提出会社、全国信用 金庫について、有価証券報告 書・決算短信などの開示資料や 日経独自の調査にもとづき、決 算データ(上場会社は四半期 ベース)を収録します。最大で 1964年以降(単独本決算の 場合)の時系列データとして収 録しています。

Slide 41

Slide 41 text

財務データの取得 東証マザーズの全企業の データを取得する 全選択し, “採用” をクリッ クする “次のステップへ進む” をク リックする

Slide 42

Slide 42 text

財務データの取得 • 利用するデータ を選択し, “採 用” をクリック する • 右下に項目数が 表示される

Slide 43

Slide 43 text

財務データの取得

Slide 44

Slide 44 text

財務データの取得 結果をダウンロードしますか? と表示されるので「はい」 をクリックする

Slide 45

Slide 45 text

財務データの取得 • データの出力画面が表示される

Slide 46

Slide 46 text

Excel で取り出す

Slide 47

Slide 47 text

グラフを作成する キャンディル ミクシィ インタースペース アマナ F ジ R ー O エ ア N ヌ ス T ア カ E イ ネ O グ ッ ル ト ー プ アドウェイズ ユナイテッド 海帆 ト A ラ S ン J スジェジ ニ ェ ッ ネ ク レーションパ ス オイシックス・ラ・大地 バルニバービ SHIFT ベガコーデ ポ ー レ タ ー ホ イ シ ラ グ ョ イ ニ ン ア ゾ ス ド ンバンスト・メディア ドカ リヤ コッ ムク GA technologieシ s リコンスタジオ Aiming ラクスユーザベース モ ソ オ ブ フ ー リ キ ト ク ア ャ マ フ ル ス ッ ァ ワ ト ク ン ー ホ ス ル ード ルディンシ グャ スノン ト A ラ M ス B ト I ホ T ー I ル O デ N ィングス UUUM エムケ ビ ア ー ネ メ 総 エ ッ デ 医 ス ト ィ 研 ネ ホ ッ ー ト ゼ ルネ デラ ィ ピル ン ク・ グ スオ ス タイ 農ス 業タ 総ー 合 ア 研 メ ク 究 モ デ セ 所 ル ィ ル ホ フ カ マ ッ F ォ ル ー ト C F ネ ク リ R ッ ン I ト ク ・ Aミ Lド Bル E バ ウ グ R リ ェ ロ T ュ イ ア ー ー ノ バ ゴ ベ ウ ル ル ー ォ ウ フ シ ナ ン ェ ョ レ テ イ ン ッジドス リイ ーー ト ラクスル メルカリ アイ・ピー・エス システムサポート マネーフォワーイ ド ーソ ル 串 リ カ ネ ツ ネ ッ 田 ッ ト 中 ト ジ ホ イ ャ ー ヤ パ ル ー ン デ グ ィ ル ン ク ー グ ラ プ ス ウドワークス シェアリングテクノロジー東名 ACCESS 手フ 間ル いッ らタ ず イ グ フ ン ラ ィ ル ト ン ジ ル ッ パ ラ G デ ェ ・ タ ル ロ ン - ィ イ カ マ ー ス F ー テ 霞 ン ド A ズ ッ ヶ パ ス C ク 関 ニ タ T コ キ ー ー O ー ャ キ R ポ ピ ャ デ Y レ タ ピ ィ ー ル タ ジ シ ル タ ョ ル ア ン デ メ プ ィ デ リ ー ィ ッ ・ ア ク デ プ フ ス ィ ロ ー ー フ バ シ ・ ェ ー ル エ ッ ユ ブ バ ス シ ー レ ーザ イ エー ン す ッM ロ ら グ ビ H マ ー ら ・ ー Z E エ ー カ ネ テ プ U R ー ト ル ッ ク ラ U O ア ト ノ ッ Z イ ロ ツジ ーW シト e ョ ア ビ l ン ナ ン カ ラ b ノ U メ イ シ オ y キ ェ M サ ド オ ス ン ャ ブ ス N ン レ ム ソ テ コ リ ラ フ バ ッ ・ レ ム リ ア イ ァ イ ク バ イ ズ ス ト サ ー オ ス イ ジ バ パ イ マ オ ア イ ス ジ サ ・ オ ・ ニ イ フ フ バ ア エ ァ ァ イ ン ー ー オ ン ス マ マ グス マー夢 サ ケ 展 ン ッ 望 ワ ト カ エ ン ン パ フ タ ニ リ ェ ー ー イ プ ガ ス ラ ル ネ イ 不 ッ ズ 動 ト産 ワーロ クG ッM クO オ メ リ ン デ サ ィ ー ア チ 工 は 房 てな ビーブレイクシバ ス ン テ ク ム E ・ ズ d オ u ブ L ・ a イ b ノベーショG ン MO イ T ト E ク C ロ H メディM イ ア R ー シ T ア ド ー ク ク トコー ル gooddaysホールディア ン ラ グ イドアーキテク ツ フリークアウト・ホールディング レアジョブ GMOメディア エクストリー 中村パ 超ー 硬トナ ム アクアラインーエージェン ト トライスジテフェーァイジングデルリーープテホィーールケスデユロータィピ ナ コ ピ ジ ン ー イ ン ー オ グ バ テ ド ア ス ン ッ タ ド ド オ ッ & ト コ コ レ ム クティコブラボソスエーデシエィャルアルテワスイサ ヤ J イ ー ス ン ト ポ プ リ ス ロ ア ー ト パ ク ム V テ A K リ A ィ m リ u ー L サ デ a ッ d ト U ー z ク a E バ タ i ソ n N ー バ a フ キ E ワ ン ジ ト ャ X ー ク ー リ ン ク ボ バ 窪 ス テ D ミ ス 田 ク e ッ 製 ノ l ク 薬 サ t ホ a ー エ - ル ン F デ シ ス l ィ ン y メンP ロ テ h ゼ ホ a ッ ー r タ ル m ディングス エスユーエス ウェルビー HANATOUR JAPAN SERIOホールディングス 大泉製作所 テラプローブ テノ.ホールディングス ピ ポ ア ー ラ ト ク エ ッ ル ク ・ ビ テ ズ ィ マ ー ネ ・ ジ エ メ ス ン フ ト ロ ソ ン リ テ ュ ィ ー ア シ イ ョ ン ン タ ズ ーナショナ ル コプロ・ホールディングス メタッバ プ ー ス チ 旅 ャ 工 レ 房 クス・ホールディング日本ホスピスホールディング ス フレアス 日本イ ス ン キ パ ー ク 場 ト ブ 開 ホ ラ 発 ー ン ル ジ デ ス イ ィ タ ン ン タ グ ジ ー ス 神 ー ネ コ 戸 ニ ッ ン 天 ー ト ヴ 然 イ ァ 物 ン ノ 化 フ 学 ィニギ テ ー ィ ク ア ー ス イリグッドコ スー ピポ ーレ ドーシ ョン MTG ヴィそ ッ ー ツ せいグル弁 ー ア 護 プ ド 日 士 ベ 本 ド ン 動 ッ チ 物 ト ャ 高 コ ー 度 ム医療ハ セ ホ キ イ ン エ ー リ ャ ア タ ヌ プ フ リ ス ー ・ ァ ア ・ ピ イ ア ー ン ・ バ ド シ ー ・ ー ス カンフ パ ア ロ ニ ル ン ー ー テ ジ プ ィ ャ レ ア パ シ ・ フ ジ ン マ ィ イ ョ ネ ン ジ テ ・ ベ メ ッ シ ス ン ク ス ト ト テ メグ ム ンロ ・ー サバ イル 識学サマ日 ン本 サアタバセサットジマ ャーパンケリティミテンッグ ヘリオJス MC リント ク レ バ ン メ ル ン ダ ッ ド バ ー ト ピ イ ズ ホ ア オ ー ・ ル ホ W デ ー F A ィ ル r S ン デ i H グ ィ n ハ ス ン ヒ g ウグ ュ e スス ー 8マ 1ン・テ ア ク ソ ノ シ ス エ あ デ A イ ん ー m ツ し タ i ・ ん サ d ホ 保 イ A エ ー シ 証 エ ホ リ ル ン ー ア バ ス ル リ ー ・ デ ン ラ エ ィ ク イ ンフ グス ブ C リ R ッ G ジ ホ イ ー ン ル タ デ ー ィ ナ ン シ グ ョ ス S ナ O ル U 自律制御シ み ス ら テ ベ い ロ ム ス ワ グ ト 研 ト ー リ ラ 究 ワ ク ー ン 所 ン ス ザ ド ス ットハ コウ ムテレビジョンブティック ス ベルトラ一家ダイプ ニ ラ ン ッ グ ツ ギ プ フ ロ ト ジ ェ ク ト NATTY ファS イW バA ーN ゲK ーY ト フィッイ ト オレ 富士山マ タ ガ イ ジ フ セ ン ォ イ ア サ ー ズ ー ラ ー ビ イ ム ス ア フ ユ ビ セ ニ ソ リ ン フ 駅 ケ ン テ ォ 探 ッ グ ッ ー ツ シ ク ム ス ネ 日 テ ク 本 ム ス フ デ ト ァ ー s ル J タ ア M コ I セ イ e ム G ク リ d バ - シ ッ i リ S ョ ジ う o ュ A ン エ る ー W コ る P デ S モ K ザ K ッ S イ I ト H ン Y A A ロ エ K ジ T チ ク I ザ e ー ス ー c シ ム モ ス ド h ノ ス カ ミ マ n プ ピ オ ン レ o ス リ ナ カ ジ オ l ッ ビ ブ ン o ト ・ コ g ジ セ・ ライ ピン ーフ ・ォ サ レ ノ イ ン イ エ 地 ト ド ン ア 盤 ラ ヒ エ ー ス ネ ッ キ ュ ク ー テ A ス マ ク p フ ン ツ p ェ ・ ・ B ニ メ ス a ッ タ タ G n ク ボ ジ a k ス ロ オ m バ ー ・ e ア イ ム ジ W ジ オ ・ ラ ャ i ャ テ イ パ t イ プ ク a ト イ h ル ロ n ア ー メ レ d ッ エ デ ド プ ム ィ ・ f ネ ア パ a エ ッ ・ ー c ー ト ネ ト 日 t ド ジ ッ ナ 本 o ッ ャ ト ー リ r C ト パ ワ ズ ビ y Y ン ー ン B グ E 和 ア 保 R 心 ル 証 D フ Y ァ N ポ E リス 0 200 400 600 800 1000 1200 1400 1600 1800 0 50 100 200 250 300 従業員数 150 企業利潤 企業利潤と従業員数

Slide 48

Slide 48 text

5.帝国データバンクデータベース • 企業信用調査報告書 • 企業財務データベース • 企業概要 • 企業倒産 などの情報を網羅 ・未上場企業のデータもカバー

Slide 49

Slide 49 text

5. 帝国データバンクデータベース • 企業情報データ • 所在地 • 企業コード • 売上高 • 代表者名 などをカバー 引用: https://www.tdb.co.jp/pdf/samp_c2p.pdf

Slide 50

Slide 50 text

5. 帝国データバンクデータベース • 調査報告書 • 上場有無 • 資本金 • 取引銀行 • 仕入先 • 得意先 • 売上高 • 純利益 • 事業構成 • 信用スコア 引用: https://www.tdb.co.jp/lineup/pdf/samp_ccr.pdf

Slide 51

Slide 51 text

5. 帝国データバンクデータベース

Slide 52

Slide 52 text

5. 帝国データバンクデータベース • データ利用資格・手続き 1. センターで企業データを用いた研究に従事するのは、共同研究契約に予め記載さ れた一橋大学教員と帝国データバンク社員の他に、センターの連携協議会が認め る人とします(研究担当者、研究補助員、その他)。研究期間は、連携・協力協 定および共同研究契約の期間(2020年3月末までの2年間)を目処とします。 2. 本学の教員・学生のみならず、国内外の他大学等の教員・研究者・学生等も、所 定の手続きを経てセンターの研究担当者・研究補助員等になり、当センターの企 業データを利用することができます。ただし、他大学等の教員・研究者の場合は、 一橋大学客員研究員として承認される必要があります。具体的な手続き等につい ては、当センターにお問い合わせください。 3. 企業データは(株)帝国データバンク本社のワークステーションに設置され、セ ンター端末からの遠隔操作を通じてのみ利用できます。個別企業のデータの検 索・閲覧や持ち出しは一切できません。 4. センターの企業データを用いた研究に従事する人には必ず、所定の誓約書を提出 していただき、その規定に従っていただきます。 5. DPを含めて研究成果を公表する場合には、他大学の教員・学生等にも、所属機関 に加えて一橋大学の当センターのアフィリエーションを成果論文等に記載するこ とが義務づけられます。 http://www7.econ.hit-u.ac.jp/tdb-caree/qualification/

Slide 53

Slide 53 text

5. 帝国データバンクデータベース • マーキュリタワーの4F に研究センターがあります • もし卒論や修論や博論に使いたい場合には、是非ともお問い合 わせください

Slide 54

Slide 54 text

6+. NISTEP 企業名辞書 • http://www.nistep.go.jp/research/scisip/rd-and-innovation- on-industry • 複数のデータセットをID ベースで接合するためのテーブル http://www.nistep.go.jp/wp/wp-content/uploads/user- manual-of-comp_dic_2019_1.pdf

Slide 55

Slide 55 text

6+. NISTEP 企業名辞書 • カバーしている企業群 • ① 特許出願数累積 100 件以上 • ② 株式上場企業 • ③ 特許出願数の伸び率大 • ④ NISTEP 大学・公的機関名辞書掲載企業 • ⑤意匠・商標登録数累積 100 件以上 • ⑥ 持株会社制移行に伴い設立された事業会社 • ⑦ 一部事業の譲渡に伴い設立された会社 • ⑧ 名称変更又は吸収合併した企業が登録事由に該当

Slide 56

Slide 56 text

6+. NISTEP 企業名辞書

Slide 57

Slide 57 text

7. EDINET-PYTHON • pip を用いて edinet-python を導入する

Slide 58

Slide 58 text

7. EDINET-PYTHON • EDINET をインポートする • 特定日のドキュメントをイン ポートする • インポートしたドキュメント のタイトルを表示する

Slide 59

Slide 59 text

7.EDINET-PYTHON • EDINET のAPI を用いて, 特定企業のXBRL ファイルとPDF ファイルを取得する • 当該Notebook と同じディレクトリに保存する

Slide 60

Slide 60 text

7.EDINET-PYTHON • XBRL • XMLっぽいフォーマットの塊 • PDF

Slide 61

Slide 61 text

7.EDINET-PYTHON • 取り出したデータを参照して、必要なコンテンツを Parse する

Slide 62

Slide 62 text

7.EDINET-PYTHON • 情報を取り出す • BeautifulSoup と組み合わせると、きれいに出来そう

Slide 63

Slide 63 text

7.EDINET-PYTHON • 情報を取り出す(研究開発情報)

Slide 64

Slide 64 text

まとめ • 企業に関するデータベースはございます • ただし、体系立てて、かつExcelやPython やR にすぐ使える感 じになっているもの (日経系, Orbis 系) は、現状下とてもアク セスしずらい状況に • 企業ベースのデータで解析を希望する場合, 大学に入れる間に データの取得を済ませておく必要がありそうです • (秋や冬に大学に入れる可能性が、まだかなり不確かなので)

Slide 65

Slide 65 text

6.2 特許情報を分析するには

Slide 66

Slide 66 text

特許や論文とはなにか? 11/25/2020 66 特許: “特許は、有用な発明をなした発明者またはそ の承継人に対し、その発明の公開の代償として、一 定期間、その発明を独占的に使用しうる権利(特許 権)を国が付与するものである。特許権は、無体物 (物ではない、形のないもの)である発明に排他的 支配権を設定することから、知的財産権のひとつと される。(Wikipedia) ” 論文: “論文(ろんぶん、英: paper)とは、学問の 研究成果などのあるテーマについて論理的な手法 で書き記した文章。 (Wikipedia)”

Slide 67

Slide 67 text

特許

Slide 68

Slide 68 text

特許データでわかること • どの企業が知的財産を、どのくらい生産しているか • 無形資産をどのくらい形成しているのか • 企業の研究開発がどのように行われているのか

Slide 69

Slide 69 text

1930s 1960s 1970s 1990s 2000s 青色LEDに至るまでの研究開発プロセス: 1910-2007 (1次引用すべて導入; 上位12社明記) 1980s 引用: 清水2001

Slide 70

Slide 70 text

技術距離の計測 • We used technological distance as an indicator of R&D rigidity. • The technological distance construct, proposed by Jaffe (1986), was originally intended as a measure of the degree of similarity between technological investment portfolios (which Jaffe called ‘technological positions’) of two different firms. • Thus, we estimated R&D rigidity by calculating the similarity between a firm’s current and previous technological investment portfolio. The more similar a firm’s current and previous portfolios, the more rigid its R&D resource allocation. Technological distance was calculated as follows.

Slide 71

Slide 71 text

技術距離の計測 • technological position of firm i in year t • = 1 , 2 , ⋯ , • F it is 1 ☓ j vector, NP it denotes the number of patents obtained by firm i in year t and NP ijt is the number of patents obtained by firm i in field j in year t • Technological distance (P it ) between firm i’s technological position in year t (F it ) and year t-1 (F it-1 ) is obtained from • = Τ ∙ −1 ′ ∙ ′ −1 ∙ −1 ′ 1/2 • Technological distance assumes a value between 0 and 1, and it is unity if the two vectors are identical, which implies that the firm did not changes its investment profile at all between t-1 and t, and zero if the two vectors are orthogonal, which implies that the firm changed its technological position completely.

Slide 72

Slide 72 text

計算をするには… • 日本企業だと数千社, アメリカ企業でも数百社の, 複数年度間の 特許数を, 技術分野 (IPC 分類) ごとに解析することが必要 • Excel でも超絶がんばれば可能だけど, たぶん徒労 • vlookup とマクロを組み合わせる • そこで, Python でデータを処理 • 先程与えられた数式を, Python でコード化をして, Panda パッ ケージを用いてデータを取り込み. 取り込んだ, 企業IDと出願年 ごとの特許数と特許分類データに基づき, 技術距離を算出して csv ファイルに保存

Slide 73

Slide 73 text

技術距離の計測 Source: PatentsView and Derwent Innovations Index for USPTO patents, and IIP Patent Database for JPO patents. R&D Rigidity by Age (t-3, 3-year average) 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 4 10 16 22 28 34 40 46 52 58 64 70 76 82 88 94 100 106 112 118 124 130 136 142 148 154 160 166 172 178 184 190 196 202 208 US JPN

Slide 74

Slide 74 text

技術距離の計測(2) • R&D Rigidity by Age (t-5, 3-year average) 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1 7 13 19 25 31 37 43 49 55 61 67 73 79 85 91 97 103 109 115 121 127 133 139 145 151 157 163 169 175 181 187 193 199 205 US JPN Source: PatentsView and Derwent Innovations Index for USPTO patents, and IIP Patent Database for JPO patents.

Slide 75

Slide 75 text

知的財産制度 • 知識の公開を条件に、知識の商業的な利用の占有権を 知識の創造者に与える仕組み • 特許 • 実用新案 • 意匠 • 著作権 • 商標 11/25/2020 75

Slide 76

Slide 76 text

知的財産の種類と日本の知的財産保護制度 特許 実用新案 意匠 著作権 商標 保護対象 発明 考案 (特許ほど高 度でない発明) 意匠(商品のデザ インなど) 著作物等 商品の商標 主たる保護要件 ・新規性 ・進歩性 ・産業上の有用 性 ・新規性 ・進歩性 ・産業上の有用 性 ・新規性 ・創作非容易性 ・工業上利用可 能性 ・創作 ・誤認を生じさ せないこと 保護期間 出願日から20年 出願日から10年 登録日から15年 著者者の死後50 年 登録日から10年 (更新可能) ディスクロー ジャー 出願・公開 出願・公開 3年内の秘密意匠 制度あり 頒布 出願公告 保護内容 発明の実施の専 有 考案の実施の専 有 意匠の実施の専 有 複製権の専有な ど 商標の利用の専 有 年間出願件数 345000 (2010年) 9000 (2010年) 32000 (2010年) 出願不要 114000 (2010年) 11/25/2020 76

Slide 77

Slide 77 text

知的財産権と技術の公開への誘因 • 知的財産制度の目的のひとつ は、企業が研究開発の成果を 公開するような誘因を整備す ること • 保護期間の後は、公開された 発明をだれでも自由に利用す ることができる • 技術公開の効果 • 技術の公開によって、研究の重 複の危険性が小さくなる • 公開された技術は新たな研究開 発の種を供給する • 技術開発は累積的なプロセス であり(Merges and Nelson 1990)、すべての技術が企業 秘密となった場合このような プロセスが成立しにくくなる 11/25/2020 77

Slide 78

Slide 78 text

知的財産権の役割 • 1. 研究開発への誘因を高めること • 知的財産権による保護がなければ、研究開発への誘因が低下してしまう危険 性がある • 2. 研究開発の公開を促すこと • 知的財産権が弱いと、企業は開発した技術をできるだけ隠そうとする • 研究開発の内容も企業秘密として維持可能な技術に偏る傾向が生じる • 結果、産業全体として研究開発に利用可能な知識ストックが減少し、研究開 発の効率が低下する危険性がある • 商業的成功に強く結びついた技術革新を推進するための制度 • 企業の私的な情報と私的なインセンティブを活用して、技術革新を 促進させる 11/25/2020 78

Slide 79

Slide 79 text

発明から出願、登録までのプロセス 出所: (永田 2004) 11/25/2020 79

Slide 80

Slide 80 text

特許データベース • 何がわかるのか • だれが、いつ、どこで、どんな特許を書いたのかがわかる • だれが、いつ、どこで、どんな特許を引用したかがわかる • メリット • みんなが読んでいる特許がわかる! • インパクトファクターの高い特許がわかる! • どんな研究開発が世の中で行われているかがわかる! 5/14/2015 80

Slide 81

Slide 81 text

特許データベース • アメリカ特許のデータベース • Google Patent • Patents View • USPTO Patents • Ultra Patents • Thomson Innovation • ヨーロッパ特許のデータベース • Espacenet • PATSTAT • 日本の特許データベース • 特許情報プラットフォーム • IIP データベース • 研究用特許データベース (patR) 5/14/2015 81

Slide 82

Slide 82 text

日本特許用のデータベース • 特許情報プラットフォーム • 工業所有権情報・研修館が提供 • 無償: https://www.j-platpat.inpit.go.jp/web/all/top/BTmTopPage • 特許の大まかな内容を調べるにはこれで十分 • IIPパテントデータベース • 知的財産研究所(と人工生命研究所)が提供 • 無償: http://www.iip.or.jp/patentdb/ • 出願情報、登録情報、出願人情報、引用情報、発明者情報、発明者情報がそれぞれ収録 • マニュアル:http://www.iip.or.jp/patentdb/pdf/manual.pdf • ダウンロードページ: https://database.iip.or.jp/patentdb/ • 研究用特許データベース • IIPパテントデータベース、研究用特許データベースどちらも工業所有権情報・ 研修館が提供する整理標準化データがベース 5/14/2015 82

Slide 83

Slide 83 text

研究用特許データベース • (1)整理標準化データ (patR データベース) • 特許庁での特許の出願、審査請求、拒絶、権利維持、最終処分まで、 手続きを記録したもの • 提供時期は1964年以降2010年3月まで 適宜アップデート中 • データ量が多いため、研究に必要な項目を限定してデータベースに格 納 • (2)公報データ (td_5 データベース) • 特許の明細書および書誌情報を年別・公報種別によって記録したもの • 発行時期は公開公報:1993年から2012年まで • 特許公報:1994年から2012年まで • 公表公報:1996年から2012年まで • 再公表公報:1996年から2012年まで。すべてのデータを格納。 11/25/2020 83

Slide 84

Slide 84 text

3つの特許データベースの違いは? 5/14/2015 84 (永田2004) 特許庁データ 整理標準化データ 日本国特許庁への特許出願等に基づいて作成され る産業財産権情報(出願、審判、登録情報等)に ついて、公開可能な情報の重複を排除し標準的な 形式であるXMLやSGMLに変換したデータ

Slide 85

Slide 85 text

3つの特許データベースの違いは? 5/14/2015 85 (永田2004) 特許庁データ 整理標準化データ patR/tamada データベース 必要な部分を抽出し, 出願人コードなどを統一 したもの IIPパテントデータベース

Slide 86

Slide 86 text

特許情報プラットフォーム • https://www.j-platpat.inpit.go.jp/web/all/top/BTmTopPage 5/14/2015 86

Slide 87

Slide 87 text

特許情報プラットフォームから、ビート たけしの特許を探してみる • “北野 武”と入力してみる 5/14/2015 87

Slide 88

Slide 88 text

特許情報プラットフォームから、ビート たけしの特許を探してみる • ヒット件数 19件と表示されるので、一覧表示をクリックする 5/14/2015 88

Slide 89

Slide 89 text

特許情報プラットフォームから、ビート たけしの特許を探してみる • 結果が表示される • どうやら、同姓同名の発明者が いるっぽい • オフィス北野が出願人になって いる特許を選ぶ 5/14/2015 89

Slide 90

Slide 90 text

特許情報プラットフォームから、ビート たけしの特許を探してみる • 特許の詳細画面を表示する • どっかで見たことあるひとが 共同発明者にいる! • ビートさんと所さん 5/14/2015 90

Slide 91

Slide 91 text

特許情報プラットフォームから、ビート たけしの特許を探してみる • http://www.tokoro.co.jp/tt-hammer/aboutiron/root.html 5/14/2015 91 (でも、なんでオフィス北野のま まなんだろうと不思議に思う)

Slide 92

Slide 92 text

まとめ • 特許データはイノベーション活動を把握するための最短ルート • 学術的にはデータセットがたくさん用意されています • アメリカ USPTO PatentsView • 欧州 PATSTAT • 日本 IIP パテントデータベース • Counting the Number な研究は十分に為されてきたので、たぶ ん、面白いのは概要や Claim 欄のテキストデータの解析。 • 一般的な技法については、テキスト分析回で。

Slide 93

Slide 93 text

6.3 論文情報の探し方と使い方

Slide 94

Slide 94 text

論文データでわかること • 1905年にアインシュタインが出した論文が、誰にどのくらい引用さ れているのか? • 企業が基礎研究にどのくらい注力しているのか? • 大学はどのくらい論文を生産しているのか? • 「△△学部の○○先生」はy年にx個論文を出していて、それがt回引 用されているか? • そもそも、自分の卒論や修論や博論にどんな先行研究があるのか? • Web of Science; • 一橋学部生/院生は学内ネットワークよりアクセス可能

Slide 95

Slide 95 text

Schumpeter 1947 の後方引用数推移(Web of knowledge) 11/25/2020 95

Slide 96

Slide 96 text

シュンペーター、死後40年後に流行りがち

Slide 97

Slide 97 text

論文データベース • 何がわかるのか • だれが、いつ、どこで、どんな論文を書いたのかがわかる • だれが、いつ、どこで、どんな論文を引用したかがわかる • メリット • 先行研究を知ることができる • 自分のリサーチテーマと被る研究がどのくらいあるのか • 新規性がどのくらいあるのか • みんなが読んでいる論文がわかる! • インパクトファクターの高い雑誌がわかる!(アカデミアでの就職に 有利な!) • どんな研究が世の中で行われているかがわかる! 2020/11/25 97

Slide 98

Slide 98 text

論文データベースに掲載されている情報 アブストラ クト タイトル 著者名 ジャーナル 名とページ 数 発行年 論文キーワード 著者の所属と住 所 パブリッシャー 論文の分類 論文のタイプと 使用言語 論文の引用数 と被引用数 2020/11/25 98

Slide 99

Slide 99 text

前方引用と後方引用: 時点 : t "An Approach to the Study of Entrepreneurship," THE TASKS OF ECONOMIC HISTORY (Supplemental Issue of THE JOURNAL OF ECONoMIc HISTORY), VI (1946), 1-15 Oscar Lange, "A Note on Innovations," Review of Economic Statistics, XXV (1943), 19-25 F. W. Taussig, Inventors and Money-Makers (New York: The Macmillan Company, 1915). Fritz Redlich, The Molding of American Banking—Men and Ideas (New York: Hafner Publishing Company, 1947). Robert A. Gordon, Business Leadership in the Large Corporation (Washington, D.C.: The Brookings Institution, 1945). F. J. Marquis and S. J. Chapman on the managerial stratum ,of the Lancashire cotton industry in the Journal of the Royal Statistical Society, LXXV, Pt. III (1912). 293-306. 前方引用 後方引用 ・後方引用からわかること -- どのような先行研究が活用されたのか -- いつ公開された先行研究を活用したのか -- 論文を執筆するにあたり、「科学的源泉」 はいったいなんだったのか ・後方引用からわからないこと -- 引用されていないけど、重要だった「科学 的源泉」 -- 引用されていないけど、参照された先行研 究 (in context.) ・前方引用からわかること -- 論文自体の重要性 -- 「巨人の肩の上に立つ (Standing on the shoulders of the giants) 」 -- 知識の伝播過程 -- 論文自体が「古くなっていない」か ・前方引用からわからないこと -- ほんとうにその論文は重要な論文なのか (引用されること自体が, 論文の重要性を示し ているのか) -- 後発の論文にとって重要な科学的源泉が, 直接的には引用されていない場合も 2020/11/25 99

Slide 100

Slide 100 text

論文のデータベースを使うと何がわかる? • 著者の数が多い論文は被引用数が多くなる? • どういうジャンルの論文を, 特定の大学や企業が投稿してい る? • ある産業内では, どういった企業が論文を多く投稿している? • ノーベル賞を取るようなスターサイエンティストはだれ? • 引用する論文が多いほど, 被引用数が増える? • 博士ホルダーが書いた論文は, 普通の研究者に比べてパフォー マンスが高くなる? • 様々なジャンルに投稿している研究者のパフォーマンスは高く なる? 2020/11/25 100

Slide 101

Slide 101 text

具体例1. (後方)引用分析 • 後方引用をたどることで, 発明に至る知識の流れを明らかにす る • JST プロジェクトの Feasibility Study • Shuji Nakamura Patent に至るまでの Main Path • 特許と、特許に引用された論文について調査 • ソース: Web of Science / Thomson Innovation 2020/11/25 101

Slide 102

Slide 102 text

Network 全体 (属性付き) 赤色は Main Path に選択 された Node を示す. 2020/11/25 102

Slide 103

Slide 103 text

1930s 1960s 1970s 1990s 2000s 1910-2007 (1次引用すべて導入; 上位12社明記) 1980s 2020/11/25 103

Slide 104

Slide 104 text

(英文)論文データベース 名前 Web of Science Scopus 作っている会社 トムソン・ロイター エルゼビア カバー範囲 ・社会科学文献の書誌および引用情報 (1898年-) ・自然科学文献の書誌および引用情報 (1900年-) ・5000以上の出版社の21,000誌以上の学術ジャー ナル ・20000タイトル以上の査読ジャーナル ・370タイトルのブックシリーズ ・550万件以上の会議録 メリット ・過去データが豊富 ・社会科学のカバー率が高い ・他のデータベースとリンクさせることが比較的容 易 ・分野分類が (Web of Science) に比べて明確 ・自然科学のカバー率は Web of Science に比べ 高い ・企業名および著者名の名寄せの精度が高いこと もないみたい・・・ デメリット ・1945年以前のデータはカバー範囲が限られている ・カテゴリ分類が不明確 ・現在カバー範囲が(Web of Science に比べ)狭い [引用情報は1996年以降のみカバー] (2016年に向け拡大される予定) 価格 すごく高い! すごく高い! 気をつけること ・一橋大学では利用可能 ・大学によってカバーしているデータ範囲が違う 一橋大学では利用不能 (部局によっては契約して いる場合あり) 2020/11/25 104

Slide 105

Slide 105 text

論文データベースを使った分析の課題 • データ処理の開始までに手間が掛かる • データクリーニング: ネットワーク図作成ソフトに合致するようにデー タの処理を行う手間 (平準化, 欠落データの処理など) • 名寄せ (企業名, 個人名, 表記ゆれ etc…) を手作業で修正するのは、き わめて時間のかかる作業 • わかりやすいネットワーク図をつくるには、パラメータの調整 が必要 (NetDraw etc…) • 大量データを利用する場合、(フリーソフトウェアの場合)うま く動作しない場合がある 2020/11/25 105

Slide 106

Slide 106 text

論文データベースを使った分析の課題(2) • 世の中に「完備な」データベースはありません • 「大人は嘘つきではありません、ただ間違いをするだけなのです …」 • 組織名が違う • 自分の名前が違う • 所属国が違う • 論文のカテゴリが違う ことが多々出てきます。 • 自らのリサーチクエスチョンに合わせて精緻な分析を行うために は、(1) 問いに対応する最適なデータベースを選び, (2) データの クリーニング作業 を行う必要があります 2020/11/25 106

Slide 107

Slide 107 text

論文データベースによってカバーしてい る情報が違うことを確かめてみる • “The renaissance in optical spectroscopy of phthalocyanines and other tetraazaporphyrins” という論文を • 1. J-Global: http://jglobal.jst.go.jp/ • 2. CiNII : http://ci.nii.ac.jp/ • 3. Web of Science http://apps.webofknowledge.com/ • 4. Scopus http://www.scopus.com/ • 5. Google Scholar https://scholar.google.co.jp/ • 6. Microsoft Academics http://academic.research.microsoft.com/ の5種類の論文データベースで探し, どのような情報が掲載されているの か確認する. 2020/11/25 107

Slide 108

Slide 108 text

1. J-global の場合: 検出, しかしほとんど情報な し 2020/11/25 108

Slide 109

Slide 109 text

2. CiNii の場合: 検出できない 2020/11/25 109

Slide 110

Slide 110 text

3. Web of Science@一橋の場合: いろいろ見つかる 2020/11/25 110

Slide 111

Slide 111 text

3-2. Web of Science @GRIPSの場合:一橋 とまったく同じ情報が見つかる 2020/11/25 111

Slide 112

Slide 112 text

4. Scopus の場合: Web of Scienceと同じ 結果になるけど, 被引用数が違う…. Web of Science の場合: 被引用数 67 Scopus の場合: 被引用数 69 2020/11/25 112

Slide 113

Slide 113 text

5. Google Scholar の場合 検出できる. 被引用数は WoS/Scopus と異なる 2020/11/25 113

Slide 114

Slide 114 text

6. Microsoft Academic の場合 検出できる. 2020/11/25 114

Slide 115

Slide 115 text

わかること • 有料のデータベースと無料のデータベースがある • Web of Science や Scopus にアクセスするのは, 実はお金がかかる • Stay Home していると、実は読めない論文があることに気づく • 当該論文を検出できるデータベースとできないデータベースがある • 被引用数はデータベースによって異なる • 掲載されている情報もデータベースによって異なる • 一番いいのは、実際の論文を読むこと/ダウンロードすること • しかしながら, そんな時間はないので論文データベースを使わざるを 得ない ⇒ 網羅性が高いのは Web of Science または Scopus, 日本語の論文 なら CiNII 2020/11/25 115

Slide 116

Slide 116 text

今日のまとめ • 論文データベースは大学にいる間に活用しよう • かと思ったらLens.org なども出てきているので, そんなに困らないかも • Lens.org について 6.1 で話します • 論文データベースは完璧ではないことを知ろう • かと思ったら Lengs.org などもあるので, Scopus と Web of Science 含め相互補 完的に使うのが吉 • 論文データベースを使って分析するには、データの整理や名寄せが必 要不可欠である • NISTEP製テーブルをたくさん使いましょう • 論文データベースからデータを取得して多変量解析するには、やっぱ りデータベース処理の知識が必要になってくる • いまのうちにNoSQL とか覚えておくと、すごい論文が書けちゃうかも 2020/11/25 116

Slide 117

Slide 117 text

6.4 地域情報(RESAS)の探し方

Slide 118

Slide 118 text

今回利用するNotebook • Jupyter Notebook 版 • https://www.dropbox.com/s/a eu6bk2img5wg1z/RESAS%20A PI%20%E3%81%8B%E3%82%8 9%E3%83%87%E3%83%BC%E 3%82%BF%E3%82%92%E5%8 F%96%E5%BE%97%E3%81%9 9%E3%82%8B%28ver%202019. 10.05%29.ipynb?dl=0 • Google Colaboratory 版 • https://colab.research.google. com/drive/1Tqe2LmituEjA96V jFW0EyPqOTxpXa_k7

Slide 119

Slide 119 text

RESAS • https://resas.go.jp • 地域経済分析システム(2015年4月~) • ~Regional Economy Society Analyzing System~ • 地方創生のデータ利用の「入口」として、地域経済に関する官民の 様々 なデータを、地図やグラフ等で分かりやすく「見える化」してい るシステム • 各地域が、自らの強み・弱みや課題を分析し、その解決策を検討する ことを後押しするツール • Evidence Based Policy Making を目指した活動 引用; http://www.kantei.go.jp/jp/singi/sousei/resas/pdf/h31-01-07- newinfo.pdf

Slide 120

Slide 120 text

RESAS の収録データ http://www.kantei.go.jp/jp/singi/sousei/resas/pdf/h31-02-28-data.pdf

Slide 121

Slide 121 text

実習2; RESAS API からデータを取得する • https://opendata.resas- portal.go.jp/ • API経由でデータを取得する • 右上の “RESAS-API 利用登 録・ログイン” からアカウン ト登録を行い, API キーを取 得する

Slide 122

Slide 122 text

実習2; RESAS API からデータを取得する • 取得したAPI キーを, などの形式で保存する(このとき, 文字コード utf-8 で保存すること) {“X-API-KEY”:“API 登録画面に表示されたAPI キー"}

Slide 123

Slide 123 text

実習2; RESAS をAPI で利用する • Notebook 上で必要なライブラリをインポートする

Slide 124

Slide 124 text

実習2; RESAS をAPI で利用する • API キーを取得できるか確認する.

Slide 125

Slide 125 text

実習2; RESAS をAPI で利用する • 都道府県のコード情報 を取り込む • データを読み込む先の URL 情報を指定 • URL とともに, APIキー を指定する • データを取り込み, 中身 を確認する

Slide 126

Slide 126 text

実習2. RESAS をAPI で利用する • データを取得できる

Slide 127

Slide 127 text

実習2. RESAS をAPI で利用する • Panda Dataframe に変換する

Slide 128

Slide 128 text

実習2. RESAS をAPI で利用する • 東京都の市町村コードを取得する

Slide 129

Slide 129 text

実習2. RESAS をAPI で利用する • 指定したURL にAPI キーを渡す • 東京23区の地域コードが取得できる

Slide 130

Slide 130 text

実習2. RESAS をAPI で利用する • 出力結果

Slide 131

Slide 131 text

実習2. RESAS を API で利用する • Panda Dataframe 形式に変換する

Slide 132

Slide 132 text

実習2. RESAS を API で利用する • 出力結果

Slide 133

Slide 133 text

実習2. RESAS をAPI で利用する • 一人あたりの固定資産税を取得する • 今回は東京都 (prefCode = 13) 国立市 (cityCode = 13215) の データをまとめて取り出す.

Slide 134

Slide 134 text

実習2. RESAS をAPI で利用する • 出力結果

Slide 135

Slide 135 text

実習2. RESAS をAPI で利用する • Panda DataFrame 形式に変換する

Slide 136

Slide 136 text

実習2. RESAS をAPI で利用する • 都道府県ごとの集計値 を取得する • For 文で47都道府県分 のデータを取得する • 創業比率のデータ • https://opendata.res as- portal.go.jp/docs/api /v1/municipality/foun dation/perYear.html

Slide 137

Slide 137 text

Tips: For 文 • 同じ作業を繰り返すときの構文 • - Python の場合, Range 関数 を利用することで, その範囲内 で作業を繰り返すことができる • - たとえば, for i in range (1, 48) は, 1 から48 まで i という数 字をひとつずつ増やしなながら 作業することを可能にする • For 変数名 in (繰り返す範囲): • 実行する内容

Slide 138

Slide 138 text

実習2. RESAS を API で利用する • データの取得結果

Slide 139

Slide 139 text

実習2. RESAS を API で利用する • 市町村コードを Dataframe で保存し, コードのみ取り出す

Slide 140

Slide 140 text

実習2. RESAS をAPI で利用する • 出力結果 • 東京都の市町村コードのみ取得 できる

Slide 141

Slide 141 text

実習2. RESAS を API で利用する • 先程取得した東京 都の区別コードリ ストを用い, 各区ご との創業比率を取 得する • DataFrame 形式に 変換し, 保存する

Slide 142

Slide 142 text

実習2. RESAS を API で利用する • 出力結果

Slide 143

Slide 143 text

実習2. RESAS をAPI で利用する • 全都道府県の市区町村コードを取得し, DataFrame として保存する

Slide 144

Slide 144 text

実習2. RESAS を API で利用する • データの取得結果

Slide 145

Slide 145 text

実習2. RESAS をAPI で利用する • 市町村レベルの企業数のデー タを取得する • https://opendata.resas- portal.go.jp/docs/api/v1/muni cipality/company/perYear.htm l • 必要あらば, 産業分類のデータ も取得できる • 先程作成した city_list を利用し て, 全市区町村+特別区の企業 数データを取得する

Slide 146

Slide 146 text

実習2. RESAS を API で利用する • 細かな解説(1) • 取得するAPIのURL を指定する • 後ほどデータを放り込む空の DataFrame を用意する • Zip 関数を使って, city_list.prefCode および city_list.cityCode ごとに 繰り返しの処理を行う • 今回の場合は, prefCode=1 の北海道から, 取得した cityCode ごとにデータを取 得する

Slide 147

Slide 147 text

実習2. RESAS をAPI で利用する • 細かな解説(2) • データが存在しない市 区町村があるため, そ の場合 “not available” と表示させる • 企業数 (result), 市区町 村名/コード, 都道府県 名/コードを取得する • JSON からDataFrame 形式に変換して, それ をs に追記していく

Slide 148

Slide 148 text

Tips: zip と try 関数 • Zip 関数: • 複数の要素を同時に取得すること を可能にする • 例外処理 (try except): • 実行中にエラーが起きた場合, 例外 処理を指定することができる 引用; https://note.nkmk.me/python-try-except-else-fina

Slide 149

Slide 149 text

実習2. RESAS をAPI で利用する • 出力結果 • データが取得できなかった市区 町村は not available と表示さ れる • それ以外のデータがリストとし て表示される

Slide 150

Slide 150 text

実習2. RESAS をAPI で利用する • 都道府県ごとの累計企業数を 集計する • 出力結果 s.groupby('prefName')['value'].sum()

Slide 151

Slide 151 text

実習2. RESAS をAPI で利用する • 都道府県ごとに平均値と総数を導出する import numpy as np s.groupby('prefName').agg({'value' : [np.sum, np.mean]}) graph_s=s.groupby('prefName').agg({'value' : [np.sum, np.mean]}) print(graph_s)

Slide 152

Slide 152 text

実習2. RESAS を API で利用する • 出力結果

Slide 153

Slide 153 text

実習2. RESAS を API で利用する • 棒グラフをプロットする import matplotlib import pandas as pd from matplotlib import pylab as plt # matplotlibのデフォルトフォントをKozuka Gothic Pro に設定 font = {'family' : 'Kozuka Gothic Pro'} matplotlib.rc('font', **font) graph_s graph_s.plot.bar(y=['value'], alpha=0.6, figsize=(15,4)) • デフォルトのplot は日本語に対応していないため, フォントを指定する作業を行う

Slide 154

Slide 154 text

実習2. RESAS を API で利用する • 出力結果

Slide 155

Slide 155 text

やってみよう • RESAS のAPI を使って, 都道府県や市区町村, 産業分 類ごとにデータを取得し, 基礎統計の確認などを行う • たぶん(卒論や修論や博論に)使えそうなところ • Difference in Difference なモデルの設定 • Treated Group と Control Group を設定

Slide 156

Slide 156 text

やってみよう(2) • データリストはこちら; • https://opendata.resas-portal.go.jp/docs/api/v1/index.html • 別のAPIセット: • 法人インフォ: https://hojin-info.go.jp/hojin/TopPage • 科研費: https://support.nii.ac.jp/ja/kaken/api/api_outline • SPARQL Endpoint についてはモジュール 6.3 と6.4 で説明し ます。

Slide 157

Slide 157 text

次回:企業行動/産業のデータとLinked Open Data の活用 • 帝国データバンク企業・経済高度実証研究センター (http://www7.econ.hit-u.ac.jp/tdb- caree/about-caree/) や、日経NEEDS などが提供する企業のデータベースについて説明を行います。 本データベースには、企業の取引、出資、銀行取引データや、決算書データなどが含まれています。 こうしたデータセットに基づき、問いに基づきデータを解析することを目指します。また講義の後半 では、RESASを用いて地域産業の情報の取得する方法と、NISTEP 企業名辞書 (http://www.nistep.go.jp/research/scisip/rd-and-innovation-on-industry) などを用い, ID ベースで データセット間を接合する手法について説明します。 • 企業の研究開発活動を解析するためには、特許や学術論文の動向について測ることで、産業内での動 態を観察することが出来ます。知的財産研究所が提供する IIP パテントデータベース (http://www.iip.or.jp/patentdb/), Clarivate Analytics 社が提供する Web of Science (https://clarivate.com/products/web-of-science/), Lens.org などを用いることで、 - 「どの企業が最も特許を出願しているのか?」 - 「どのような分野に特許を出願しているのか?」 - 「日本の大学で最も年ごとの論文数が多いのは何処か?」 - 「(指導教官の)○○先生が書いた論文はt年にx本で、その論文は累計 y 回引用された」 などの情報を取得し分析する方法を解説の上、実習を行います。 • 項目が多いので、5.1 から 6.2 までに分けて解説予定です.

Slide 158

Slide 158 text

次回; Open Linked Data の活用 (RDF, RISIS など の事例紹介および試用) [座学、 実習] • オープンサイエンスやオープンガバメントの進展によって、特 にヨーロッパでは Open Linked Data と呼ばれるデータセット を用いた解析プラットフォームや、解析手法が用いられはじめ ています。 • 本回では、RISIS (https://www.risis2.eu/)と呼ばれる、イノ ベ ーション分析のためのデータプラットフォームについて解説 を 行い、RDF を用いた解析について解説および簡単な実習を行 い ます。

Slide 159

Slide 159 text

Open Linked Data の具体例 • 科学者とPhD Advisor の関係性 アメリカの場合 ドイツの場合 日本の場合 DBpedia.org (Wikipedia の掲載情報をRDF にしたサイト)のSPARQL Endpointに、Linked Data Reactor (http://ld-r.org/) から接続し、Wikipedia に掲載されているScientist の全情報を取り込み

Slide 160

Slide 160 text