#経済学のための実践的データ分析 4.6 特許と論文データを使って分析しよう

経済学のための実践的データ分析 4.6. 特許+論文データを用いた分析 28教室一橋大学大学院経済学研究科原泰史 [email protected]

確認事項 • 電源タップは足りているでしょうか？

今日の内容 (105分) 1: レポートについて 2: 特許分析 3: 論文分析 4: データベースを使ってみよう
(Web of Science, Lens) 5: 成績評価について Appendix: Scopus について

1. レポートについて

レポート1 おつかれさまでした • 利用されたデータセット • FIFA19 4割 • Airbnb 5割
• BBQ 1割 • モデリング • FIFA19 の場合 • 利用されていないパラメータを説明変数に追加する • FIFA ランキングをモデルに追記する • Airbnb の場合 • 最寄り駅までの距離を説明変数に追加する • ランドマークまでの距離を説明変数に追加する

レポート1引っかかるポイント • データ読み込みと列の関係 • 配列は0 からスタートします • たまに, A 列からデータの取り込みが始まっている場合は,
+1しましょう

レポート1 引っかかるポイント • Airbnb の価格決定要因がgiven なパラメータに見当たらない件 • 対処方法 • サブサンプルで分析する
• Outliner な価格帯のデータを排除する (上位/下位 n パーセントなど) • ブルックリン or マンハッタン地域に限定する • ほかのパラメータを外部のデータソースから持ってくる • 最寄り駅との距離 • 最寄りのランドマークとの距離 • 地域の犯罪率 • 土地の価格 • 線形モデル以外を使う • プロビット, 操作変数法 etc…

参考文献 • 『Kaggle で勝つデータ分析の技術』 • “データサイエンスの認知の高まりとともに，データ分析に関するコンペティションが多数開催されるようになってきました。最も有名なコンペティションプラットフォームであるKaggleにおけるプレイヤー数は10万
人を超え，多くのエンジニアが自分の腕を試すためにコンペティションに参加しています。分析コンペでは，実際のデータを扱うため，機械学習の解説書にはあまり載っていないような手法やテクニックが数多く活用されています。これらを理解し自身で使えるようにしておくことはコンペだけでなく，実務でのモデル構築において非常に役に立ちます。そこでこれらのテクニックや事例を多くの人に知っていただくために，現時点で最新のものを整理して本書にまとめました。特徴量の作り方，バリデーション，パラメータチューニングなどについて，一般的な書籍ではあまり言及されない暗黙知やポイントについて記述しています。”

2-0. 特許や論文とはなにか？

論文

特許

特許や論文とはなにか？ 12/3/2019 12 特許: “特許は、有用な発明をなした発明者またはその承継人に対し、その発明の公開の代償として、一定期間、その発明を独占的に使用しうる権利（特許権）を国が付与するものである。特許権は、無体物（物ではない、形のないもの）である発明に排他的支配権を設定することから、知的財産権のひとつと
される。(Wikipedia) ” 論文: “論文（ろんぶん、英: paper）とは、学問の研究成果などのあるテーマについて論理的な手法で書き記した文章。 (Wikipedia)”

特許データでわかること • どの企業が知的財産を、どのくらい生産しているか • 無形資産をどのくらい形成しているのか • 企業の研究開発がどのように行われているのか

1930s 1960s 1970s 1990s 2000s 青色LEDに至るまでの研究開発プロセス: 1910-2007 (1次引用すべて導入; 上位12社明記) 1980s
引用: 清水2001

論文データでわかること • 1905年にアインシュタインが出した論文が、誰にどのくらい引用されているのか？ • 企業が基礎研究にどのくらい注力しているのか？ • 大学はどのくらい論文を生産しているのか？ • 「△△学部の◦◦先生」はy年にx個論文を出していて、それがt
回引用されているか？ • Web of Science; • 一橋学部生/院生は学内ネットワークよりアクセス可能

Schumpeter 1947 の後方引用数推移(Web of knowledge) 12/3/2019 16

2. 特許分析

知的財産制度 • 知識の公開を条件に、知識の商業的な利用の占有権を知識の創造者に与える仕組み • 特許 • 実用新案 • 意匠
• 著作権 • 商標 12/3/2019 18

知的財産の種類と日本の知的財産保護制度特許実用新案意匠著作権商標保護対象発明考案 (特許ほど高
度でない発明) 意匠(商品のデザインなど) 著作物等商品の商標主たる保護要件・新規性・進歩性・産業上の有用性・新規性・進歩性・産業上の有用性・新規性・創作非容易性・工業上利用可能性・創作・誤認を生じさせないこと保護期間出願日から20年出願日から10年登録日から15年著者者の死後50 年登録日から10年 (更新可能) ディスクロージャー出願・公開出願・公開 3年内の秘密意匠制度あり頒布出願公告保護内容発明の実施の専有考案の実施の専有意匠の実施の専有複製権の専有など商標の利用の専有年間出願件数 345000 (2010年) 9000 (2010年) 32000 (2010年) 出願不要 114000 (2010年) 12/3/2019 19

知的財産権と技術の公開への誘因 • 知的財産制度の目的のひとつは、企業が研究開発の成果を公開するような誘因を整備すること • 保護期間の後は、公開された発明をだれでも自由に利用することができる
• 技術公開の効果 • 技術の公開によって、研究の重複の危険性が小さくなる • 公開された技術は新たな研究開発の種を供給する • 技術開発は累積的なプロセスであり(Merges and Nelson 1990)、すべての技術が企業秘密となった場合このようなプロセスが成立しにくくなる 12/3/2019 20

知的財産権の役割 • 1. 研究開発への誘因を高めること • 知的財産権による保護がなければ、研究開発への誘因が低下してしまう危険性がある • 2. 研究開発の公開を促すこと
• 知的財産権が弱いと、企業は開発した技術をできるだけ隠そうとする • 研究開発の内容も企業秘密として維持可能な技術に偏る傾向が生じる • 結果、産業全体として研究開発に利用可能な知識ストックが減少し、研究開発の効率が低下する危険性がある • 商業的成功に強く結びついた技術革新を推進するための制度 • 企業の私的な情報と私的なインセンティブを活用して、技術革新を促進させる 12/3/2019 21

発明から出願、登録までのプロセス出所: (永田 2004) 12/3/2019 22

特許データベース • 何がわかるのか • だれが、いつ、どこで、どんな特許を書いたのかがわかる • だれが、いつ、どこで、どんな特許を引用したかがわかる • メリット •
みんなが読んでいる特許がわかる！ • インパクトファクターの高い特許がわかる！ • どんな研究開発が世の中で行われているかがわかる！ 5/14/2015 23

特許データベース • アメリカ特許のデータベース • Google Patent • Patents View •
USPTO Patents • Ultra Patents • Thomson Innovation • ヨーロッパ特許のデータベース • Espacenet • PATSTAT • 日本の特許データベース • 特許情報プラットフォーム • IIP データベース • 研究用特許データベース (patR) 5/14/2015 24

日本特許用のデータベース • 特許情報プラットフォーム • 工業所有権情報・研修館が提供 • 無償: https://www.j-platpat.inpit.go.jp/web/all/top/BTmTopPage • 特許の大まかな内容を調べるにはこれで十分
• IIPパテントデータベース • 知的財産研究所（と人工生命研究所）が提供 • 無償: http://www.iip.or.jp/patentdb/ • 出願情報、登録情報、出願人情報、引用情報、発明者情報、発明者情報がそれぞれ収録 • マニュアル：http://www.iip.or.jp/patentdb/pdf/manual.pdf • ダウンロードページ: https://database.iip.or.jp/patentdb/ • 研究用特許データベース • IIPパテントデータベース、研究用特許データベースどちらも工業所有権情報・研修館が提供する整理標準化データがベース 5/14/2015 25

研究用特許データベース • （１）整理標準化データ (patR データベース) • 特許庁での特許の出願、審査請求、拒絶、権利維持、最終処分まで、手続きを記録したもの • 提供時期は１９６４年以降２０１０年３月まで
適宜アップデート中 • データ量が多いため、研究に必要な項目を限定してデータベースに格納 • （２）公報データ (td_5 データベース) • 特許の明細書および書誌情報を年別・公報種別によって記録したもの • 発行時期は公開公報：１９９３年から２０１２年まで • 特許公報：１９９４年から２０１２年まで • 公表公報：１９９６年から２０１２年まで • 再公表公報：１９９６年から２０１２年まで。すべてのデータを格納。 12/3/2019 26

３つの特許データベースの違いは？ 5/14/2015 27 （永田２００４）特許庁データ整理標準化データ日本国特許庁への特許出願等に基づいて作成される産業財産権情報（出願、審判、登録情報等）について、公開可能な情報の重複を排除し標準的な形式であるXMLやSGMLに変換したデータ

３つの特許データベースの違いは？ 5/14/2015 28 （永田２００４）特許庁データ整理標準化データ patR/tamada データベース必要な部分を抽出し, 出願人コードなどを統一
したもの IIPパテントデータベース

特許情報プラットフォーム • https://www.j-platpat.inpit.go.jp/web/all/top/BTmTopPage 5/14/2015 29

特許情報プラットフォームから、ビートたけしの特許を探してみる • “北野武”と入力してみる 5/14/2015 30

特許情報プラットフォームから、ビートたけしの特許を探してみる • ヒット件数 19件と表示されるので、一覧表示をクリックする 5/14/2015 31

特許情報プラットフォームから、ビートたけしの特許を探してみる • 結果が表示される • どうやら、同姓同名の発明者がいるっぽい • オフィス北野が出願人になっている特許を選ぶ
5/14/2015 32

特許情報プラットフォームから、ビートたけしの特許を探してみる • 特許の詳細画面を表示する • どっかで見たことあるひとが共同発明者にいる！ • ビートさんと所さん 5/14/2015
33

特許情報プラットフォームから、ビートたけしの特許を探してみる • http://www.tokoro.co.jp/tt-hammer/aboutiron/root.html 5/14/2015 34

1-2.特許解析の具体例

特定の企業 (パナソニック; 名寄せ済み) の特許出願数やIPC分類を数える • 方法 1. NISTEP企業名辞書をSQL サーバにインポートする 2.
NISTEP企業名辞書とIIPパテントデータベースの接続テーブルをSQL サーバにインポートする 3. NISTEP 企業名辞書を使い、パナソニック子会社の情報を把握する。これにより、企業ID (comp_id) と沿革ID (history_id)情報を取得する 4. NISTEP企業名辞書とIIPパテントデータベースの接続テーブルに記載されている comp_id 情報から、パナソニックが特許出願した ida_seq 情報を取り出す 5. Ida_seq に基づき、当該特許の出願年や公開年やclaim, IPC 情報を取り出す 2019/12/3 36

2-1. NISTEP企業名辞書をSQL サーバにインポートする • select * from 1_comp_name_main_tbl で,
データが読み込めたことを確認する 2019/12/3 37

2-2. NISTEP企業名辞書とIIPパテントデータベースの接続テーブルをSQL サーバにインポートする • SELECT * FROM iipdb2015a.ct_dic_iip;
でデータを読み込めたか確認する 2019/12/3 38

2-3. パナソニックな企業群を history_id から特定する • comp_name が”パナソニック” な企業の、 history_id
と comp_id を確認する • NISTEP企業名辞書メインテーブルを使う • Comp_id = 1 • History_id = 1006752 であることを確認 • History_id = 1006752 である企業を探索する 2019/12/3 39

2-3. パナソニックな企業群を history_id から特定する • History_id = 1006752 である企業を検索する
• パナソニック • 松下電器産業 • 松下電工 • 松下電子工業 • パナソニック電工 • 松下冷機 • 松下通信工業 • 松下電池工業 • 松下住設機器 • パナソニックモバイルコミュニケーションズ • パナソニックモバイルが該当することがわかる 2019/12/3 40

2-3.パナソニックな企業群を特定する • パナソニックが社名に含まれる企業を探してみる • 37社存在することを確認 • とりあえず、history_id = 1006752
な企業群を対象にする 2019/12/3 41

2-4. NISTEP企業名辞書とiip パテントデータベース接続テーブルを接合する • IIP パテントデータベース接続テーブルに、NISTEP企業名辞書メインテーブルにある history_id と
comp_name を接合し, 新しいテーブルとして保存する • 一行目に create table ct_dic_iip2 と指定し, クエリの結果を新しいテーブルに保存する 2019/12/3 42

2-4. NISTEP企業名辞書とiip パテントデータベース接続テーブルを接合する • データの状態を確認 • 従来の接続テーブルに、history_id と comp_name
の情報が追加されている • この段階で、パナソニックが出願した特許の出願年と数が確認できる 2019/12/3 43

2-5. IIP パテントデータベースと接合し, パナソニック (名寄せ済み) の特許, IPC 分類情報を抽出する
• 2-4. でつくったテーブルと, IIP パテントデータベースのap テーブルをida で接合する • Left 関数を使い, ct_dic_iip2 テーブルの ida_seq について先頭から10 文字分取り出し, それをapテーブルのida とマッチさせる • History_id=1006752 のデータを取り出す 2019/12/3 44

• 結果が表示される 2019/12/3 45

• Excelでグラフにする • 各企業体ごとの特許数 2019/12/3 46 0 5000 10000 15000 20000 25000 <1984/1/5 1985年 1987年 1989年 1991年 1993年 1995年 1997年 1999年 2001年 2003年 2005年 2007年 2009年 2011年 2013年松下冷機松下電池工業松下電子工業松下電工松下電器産業松下通信工業松下住設機器パナソニック電工

2019/12/3 47 0 5000 10000 15000 20000 25000 30000 35000 H01L H04M H04R A61B A47K E03D G01B B65D H01P E03C G01D B28B C09D B29B G06Q B25B F23C F23Q B66B B62M F16D F27B C12N F15B C07K B28D B41C B62H E01H B67D B60C B64D B66C B27L B07B D02G D21J G10D B64G C01D G10C F22G G03D A41B G21C F16S B44B B64C

2019/12/3 48

3. 論文データベース

論文データベース • 何がわかるのか • だれが、いつ、どこで、どんな論文を書いたのかがわかる • だれが、いつ、どこで、どんな論文を引用したかがわかる • メリット •
先行研究を知ることができる • 自分のリサーチテーマと被る研究がどのくらいあるのか • 新規性がどのくらいあるのか • みんなが読んでいる論文がわかる！ • インパクトファクターの高い雑誌がわかる！（アカデミアでの就職に有利な！） • どんな研究が世の中で行われているかがわかる！ 2019/12/3 50

論文データベースに掲載されている情報アブストラクトタイトル著者名ジャーナル名とページ数発行年論文キーワード
著者の所属と住所パブリッシャー論文の分類論文のタイプと使用言語論文の引用数と被引用数 2019/12/3 51

前方引用と後方引用: 時点 : t "An Approach to the Study of
Entrepreneurship," THE TASKS OF ECONOMIC HISTORY (Supplemental Issue of THE JOURNAL OF ECONoMIc HISTORY), VI (1946), 1-15 Oscar Lange, "A Note on Innovations," Review of Economic Statistics, XXV (1943), 19-25 F. W. Taussig, Inventors and Money-Makers (New York: The Macmillan Company, 1915). Fritz Redlich, The Molding of American Banking—Men and Ideas (New York: Hafner Publishing Company, 1947). Robert A. Gordon, Business Leadership in the Large Corporation (Washington, D.C.: The Brookings Institution, 1945). F. J. Marquis and S. J. Chapman on the managerial stratum ,of the Lancashire cotton industry in the Journal of the Royal Statistical Society, LXXV, Pt. III (1912). 293-306. 前方引用後方引用・後方引用からわかること -- どのような先行研究が活用されたのか -- いつ公開された先行研究を活用したのか -- 論文を執筆するにあたり、「科学的源泉」はいったいなんだったのか・後方引用からわからないこと -- 引用されていないけど、重要だった「科学的源泉」 -- 引用されていないけど、参照された先行研究 (in context.) ・前方引用からわかること -- 論文自体の重要性 -- 「巨人の肩の上に立つ (Standing on the shoulders of the giants) 」 -- 知識の伝播過程 -- 論文自体が「古くなっていない」か・前方引用からわからないこと -- ほんとうにその論文は重要な論文なのか (引用されること自体が, 論文の重要性を示しているのか) -- 後発の論文にとって重要な科学的源泉が, 直接的には引用されていない場合も 2019/12/3 52

Schumpeter 1947 の後方引用数推移(Web of Science) 2019/12/3 53

シュンペーター、死後40年後に流行りがち

論文のデータベースを使うと何がわかる？ • 著者の数が多い論文は被引用数が多くなる？ • どういうジャンルの論文を, 特定の大学や企業が投稿している？ • ある産業内では, どういった企業が論文を多く投稿している？
• ノーベル賞を取るようなスターサイエンティストはだれ？ • 引用する論文が多いほど, 被引用数が増える？ • 博士ホルダーが書いた論文は, 普通の研究者に比べてパフォーマンスが高くなる？ • 様々なジャンルに投稿している研究者のパフォーマンスは高くなる？ 2019/12/3 55

具体例1. (後方)引用分析 • 後方引用をたどることで, 発明に至る知識の流れを明らかにする • JST プロジェクトの Feasibility
Study • Shuji Nakamura Patent に至るまでの Main Path • 特許と、特許に引用された論文について調査 • ソース: Web of Science / Thomson Innovation 2019/12/3 56

Network 全体 (属性付き) 赤色は Main Path に選択された Node を示す.
2019/12/3 57

1930s 1960s 1970s 1990s 2000s 1910-2007 (1次引用すべて導入; 上位12社明記) 1980s 2019/12/3
58

(英文)論文データベース名前 Web of Science Scopus 作っている会社トムソン・ロイターエルゼビアカバー範囲
・社会科学文献の書誌および引用情報 (1898年-) ・自然科学文献の書誌および引用情報 (1900年-) ・5000以上の出版社の21,000誌以上の学術ジャーナル・20000タイトル以上の査読ジャーナル・370タイトルのブックシリーズ・550万件以上の会議録メリット・過去データが豊富・社会科学のカバー率が高い・他のデータベースとリンクさせることが比較的容易・分野分類が (Web of Science) に比べて明確・自然科学のカバー率は Web of Science に比べ高い・企業名および著者名の名寄せの精度が高いこともないみたい・・・デメリット・1945年以前のデータはカバー範囲が限られている・カテゴリ分類が不明確・現在カバー範囲が(Web of Science に比べ)狭い [引用情報は1996年以降のみカバー] (2016年に向け拡大される予定) 価格すごく高い！すごく高い！気をつけること・一橋大学では利用可能・大学によってカバーしているデータ範囲が違う一橋大学では利用不能 (部局によっては契約している場合あり) 2019/12/3 59

論文データベースを使った分析の課題 • データ処理の開始までに手間が掛かる • データクリーニング: ネットワーク図作成ソフトに合致するようにデータの処理を行う手間 (平準化, 欠落データの処理など) •
名寄せ (企業名, 個人名, 表記ゆれ etc…) を手作業で修正するのは、きわめて時間のかかる作業 • わかりやすいネットワーク図をつくるには、パラメータの調整が必要 (NetDraw etc…) • 大量データを利用する場合、(フリーソフトウェアの場合)うまく動作しない場合がある 2019/12/3 60

論文データベースを使った分析の課題(2) • 世の中に「完備な」データベースはありません • 「大人は嘘つきではありません、ただ間違いをするだけなのです …」 • 組織名が違う • 自分の名前が違う
• 所属国が違う • 論文のカテゴリが違うことが多々出てきます。 • 自らのリサーチクエスチョンに合わせて精緻な分析を行うためには、(1) 問いに対応する最適なデータベースを選び, (2) データのクリーニング作業を行う必要があります 2019/12/3 61

実習2: 論文データベースによってカバーしている情報が違うことを確かめてみる • “The renaissance in optical spectroscopy of
phthalocyanines and other tetraazaporphyrins” という論文を • 1. J-Global: http://jglobal.jst.go.jp/ • 2. CiNII : http://ci.nii.ac.jp/ • 3. Web of Science http://apps.webofknowledge.com/ • 4. Scopus http://www.scopus.com/ • 5. Google Scholar https://scholar.google.co.jp/ • 6. Microsoft Academics http://academic.research.microsoft.com/ の5種類の論文データベースで探し, どのような情報が掲載されているのか確認する. 2019/12/3 62

1. J-global の場合: 検出, しかしほとんど情報なし 2019/12/3 63

2. CiNii の場合: 検出できない 2019/12/3 64

3. Web of Science@一橋の場合: いろいろ見つかる 2019/12/3 65

3-2. Web of Science @GRIPSの場合:一橋とまったく同じ情報が見つかる 2019/12/3 66

4. Scopus の場合: Web of Scienceと同じ結果になるけど, 被引用数が違う…. Web of
Science の場合: 被引用数 67 Scopus の場合: 被引用数 69 2019/12/3 67

5. Google Scholar の場合検出できる. 被引用数は WoS/Scopus と異なる 2019/12/3 68

6. Microsoft Academic の場合検出できる. 2019/12/3 69

わかること • 有料のデータベースと無料のデータベースがある • Web of Science や Scopus にアクセスするのは,
実はお金がかかる • 当該論文を検出できるデータベースとできないデータベースがある • 被引用数はデータベースによって異なる • 掲載されている情報もデータベースによって異なる • 一番いいのは、実際の論文を読むこと/ダウンロードすること • しかしながら, そんな時間はないので論文データベースを使わざるを得ない ⇒ 網羅性が高いのは Web of Science または Scopus, 日本語の論文なら CiNII 2019/12/3 70

3-2. 実際に論文データベースを解析してみよう

Web of Science • 一橋の学内からはどこからでも利用可能 • 一橋大学図書館の My Library
からリモートログインで利用可能 • GRIPS でも利用可能 • 東大でも利用可能 2019/12/3 72 http://ip-science.thomsonreuters.jp/products/web-of- science/yokuwakaru/

まず注意すること: データのカバー範囲 • Web of Science やScopus は大学によってカバーしているデータの範囲が異なります •
ある大学では検索できた結果が, 異なる大学では検索出来ないことがあります 2019/12/3 73

Web of Science のデータカバー範囲を確認する方法 (1) 1. Web of Science
にアクセスし, “Web of Science Core Collection” を選択する 2019/12/3 74

Web of Science のデータカバー範囲を確認する方法 (2) 2. 画面下にある “詳細設定” をクリックする
2019/12/3 75

Web of Science のデータカバー範囲を確認する方法 (3) • 一橋大学の場合 • Science
Citation Index Expanded (1900-現在) • Social Sciences Citation Index (1900-現在) • Arts & Humanities Citation Index (1975-現在) 2019/12/3 76

Web of Science のデータカバー範囲を確認する方法 (4): Schumpeter の論文 “The Creative
Response in Economic History” を探す • GRIPS の場合: みつからない • 一橋大学の場合: みつかる 2019/12/3 77

実習2: Web of Scienceでシュンペーターの論文を探してみよう 1. www.webofknowledge.com を開き, 「著者名検索」を選択.
「姓」と「イニシャル」を入力する. 2019/12/3 78

実習2: Web of Scienceでシュンペーターの論文を探してみよう 2. 「研究領域」から, (とりあえず)すべての研究領域を選択し, 「著者所属を選択」をクリック
2019/12/3 79

実習2: Web of Scienceでシュンペーターの論文を探してみよう 3. 「著者所属名短縮形」から, (とりあえず)すべての所属を選択. また,
「著者所属情報を含まないレコードを含める」チェックボックスをクリックし, 「選択した文献で検索」をクリックする. 2019/12/3 80

実習2: Web of Scienceでシュンペーターの論文を探してみよう 4. “著者名検索結果: 49レコード” が表示されるので,
“並び替え” より “被引用数 – 多い順” を選択し並べ替える. 2019/12/3 81

実習2: Web of Scienceでシュンペーターの論文を探してみよう 5. 一番引用数の多い “The Creative
Response in Economic History” をクリックする. わかること・著者名・ジャーナル名・発行年月日・被引用数・引用文献・インパクトファクター・ドキュメントタイプ・言語・発行者・研究分野・Web of Science Category ・最終引用 2019/12/3 82

Tips: たくさんのデータを Web of Science から合法的に取り出す方法 • 方法0: ロボット検索やWeb スクレイピング
• ダメ、ゼッタイ！ • 方法1: Web インターフェースを使う • データの抽出方法はいくつかある • 方法2: Endnote Web を使う • ヒント: Endnote ライブラリ • 方法3: API やXML データを使う • ただし有償 (かつかなり高い) 2019/12/3 83

実習3: Web of Science を使って一橋大学から 2017年に公刊された論文を取り出してみる • 1. 検索 ->
Web of Science Core Collection -> 詳細検索を選ぶ 2019/12/3 84

実習3: Web of Science を使って一橋大学の 2017年に公刊された論文を取り出してみる • 検索条件を入力する • PY:
年 • OG: 組織名 • [検索] をクリックする 2019/12/3 85

実習3: Web of Science を使って一橋大学の 2017年に公刊された論文を取り出してみる • 検索が実施され, データが抽出される. 検索履歴より検索結果の
件数をクリックする 2019/12/3 86

実習3: Web of Science を使って一橋大学の 2017年に公刊された論文を取り出してみる • 検索結果が表示される 2019/12/3 87

実習3: Web of Science を使って一橋大学の 2017年に公刊された論文を取り出してみる • 画面の一番下までスクロールし, “他のファイルフォーマットで保存”
を選択する 2019/12/3 88

実習3: Web of Science を使って一橋大学の 2017年に公刊された論文を取り出してみる • [レコード件数]から保存するレコード数 • [レコードコンテンツ]から”詳細表示と引用文献”
• [ファイルフォーマット]から”タブ区切り(Win (またはMac))” を選択し保存をクリックする 2019/12/3 89

実習3: Web of Science を使って一橋大学の 2017年に公刊された論文を取り出してみる • 取り出したテキストファイルをExcel に取り込む 2019/12/3
90

実習3: Web of Science を使って一橋大学の 2017年に公刊された論文を取り出してみる • Alternative: エクセルを使うのがめんどくさい人向け •
[レコード件数]から保存するレコード数 • [レコードコンテンツ]から”詳細表示と引用文献” • [ファイルフォーマット]から”テキスト” を選択し保存をクリックする 2019/12/3 91

実習3: Web of Science を使って一橋大学の 2017年に公刊された論文を取り出してみる • Raw Data ファイルが出力される
• 自分でコードを書いて処理する • ヒント: 終端処理はEF なので, そいつと先頭行を潰せばいくらでもデータ連結が可能 2019/12/3 92

「研究分野」と「Web of Science Category」 • 研究分野 • 研究分野は、すべての Web of
Science 製品データベースで共有される主題分野を構成します。その結果、同じ主題に属する複数のデータベースのドキュメントを識別、検索、分析することができます。 • Current Contents Connect および Web of Science Core Collection に含まれる各ジャーナルおよび書籍は、Web of Science の分野の少なくとも 1 つに割り当てられます。Web of Science の各分野は 1 つの研究分野にマップされます。 • Web of Science Category • “Web of Science Core Collection に含まれるすべてのジャーナルおよび書籍は、以下の主題分野の少なくとも 1 つに割り当てられます。 Web of Science Core Collection のすべてのレコードは、[Web of Science の分野] フィールドに出版物の主題分野を含みます。” ※. ひとつの論文に対して複数の Web of Science Category が割り当てられていることがある 2019/12/3 93

データの出力結果 • 「研究分野」 • 「Web of Science Category」 2019/12/3 94

Web of Science で注意するポイント • カテゴリ分けが1:1 の関係にはなっていない • 精緻に行うためには, ジャーナル名などで名寄せする必要性
• 部局名などの名寄せが行われていない • NISTEP 表記ゆれ辞書などを活用する • Scopus を利用する (obsolete) • Web 経由では, 1回数百件しかダウンロードできない • Excel でひたすらくっつけていくか, Raw Data 方式でダウンロードしひたすら連結, 処理をしたのち手元のSQL などに放り込む • ロボット検索すると怒られます 2019/12/3 95

NISTEP: “大学・公的機関名英語表記ゆれテーブル(Web of Science版)(Ver.2014.1)” • “1996-2012 年の期間にWeb of Scienceに採録された論文のう
ち、日本の機関に所属する著者を含む論文のデータ(約150万件)を対象に、機関名英語表記のゆれを調査・分析しリスト化した結果” • http://www.nistep.go.jp/research/scisip/randd-on-university からダウンロード可能 • カバー範囲 1996-2012 • Creative Commons BY-SA 2019/12/3 96

“大学・公的機関名英語表記ゆれテーブル (Web of Science版)(Ver.2014.1)” • F 列が表記バリエーションになっているので, C列の機関ID で Matching
させる • Web of Science で取り出したデータと, 例えばExcel なら vlookup などして連結させる 2019/12/3 97

Scopus • エルゼビアが提供する論文データベース • “Scopus has twice as many
titles and over 30% more publishers listed than any other A&I database” • Journals や Book, Conference Papers や Patents もカバー • Scival を用いることで, 研究機関ごとのパフォーマンスを知ることも可能 • なお、一橋では現時点 (2019年) では契約していないので使えません • GRIPSでは利用可能 • 細かな利用方法は Appendix を参照のこと 2019/12/3 98

Web of Science? Scopus? or Google Scholar? • (Kulkarni, Aziz,
Shams and Busse 2009) • Google Scholar, Web of Science と Scopus の Citation 推移を比較 • “Cohort study of 328 articles published in JAMA, Lancet, or the New England Journal of Medicine between October 1, 1999, and March 31, 2000. Total citation counts for each article up to June 2008 were retrieved from Web of Science, Scopus, and Google Scholar.” • Findings • “Compared with Web of Science, Scopus retrieved more citations from non–English- language sources (median, 10.2% vs 4.1%) and reviews (30.8% vs 18.2%), and fewer citations from articles (57.2% vs 70.5%), editorials (2.1% vs 5.9%), and letters (0.8% vs 2.6%) (allP < .001).” 2019/12/3 99 JAMA. 2009;302(10):1092-1096. doi:10.1001/jama.2009.1307

実習4. Lens.org • 特許と論文をまとめて検索できるデータベース • APIも提供

Lens.org のデータカバレッジ • Patents • The European Patent Office’s DocDB
bibliographic data from 1907 - present: 81+ Million documents from nearly 100 jurisdictions. • USPTO Applications from 2001 – present with full text and images. • USPTO Grants from 1976 – present with full text and images. • USPTO Assignments (14+ Million). • European Patent Office (EP) Grants from 1980 – present with full text and images. • WIPO PCT Applications from 1978 – present with full text and images. • Australian Patent Full Text from IP Australia • Paper • PubMed • Crossref • Microsoft Academic • CORE • PubMed Central https://about.lens.org/

実習4-1. Lens.org で Ikujiro Nonaka の論文を探す • 左上の欄に Ikujiro
Nonaka と記入し, Enterする.

実習4-1. Lens.org で Ikujiro Nonaka の論文を探す • Ikujiro Nonaka
に関するあらゆる特許や論文の情報が出てくる

実習4-1. Lens.org で Ikujiro Nonaka の論文を探す • Filters ->
Author から Ikujiro Nonaka を選択する

実習4-1. Lens.org で Ikujiro Nonaka の論文を探す • 引用数の高い研究が確認できる (「私の履歴書」で書いてたやーつ)

実習4-2. Lens.org で Toyotaの特許リストを取得する • Patents に Toyota と入力し
Enter

実習4-2. Lens.org で Toyotaの特許リストを取得する • Filters から Applicants を開き,
Toyota Motor Co Ltd と Toyota Motor Corp を選択し Refine をクリック

実習4-2. Lens.org でToyota の特許リストを取得する • Toyota の特許一覧が表示される

実習4-2. Lens.org でToyota の特許リストを取得する • 年ごとの特許数の推移などが表示されている

実習4-2. Lens.org でToyota の特許リストを取得する • Analysis をクリックする

実習4-2. Lens.org でToyota の特許リストを取得する • 結果が表示される

実習4-2. Lens.org でToyota の特許リストを取得する • Export Results をクリックする

実習4-2. Lens.org でToyota の特許リストを取得する • JSON や CSV 形式を選び,
Export をクリックする

Additional: Lens.org に登録してAPI でデータを取得する

Additional: Lens.org とAPI で話す • Pythonの場合 import requests url =
'https://api.lens.org/scholarly/search' data = '''{ "query": { "match_phrase":{ "author.affiliation.name": "Harvard University" } }, "size": 1, "sort": [ { "year_published": "desc" } ] }''' headers = {'Authorization': 'Bearer your-access-token', 'Content-Type': 'application/json'} response = requests.post(url, data=data, headers=headers) if response.status_code != requests.codes.ok: print(response.status_code) else: print(response.text) https://docs.api.lens.org/samples.html

現時点での論文データベース利用法 • Web of ScienceとScopus, どちらにもデメリットとメリットがある • Web of Science:
データベース全体の構造が複雑, かつノイズデータも多いけど長い期間をカバーしている • Scopus: Web of Science に比べればデータベース全体の構造は比較的単純. Author ID や Affiliation ID などを備えているので一見 Name-Matching の手間は省けそうだけど, やはりノイズデータが含まれている. 今後に期待. • （高いから比べられないし, だいたいの大学ではひとつしか使えないし）論文データベースは Web of Science, Scopus のいずれかを使う • 恐らく, 両データベースの接合を試みるだけでたくさんの Paper が書ける（けれど大変） • 指標を使って, クエリを投げてデータを取り出した後, 整合性が取れているかチェックしていく (別の組織が入っていないか, 別の国が入っていないか, ダブルカウントしていないか etc…) • Lens.org (Microsoft Academics) のニーズが増えそう 2019/12/3 117

今日のまとめ • 論文データベースは大学にいる間に活用しよう • かと思ったらLens.org なども出てきているので, そんなに困らないかも • 論文データベースは完璧ではないことを知ろう •
かと思ったら Lengs.org などもあるので, Scopus と Web of Science 含め相互補完的に使うのが吉 • 論文データベースを使って分析するには、データの整理や名寄せが必要不可欠である • NISTEP製テーブルをたくさん使いましょう • 論文データベースからデータを取得して多変量解析するには、やっぱりデータベース処理の知識が必要になってくる • いまのうちにNoSQL とか覚えておくと、すごい論文が書けちゃうかも 2019/12/3 118

4. 成績評価の方法

成績評価(1) • 平常レポート (40パーセント; 必須) • 講義計画に示したように、複数の回で学生にはレポートを課します。レポートは Word/PowerPoint形式のメールあるいは, github
経由での提出が求められます(どの方法を採用するかは、初回の講義で決定します)。 • レポートには、(A.) 利用したデータセットとその内容, (B.) 分析の問い, (C.) 分析手法, (D.) 分析結果を明記する必要があります。ページ数や文字数は問いませんが, これらの内容が含まれており, 講義中にアナウンスする評価手法を満たす場合, 高い得点を得ることが出来ます。 • 平常点 (10パーセント) • 本講義は実習が多く含まれており, また取り扱うデータセットや内容も多彩です。そのため、受講者同士が協力する必要があります。こうした受講者の態度を評価するために、平常点を設けます。

成績評価(2) • 最終レポート (40パーセント; 必須) • 講義の最終回では最終レポートの報告会を行います。受講者は3名から4名から構成されるグループで、最終レポートの報告を行う必要があります(人数は受講者の人数により変更される可能性があります)。最終レポートでは、プレゼンテーションの方法を学生は自由に選ぶことが出来ます。PowerPoint
以外にも、Prezi などのアクティブプレゼンテーションツールや、他のプレゼンテーション手法を用いることが出来ます(プレゼンテーションツールについては、必要であれば講義内で説明する機会を設けます)。最終レポートでは、以下の点について評価を行います。 (A.) グループ内の役割分担 (B.) データセットのユニークさおよび、それが適切に処理されているか (C.) 分析手法のユニークさおよび、それが適切に解析されているか (D.) プレゼンテーションのユニークさ (E.) 質疑応答にうまくリプライすることが出来ているか • 最終レポートの360°グループ評価 (10パーセント) • 3. の最終レポートについて、グループの自己評価および他のグループからの評価を行います。3. で挙げた評価ポイントに基づき、グループメンバーおよび他のグループは評価を行います。

7.データベースを用いた分析(3) 企業データベース/データベース間の接合[座学、実習] • 帝国データバンク企業・経済高度実証研究センター (http://www7.econ.hit-u.ac.jp/tdb-caree/about-caree/) が提供する企業のデータベースについて説明を行います。本データベースには、企業の取引、出資、銀行取引データや、決算書データなどが含まれています。こうしたデータセットに基づき、前二回同様、問
いに基づきデータを解析することを目指します。 • また講義の後半では、NISTEP 企業名辞書 (http://www.nistep.go.jp/research/scisip/rd-and-innovation- on-industry) などを用い, ID ベースでデータセット間を接合する手法について説明します。 • RISIS のAPI を用いる方法についても解説予定

TDBデータベース http://www7.econ.hit-u.ac.jp/tdb-caree/deta/

ただし… • 商用データベースなので, 学生の皆さんに “そのまま” 使って頂くのは難しそうです • 一部データをモディファイした形で、企業データの解析を皆さんに体験していただけるようにしたいと思います

THANKS [email protected]

Appendix; Scopus を使ってみよう 12/3/2019 126

Scopus のインターフェースケース4: シュンペーターの論文を探してみよう 1. www.scopus.com を開き, 「著者検索」に Last Name
と First Name を入力する. 2019/12/3 127

Scopus のインターフェースケース4: シュンペーターの論文を探してみよう 2. 著者名の候補が表示されるので, 該当する著者をクリックする 2019/12/3 128

Scopus のインターフェースケース4: シュンペーターの論文を探してみよう 3. 論文の一覧が表示される 2019/12/3 129

Scopus XML Data: 主な項目 • Abstract • Author • Author-group
• Bibliography • Ce:doi • ce:initials • Chemical • Chemical-Name • Chemical-Group • Citation-info • Citation-Language • Citation-type • Citation-Title • Country • Editor • Organization • PageCount 2019/12/3 130

Author Metadata 2019/12/3 131

Cited by Counts 2019/12/3 132

All Science Journal Classification Codes 2019/12/3 133

サンプルデータ: XMLファイル 2019/12/3 134

サンプルデータ: XML ファイル (cited) 2019/12/3 135

サンプルデータ: XSDファイル 2019/12/3 136

Scopus を使う上で注意するポイント • Web of Science に比べたらカテゴリや組織や研究者個人の名寄せがキッチリしているかと思ったけど,
別にそんなことはないみたい • データのカバー範囲が広い事, データベース構造が Web of Science に比べ比較的単純なのがメリットなくらい 2019/12/3 137 https://twitter.com/noricoco/status/585677912705261569

大学・公的機関名英語表記ゆれテーブル (Scopus版)(ver.2013.1) • “1996-2010 年の期間にScopusに採録された論文のうち、日本の機関に所属する著者を含む論文のデータ(約150万件)を対象に、機関名英語表記のゆれを調査・分析しリスト化した結果” • http://www.nistep.go.jp/research/scisip/randd-on-university からダウンロード可能
2019/12/3 138

大学・公的機関名英語表記ゆれテーブル (Scopus版)(ver.2013.1) • JSTだけでも様々な表記が 2019/12/3 139

Scopus-NISTEP大学・公的機関名辞書対応テーブル(ver.2013.1) • “科学論文の計量的分析に用いられるデータベース、Scopusの論文 ID(Scopus_eid)とNISTEP大学・公的機関名辞書の機関ID(NID)の対応テーブルです。1996-2010 年の期間にScopusに採録された論文のうち、日本の機関に所属する著者を含む論文のデータ(約150万件)を対象に、国内の大学・公的機関の機関名称の名寄せを行った結果” •
http://www.nistep.go.jp/research/scisip/randd-on-university からダウンロード可能 • 論文IDごとに機関ID が割り振られているので, より正確に組織名で名寄せができる • データ量が巨大なので、MySQL/PostgreSQL か Access を使いましょう • Excel でなんとかやれないこともないけど大変 2019/12/3 140

Scopus-NISTEP大学・公的機関名辞書対応テーブル(ver.2013.1) • Access に取り込んだ結果: レコード数2718337件 2019/12/3 141

#経済学のための実践的データ分析 4.6 特許と論文データを使って分析しよう

#経済学のための実践的データ分析 4.6 特許と論文データを使って分析しよう

More Decks by yasushihara

Other Decks in Education

Featured

Transcript