Upgrade to Pro — share decks privately, control downloads, hide ads and more …

研究大学コンソーシアム研究力強化人材育成ワークショップ「ORCID の研究力分析への活用」

yasushihara
October 18, 2019

研究大学コンソーシアム研究力強化人材育成ワークショップ「ORCID の研究力分析への活用」

研究大学コンソーシアム研究力強化人材育成ワークショップ
「ORCID の研究力分析への活用」

2019.10.18
一橋大学経済学研究科
原泰史 (Yasushi HARA)
[email protected]
http://orcid.org/0000-0001-9500-1150

yasushihara

October 18, 2019
Tweet

More Decks by yasushihara

Other Decks in Education

Transcript

  1. 自己紹介 • Yasushi HARA • 1998-2004 • TOYOTA NATIONAL COLLEGE

    OF TECHNOLOGY • 2000 • Exchange Student in Malaysia • 2002-2009 • CLARAONLINE, INC. • ICT Hosting Company, nowadays called Cloud system supplier • 2009-2015 • Institute of Innovation Research, HITOTSUBASHI UNIVERSITY • 2015-2017 • Science for RE-Designing Science, Technology and Innovation Policy Center, National Graduate Institute for Policy Studies (GRIPS) / NISTEP / Hitotsubashi UNIVERSITY/MANAGEMENT INNOVATION CENTER • 2018-2019 • EHESS Paris – CEAFJP/Michelin Research Fellow • OECD Expert Advisory Group: Digital Science and Innovation Policy and Governance (DSIP) and STI Policy Monitoring and Analysis (REITER) project • 2019- • TDB Center for Advanced Empirical Research on Enterprise and Economy, Faculty of Economics, Hitotsubashi University
  2. ケーススタディ; 名前を間違えられた話 • パリでの在外研究中に論文を 出しました • Cell Stem Cell 誌

    • インパクトファクター 23.290! (社会科学ではまずお 目にかかれない高さ) ところが
  3. 今日のコンテンツ • 自己紹介 • ケーススタディ • 目の「細かく」、かつ「長い」分析をする • なんとなく名寄せが出来ているケース •

    Unit of Analysis の問題 • 名寄せ (disambiguation) はむつかしいという問題 • これからしたほうがよいこと
  4. 目の細かく、長い分析をする • リサーチプロジェクト • 企業の研究開発の特性 • 優れた個人による生産性の向上 (酒分野, 科学分野 aka

    Star Scientist) • 大学のパフォーマンス • 食分野のイノベーション • 科学技術イノベーションの経済効果 • 価格動態と研究開発パフォーマンスの関係 • 科学者の生産性の変化 • マクロというよりはメソ, マイクロが中心
  5. Data; from micro, meso to macro Macro National/Global level Meso

    Industry/firm level (University/Company) Micro Individual Level (Scientist/Inventor) PATENT - Inventor - Assignee - Patent Number - IPC - Patent Family - Non Patent Literature PAPER - Author - Organization - Category - Acknowledgement DESIGN - No. - Designer Name FUND - No. - Tied Patent/Paper N. Scienc e Linkag e Economic Census Innovation Survey(NISTEP) INPUT-OUTPUT TABLE (I/O) Macro Economic Model Funding Database Press Release Survey of Research and Development (Statistics JAPAN) SNA (System of National Accounts; GDP)
  6. Star Scientist Data Platform (a.)Scientific Paper DB SCOPUS Web of

    Science J-global Data ・# of paper ・# of cited ・Research Categories Convincing three Paper databases to capture scientific activities in global/local journal. Star Scientist Cohort Data Method: Converting XML -> SQL, then Creating Panel Data in the unit of Researcher/Organization (b.)Patent DB PATSTAT (EPO) Patents View(USPTO) J-global (JPO) IIP PatentDB (JPO) Data ・ # of patent ・ # of patent cited ・FI code/IPC code Using three major Patent Office (USPTO, EPO and JPO) to manage Patent Families. Matching DB bet. Patent = Paper Using disambiguation algorism to normalize researcher and his/her organization information. Using Mecab to coordinate Japanese characters (c.)Academic Funding DB SPIAS (SciREX/NISTEP/JST) KAKEN-DB (NII/JST) RePORT (NIH) Nanobank COMMETS (Z&D) Data ・Amount of Fund Budget ・Direct/Indirect Ratio ・Type of Funding Agency Covering Japan (SPIAS, KAKEN-DB) and US (RePORT, Nanobank) Fund data simultaneously (d.) Venture Company Info DB Entrepedia Crunchbase Data ・Carrier/Position of Scientist in Venture Capital Covers Japan (Entrepedia) and US (Crunchbase) database simultaneously, evaluate the economic impact of star scientist Method. Retrieving the data via API, CSV or JSON format. Creating Panel Data in the unit of Researcher/Organization Method. Retrieve the data from Web interface. Method: Converting XML -> SQL, then Making Panel Data in the unit of Researcher/Organization Press Release News Paper
  7. 科学者の多様な取り組みをキャプチャする • ある程度は正規化されたデータ • 特許 (共著, 前方引用, 後方引用) • 論文

    (共著, 前方引用, 後方引用, Acknowledgement) • ファンド (取得額, 取得の種類, ファンディンエージェンシーの種類) • 企業への参画 (Board Member) • 不定形なデータ • ソーシャルメディア上での活動 • プレスリリース • メディア • 審議会への参画 • Social Impact
  8. 「名寄せ」問題 • ケーススタディでみたように、人の名前は間違いやすい • 記法も雑誌やデータベースによって異なる • 特許と論文データを接合するだけでも大変 (Ikeuchi et al.

    2017) • 名前を接合するための取り組みはこれまでに数多く存在 (Lai 2013) (Hussain and Asgher 2017) • まずは名寄せしなくてもいい場合をご紹介します
  9. 日本出身のノーベル賞受賞者の特性 コア研究を行った 年齢 コア研究から 受 賞 までの年数 平均受賞年齢 受賞タイプ 日

    本 人 受賞者 日 本 人 受 賞者以外 日 本 人 受 賞者 日 本 人 受 賞 者 以外 日 本 人 受 賞者 日 本 人 受 賞 者 以外 化学賞 39.29 37.50 27.57 22.51 66.86 60.02 生理学医学賞 38.67 36.55 20.67 22.35 59.33 58.90 物理学賞 39.27 36.92 24.27 20.71 63.55 57.63 総計 39.19 36.95 24.86 21.84 64.05 58.79 • 日本出身の受賞者(N=21)の場合、 コア研究にとりかかる年齢が、化学 賞では 39.3 歳 (対照群[海外出身の 受賞者 N=425] 37.5歳)、生理学医 学賞の場合38.7歳 (対照群 36.6 歳)、 物理学賞の場合39.3 歳 (対照群 36.9 歳)と、おおよそ2-3年ほど遅いこと が確認できる。 • また、受賞に至るまでの年数も、化 学賞が27.6年 (対照群 22.5年)、生理 学医学賞が 20.6年 (対照群 22.4年)、 物理学賞が 24.3年 (対照群 20.7年) と、生理学医学賞を除きより長い年 数を要していることがわかる。これ により、ノーベル賞の平均受賞年齢 も64.1歳と比較的高い。 (原・壁谷・小泉 2017)
  10. 0 20 40 60 80 100 120 140 0.0% 5.0%

    10.0% 15.0% 20.0% 25.0% 30.0% 20歳以下 21-25歳 26-30歳 31-35歳 36-40歳 41-45歳 46-50歳 51-55歳 56-60歳 61-65歳 66-70歳 合計 化学賞 生理学・医学賞 物理学賞 ヒストグラム: 主要研究時の年齢 (ノーベル賞受賞者 1945-2015) (赤池・原 et al. 2016)
  11. 「名寄せ」するためのツール • ID-based Matching 1. Orcid 2. WebofScience/Researcher ID aka

    Publons 3. WebofScience/DaisID 4. Scopus/Author ID 5. MicrosoftAcademics/Author ID 6. Lens.org/Author Identifiers • Semantic Matching • (Lai et al. 2013) • (McCallum and Monath 2015) - https://github.com/iesl/inventor- disambiguation, https://github.com/CSSIP-AIR/PatentsProcessor
  12. 研究者単位で名寄せするいくつかの方法 (1): Orcid • ORCID iD is an https URI

    with a 16-digit number that is compatible with the ISO Standard (ISO 27729), also known as the International Standard Name Identifier (ISNI), e.g. https://orcid.org/0000-0001- 2345-6789 • Initially ORCID iDs will be randomly assigned by the ORCID Registry from a block of numbers that will not conflict with ISNI-formatted numbers assigned in other ways. ORCID iDs always require all 16 digits of the identifier; they can not be shortened to remove leading zeros if they exist. • No information about a person is encoded in the ORCID iD. The identifiers were designed to be usable in situations where personally- identifiable information should/can not be shared. Also, since the ORCID iD is designed to be a career-long identifier, no information that can change over a person's career is embedded in the iD, e.g., country, institution, field of study. https://support.orcid.org/hc/en-us/articles/360006897674
  13. Orcid のWeb of Science Custom Data にお けるカバー率 0 0.1

    0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0 200000 400000 600000 800000 1000000 1200000 1400000 198119821983198419851986198719881989199019911992199319941995199619971998199920002001200220032004200520062007200820092010201120122013201420152016 orcid_id total coverage Source: Web of Science XML Core Collection ※. 著者数は整数カウント
  14. API で書誌情報を取得する • Orcid から特定の研究者の情 報をAPI 経由で取得する • 今回は ORCID

    ID 0000-0001- 9500-1150 • Orcid Public API の Client ID や Cilient secret, token を取 得し, API 経由で Yasushi Hara さんの最近の論文情報 を取得する
  15. 研究者単位で名寄せをするいくつかの方 法(2) : WoS/Researcher ID-Publons • Web of Science ResearcherID

    is a unique identifier for researchers on Publons. Register on Publons and import your publications from the Web of Science to become eligible for a Web of Science ResearcherID. • Each night, Publons assigns a Web of Science ResearcherID to any profiles with one or more Web of Science-indexed publications that do not yet have a ResearcherID. • Any publications you add to your Publons profile will then be linked to your Web of Science ResearcherID when anyone searches for you on Web of Science. Please allow up to two weeks for changes you make on Publons to be reflected on Web of Science. https://publons.freshdesk.com/support/solutions/articles/1200003828 1-what-is-my-web-of-science-researcherid-
  16. 研究者単位で名寄せをするいくつかの方 法(3); DAIS ID • This system disambiguates authors in

    the Web of Science Core collection. It assigns author ids to the authorships of papers. • There are four major components to DAIS • Initial Clustering – Starting from scratch, take our whole database without an authority list of known authors, identify the different authors. • Ongoing – As new data comes into the database, assign author ids. • RID Integration – Integrates manually created publication lists with DAIS • Reevaluation – Does a fresh, full clustering on a per name basis; discovers new authors not known at the time of the initial clustering
  17. Web of Science における; Dais ID のカバー率 0 0.1 0.2

    0.3 0.4 0.5 0.6 0.7 0.8 0 2000000 4000000 6000000 8000000 10000000 12000000 14000000 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 総件数 dais_id カバー率 Source: Web of Science XML Core Collection ※. 著者数は整数カウント
  18. 研究者単位で名寄せをする方法(4): Scopus/Author ID • Scopus Author ID • Scopus Author

    ID is an author ID that Scopus automatically assigns to each author in its database to group publications of the same author together. For the set of documents grouped under the profile of an author ID, Scopus provides bibliometric information such as citation counts, h-index, and h-graph via its citation overview function. Scopus Author ID is now ORCID compliant. • 結局, 複数の Author ID が単一の研究者に紐づけられている可能性があ る • “Because of author name ambiguity issues and other reasons such as prior affiliations, the automatic matching algorithm of Scopus may generate another new ID for the same author when a new paper is included in the database. ” https://libguides.library.cityu.edu.hk/aim/scopus
  19. 研究者単位で名寄せをする方法(5): Microsoft Academics/Author ID • Microsoft Academics • “We teach

    our machine to mimic how we need to tell one John Smith from another: run a few search queries. This is particularly feasible because we sit on top of Bing that has indexed many CVs and user homepages that can provide valuable clues. With the entire web at our disposable, we are able to group authors together when doing so will contribute to less than 3% of errors. For more details, please see our January 2018 blog.” • 利用している情報 • information about author affiliation, publication venues, and co-author network. • Our data scientists have developed a method for mining data from authors’ web sites and online CVs. Taking advantage of Microsoft’s web-scale infrastructure, by analyzing billions of documents found on the web, the team has taught the machine to recognize web pages that belong to researchers or may be CVs. https://www.microsoft.com/en- us/research/project/academic/articles/microsoft-academic-uses- knowledge-address-problem-conflation-disambiguation/
  20. 研究者単位で名寄せをする方法(6): Lens.org/Author Identifers • Lens.org – 論文と特許を集約したデータベース, サイエンスリンケージ (特許の非特許引用) も参照可能

    • Scholar (論文データ) には Author Identifiers を用意 • “By default, author values are grouped by their display name, which can result in the aggregation of scholarly works from different authors with the same name. Enabling author identifiers uses the identifiers available in our data sources to group authors, which can help disambiguate different authors with the same name. The author identifiers used currently include Microsoft Academic, and ORCID identifiers if they are available in data from CrossRef or PubMed. • N.B. Author disambiguation algorithms can incorrectly assign more than one identifier for the same person. In this case, you may wish to disable this feature to match purely on name alone, or select the different identifiers belonging to an individual author. • 実質的には, Microsoft Academics の Author ID を利用 • ”
  21. まとめ 著者ID OrcID Researcher ID DAIS ID Author ID(Elsevier) Author

    ID(Microsoft) Author Identifers Type Non-Proft Profit Profit Proft Profit Non-profit 運営主体 Orcid.org Clarivate Analytics Clarivate Analytics Elsevier Microsoft Lens.org(Cambia Health Solutions and Queensland University of Technology) 価格 無償 Web of Science の利 用は有償 Web of Science の利 用は有償 Scopus の利用は有償 無償 無償 登録方法 研究者個人 が登録 Publons 登録後, Web of Science に採録され た書誌情報を整理 管理用の名寄せアルゴ リズム 書誌情報採録時 Scopus/Elsevier によっ てアサインされる著者 ID. Microsoft Academic にて 提供される名寄せされた 著者セット. 著者本人の ホームページ, CV などの 情報を用いて名寄せ. 研究 者自身が名寄せ情報を修 正することは可能 Microsoft Academicや Pubmed な どをベースにした論文データベー ス. カバー率お よび名寄せ 精度 直近は高い, 古い年代は カバー率が 低い 古い年代はカバー率が 高い 古い年代はカバー率が 高い カバレッジは高いが, 所 属機関などの変遷が追 えていない Microsoft 発表によれば3 パーセント以下 Microsoft Academic ID に Pubmed や orcid の情報をappend して精度 を向上 URL https://orc id.org/ https://publons.com/ about/home/ https://www.webofkn owledge.com https://www.scopus.co m/ https://academic.micros oft.com/home https://www.lens.org/
  22. まとめ(つづき) • ID-based Matching による名寄せは一長一短. Orcid が良いけど, 歴史的な分析には不向き. おそらく, Microsoft

    や Lens.org の成果 を組み合わせて, 総合的な名寄せの精度をあげていくしかない • ともかく、Orcid のユーザーをふやしましょう • 研究機関の移動が多い現代の研究者は, 自発的に業績を取りまとめる必要 • 自然科学だけではなく, 社会科学や人文科学の研究者にもおすすめ です • 科学技術イノベーション分野でのEBPM を促進する上でも、重要 な役割を果たすかもしれません
  23. 宣伝 データサイエンスな講義資料をこちらのURLで公開しています; https://speakerdeck.com/yasushihara/ • スターサイエンティスト研究に興味のある方 • 早稲田牧研究室か僕までご連絡を • https://www.kanetaka-maki.org/ •

    企業データベースの解析に興味のある方 • 一橋TDB-CAREEか僕までご連絡を • http://www7.econ.hit-u.ac.jp/tdb-caree/ • ノーベル賞研究に興味のある方 • NISTEP赤池フェローか僕までご連絡を • 科学技術イノベーションの解析に興味のある方 • GRIPS SciREX センターか僕までご連絡を • https://scirex.grips.ac.jp/
  24. References • 塚田尚稔 ・元橋一之 (2018) Microsoft Academic Graph の書 誌情報データとしての評価,

    NISTEP Discussion Paper, 162, http://hdl.handle.net/11035/3215 • Hussain, I., Asghar, S. (2017) A survey of author name disambiguation techniques: 2010–2016, The Knowledge Engineering Review, 32, e22. • Li, Guan-Cheng & Lai, Ronald & D’Amour, Alexander & Doolin, David M. & Sun, Ye & Torvik, Vetle I. & Yu, Amy Z. & Fleming, Lee. (2014) Disambiguation and co-authorship networks of the U.S. patent inventor database (1975–2010), Research Policy, Elsevier, 43, 6, pp.941-955.
  25. Acknowledgements • 一橋大学大学院経済学研究科 帝国データバンク企業・経済高度 実証研究センター (TDB-CAREE) • JST/RISTEX • 「スターサイエンティストと日本のイノベーション」

    • 「イノベーションの科学的源泉とその経済的効果」 • 政策研究大学院大学 (GRIPS) 科学技術イノベーション政策研究 センター (SciREX センター)