Upgrade to Pro — share decks privately, control downloads, hide ads and more …

学術文献グラフデータベースの構築

 学術文献グラフデータベースの構築

PGX ユーザー勉強会 #2 トーク

Hiroka Hamada

March 01, 2017
Tweet

More Decks by Hiroka Hamada

Other Decks in Technology

Transcript

  1. 2 本⽇の内容 • About * • 書誌データの分析基盤 • 利⽤元データ(Web of

    Science Core Collection) • 分析システム(Neo4j + Excel/R) • 分析例 • デモンストレーション • 課題 • 今後の展望
  2. 3 About Me • しがないデベロッパー • Master of Medical Science

    • グラフDBは2016年9⽉から • 好きな⾔語はScala • 憧れの⾔語はHaskell • 気になる⾔語はKotlin • 苦⼿な⾔語はJavaScript • 2015年10⽉〜2016年8⽉まで 産休&育休
  3. 4 About ISM • 統計数理研究所 The Institute of Statistical Mathematics

    -> ISM • ⼤学共同利⽤機関法⼈ 情報・システム研究機構 The Research Organization of Information and Systems -> ROIS
  4. 6 About Research 研究者の共同研究への取り組みに注⽬し「共同研究への貢献度合 い」を表す新たな指標[1][2]など、評価軸は様々である。 参考⽂献 [1]Keisuke Honda, Yuji Mizukami,

    Shigenori Jason Suzuki and Junji Nakano(2015). An approach for evaluating academic research performance using betweenness centrality in authors network. 3rd International IBM Cloud Academy Conference, p.34. [2]本多啓介, ⽔上祐治, ⽔⾕陽介, 鈴⽊重徳, 中野純司(2015). ⼤規模学術⽂献データを⽤いたグラフ解析による 評価指標開発と視覚化. ⽇本計算機統計学会第29回シンポジウム講演論⽂集, pp.105-108
  5. 7 本⽇の内容 • About * • 書誌データの分析基盤 • 利⽤元データ(Web of

    Science Core Collection) • 分析システム(Neo4j + Excel/R) • 分析例 • デモンストレーション • 課題 • 今後の展望
  6. 12 学術⽂献をグラフデータ形式で扱う 学術⽂献(主に論⽂)には「引⽤-被引⽤関係」や「共著関係」 といった 関係性 が存在する。 → 学術⽂献を グラフ構造のデータ として表現し、

    その特徴や知⾒をいかに抽出するかが研究の重要なポイント Article1 Article3 Author3 Author2 Article2 Author1 共著 引用被引用 執筆 執筆 執筆 執筆 引用 引用
  7. 13 本⽇の内容 • About • 書誌データの分析基盤 • 利⽤元データ(Web of Science

    Core Collection) • 分析システム(Neo4j + Excel/R) • 分析例 • デモンストレーション • 課題 • まとめ
  8. 14 分析システム:データモデル 6?Q?8LBCIGKE!9F?PC)&) PR@HCAQ>K?JC 2.(1)(,-,4 W"PLROAC#X"PLROAC#3)(*10,*( AI?PPGDGCB ?PA?QUMC 2,1/1+./-4 2.+/+(/(*4

    2,.,(,/()04 2))-(,/1/4 ILA?QCB MOLBRAC OCDCOCKAC GBCKQGDU UC?O OLIC PCN>KL OCMOGKQ DRII>?BBOCPP BGPMI?U>K?JC ;76 ;76 BLG AGQU DRII>K?JC TRGB TRGB ?AACPPGLK>KL PQ?QC TLP>PQ?KB?OB CBGQGLK CBGQGLK GPPK ALRKQOU DGOPQ>K?JC MR@QUMC MR@QUMC CGPPK VGM I?PQ>K?JC MR@UC?O MR@UC?O ?OQ>KL CJ?GI>?BBO PLOQB?QC PLOQB?QC B?GP>GB M?EC@CEGK M?EC@CEGK LOE?KGV?QGLK M?ECCKB M?ECCKB PR@LOE?KGV?QGLK QGQIC>PLROAC QGQIC>PLROAC K?JC>I?@CI QGQGIC>PLROAC>?@@OCS QGQGIC>PLROAC>?@@OCS QGQIC>?@@OCS>GPL QGQIC>?@@OCS>GPL QGQIC>?@@OCS>)) QGQIC>?@@OCS>)) QGQIC>?@@OCS>*1 QGQIC>?@@OCS>*1 QGQIC>GQCJ QGQIC>GQCJ Author <31275618> Source <19218031> Source <92162197> Address <10820177> subject <275> Doi <11489258>
  9. 15 分析システム:データベース概要 書誌データ: Web of Science Core Collection データ範囲: 2005年から2014年

    DB: Neo4j 3.1.0 スペック: [CPU] Intel(R) Xeon(R) CPU E5-2650 v4 @ 2.20GHz [Memory] 64GB [HDD] 1TB + 32GB×4 総ノード数: 154,667,136 総エッジ数: 649,986,646 DBサイズ: 61.40GB
  10. 17 本⽇の内容 • About * • 書誌データの分析基盤 • 利⽤元データ(Web of

    Science Core Collection) • 分析システム(Neo4j + Excel/R) • 分析例 • デモンストレーション • 課題 • 今後の展望
  11. 20 本⽇の内容 • About * • 書誌データの分析基盤 • 利⽤元データ(Web of

    Science Core Collection) • 分析システム(Neo4j + Excel/R) • 分析例 • デモンストレーション • 課題 • 今後の展望
  12. 21 今後の展望 現行 計画 書誌データ Web of Science Core Collection

    同左 データ範囲 2005年〜2014年 10年分 1985年〜2014年 30年分 DB Neo4j 3.1.0 Neo4j 3.1系最新安定版 データモデル [ノード] Source, Subject, DOI, Address, Author [リレーション] classified, identify, reference, produce, located [ノード] Source, Subject, DOI, Address, Author, Organization, Keyword, Grant [リレーション] classified, identify, reference, produce, located, location, belong, relate, acknowledge 総ノード数 154,667,136 (45億) 総エッジ数 649,986,646 (195億) DBサイズ 61.40GB (185GB)