PGX #3 LT

PGX #3 LT

C8b1d80cf961f01ab255840e38f51c40?s=128

Hiroka Hamada

June 26, 2017
Tweet

Transcript

  1. 1 PGXによる学術⽂献データ分析 2017年6⽉2⽇ PGX ユーザー勉強会 #3 統計数理研究所 濵⽥ ひろか のための準備

    をしてみました
  2. 2 本⽇の内容 • About * • 学術⽂献グラフデータ • 利⽤元データ(Web of

    Science Core Collection) • 分析システム(Neo4j + Excel/R) • 分析例 • デモンストレーション • 課題 • 今後の展望
  3. 3 About Me • しがないデベロッパー • Master of Medical Science

    • グラフDBは2016年9⽉から • 好きな⾔語は Scala • 憧れの⾔語は Haskell • 気になる⾔語は Kotlin • 苦⼿な⾔語は JavaScript • 2015年10⽉〜2016年8⽉まで 産休&育休
  4. 4 About ISM • 統計数理研究所 The Institute of Statistical Mathematics

    -> ISM • ⼤学共同利⽤機関法⼈ 情報・システム研究機構 The Research Organization of Information and Systems -> ROIS
  5. 5 About Research 平成29年度公募型共同利⽤ 重点テーマ2 学術⽂献データ分析の新たな統計科学的アプローチ ・研究⽬的 新たな研究⼒評価のための 指標(※) を開発する

    異分野融合の進展や効果を 公正かつ適切に評価するための指標
  6. 6 本⽇の内容 • About * • 学術⽂献グラフデータ • 利⽤元データ(Web of

    Science Core Collection) • PGX向けサンプルデータ • 分析例 • デモンストレーション • 課題 • 今後の展望
  7. 7 利⽤元データ:学術⽂献

  8. 8 利⽤元データ:書誌情報 タイトル 著者 雑誌名 抄録/アブストラクト キーワード 所在地

  9. 9 利⽤元データ:WoSXMLデータ

  10. 10 PGX向けサンプルデータ:詳細 • WoS Core Collection 2015 (Total Size: 702

    MB) • 書誌(2,426,708), 分野(23), キーワード(6,843,015) のみ • Vertex File Size: ???, Edge File Size: ??? WOS:0021 WOS:0011 adhesion Neurologic disease colon CHEMISTRY BIOLOGY Subject Source Keyword
  11. 11 PGX向けサンプルデータ:例題案 • 分野間の結びつきが強いのはどこ? ① Subject – Source の分析 •

    分野横断的に利⽤されるキーワードは何? ② Keyword – Subject の分析 WOS:0021 WOS:0011 adhesion Neurologic disease colon CHEMISTRY BIOLOGY Subject Source Keyword ① ② 媒介中心性 ? 平均距離 ? コミュニティ 分析 ? やっぱりBC ?
  12. 12 本⽇の内容 • About * • 学術⽂献グラフデータ • 利⽤元データ(Web of

    Science Core Collection) • PGX向けサンプルデータ • 分析例 • デモンストレーション • 今後の展望
  13. 13 デモンストレーション 13 次回までに用意します

  14. 14 本⽇の内容 • About * • 学術⽂献グラフデータ • 利⽤元データ(Web of

    Science Core Collection) • PGX向けサンプルデータ • 分析例 • デモンストレーション • 今後の展望
  15. 15 今後の展望 現行 計画 書誌データ Web of Science Core Collection

    同左 データ範囲 2005年〜2014年 10年分 1981年〜2016年 35年分 DB Neo4j 3.1.0 Neo4j 3.1系最新安定版 データモデル [ノード] Source, Subject, DOI, Address, Author [リレーション] classified, identify, reference, produce, located [ノード] Source, Subject, DOI, Address, Author, Organization, Keyword, Grant [リレーション] classified, identify, reference, produce, located, location, belong, relate, acknowledge 総ノード数 154,667,136 23.3(億) 総エッジ数 649,986,646 158.8(億) DBサイズ 61.40GB (800GB)
  16. 16 今後の展望:新データモデル &! % ' ' #' $  *

    )!%  ($&! )!$ %'&  $ & + ' &*& $& %% !  %&+" $ &  !) +$ $ & !&! -%!'$.%!'$ !& "$!' $$   &+ +$ $! %# ! $"$ & '$%%    !  &+ %"+  )' )' %%!  ! %&& '  &! &! %% !' &$+ )!%%& $ "'&+" "'&+" %% ," $%&  "'+$ "'+$ $& ! %&  %!$&& %!$&& $ " " % "  "  !$ ,&! &&%!'$ &&%!'$ %'!$ ,&! &&%!'$$( &&%!'$$( &&$(%! &&$(%! &&$( &&$( &&$( &&$( &&& &&& %&$& %&$& Author <> Source <> Source <> Address <> Subject <> Doi <> Organization <> Keyword <> Fund <> Acknowledgement <>
  17. 17 今後ともどうぞよろしくお願いします Twitter -> @hrk0619 関連スライド -> https://speakerdeck.com/hiroka0619 統数研オープンハウス ->

    6⽉16⽇ (⾦) 10:30 – 17:40 10:30 – 12:30の間は ポスター説明に立っています. ぜひお越しください !