Upgrade to Pro — share decks privately, control downloads, hide ads and more …

PGX #3 LT

PGX #3 LT

Hiroka Hamada

June 26, 2017
Tweet

More Decks by Hiroka Hamada

Other Decks in Technology

Transcript

  1. 2 本⽇の内容 • About * • 学術⽂献グラフデータ • 利⽤元データ(Web of

    Science Core Collection) • 分析システム(Neo4j + Excel/R) • 分析例 • デモンストレーション • 課題 • 今後の展望
  2. 3 About Me • しがないデベロッパー • Master of Medical Science

    • グラフDBは2016年9⽉から • 好きな⾔語は Scala • 憧れの⾔語は Haskell • 気になる⾔語は Kotlin • 苦⼿な⾔語は JavaScript • 2015年10⽉〜2016年8⽉まで 産休&育休
  3. 4 About ISM • 統計数理研究所 The Institute of Statistical Mathematics

    -> ISM • ⼤学共同利⽤機関法⼈ 情報・システム研究機構 The Research Organization of Information and Systems -> ROIS
  4. 6 本⽇の内容 • About * • 学術⽂献グラフデータ • 利⽤元データ(Web of

    Science Core Collection) • PGX向けサンプルデータ • 分析例 • デモンストレーション • 課題 • 今後の展望
  5. 10 PGX向けサンプルデータ:詳細 • WoS Core Collection 2015 (Total Size: 702

    MB) • 書誌(2,426,708), 分野(23), キーワード(6,843,015) のみ • Vertex File Size: ???, Edge File Size: ??? WOS:0021 WOS:0011 adhesion Neurologic disease colon CHEMISTRY BIOLOGY Subject Source Keyword
  6. 11 PGX向けサンプルデータ:例題案 • 分野間の結びつきが強いのはどこ? ① Subject – Source の分析 •

    分野横断的に利⽤されるキーワードは何? ② Keyword – Subject の分析 WOS:0021 WOS:0011 adhesion Neurologic disease colon CHEMISTRY BIOLOGY Subject Source Keyword ① ② 媒介中心性 ? 平均距離 ? コミュニティ 分析 ? やっぱりBC ?
  7. 12 本⽇の内容 • About * • 学術⽂献グラフデータ • 利⽤元データ(Web of

    Science Core Collection) • PGX向けサンプルデータ • 分析例 • デモンストレーション • 今後の展望
  8. 14 本⽇の内容 • About * • 学術⽂献グラフデータ • 利⽤元データ(Web of

    Science Core Collection) • PGX向けサンプルデータ • 分析例 • デモンストレーション • 今後の展望
  9. 15 今後の展望 現行 計画 書誌データ Web of Science Core Collection

    同左 データ範囲 2005年〜2014年 10年分 1981年〜2016年 35年分 DB Neo4j 3.1.0 Neo4j 3.1系最新安定版 データモデル [ノード] Source, Subject, DOI, Address, Author [リレーション] classified, identify, reference, produce, located [ノード] Source, Subject, DOI, Address, Author, Organization, Keyword, Grant [リレーション] classified, identify, reference, produce, located, location, belong, relate, acknowledge 総ノード数 154,667,136 23.3(億) 総エッジ数 649,986,646 158.8(億) DBサイズ 61.40GB (800GB)
  10. 16 今後の展望:新データモデル &! % ' ' #' $  *

    )!%  ($&! )!$ %'&  $ & + ' &*& $& %% !  %&+" $ &  !) +$ $ & !&! -%!'$.%!'$ !& "$!' $$   &+ +$ $! %# ! $"$ & '$%%    !  &+ %"+  )' )' %%!  ! %&& '  &! &! %% !' &$+ )!%%& $ "'&+" "'&+" %% ," $%&  "'+$ "'+$ $& ! %&  %!$&& %!$&& $ " " % "  "  !$ ,&! &&%!'$ &&%!'$ %'!$ ,&! &&%!'$$( &&%!'$$( &&$(%! &&$(%! &&$( &&$( &&$( &&$( &&& &&& %&$& %&$& Author <> Source <> Source <> Address <> Subject <> Doi <> Organization <> Keyword <> Fund <> Acknowledgement <>
  11. 17 今後ともどうぞよろしくお願いします Twitter -> @hrk0619 関連スライド -> https://speakerdeck.com/hiroka0619 統数研オープンハウス ->

    6⽉16⽇ (⾦) 10:30 – 17:40 10:30 – 12:30の間は ポスター説明に立っています. ぜひお越しください !