Slide 1

Slide 1 text

1 PGXによる学術⽂献データ分析 2017年6⽉2⽇ PGX ユーザー勉強会 #3 統計数理研究所 濵⽥ ひろか のための準備 をしてみました

Slide 2

Slide 2 text

2 本⽇の内容 • About * • 学術⽂献グラフデータ • 利⽤元データ(Web of Science Core Collection) • 分析システム(Neo4j + Excel/R) • 分析例 • デモンストレーション • 課題 • 今後の展望

Slide 3

Slide 3 text

3 About Me • しがないデベロッパー • Master of Medical Science • グラフDBは2016年9⽉から • 好きな⾔語は Scala • 憧れの⾔語は Haskell • 気になる⾔語は Kotlin • 苦⼿な⾔語は JavaScript • 2015年10⽉〜2016年8⽉まで 産休&育休

Slide 4

Slide 4 text

4 About ISM • 統計数理研究所 The Institute of Statistical Mathematics -> ISM • ⼤学共同利⽤機関法⼈ 情報・システム研究機構 The Research Organization of Information and Systems -> ROIS

Slide 5

Slide 5 text

5 About Research 平成29年度公募型共同利⽤ 重点テーマ2 学術⽂献データ分析の新たな統計科学的アプローチ ・研究⽬的 新たな研究⼒評価のための 指標(※) を開発する 異分野融合の進展や効果を 公正かつ適切に評価するための指標

Slide 6

Slide 6 text

6 本⽇の内容 • About * • 学術⽂献グラフデータ • 利⽤元データ(Web of Science Core Collection) • PGX向けサンプルデータ • 分析例 • デモンストレーション • 課題 • 今後の展望

Slide 7

Slide 7 text

7 利⽤元データ:学術⽂献

Slide 8

Slide 8 text

8 利⽤元データ:書誌情報 タイトル 著者 雑誌名 抄録/アブストラクト キーワード 所在地

Slide 9

Slide 9 text

9 利⽤元データ:WoSXMLデータ

Slide 10

Slide 10 text

10 PGX向けサンプルデータ:詳細 • WoS Core Collection 2015 (Total Size: 702 MB) • 書誌(2,426,708), 分野(23), キーワード(6,843,015) のみ • Vertex File Size: ???, Edge File Size: ??? WOS:0021 WOS:0011 adhesion Neurologic disease colon CHEMISTRY BIOLOGY Subject Source Keyword

Slide 11

Slide 11 text

11 PGX向けサンプルデータ:例題案 • 分野間の結びつきが強いのはどこ? ① Subject – Source の分析 • 分野横断的に利⽤されるキーワードは何? ② Keyword – Subject の分析 WOS:0021 WOS:0011 adhesion Neurologic disease colon CHEMISTRY BIOLOGY Subject Source Keyword ① ② 媒介中心性 ? 平均距離 ? コミュニティ 分析 ? やっぱりBC ?

Slide 12

Slide 12 text

12 本⽇の内容 • About * • 学術⽂献グラフデータ • 利⽤元データ(Web of Science Core Collection) • PGX向けサンプルデータ • 分析例 • デモンストレーション • 今後の展望

Slide 13

Slide 13 text

13 デモンストレーション 13 次回までに用意します

Slide 14

Slide 14 text

14 本⽇の内容 • About * • 学術⽂献グラフデータ • 利⽤元データ(Web of Science Core Collection) • PGX向けサンプルデータ • 分析例 • デモンストレーション • 今後の展望

Slide 15

Slide 15 text

15 今後の展望 現行 計画 書誌データ Web of Science Core Collection 同左 データ範囲 2005年〜2014年 10年分 1981年〜2016年 35年分 DB Neo4j 3.1.0 Neo4j 3.1系最新安定版 データモデル [ノード] Source, Subject, DOI, Address, Author [リレーション] classified, identify, reference, produce, located [ノード] Source, Subject, DOI, Address, Author, Organization, Keyword, Grant [リレーション] classified, identify, reference, produce, located, location, belong, relate, acknowledge 総ノード数 154,667,136 23.3(億) 総エッジ数 649,986,646 158.8(億) DBサイズ 61.40GB (800GB)

Slide 16

Slide 16 text

16 今後の展望:新データモデル &! % ' ' #' $ * )!% ($&! )!$ %'& $ & + ' &*& $& %% ! %&+" $ & !) +$ $ & !&! -%!'$.%!'$ !& "$!' $$ &+ +$ $! %# ! $"$ & '$%% ! &+ %"+ )' )' %%! ! %&& ' &! &! %% !' &$+ )!%%& $ "'&+" "'&+" %% ," $%& "'+$ "'+$ $& ! %& %!$&& %!$&& $ " " % " " !$ ,&! &&%!'$ &&%!'$ %'!$ ,&! &&%!'$$( &&%!'$$( &&$(%! &&$(%! &&$( &&$( &&$( &&$( &&& &&& %&$& %&$& Author <> Source <> Source <> Address <> Subject <> Doi <> Organization <> Keyword <> Fund <> Acknowledgement <>

Slide 17

Slide 17 text

17 今後ともどうぞよろしくお願いします Twitter -> @hrk0619 関連スライド -> https://speakerdeck.com/hiroka0619 統数研オープンハウス -> 6⽉16⽇ (⾦) 10:30 – 17:40 10:30 – 12:30の間は ポスター説明に立っています. ぜひお越しください !