Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Neo4jによる学術文献データベースの構築

Hiroka Hamada
November 17, 2016

 Neo4jによる学術文献データベースの構築

Neo4j ユーザー勉強会 #9 LT

Hiroka Hamada

November 17, 2016
Tweet

More Decks by Hiroka Hamada

Other Decks in Technology

Transcript

  1. About Me • いちおうプログラマー • Master of Medical Science •

    Neo4jに触れたのは2016年9⽉! • NoSQLの経験はMongoDB程度 • 現⾏版DBの構築には 携わっていません! • 2015年10⽉〜2016年8⽉まで 産休&育休でした
  2. 研究⽬的について 研究⽬的は「新たな研究⼒評価のための指標を開発する」こと。 例えば、研究者の共同研究への取り組みに注⽬し、「共同研究へ の貢献度合い」を表す新たな指標[1][2] など、評価軸は様々である。 参考⽂献 [1]Keisuke Honda, Yuji Mizukami,

    Shigenori Jason Suzuki and Junji Nakano(2015). An approach for evaluating academic research performance using betweenness centrality in authors network. 3rd International IBM Cloud Academy Conference, p.34. [2]本多啓介, ⽔上祐治, ⽔⾕陽介, 鈴⽊重徳, 中野純司(2015). ⼤規模学術⽂献データを⽤いたグラフ解析 による評価指標開発と視覚化. ⽇本計算機統計学会第29回シンポジウム講演論⽂集, pp.105-108
  3. 学術⽂献データベース 現在のデータベースは試験段階(phase1)のもので昨年度構築。 今年度中にphase2へ移⾏する(予定)。 項⽬ 2015年度 2016年度 開発段階 phase1 phase2 登録⽂献

    2005〜2014年の10年分 30年分 ノード数 138,219,658 ? リレーションシップ数 691,837,443 ? Neo4j version 2.3.2 最新安定版(少なくとも3.0系) Machine Spec CPU: Intel(R) Xeon(R) CPU E5-2650 v3 @ 2.30GHz Memory: 64GB HDD: 2TB + 240GB 変更なし
  4. 学術⽂献データベース 現在のデータベースは試験段階(phase1)のもので昨年度構築。 今年度中にphase2へ移⾏する(予定)。 項⽬ 2015年度 2016年度 開発段階 phase1 phase2 登録⽂献

    2005〜2014年の10年分 30年分 ノード数 138,219,658 ? リレーションシップ数 691,837,443 ? Neo4j version 2.3.2 最新安定版(少なくとも3.0系) Machine Spec CPU: Intel(R) Xeon(R) CPU E5-2650 v3 @ 2.30GHz Memory: 64GB HDD: 2TB + 240GB 変更なし $ df Filesystem 1K-blocks Used Available Use% Mounted on /dev/sda3 212041040 46524612 154738676 24% / tmpfs 32922440 564 32921876 1% /dev/shm /dev/sda1 2064208 108196 1851156 6% /boot /dev/sdb1 1922728752 823416024 1001637056 46% /home
  5. &('!     -&"(%.&"(%  && &'+# 

                  "' #%"( %%! !'+ +% %" &$!" %#%!' (%&& &#+!    " '+ (!  *( *( &&"!!" &'' *"&&'!% '"! '"! &&! "(!'%+ %&'!  #('+# #('+# &&! ,# &'!  #(+% #(+% %'!"  % &"%'' &"%'' Author <14828140> Source <19218031> Source <92162197> Address <10820177> subject <275> Doi <1148925 8> データモデル/phase1 . . . . . .