c4ljp2015_journal_list

5f34c4c6e5d9cb955c1552d3cb444b6c?s=47 Kosuke Tanabe
September 05, 2015

 c4ljp2015_journal_list

Code4Lib JAPAN Conference 2015「ジャーナルリスト徹底活用法 - 楽しい電子ジャーナル管理のために -」
補足資料: https://github.com/nabeta/c4ljp2015/wiki

5f34c4c6e5d9cb955c1552d3cb444b6c?s=128

Kosuke Tanabe

September 05, 2015
Tweet

Transcript

  1. ジャーナルリスト徹底活用法   楽しい電子ジャーナル管理のために 2015年9月5日   Code4Lib  JAPAN  Conference  2015  

    田辺 浩介 TANABE,  Kosuke   Twi@er  /  GitHub:  @nabeta
  2. ジャーナルリスト? •  電子ジャーナルの一覧表   ジャーナルのタイトルが入っている   •  その他、リストの作成者によってさまざまな   情報が入っている

      •  フォーマットはCSVやXLS/XLSX(Excel)など  
  3. どんなジャーナルリストがあるの? •  さまざまな企業や団体がジャーナルリストを 作っています   – データベース提供会社   – ジャーナル出版社   – 図書館コミュニティ

      •  どんなものがあるか見てみましょう   
  4. EssenOal  Science  Indicatorsの   ジャーナルリスト •  Thomson  Reuter社の論文データベース   – Web

     of  Scienceの収録誌のリスト   – h@p://ipscience-­‐help.thomsonreuters.com/ incitesLive/ESIGroup/overviewESI/ scopeCoverageESI.html   •  タイトル、ISSN、研究分野を含む   •  Web上で誰でも入手可能。ライセンスは不明
  5. Scopusのジャーナルリスト •  Elsevier社の論文データベースScopusの収録 誌のリスト   – h@p://www.elsevier.com/__data/assets/ excel_doc/0015/91122/Otle_list.xlsx   •  タイトル、ISSN、SNIP、研究分野を含む

      •  Web上で誰でも入手可能。ライセンスは不明  
  6. DOAJのジャーナルリスト •  オープンアクセスジャーナルの一覧   •  CSVファイルで提供   – h@ps://doaj.org/csv   – タイトル、ISSN、オープンアクセスのポリシーを含

    む   – 項目数は多いが、埋まっていないジャーナルが 多い   •  誰でも入手可能。ライセンスはCC-­‐BY-­‐SA
  7. KBART •  NISOとUKSGによって策定された、ナレッジ ベース向けのデータ交換フォーマット   •  タイトル、ISSN、URL、オンラインで利用できる 最初の号と最後の号などを含む   • 

    TSV形式で公開   •  多くの(海外の学術系)出版社がKBARTで ジャーナルリストを公開している   – h@ps://sites.google.com/site/kbartregistry/  
  8. (番外)COUNTER •  電子リソースの利用統計   – h@p://www.projectcounter.org   – 電子ジャーナル・電子ブック・データベースなど、 資料種別ごとにいくつかの種類がある   • 

    XMLファイル、もしくはTSVファイルで提供   •  タイトル、ISSN、DOI、ダウンロード数、アクセ ス拒否回数などを含む   •  通常は電子ジャーナルの契約者(図書館)   のみに提供される
  9. (番外)Journal  CitaOon  Reports •  Thomsonの提供する商用の文献引用データ ベース   – h@p://about.jcr.incites.thomsonreuters.com   • 

    タイトル、引用回数、被引用回数、インパクト ファクター、ISSNなどを含む   •  JCRからPDF・Excel・CSVファイルで提供  
  10. これらのファイルでできること •  タイトルの文字列   •  ISSN   •  契約価格  

    •  ダウンロード数   •  オープンアクセス   •  研究分野   •  SNIP,  インパクトファクター   •  以上を全てかけあわせた検索  
  11. 用意するもの •  Ruby   •  SQLite3   –  SQLデータベース  

    •  ElasOcsearch   –  全文検索エンジン。CiNii  DissertaOonsでも使用。   動作にJavaが必要   •  CSV/TSVファイルを開けるソフトウェア   –  LibreOffice,  Microsof  Excel,  その他テキストエディタ   •  今まで紹介してきたジャーナルリストのファイル
  12. !!! 最重要ポイント  !!! • XLS/XLSXファイルはすべて   CSVかTSVに変換すること

  13. まず自館で契約している   ジャーナルリストをTSVにしよう •  ISSNと購読価格を   含めたTSVファイル   を作成  

    •  1行目に半角英数   文字で見出しを   入れること
  14. プログラムを使って   ジャーナルリストを読んでみよう •  CSV・TSVファイルを読み込むライブラリ(ソフト ウェアの部品)を使用

  15. ISSNが正しいかチェックしたい •  library_stdnums(ISSNをチェックするライブラリ を使用)    

  16. チェックしたデータを   データベースに保存しよう •  SQLiteとruby-­‐sqlite3(RubyでSQLite3を扱う   ライブラリ)を使用  

  17. タイトル情報をインポートしよう •  出版社などからKBARTファイルを取得して   インポートする   •  ISSNをキーにして、出版社による正確な(はず の)タイトルを取得できる  

  18. このうちオープンアクセス   なのはどれ?

  19. DOAJのリストをインポート •  CSV中のISSNをキーにしてSQLite3を検索し、 ヒットしたらフラグを追加   – リストにある  =  オープンアクセスである  

  20. どの分野が   うちの研究所では読まれている?

  21. EssenOal  Science  Indicatorsの   分野情報をインポート •  Web  of  Scienceで使用している分野情報  

    – よくランキングに使われる
  22. よく利用されているのは   どのジャーナル?

  23. COUNTERのTSVファイルをインポート •  ISSNをキーにして、タイトルと購読価格が   紐付けられる  

  24. うちで読まれている   トップジャーナルは?

  25. インパクトファクター,  SNIP •  掲載された論文の引用数をもとにした   ジャーナル評価の指数   – 以下の画像はSNIP

  26. 今まで入れてきたジャーナルの   情報を検索したい 

  27. SQLによる集計の実行 •  今までの情報をSQLite3にインポートして集計   – たとえば、価格順のダウンロード数

  28. ここまで  172  行! •  今回のスクリプト   •  enju_leafモジュールは約5600行   – app/

     以下の行数  
  29. Webブラウザを使って   検索や集計をしたい

  30. ElasOcsearchでデータを検索   できるようにする •  ElasOcsearchのCSVプラグインを使用   – h@ps://github.com/AgileWorksOrg/elasOcsearch-­‐ river-­‐csv   – CSV・TSVファイルを使って検索インデックスを作成

      •  同様に管理用プラグインをインストールし、   検索フォームを使用できるようにする   – h@ps://github.com/mobz/elasOcsearch-­‐head  
  31. 検索の実行例 •  ダウンロード数が100回以上、   かつSNIPが0.5以上、   かつオープンアクセス   – 画面はelasOcsearch-­‐headによる   

  32. 今後の課題(1) •  ジャーナルの名寄せの問題   – 複数のISSN(Print  ISSN,  Online  ISSN,  ISSN-­‐L)  

    •  対策:  外部のナレッジベースを使う   – GOKbはPrint版とOnline版で共通のジャーナル ID(GOKb  idenOfier)を付与している   – h@p://gokb.kuali.org/gokb/   – データのライセンスはCC0、WebAPIも公開  
  33. GOKb  idenOfierの取得 •  ElasOcsearchへの投入時にGOKbのWebAPIを   使用してGOKb  idenOfierを取得する   •  h@p://gokb.kuali.org/gokb/coreference/index?

    nspart=issn&idpart=1468-­‐6996   •  Paper  ISSNを用いてGOKb  idenOfierやOnline  ISSNを問い合 わせる例   GOKb  idenOfier 他のID(ISSNなど)
  34. 今後の課題(2) •  外部サービスとの連携   – 研究者プロフィール情報(ORCIDなど)   – OPACやディスカバリーサービスの検索ログ   – 文献複写依頼のログ  

  35. ORCIDを用いた   ジャーナル利用統計(案) •  論文のDOIをCrossRefで検索し、その論文   著者のORCIDを取得   •  ORCID

     APIを用いて研究者のプロフィール   情報を取得   – 所属、研究分野、論文以外の実績   (特許、ソフトウェアなど)   •  ジャーナルの利用状況と発表成果の情報を かけあわせた統計の作成が可能に
  36. 今後の課題(3) •  国内のジャーナルは?   – ERDB-­‐JPが提供するKBARTファイルと   J-­‐STAGEのCOUNTERファイルでまかなえるはず   – いっしょに試してみませんか  

  37. おわりに •  まずLibreOfficeをインストールしてみましょう   – h@ps://ja.libreoffice.org   – フリーウェア   – TSVもExcelファイルもダブルクリックで開けます  

    – ExcelはUTF-­‐8のTSVファイルを扱うのが難しいです   •  ふだん使用するExcelファイルを、できる限り TSV形式で保存してみましょう  
  38. もっとTSV! •  どんな環境でも使える、長期間の活用に   堪えうるデータフォーマットとして   •  プログラムで簡単に扱える、データ分析や   業務効率化に適したデータフォーマットとして

      •  「Open  Data」「Open  Science」で図書館に期待 される役割を果たすためのひとつの要素と   して   •  まずジャーナルリストをTSVにしてみませんか  
  39. 今回使用したスクリプト •  h@ps://github.com/nabeta/c4ljp2015   •  ご意見は @nabeta  まで!