RDFization of biomedical databases

Slide 1

Slide 1 text

生命科学DB 構築におけるRDF 化の実践 IIBMP 2017 BoF: SemWeb 時代におけるバイオデータベースとデータ解析の融合ライフサイエンス統合データベースセンター (DBCLS) 大田達郎 @inutano

Slide 2

Slide 2 text

話すこと「データをRDF 化する」とは、技術的に何をするのか伝えたいこと使いやすいデータを共有してみんなで科学をやっていきましょう RDF はそれを助ける1 つの有力な選択肢だが、真に大事なのは作法伝えたい人測定/ 解析したデータを公開する人、DB を作る人生物学的解釈が付与される余地のあるデータを出力するソフトウェアを作っている人

Slide 3

Slide 3 text

宣伝第2 回 RDF 講習会「RDF の作り方」 10/6 ( 金) @ JST 東京本部別館 ( 市ヶ谷) "RDF 講習会" で検索

Slide 4

Slide 4 text

問題: 公開されたデータを使うと捗らない

Slide 5

Slide 5 text

公開DB を使うときに何をしますか理想 URL 叩くと即、自分の欲しい形でデータが落ちてくる現実ウェブサイトを探す ( が見つからないもしくは落ちている) とりあえずダウンロード ( サイトにそれ以外何もないので) 謎の.tar.gz が落ちてくる ( 一晩かかる) 雑に展開してみる ( たまに開かない) 何かが入っている ( が何かよくわからない) README を読んでデータ構造を調べる ( が何も書いてない) パーサーを書いて必要な部分を取り出す ( 何度も例外で落ちる) データの意味を調べるのに再度ドキュメントを読む ( つらい)

Slide 6

Slide 6 text

つらい別ドメインのデータをさらに結合するなんて考えたくもない

Slide 7

Slide 7 text

データ作る方もつらいユースケースは10^n 人10^n 色マニアックな使い方をされてこその研究資源その全てを予測することはできない「自分でやれ」ラインの見極めの難しさなるべく柔軟なインターフェース、柔軟な形式で用意したいと、少なくとも思ってはいる

Slide 8

Slide 8 text

解決策: データ提供者が守るべきN 個のお作法

Slide 9

Slide 9 text

どうあってほしいのかウェブサイトに情報を載せてくれドキュメント書いてくれエントリID を体系的に管理してくれ関連リソースへのリンクを張ってくれ変な略語使うのをやめろ文字コードちゃんとしろ特殊すぎる( 圧縮| 通信) プロトコルを使うなデータ扱うのに特殊なソフトウェアを要求するな => どうすればデータ提供者は従ってくれるのか？

Slide 10

Slide 10 text

FAIR principles www.force11.org/group/fairgroup/fairprinciples be Findable be Accessible be Interoperable be Reusable => これらを突き詰めると Linked Data になる

Slide 11

Slide 11 text

Linked Data: is a method of publishing structured data built upon standard Web technologies such as HTTP, RDF and URIs to share information in a way that can be read automatically by computers, from Wikipedia

Slide 12

Slide 12 text

Linked Data: お行儀の良いデータ養成ギプス URI を使えデータはRDF で表現しろ URI にHTTP でアクセスされたらRDF も返せ

Slide 13

Slide 13 text

RDF 化の機運が高まるみんなやってるよ、怖くないよ NBDC/DBCLS/DDBJ/PDBj SIB EBI RDF NCBI PubChem/MeSH でもRDF 化って実際何をするの

Slide 14

Slide 14 text

パターンA: RDB に入った表形式のDB から作る 1. 行ごとにURI で一意なID を付与する 2. 列のキーワードを標準的な語彙 (predicates) に置き換える 3. 機械的に変換する便利: D2RQ and D2RQ Mapper

Slide 15

Slide 15 text

パターンB: NoSQL に入ったドキュメント型DB から作る 1. エントリごとにURI で一意なID を付与する 2. 適切なモデルを設計する 3. 必要な語彙を既存のオントロジーから選ぶ、なければ作る 4. コンバータ書いて変換する

Slide 16

Slide 16 text

実例: BioSamples w/ EBI‑RDF @ BH17 配列データをDDBJ に登録する際にサンプルの情報を書くアレ DDBJ, EBI, NCBI で交換されている登録ユーザが独自に key‑value を設定できる元データはXML RDF モデルはEBI BioSamples API JSON の構造を流用 key‑value については適切な構造を設計した語彙を決めるないものについては新規に作るコンバータを書く API ‑> JSON ‑> RDF Turtle

Slide 17

Slide 17 text

http://tinyurl.com/bh17final

Slide 18

Slide 18 text

実例: Quanto Available at inutano/sra‑quanto and RDF Portal エントリ単位は FASTQ ファイル単位元データは FastQC の出力とそこから計算した値テーブルを内包するオブジェクトデータモデルを作る bioruby‑fastqc で設計したオブジェクトの構造のままJSON に必要な語彙を既存のオントロジーから選び、ないものは作ったコンバータを書く JSON にcontext を追加してJSON‑LD に JSON‑LD からrdf/turtle に自動変換 txt ‑> JSON ‑> JSON‑LD ‑> RDF Turtle biogem になっています

Slide 19

Slide 19 text

元データはただのテキストファイルなのでこれをパースしてJSON オブジェクトに変換し、context を付与して JSON‑LD にする

Slide 20

Slide 20 text

RDF モデル made with draw.io

Slide 21

Slide 21 text

Quanto in RDF Portal bulk RDF data download, SPARQL endpoint

Slide 22

Slide 22 text

ね、簡単でしょ？全然簡単じゃない特に語彙を探す/ 選ぶ/ 作るところがつらい BioPortal, EBI OLS 等があるが、結局人に聞いている独りでは難しいグループで取り掛かることでかなりコストを下げられる BioHackathon, SPARQLthon, etc.. いずれにせよ筋力の問題なのでやっていくしかない

Slide 23

Slide 23 text

RDF にすることで全ての問題が解決したかウェブサイトに情報を載せてくれ: 筋力ドキュメント書いてくれ: 筋力エントリID を体系的に管理してくれ: URI を使う関連リソースへのリンクを張ってくれ: RDF でリンクを張る変な略語使うのをやめろ: 適切な語彙を使う文字コードちゃんとしろ: UTF‑8 or フォーマットの指定に従う特殊すぎる( 圧縮| 通信) プロトコルを使うな: HTTP GET !!! データ扱うのに特殊なソフトウェアを要求するな !!! No Silver Bullet: RDF にすれば何もかも解決するとは誰も言ってない

Slide 24

Slide 24 text

特殊なソフトウェアを要求するな TripleStore, SPARQL は特殊か否か依然扱える人は少ない派閥 W3C 標準なんだからSPARQL 使おうよ派いいからJSON 返せ、あとはこっちでなんとかするから派 Neo4J ではあかんのか派

Slide 25

Slide 25 text

コストが十分下げられるなら提供する選択肢は増やすべき元データ ‑> JSON ‑> JSON‑LD ‑> RDF の流れは比較的容易 JSON‑LD は @context を無視すればただの JSON エンドポイント SPARQL RESTful API smart API that returns JSON‑LD Elasticsearch バルクダウンロード作法に則ったデータとこれらが揃えば別ドメインのデータと繋ぐことも難しくない（はず）

Slide 26

Slide 26 text

繋がったその先: グラフ解析手法にそのまま入力できるのか Heterogenous Network: ノード、エッジにバリエーションがある異なるDB 間で同じ概念を表すために別の ontology term が使われている場合がある => 別DB のRDF データを混ぜたグラフを作る際に、語の使われ方の違いが解析の精度に影響を及ぼすのでは？ RDF 化されたデータベースはあらゆるものが繋がっている不要なメタデータ ( 登録の日付, データ登録者の所属, 文献ID, etc.) なども => 解析に必要なサブグラフをいかに簡単に取り出すか？そのデータはグラフ化に向いているか bigBed をRDF にすることは技術的には可能だが…

Slide 27

Slide 27 text

まとめ作法に則ってデータを作りましょうコミュニティに参加して協調すると捗るデータ元がやってくれないなら自分でやる RDF 化とはすなわち「ちゃんとする」ことあなたとFAIR、今すぐ実装 RDF とJSON‑LD, 目的に合ったものを使えるようにデータ解析にとっては異なる種類の前処理が必要になる可能性