RDFization of biomedical databases

生命科学DB 構築におけるRDF 化の実践 IIBMP 2017 BoF: SemWeb 時代におけるバイオデータベースとデー
タ解析の融合ライフサイエンス統合データベースセンター (DBCLS) 大田達郎 @inutano

話すこと「データをRDF 化する」とは、技術的に何をするのか伝えたいこと使いやすいデータを共有してみんなで科学をやっていきましょう
RDF はそれを助ける1 つの有力な選択肢だが、真に大事なのは作法伝えたい人測定/ 解析したデータを公開する人、DB を作る人生物学的解釈が付与される余地のあるデータを出力するソフトウェアを作っている人

宣伝第2 回 RDF 講習会「RDF の作り方」 10/6 ( 金) @
JST 東京本部別館 ( 市ヶ谷) "RDF 講習会" で検索

問題: 公開されたデータを使うと捗らない

公開DB を使うときに何をしますか理想 URL 叩くと即、自分の欲しい形でデータが落ちてくる現実ウェブサイトを探す (
が見つからないもしくは落ちている) とりあえずダウンロード ( サイトにそれ以外何もないので) 謎の.tar.gz が落ちてくる ( 一晩かかる) 雑に展開してみる ( たまに開かない) 何かが入っている ( が何かよくわからない) README を読んでデータ構造を調べる ( が何も書いてない) パーサーを書いて必要な部分を取り出す ( 何度も例外で落ちる) データの意味を調べるのに再度ドキュメントを読む ( つらい)

つらい別ドメインのデータをさらに結合するなんて考えたくもない

データ作る方もつらいユースケースは10^n 人10^n 色マニアックな使い方をされてこその研究資源その全てを予測することはできない「
自分でやれ」ラインの見極めの難しさなるべく柔軟なインターフェース、柔軟な形式で用意したいと、少なくとも思ってはいる

解決策: データ提供者が守るべきN 個のお作法

どうあってほしいのかウェブサイトに情報を載せてくれドキュメント書いてくれエントリID を体系的に管理してくれ関連リソースへのリンクを張ってくれ変な略語使うのをやめろ文字コードちゃんとしろ
特殊すぎる( 圧縮| 通信) プロトコルを使うなデータ扱うのに特殊なソフトウェアを要求するな => どうすればデータ提供者は従ってくれるのか？

FAIR principles www.force11.org/group/fairgroup/fairprinciples be Findable be Accessible be Interoperable be
Reusable => これらを突き詰めると Linked Data になる

Linked Data: is a method of publishing structured data built
upon standard Web technologies such as HTTP, RDF and URIs to share information in a way that can be read automatically by computers, from Wikipedia

Linked Data: お行儀の良いデータ養成ギプス URI を使えデータはRDF で表現しろ URI
にHTTP でアクセスされたらRDF も返せ

RDF 化の機運が高まるみんなやってるよ、怖くないよ NBDC/DBCLS/DDBJ/PDBj SIB EBI RDF NCBI PubChem/MeSH
でもRDF 化って実際何をするの

パターンA: RDB に入った表形式のDB から作る 1. 行ごとにURI で一意なID を付与する 2.
列のキーワードを標準的な語彙 (predicates) に置き換える 3. 機械的に変換する便利: D2RQ and D2RQ Mapper

パターンB: NoSQL に入ったドキュメント型DB から作る 1. エントリごとにURI で一意なID を付与する 2.
適切なモデルを設計する 3. 必要な語彙を既存のオントロジーから選ぶ、なければ作る 4. コンバータ書いて変換する

実例: BioSamples w/ EBI‑RDF @ BH17 配列データをDDBJ に登録する際にサンプルの情報を書くアレ DDBJ,
EBI, NCBI で交換されている登録ユーザが独自に key‑value を設定できる元データはXML RDF モデルはEBI BioSamples API JSON の構造を流用 key‑value については適切な構造を設計した語彙を決めるないものについては新規に作るコンバータを書く API ‑> JSON ‑> RDF Turtle

http://tinyurl.com/bh17final

実例: Quanto Available at inutano/sra‑quanto and RDF Portal エントリ単位は FASTQ
ファイル単位元データは FastQC の出力とそこから計算した値テーブルを内包するオブジェクトデータモデルを作る bioruby‑fastqc で設計したオブジェクトの構造のままJSON に必要な語彙を既存のオントロジーから選び、ないものは作ったコンバータを書く JSON にcontext を追加してJSON‑LD に JSON‑LD からrdf/turtle に自動変換 txt ‑> JSON ‑> JSON‑LD ‑> RDF Turtle biogem になっています

元データはただのテキストファイルなのでこれをパースしてJSON オブジェクトに変換し、context を付与して JSON‑LD にする

RDF モデル made with draw.io

Quanto in RDF Portal bulk RDF data download, SPARQL endpoint

ね、簡単でしょ？全然簡単じゃない特に語彙を探す/ 選ぶ/ 作るところがつらい BioPortal, EBI OLS 等があるが、
結局人に聞いている独りでは難しいグループで取り掛かることでかなりコストを下げられる BioHackathon, SPARQLthon, etc.. いずれにせよ筋力の問題なのでやっていくしかない

RDF にすることで全ての問題が解決したかウェブサイトに情報を載せてくれ: 筋力ドキュメント書いてくれ: 筋力エントリID を体系的に管理してくれ: URI を使う
関連リソースへのリンクを張ってくれ: RDF でリンクを張る変な略語使うのをやめろ: 適切な語彙を使う文字コードちゃんとしろ: UTF‑8 or フォーマットの指定に従う特殊すぎる( 圧縮| 通信) プロトコルを使うな: HTTP GET !!! データ扱うのに特殊なソフトウェアを要求するな !!! No Silver Bullet: RDF にすれば何もかも解決するとは誰も言ってない

特殊なソフトウェアを要求するな TripleStore, SPARQL は特殊か否か依然扱える人は少ない派閥 W3C 標準なんだからSPARQL 使おうよ派いいからJSON
返せ、あとはこっちでなんとかするから派 Neo4J ではあかんのか派

コストが十分下げられるなら提供する選択肢は増やすべき元データ ‑> JSON ‑> JSON‑LD ‑> RDF の流れは比較的容易
JSON‑LD は @context を無視すればただの JSON エンドポイント SPARQL RESTful API smart API that returns JSON‑LD Elasticsearch バルクダウンロード作法に則ったデータとこれらが揃えば別ドメインのデータと繋ぐことも難しくない（はず）

繋がったその先: グラフ解析手法にそのまま入力できるのか Heterogenous Network: ノード、エッジにバリエーションがある異なるDB 間で同じ概念を表すために別の
ontology term が使われている場合がある => 別DB のRDF データを混ぜたグラフを作る際に、語の使われ方の違いが解析の精度に影響を及ぼすのでは？ RDF 化されたデータベースはあらゆるものが繋がっている不要なメタデータ ( 登録の日付, データ登録者の所属, 文献ID, etc.) なども => 解析に必要なサブグラフをいかに簡単に取り出すか？そのデータはグラフ化に向いているか bigBed をRDF にすることは技術的には可能だが…

まとめ作法に則ってデータを作りましょうコミュニティに参加して協調すると捗るデータ元がやってくれないなら自分でやる RDF 化とはすなわち「ちゃんとする」こと
あなたとFAIR、今すぐ実装 RDF とJSON‑LD, 目的に合ったものを使えるようにデータ解析にとっては異なる種類の前処理が必要になる可能性

RDFization of biomedical databases

RDFization of biomedical databases

Tazro Inutano Ohta

More Decks by Tazro Inutano Ohta

Other Decks in Research

Featured

Transcript

生命科学DB 構築におけるRDF 化の実践 IIBMP 2017 BoF: SemWeb 時代におけるバイオデータベースとデー

話すこと「データをRDF 化する」とは、技術的に何をするのか伝えたいこと使いやすいデータを共有してみんなで科学をやっていきましょう

宣伝第2 回 RDF 講習会「RDF の作り方」 10/6 ( 金) @

問題: 公開されたデータを使うと捗らない

公開DB を使うときに何をしますか理想 URL 叩くと即、自分の欲しい形でデータが落ちてくる現実ウェブサイトを探す (

つらい別ドメインのデータをさらに結合するなんて考えたくもない

データ作る方もつらいユースケースは10^n 人10^n 色マニアックな使い方をされてこその研究資源その全てを予測することはできない「

解決策: データ提供者が守るべきN 個のお作法

どうあってほしいのかウェブサイトに情報を載せてくれドキュメント書いてくれエントリID を体系的に管理してくれ関連リソースへのリンクを張ってくれ変な略語使うのをやめろ文字コードちゃんとしろ

FAIR principles www.force11.org/group/fairgroup/fairprinciples be Findable be Accessible be Interoperable be

Linked Data: is a method of publishing structured data built

Linked Data: お行儀の良いデータ養成ギプス URI を使えデータはRDF で表現しろ URI

RDF 化の機運が高まるみんなやってるよ、怖くないよ NBDC/DBCLS/DDBJ/PDBj SIB EBI RDF NCBI PubChem/MeSH

パターンA: RDB に入った表形式のDB から作る 1. 行ごとにURI で一意なID を付与する 2.

パターンB: NoSQL に入ったドキュメント型DB から作る 1. エントリごとにURI で一意なID を付与する 2.

実例: BioSamples w/ EBI‑RDF @ BH17 配列データをDDBJ に登録する際にサンプルの情報を書くアレ DDBJ,

http://tinyurl.com/bh17final

実例: Quanto Available at inutano/sra‑quanto and RDF Portal エントリ単位は FASTQ

元データはただのテキストファイルなのでこれをパースしてJSON オブジェクトに変換し、context を付与して JSON‑LD にする

RDF モデル made with draw.io

Quanto in RDF Portal bulk RDF data download, SPARQL endpoint

ね、簡単でしょ？全然簡単じゃない特に語彙を探す/ 選ぶ/ 作るところがつらい BioPortal, EBI OLS 等があるが、

RDF にすることで全ての問題が解決したかウェブサイトに情報を載せてくれ: 筋力ドキュメント書いてくれ: 筋力エントリID を体系的に管理してくれ: URI を使う

特殊なソフトウェアを要求するな TripleStore, SPARQL は特殊か否か依然扱える人は少ない派閥 W3C 標準なんだからSPARQL 使おうよ派いいからJSON

コストが十分下げられるなら提供する選択肢は増やすべき元データ ‑> JSON ‑> JSON‑LD ‑> RDF の流れは比較的容易

繋がったその先: グラフ解析手法にそのまま入力できるのか Heterogenous Network: ノード、エッジにバリエーションがある異なるDB 間で同じ概念を表すために別の

まとめ作法に則ってデータを作りましょうコミュニティに参加して協調すると捗るデータ元がやってくれないなら自分でやる RDF 化とはすなわち「ちゃんとする」こと