FROST: Federated Registry of Scientific Things (@ Pangeo Showcase)

Slide 1

Slide 1 text

FROST: Federated Registry Of Scientific Things *Tom Nicholas *[email protected] @TomNicholas

Slide 2

Slide 2 text

What I will not talk about: - My blog post (https://hackmd.io/@TomNicholas/H1KzoYrPJe) - Instead I’m going to work in the opposite direction - From the stack today to the dream

Slide 3

Slide 3 text

What I will talk about: - Version-controlled cloud-native data today - Connecting the catalogs - Use cases - Missing link: FROST - Design ideas

Slide 4

Slide 4 text

Today:

Slide 5

Slide 5 text

No content

Slide 6

Slide 6 text

URL: s3://some/bucket/data.zarr One dataset =

Slide 7

Slide 7 text

URL: s3://some/bucket/data.zarr Version: 4a70ecef278b3sn37 One dataset =

Slide 8

Slide 8 text

URL: s3://some/bucket/data.zarr Version: 4a70ecef278b3sn37 Dependencies: [(url, hash), …] One dataset =

Slide 9

Slide 9 text

{(url, version, dependencies), (url, version, dependencies), (url, version, dependencies), …} All datasets =

Slide 10

Slide 10 text

No content

Slide 11

Slide 11 text

Problem: Disconnected catalogs - No cross-org discoverability - No cross-org update tracking - Risk of “catalog wars” - Risk of network lock-in Solution: Connected catalogs - Cross-org discoverability - Cross-org update tracking - Search entire registry - Free to move while bringing dependencies

Slide 12

Slide 12 text

Federated registry (FROST) Platform / search service Platform / search service Platform / search service Private data Sensitive Data Public data Authentication portal Authentication portal Search Pub-sub catalog Access Storage User communities Common platform architecture

Slide 13

Slide 13 text

Use cases: - Public data catalog (e.g. NASA) Federated registry (FROST) NASA-specific search service NASA Public Data

Slide 14

Slide 14 text

Use cases: - Public catalog (e.g. NASA) - Aggregated search engine (e.g. Google dataset search) Federated registry (FROST) Global search service Public Data

Slide 15

Slide 15 text

Use cases: - Public catalog (e.g. NASA) - Aggregated search engine (e.g. Google dataset search) - Data marketplace (e.g. Source Cooperative) Federated registry (FROST) Marketplace platform For-sale data Pay-for-access layer

Slide 16

Slide 16 text

Use cases: - Public catalog (e.g. NASA) - Aggregated search engine (e.g. Google dataset search) - Data marketplace (e.g. Source Cooperative) - Federated data analysis (e.g. lifebit) Federated registry (FROST) Bioscience search service Sensitive Data HIPAA-compliant authentication

Slide 17

Slide 17 text

Use cases: - Public catalog (e.g. NASA) - Aggregated search engine (e.g. Google dataset search) - Data marketplace (e.g. Source Cooperative) - Federated data analysis (e.g. lifebit) - Data lake (e.g. Earthmover’s Arraylake) Federated registry (FROST) Platform service Commercial Data Lake Customer-specific authentication

Slide 18

Slide 18 text

Use cases: - Public catalog (e.g. NASA) - Aggregated search engine (e.g. Google dataset search) - Data marketplace (e.g. Source Cooperative) - Federated data analysis (e.g. lifebit) - Data lake (e.g. Earthmover’s Arraylake) - Backup trawler (e.g. Wayback Machine) Federated registry (FROST) Archiving service Archived public data

Slide 19

Slide 19 text

Use cases: - Public catalog (e.g. NASA) - Aggregated search engine (e.g. Google dataset search) - Data marketplace (e.g. Source Cooperative) - Federated data analysis (e.g. lifebit) - Data lake (e.g. Earthmover’s Arraylake) - Backup trawler (e.g. Wayback Machine) - Real-time operations (e.g. WatchDuty) Federated registry (FROST) Alert service Dynamically-updated public data

Slide 20

Slide 20 text

Missing link: Decentralized pub-sub catalog network Requirements: - Defines data catalog entries, updates, and dependencies - Handle any data at S3-like URL that’s version-controlled - Fast, reliable update notifications - Federated trust model - Global search

Slide 21

Slide 21 text

How could we build it? Design inspirations: - Pub-sub protocols (e.g. RSS) - Federated social networks (e.g. Bluesky, Mastodon) - Database replication (e.g. Raft algorithm) - Software package registries (e.g. npm)

Slide 22

Slide 22 text

Design idea 1: Leaderless cross-org database sync’ing - Schema - Entry - Version - Dependency

Slide 23

Slide 23 text

Design idea 2: Custom AT protocol lexicon - Use Bluesky’s AT protocol - Define a custom lexicon - com.frost.dataset.entry - com.frost.dataset.update - com.frost.dataset.dependency - Publish from your PDS - Consume via firehose - Display via feedgen - BUT consuming whole firehose forever is basically sync’ing a DB…

Slide 24

Slide 24 text

Action: FROST working group?? - Do we need a standard / protocol? - Does this already exist? - Would have to be a multi-organisation effort Please indicate interest in participation / following updates here: https://tinyurl.com/r76v43u6

Slide 25

Slide 25 text

FAQ: Which storage formats? - Icechunk / Iceberg have nice properties: - version-controlled at rest, with a uniquely identifiable address/hash for each commit (i.e. icechunk, git itself) - some idea of a diff, potentially one that's small enough to be sent over the network (e.g. git diff, icechunk's ChangeSet) - bytes can be pulled out via http range requests to a storage URL

Slide 26

Slide 26 text

FAQ: Domain-specific features? - No - github doesn’t, why should this?

Slide 27

Slide 27 text

FAQ: But we surely should verify / police entries? - No - github doesn’t, why should this?