Flux (#fluxlang): a new (time series) data scripting language

Flux (#ﬂuxlang): a new (time series) data scripting language Paul
Dix @pauldix [email protected]

IFQL -> Flux

Data scripting language?

MIT License Language & Engine written in Go

Talk Structure • Why Flux? • Design & Structure •
Motivating Examples

Why not SQL?

Relational Algebra

SQL isn’t the only interpretation!

QUEL & POSTGRESQUEL range of E is EMPLOYEE retrieve into
W (COMP = E.Salary / (E.Age - 18)) where E.Name = "Jones" select (e.salary / (e.age - 18)) as comp from employee as e where e.name = "Jones" SQL

Inertia

Additions & Semantics

Functional FTW!

Rethink Programmer Productivity

Language > Query

Change Reality

Existing Language?

Haskell or Lisp!

Flux Design Principles

Useable

Make Everyone a Data Programmer!

Readable

Flexible

Composable

Testable

Contributable

Shareable

Beginning Examples

showMeasurements(db: "telegraf")

showMeasurements(db: "telegraf") Function

showMeasurements(db: "telegraf") Named Argument

showMeasurements(db: "telegraf") String Literal

showTagKeys(db: "telegraf", measurement: "cpu")

showTagKeys(db: "telegraf", measurement: "cpu") Named Arguments

showTagKeys(db: "telegraf", measurements: ["redis", "mysql"])

showTagKeys(db: "telegraf", measurements: ["redis", "mysql"]) Passing an array

showTagValues(db: "telegraf", tag: "host")

showFieldKeys(db:"telegraf", measurement:"cpu")

// get all data from the telegraf db from(db:"telegraf") //
filter that by the last hour |> range(start:-1h) // filter further by series with a specific measurement and field |> filter(fn: r => r._measurement == "cpu" and r._field == "usage_system")

filter that by the last hour |> range(start:-1h) // filter further by series with a specific measurement and field |> filter(fn: r => r._measurement == "cpu" and r._field == "usage_system") Comments

filter that by the last hour |> range(start:-1h) // filter further by series with a specific measurement and field |> filter(fn: r => r._measurement == "cpu" and r._field == "usage_system") Duration Literal

filter that by the last hour |> range(start:-1h) // filter further by series with a specific measurement and field |> filter(fn: r => r._measurement == "cpu" and r._field == "usage_system") Pipe forward operator

filter that by the last hour |> range(start:-1h) // filter further by series with a specific measurement and field |> filter(fn: r => r._measurement == "cpu" and r._field == "usage_system") Anonymous Function

Operators + == != ( ) - < !~ [
] * > =~ { } / <= = , : % >= <- . |>

Types • int • uint • ﬂoat64 • string •
duration • time • regex • array • object • function • namespace

Functions Overview

Inputs from, fromKafka, fromFile, fromS3, fromPrometheus, fromMySQL, etc.

Outputs to, toKafka, toFile, toS3, toPrometheus, toMySQL, etc.

Functions • count • covariance • cumulativeSum • derivative •
difference • distinct • filter • first • from • group • integral • mean • min • percentile • range • sample • set • shift • skew • sort • spread • stateTracking • limit • map • max • window • yield • cov • highestMax • highestAverage • highestCurrent • lowestMin • join • last • stddev • sum • lowestAverage • lowestCurrent • pearsonR • stateCount • stateDuration • top • bottom

Flux ⊇ Graphite

Data Model

Example Series _measurement=mem,host=A,region=west,_field=free _measurement=mem,host=B,region=west,_field=free _measurement=cpu,host=A,region=west,_field=usage_system _measurement=cpu,host=A,region=west,_field=usage_user

Example Series _measurement=mem,host=A,region=west,_field=free _measurement=mem,host=B,region=west,_field=free _measurement=cpu,host=A,region=west,_field=usage_system _measurement=cpu,host=A,region=west,_field=usage_user Measurement

Example Series _measurement=mem,host=A,region=west,_field=free _measurement=mem,host=B,region=west,_field=free _measurement=cpu,host=A,region=west,_field=usage_system _measurement=cpu,host=A,region=west,_field=usage_user Field

Table _measurement host region _ﬁeld _time _value mem A west
free 2018-06-14T09:15:00 10 mem A west free 2018-06-14T09:14:50 10

_measurement host region _ﬁeld _time _value mem A west free
2018-06-14T09:15:00 10 mem A west free 2018-06-14T09:14:50 10 Column

2018-06-14T09:15:00 10 mem A west free 2018-06-14T09:14:50 10 Record

2018-06-14T09:15:00 10 mem A west free 2018-06-14T09:14:50 10 Group Key _measurement=mem,host=A,region=west,_ﬁeld=free

2018-06-14T09:15:00 10 mem A west free 2018-06-14T09:14:50 10 Every record has the same value! _measurement=mem,host=A,region=west,_ﬁeld=free

Table Per Series _measurement host region _field _time _value mem
A west free 2018-06-14T09:15:00 10 mem A west free 2018-06-14T09:14:50 11 _measurement host region _field _time _value mem B west free 2018-06-14T09:15:00 20 mem B west free 2018-06-14T09:14:50 22 _measurement host region _field _time _value cpu A west usage_user 2018-06-14T09:15:00 45 cpu A west usage_user 2018-06-14T09:14:50 49 _measurement host region _field _time _value cpu A west usage_system 2018-06-14T09:15:00 35 cpu A west usage_system 2018-06-14T09:14:50 38

input tables -> function -> output tables

input tables -> function -> output tables // example query
from(db:"telegraf") |> range(start:2018-06-14T09:14:50, start:2018-06-14T09:15:01) |> filter(fn: r => r._measurement == “mem" and r._field == “free”) |> sum()

input tables -> function -> output tables DateTime Literal //
example query from(db:"telegraf") |> range(start:2018-06-14T09:14:50, start:2018-06-14T09:15:01) |> filter(fn: r => r._measurement == “mem" and r._field == “free”) |> sum()

input tables -> function -> output tables What to sum
on? // example query from(db:"telegraf") |> range(start:2018-06-14T09:14:50, start:2018-06-14T09:15:01) |> filter(fn: r => r._measurement == “mem" and r._field == “free”) |> sum()

input tables -> function -> output tables Default columns argument
// example query from(db:"telegraf") |> range(start:2018-06-14T09:14:50, start:2018-06-14T09:15:01) |> filter(fn: r => r._measurement == “mem" and r._field == “free”) |> sum(columns: [“_value”])

input tables -> function -> output tables _meas ureme host
region _ﬁeld _time _valu e mem A west free 2018-06- 14T09:1 10 mem A west free 2018-06- 14T09:1 11 _meas ureme host region _ﬁeld _time _valu e mem B west free 2018-06- 14T09:15 20 mem B west free 2018-06- 14T09:14 22 Input in table form // example query from(db:"telegraf") |> range(start:2018-06-14T09:14:50, start:2018-06-14T09:15:01) |> filter(fn: r => r._measurement == “mem" and r._field == “free”) |> sum()

input tables -> function -> output tables _meas ureme host
region _ﬁeld _time _valu e mem A west free 2018-06- 14T09:1 10 mem A west free 2018-06- 14T09:1 11 _meas ureme host region _ﬁeld _time _valu e mem B west free 2018-06- 14T09:15 20 mem B west free 2018-06- 14T09:14 22 sum() // example query from(db:"telegraf") |> range(start:2018-06-14T09:14:50, start:2018-06-14T09:15:01) |> filter(fn: r => r._measurement == “mem" and r._field == “free”) |> sum()

input tables -> function -> output tables // example query
from(db:"telegraf") |> range(start:2018-06-14T09:14:50, start:2018-06-14T09:15:01) |> filter(fn: r => r._measurement == “mem" and r._field == “free”) |> sum() _meas ureme host region _field _time _valu e mem A west free 2018-06- 14T09:1 10 mem A west free 2018-06- 14T09:1 11 _meas ureme host region _field _time _valu e mem B west free 2018-06- 14T09:15 20 mem B west free 2018-06- 14T09:14 22 sum() _meas ureme host region _field _time _valu e mem A west free 2018-06- 14T09:1 21 _meas ureme host region _field _time _valu e mem B west free 2018-06- 14T09:15 42

N to N table mapping (1 to 1 mapping)

N to M table mapping

window // example query from(db:"telegraf") |> range(start:2018-06-14T09:14:30, end:2018-06-14T09:15:01) |> filter(fn:
r => r._measurement == “mem" and r._field == “free”) |> window(every:20s) 30s of data (4 samples)

window // example query from(db:"telegraf") |> range(start:2018-06-14T09:14:30, end:2018-06-14T09:15:01) |> filter(fn:
r => r._measurement == “mem" and r._field == “free”) |> window(every:20s) split into 20s windows

window _meas host region _ﬁeld _time _valu mem A west
free …14:30 10 mem A west free …14:40 11 mem A west free …14:50 12 mem A west free …15:00 13 _meas host region _ﬁeld _time _valu mem B west free …14:30 20 mem B west free …14:40 22 mem B west free …14:50 23 mem B west free …15:00 24 // example query from(db:"telegraf") |> range(start:2018-06-14T09:14:30, end:2018-06-14T09:15:01) |> filter(fn: r => r._measurement == “mem" and r._field == “free”) |> window(every:20s) Input

free …14:30 10 mem A west free …14:40 11 mem A west free …14:50 12 mem A west free …15:00 13 _meas host region _ﬁeld _time _valu mem B west free …14:30 20 mem B west free …14:40 22 mem B west free …14:50 23 mem B west free …15:00 24 window( every:20s) // example query from(db:"telegraf") |> range(start:2018-06-14T09:14:30, end:2018-06-14T09:15:01) |> filter(fn: r => r._measurement == “mem" and r._field == “free”) |> window(every:20s)

free …14:30 10 mem A west free …14:40 11 mem A west free …14:50 12 mem A west free …15:00 13 _meas host region _field _time _valu mem B west free …14:30 20 mem B west free …14:40 22 mem B west free …14:50 23 mem B west free …15:00 24 window( every:20s) // example query from(db:"telegraf") |> range(start:2018-06-14T09:14:30, end:2018-06-14T09:15:01) |> filter(fn: r => r._measurement == “mem" and r._field == “free”) |> window(every:20s) _meas ureme host region _field _time _valu e mem A west free …14:30 10 mem A west free …14:40 11 _meas ureme host region _field _time _valu e mem B west free …14:50 23 mem B west free …15:00 24 _meas ureme host region _field _time _valu e mem B west free …14:30 20 mem B west free …14:40 22 _meas ureme host region _field _time _valu e mem A west free …14:50 12 mem A west free …15:00 13

free …14:30 10 mem A west free …14:40 11 mem A west free …14:50 12 mem A west free …15:00 13 _meas host region _field _time _valu mem B west free …14:30 20 mem B west free …14:40 22 mem B west free …14:50 23 mem B west free …15:00 24 window( every:20s) // example query from(db:"telegraf") |> range(start:2018-06-14T09:14:30, end:2018-06-14T09:15:01) |> filter(fn: r => r._measurement == “mem" and r._field == “free”) |> window(every:20s) _meas ureme host region _field _time _valu e mem A west free …14:30 10 mem A west free …14:40 11 _meas ureme host region _field _time _valu e mem B west free …14:50 23 mem B west free …15:00 24 _meas ureme host region _field _time _valu e mem B west free …14:30 20 mem B west free …14:40 22 _meas ureme host region _field _time _valu e mem A west free …14:50 12 mem A west free …15:00 13 N to M tables

Window based on time _start and _stop columns

group // example query from(db:"telegraf") |> range(start:2018-06-14T09:14:30, end:2018-06-14T09:15:01) |> filter(fn:
r => r._measurement == “mem" and r._field == “free”) |> group(keys:[“region"])

group // example query from(db:"telegraf") |> range(start:2018-06-14T09:14:30, end:2018-06-14T09:15:01) |> filter(fn:
r => r._measurement == “mem" and r._field == “free”) |> group(keys:[“region"]) new partition key

group _meas host region _ﬁeld _time _valu mem A west
free …14:30 10 mem A west free …14:40 11 mem A west free …14:50 12 mem A west free …15:00 13 _meas host region _ﬁeld _time _valu mem B west free …14:30 20 mem B west free …14:40 22 mem B west free …14:50 23 mem B west free …15:00 24 // example query from(db:"telegraf") |> range(start:2018-06-14T09:14:30, end:2018-06-14T09:15:01) |> filter(fn: r => r._measurement == “mem" and r._field == “free”) |> group(keys:[“region"])

group _meas host region _field _time _valu mem A west
free …14:30 10 mem A west free …14:40 11 mem A west free …14:50 12 mem A west free …15:00 13 _meas host region _field _time _valu mem B west free …14:30 20 mem B west free …14:40 22 mem B west free …14:50 23 mem B west free …15:00 24 group( keys: [“region”]) // example query from(db:"telegraf") |> range(start:2018-06-14T09:14:30, end:2018-06-14T09:15:01) |> filter(fn: r => r._measurement == “mem" and r._field == “free”) |> group(keys:[“region"]) _meas ureme host region _field _time _valu e mem A west free …14:30 10 mem B west free …14:30 20 mem A west free …14:40 11 mem B west free …14:40 21 mem A west free …14:50 12 mem B west free …14:50 22 mem B west free …15:00 13 mem B west free …15:00 23 N to M tables M == cardinality(group keys)

Group based on columns

Composable & Flexible

showTagValues(db: "telegraf", tag: "host")

New argument, same function deﬁnition showTagValues(db: "telegraf", tag: "host", startTime:
2018-06-14T09:15:00)

showTagValues = (db, tag, start=-1h, stop=now(), predicate=(r) => true) =>
from(db:db) |> range(start:start, stop:stop) |> filter(fn: predicate) |> group(by:[tag]) // get the distinct values for the tag |> distinct(column:tag) // collapse all tables into one |> group(none:true) // drop all columns except _value |> keep(columns: ["_value"])

from(db:db) |> range(start:start, stop:stop) |> filter(fn: predicate) |> group(by:[tag]) // get the distinct values for the tag |> distinct(column:tag) // collapse all tables into one |> group(none:true) // drop all columns except _value |> keep(columns: ["_value"]) Specify default argument value to make optional

showTagValues( db:"telegraf", tag:"host", predicate: (r) => r._measurement == "redis")

Deﬁning functions that take inputs // convert all values into
floats from(db:"telegraf") |> range(start:-1h) |> filter(fn: (r) => r._measurement == "foo") |> map(fn: (r) => float(v:r._value))

floats from(db:"telegraf") |> range(start:-1h) |> filter(fn: (r) => r._measurement == "foo") |> map(fn: (r) => float(v:r._value)) map function

floats from(db:"telegraf") |> range(start:-1h) |> filter(fn: (r) => r._measurement == "foo") |> map(fn: (r) => float(v:r._value)) ﬂoat function

floats from(db:"telegraf") |> range(start:-1h) |> filter(fn: (r) => r._measurement == "foo") |> map(fn: (r) => float(v:r._value)) only named arguments!

floats from(db:"telegraf") |> range(start:-1h) |> filter(fn: (r) => r._measurement == "foo") |> map(fn: (r) => float(v:r._value)) make this a function?

Deﬁning functions that take inputs castToFloat = (table=<-) { return
table |> map(fn: (r) => float(v:r._value)) } user deﬁned pipe forwardable function

Deﬁning functions that take inputs // calling it from(db:"telegraf") |>
range(start:-1h) |> filter(fn: (r) => r._measurement == "foo") |> castToFloat()

floats from(db:"telegraf") |> range(start:-1h) |> filter(fn: (r) => r._measurement == "foo") |> map(fn: (r) => float(v:r._value)) castToFloat = (table=<-) { return table |> map(fn: (r) => float(v:r._value)) } from(db:"telegraf") |> range(start:-1h) |> filter(fn: (r) => r._measurement == "foo") |> castToFloat()

Any pipe forward function can use arguments min(table: range(start: -1h,
table: filter(fn: (r) => r.host == "server0", table: from(db: "mydb"))))

Make you a Lisp

New Query Functionality ﬁnally getting to those feature requests!

Math across measurements foo = from(db: "mydb") |> filter(fn: (r)
=> r._measurement == "foo") |> range(start: -1h) bar = from(db: "mydb") |> filter(fn: (r) => r._measurement == "bar") |> range(start: -1h) join( tables: {foo:foo, bar:bar}, on: [“foobar”, “_time”], fn: (t) => t.foo._value + t.bar._value, ) |> yield(name: "foobar")

Shareable

Imports and Namespaces import "math" from(db:"mydb") |> filter(fn: (r) =>
r.host == "server0") |> range(start: -1h) |> math.square()

Imports and Namespaces import "math" from(db:"mydb") |> filter(fn: (r) =>
r.host == "server0") |> range(start: -1h) |> math.square() namespace

Package Manager

Imports and Namespaces import “pauldix/math" from(db:"mydb") |> filter(fn: (r) =>
r.host == "server0") |> range(start: -1h) |> math.square() Username like RubyGems

Public Package Repository (like RubyGems, npm, etc.)

Imports and Namespaces import “github.com/pauldix/math” from(db:"mydb") |> filter(fn: (r) =>
r.host == "server0") |> range(start: -1h) |> math.square() Or from Github

Difﬁcult SQL Queries

Exponential Moving Average from(db:"telegraf") |> range(start:-1h) |> filter(fn: (r) =>
r._measurement == "foo") |> exponentialMovingAverage(size:-10s)

SQL rolling average select id, temp, avg(temp) over (partition by
group_nr order by time_read) as rolling_avg from ( select id, temp, time_read, interval_group, id - row_number() over (partition by interval_group order by time_read) as group_nr from ( select id, time_read, 'epoch'::timestamp + '900 seconds'::interval * (extract(epoch from time_read)::int4 / 900) as interval_group, temp from readings ) t1 ) t2 order by time_read;

Wrap up

Get the nightlies! InﬂuxDB, Flux, Chronograf http://inﬂuxdata.com/download

Get the code, ﬁle issues! https://github.com/inﬂuxdata/platform

SQL is a great thing

But it’s not the only thing

Thank you Paul Dix @pauldix paul@inﬂuxdata.com

Flux (#fluxlang): a new (time series) data scri...

Flux (#fluxlang): a new (time series) data scripting language

More Decks by Paul Dix

Other Decks in Technology

Featured

Transcript