Datenbank am Limit: spaltenorientiert als Ausweg

Datenbank am Limit: spaltenorientiert als Ausweg Architektur eines Tick-Data-Systems zur
Finanzmarktdaten-Analyse

Was sind Finanzmarktdaten?

Zeit Käufer Verkäufer 11:00:00.000 11:00:00.009 11:00:00.025 11:00:00.207 11:00:00.555 11:00:00.873 5000
@ 84,81 4700 @ 84,81 1000 @ 84,82 7000 @ 84,81 2000 @ 84,81 1500 @ 84,81 500 @ 84,82 200 @ 84,82 900 @ 84,83 800 @ 84,82 200 @ 84,82 100 @ 84,82 Daimler Aktie unregelmäßig

Zeitreihen Was sind Finanzmarktdaten? Tick-Daten

Volumen?

durchschnittlich 5 Quotes / Sekunde Daimler Aktie maximal 200 Quotes
/ Sekunde

Aktie Börse x10 Derivate Optionen x100 Futures x5 Index x3
Ändert sich der Quote…

On-Disk Repräsentation Wie speichert meine Datenbank die Daten?

Record Disk BSON Padding http://docs.mongodb.org/manual/core/storage/

Page Disk http://www.postgresql.org/docs/9.4/static/storage-page-layout.html Tuple Page Header Free Space

zeilenorientierter Ansatz Zeit Käufer Verkäufer Lokalität

Wir bauen eine zeilenorientierte Datenbank

Einschränkung: Sortiert nach Zeit

Tabelle => Ordner

Zeile => Datei

/Datenbank /Daimler_Quotes /1.dat /2.dat /3.dat /4.dat /5.dat

/Datenbank /Daimler_Quotes /1.dat /2.dat /3.dat /4.dat /5.dat SELECT Käufer_Preis FROM
Daimler_Quotes WHERE Zeit>10:00:00

/Datenbank /Daimler_Quotes /123.dat SELECT Käufer_Preis FROM Daimler_Quotes WHERE Zeit>10:00:00 Zeit
10:00:03 Käufer_Menge 7000 Käufer_Preis 84,81 Verkäufer_Menge 84,82 Verkäufer_Preis 1000 > 10:00:00 Binäre Suche über alle Dateien *.dat

/Datenbank /Daimler_Quotes /1.dat /2.dat /3.dat /4.dat /5.dat SELECT Käufer_Preis FROM
Daimler_Quotes WHERE Zeit>10:00:00 /Datenbank /Daimler_Quotes /124.dat /125.dat /126.dat /127.dat /… Lese alle Dateien ab 124.dat

Daten Volumen gelesen ~ 90 %

Optimierung?

/Datenbank /Daimler_Quotes /1-100.dat /101-200.dat /201-300.dat /301-400.dat /401-500.dat

spaltenorientierter Ansatz Zeit Käufer Verkäufer Lokalität

Wir bauen eine spaltenorientierte Datenbank

Einschränkung: Sortiert nach Zeit

Tabelle => Ordner

Spalte => Datei

/Datenbank /Daimler_Quotes /Zeit.dat /Käufer_Menge.dat /Käufer_Preis.dat /Verkäufer_Menge.dat /Verkäufer_Preis.dat

/Datenbank /Daimler_Quotes /Zeit.dat /Käufer_Menge.dat /Käufer_Preis.dat /Verkäufer_Menge.dat /Verkäufer_Preis.dat SELECT Käufer_Preis FROM
Daimler_Quotes WHERE Zeit>10:00:00

/Datenbank /Daimler_Quotes /Zeit.dat SELECT Käufer_Preis FROM Daimler_Quotes WHERE Zeit>10:00:00 Zeile
Daten … 120 09:59:51 121 09:59:57 123 10:00:03 124 10:00:12 … > 10:00:00 Binäre Suche über eine Datei Zeit.dat sortiert

/Datenbank /Daimler_Quotes /Käufer_Preis.dat SELECT Käufer_Preis FROM Daimler_Quotes WHERE Zeit>10:00:00 Zeile
Daten 123 84,81 124 84,82 125 84,82 126 84,81 127 84,80 … Lese eine Datei Käufer_Preis.dat erst ab Zeile 123

Daten Volumen gelesen ~ 25 %

Optimierung?

Partition => Ordner

/DaimlerQuotes /2015-01-01 /Zeit.dat, Käufer_Preis.dat, … /2015-01-02 /Zeit.dat, Käufer_Preis.dat, … /2015-01-03

/DaimlerQuotes /2015-01-01 /Zeit.dat, Käufer_Preis.dat, … /2015-01-02 /Zeit.dat, Käufer_Preis.dat, … /2015-01-03
SELECT Käufer_Preis FROM DaimlerQuotes WHERE Datum=2015-01-02 AND Zeit>10:00:00

spaltenorientierte Vorteile • nur benötigte Partitionen lesen • nur benötigte
Spalten lesen • Sortierung ausnutzen

Wie analysieren die größten Finanzinstitute der Welt Zeitreihen?

Was ist kdb+? • Implementiert in Q bzw. K •
In-Memory Datenbank mit Persistenzschicht • Daten liegen sowohl im Speicher als auch auf Festplatte im gleichen Format vor • Spaltenorientiert • Abfragesprache Q oder Q-SQL • Optimierter Zugriff auf Festplatten

1+2 => 3 sum 1 2 3 => 6 (1
2 3 4 5)+1 => (2 3 4 5 6) (1 2 3)+(4 5 6) => (5 7 9) sums 1 2 3 4 5 6 => 1 3 6 10 15 21

for(…) while(…)

select max kauf_preis by datum from quotes where symbol=`Daimler datum
| kauf_preis ———————————————————————— 2015-01-02 | 75,57 2015-01-03 | 74,81 2015-01-04 | 76,13

Was kdb+ nicht ist • Keine Stored Procedures vs Application
Server Abwägungen: Code nahe an die Daten • Keine Verluste durch (De)Serialisierung beim Transport zwischen Datenbank und Applikation durch "spezielles" Format • Keine ORM Probleme • Keine Universal-Datenbank

Echtzeit und Historie

kdb+tick Quote Pub/Sub System aktueller Tag Historie (< aktueller Tag)
00:00:00

Tickerplant • Setzen eines Zeitstempels: garantiert Sortierung • Speichern der
Daten in einem Logﬁle • Publish/Subscribe Mechanismus • Initiierung des Endofday Events beim wechseln des Tages (00:00:00 Uhr) • Input: 100.000 Werte / Sekunde (1 Thread)

Chains Quote 10 Sekunden Aggregation 15 Minuten Aggregation Tages Volumen
Tages Hoch/Tief Konsument

Echtzeit Datenbank • subskribiert beim Start alle Daten bei der
tp • liest das aktuelle Logﬁle ein • hält alle Daten des aktuellen Tages im Speicher • persistiert alle Daten des Tages auf Platte bei Endofday Event

Historische Datenbank • beinhaltet alle Daten, die älter als der
aktuelle Tag sind

Performance

Szenario • 1 Billion Datensätze • Maschine: 16 Core Intel
E5, 256 GB RAM

Speicherplatz kdb+ PostgreSQL MongoDB 25 GB 150 GB 245 GB

kdb+ PostgreSQL MongoDB 18 ms 6800 ms 8900 ms Query
1

Query 2 kdb+ PostgreSQL MongoDB 12 ms 5200 ms 1700
ms

Query 3 kdb+ PostgreSQL MongoDB 36 ms 4800 ms 5800
ms

http://kx.com kostenlose 32 bit Testversion

Alternativen?

• Open Source • spaltenorientiert • seit ~1997 • SQL
2003 • Echtzeit (DataCell ) und Historie • R Integration

• Redshift • Closed Source & SaaS • spaltenorientiert •
Historie • Kinesis • Closed Source & SaaS • Echtzeit

http://manning.com/wittig Michael Wittig [email protected] SaaS Zeitreihendatenbank TimeSeries.Guru 40% Rabatt Code
cfwittigtw

Datenbank am Limit: spaltenorientiert als Ausweg

Datenbank am Limit: spaltenorientiert als Ausweg

More Decks by Michael Wittig

Other Decks in Programming

Featured

Transcript