Datenbank am Limit – Spaltenorientierung als Ausweg

Michael Wittig | tecRacer Datenbank am Limit Spaltenorientiert als Ausweg

SELECT Datum, … FROM … WHERE Symbol='Daimler' AND Datum>=2015.01.01 AND
Zeit BETWEEN 11:00:00 AND 13:00:00 GROUP BY Datum

1. Domäne „Finanzmarkt“ 3. spaltenorientierte Datenbank kdb+ 4. echtzeit Datenbank
kdb+tick 2. (On-Disk) Repräsentation von Daten

Was sind Finanzmarktdaten?

Zeit Käufer Verkäufer 11:00:00.000 11:00:00.009 11:00:00.025 11:00:00.207 11:00:00.555 11:00:00.873 5000
@ 84,81 4700 @ 84,81 1000 @ 84,82 7000 @ 84,81 2000 @ 84,81 1500 @ 84,81 500 @ 84,82 200 @ 84,82 900 @ 84,83 800 @ 84,82 200 @ 84,82 100 @ 84,82 Daimler Aktie sortiert, unregelmäßig

Zeitreihen Was sind Finanzmarktdaten? Tick-Daten

Volumen?

durchschnittlich 5 Quotes / Sekunde Daimler Aktie maximal 200 Quotes
/ Sekunde

Aktie Börse x10 Derivate Optionen x100 Futures x5 Index x3
Ändert sich der Quote…

append only

On-Disk Repräsentation Wie speichert meine Datenbank die Daten?

zeilenorientierter Ansatz Zeit Käufer Verkäufer Lokalität

Record Disk BSON Padding http://docs.mongodb.org/manual/core/storage/

Page Disk http://www.postgresql.org/docs/9.4/static/storage-page-layout.html Tuple Page Header Free Space

Wir bauen eine zeilenorientierte Datenbank

Einschränkung: Sortiert nach Zeit

Tabelle => Ordner

Zeile => Datei

/Datenbank /Daimler_Quotes /1.dat /2.dat /3.dat /4.dat /5.dat

/Datenbank /Daimler_Quotes /1.dat /2.dat /3.dat /4.dat /5.dat SELECT Käufer_Preis FROM
Daimler_Quotes WHERE Zeit>10:00:00

/Datenbank /Daimler_Quotes /123.dat SELECT Käufer_Preis FROM Daimler_Quotes WHERE Zeit>10:00:00 Zeit
10:00:03 Käufer_Menge 7000 Käufer_Preis 84,81 Verkäufer_Menge 84,82 Verkäufer_Preis 1000 > 10:00:00 Binäre Suche über alle Dateien *.dat

/Datenbank /Daimler_Quotes /1.dat /2.dat /3.dat /4.dat /5.dat SELECT Käufer_Preis FROM
Daimler_Quotes WHERE Zeit>10:00:00 /Datenbank /Daimler_Quotes /124.dat /125.dat /126.dat /127.dat /… Lese alle Dateien ab 124.dat

Daten Volumen gelesen ~ 90 %

spaltenorientierter Ansatz Zeit Käufer Verkäufer Lokalität

Wir bauen eine spaltenorientierte Datenbank

Einschränkung: Sortiert nach Zeit

Tabelle => Ordner

Spalte => Datei

/Datenbank /Daimler_Quotes /Zeit.dat /Käufer_Menge.dat /Käufer_Preis.dat /Verkäufer_Menge.dat /Verkäufer_Preis.dat

/Datenbank /Daimler_Quotes /Zeit.dat /Käufer_Menge.dat /Käufer_Preis.dat /Verkäufer_Menge.dat /Verkäufer_Preis.dat SELECT Käufer_Preis FROM
Daimler_Quotes WHERE Zeit>10:00:00

/Datenbank /Daimler_Quotes /Zeit.dat SELECT Käufer_Preis FROM Daimler_Quotes WHERE Zeit>10:00:00 Zeile
Daten … 120 09:59:51 121 09:59:57 123 10:00:03 124 10:00:12 … > 10:00:00 Binäre Suche über eine Datei Zeit.dat sortiert

/Datenbank /Daimler_Quotes /Käufer_Preis.dat SELECT Käufer_Preis FROM Daimler_Quotes WHERE Zeit>10:00:00 Zeile
Daten 123 84,81 124 84,82 125 84,82 126 84,81 127 84,80 … Lese eine Datei Käufer_Preis.dat erst ab Zeile 123

Daten Volumen gelesen ~ 25 %

Optimierung?

Partition => Ordner

/DaimlerQuotes /2015-01-01 /Zeit.dat, Käufer_Preis.dat, … /2015-01-02 /Zeit.dat, Käufer_Preis.dat, … /2015-01-03

/DaimlerQuotes /2015-01-01 /Zeit.dat, Käufer_Preis.dat, … /2015-01-02 /Zeit.dat, Käufer_Preis.dat, … /2015-01-03
SELECT Käufer_Preis FROM DaimlerQuotes WHERE Datum=2015-01-02 AND Zeit>10:00:00

spaltenorientierte Vorteile • nur benötigte Partitionen lesen • nur benötigte
Spalten lesen • Sortierung ausnutzen

Spalte => Array

„The layout of data structures in memory can have a
signiﬁcant impact on performance because of the architecture of caches in modern processors.“ Evolution and Practice: Low-latency Distributed Applications in Finance, ACM Queue, Volume 13, issue 4 http://queue.acm.org/detail.cfm?ref=rss&id=2770868

http://www.benstopford.com/2015/04/28/elements-of-scale-composing-and-scaling-data-platforms/

Wie verarbeiten die größten Finanzinstitute der Welt Zeitreihen?

Was ist kdb+? • In-Memory Datenbank mit Persistenzschicht • Spaltenorientiert
• Abfragesprache Q oder Q-SQL • Daten liegen im Speicher, in Transit und auf Festplatte im selben Format vor

select max kauf_preis by datum from quotes where symbol=`Daimler datum
| kauf_preis ———————————————————————— 2015-01-02 | 75,57 2015-01-03 | 74,81 2015-01-04 | 76,13

Was kdb+ nicht ist • transaktional • 100% SQL kompatibel
• weit verbreitet

Echtzeit und Historie

kdb+tick Quote Pub/Sub System aktueller Tag Historie (< aktueller Tag)
00:00:00

Tickerplant • Setzen eines Zeitstempels: garantiert Sortierung • Speichern der
Daten in einem Logﬁle • Publish/Subscribe Mechanismus • Initiierung des Endofday Events beim wechseln des Tages (00:00:00 Uhr) • Input: 100.000 Werte / Sekunde (1 Thread)

Chains Quote 10 Sekunden Aggregation 15 Minuten Aggregation Tages Volumen
Tages Hoch/Tief Konsument

Echtzeit Datenbank • subskribiert beim Start alle Daten bei der
tp • liest das aktuelle Logﬁle ein • hält alle Daten des aktuellen Tages im Speicher • persistiert alle Daten des Tages auf Platte bei Endofday Event

Historische Datenbank • beinhaltet alle Daten, die älter als der
aktuelle Tag sind

http://kx.com kostenlose 32 bit Testversion

Unter allen Tweets zu #AWSinAction wird ein eBook verlost! https://manning.com/wittig
39% Rabatt Code ctwittage

Michael Wittig [email protected] SaaS Zeitreihendatenbank TimeSeries.Guru @hellomichibye michaelwittig michaelwittig

Alternativen?

Amazon Redshift Amazon Kinesis

Datenbank am Limit – Spaltenorientierung als A...

Datenbank am Limit – Spaltenorientierung als Ausweg

More Decks by Michael Wittig

Other Decks in Programming

Featured

Transcript