MongoDB - Datenverteilung, aber wie?

MongoDB Datenverteilung, aber wie? Stefan Rudnitzki

_talk:ich • Stefan Rudnitzki • Job: Softwareentwickler @hypoport • „Frei“zeit:
Organisator @MUGBerlin • Java, Volltextsuche, verteilte Systeme, NoSQL, Vagrant, Puppet

_talk:ziel • Wie verteilt man Daten mit MongoDB? • Sharding!

_talk:ziel • „Weniger als 10 % der MongoDB User verwenden
Sharding“ • Ziel: Angst nehmen

_talk:agenda • Sharding • Vor-/Nachteile • Anwendungsfall • Praxis https://www.iconﬁnder.com/icons/171757/calendar_icon

Sharding

_sharding:basics • Skalierbarkeit • Dokumente über mehre Knoten verteilen •
Lese-/Schreibzugriffe optimieren

_sharding:terminologie

_sharding:terminologie • mongod (Daten) • shard (Teilmenge von Daten) shard01
mongod mongod mongod

_sharding:terminologie • mongod (Daten) • shard (Teilmenge von Daten) •
replica set (Spiegelung) shard01 mongod mongod mongod

_sharding:terminologie • mongos (Sharding Proxy) • configserver (Metadaten) configservers config01
config02 config03 mongos

_sharding:terminologie

_sharding:terminologie • sharding-key: Verteilungskriterium • chunk: Zerlegung der Daten in
Teile ?

_sharding:beispiel • Server: 1 TB, 64 GB RAM • Datenmenge:
< 950 GB, gesch. Indexgröße < 56 GB https://www.iconﬁnder.com/icons/171754/data_icon

_sharding:beispiel • Datenwachstum 2,3 TB, gesch. Indexgröße 275 GB •
Verteilungsansätze • 3 Shards (Datengröße) • 6 Shards (Indexgröße) https://www.iconﬁnder.com/icons/171754/data_icon

_sharding:funktionsweise Shard01 Shard02 Shard03 d .. u v .. z
a .. c mongos ? ? ?

a .. c mongos d u n

a .. c Balancer

_sharding:funktionsweise Shard01 Shard02 Shard03 m .. r h .. l
c .. g s .. t a .. b u .. z mongos d u n

Vor-/Nachteile https://www.iconﬁnder.com/icons/171728/settings_icon + - /

_sharding:vorteile • gegen „Last“ Skalieren • Verteilung von Lesezugriffen •
Verteilung von Schreibzugriffen • selbstdefiniertes Verteilungskriterium +

_sharding:nachteile • einmalige Definition des sharding-keys • RAM-Grenzen • Monitoring
ist wichtiger denn je • Sharding macht nicht alles schneller • Sharding macht nicht alles einfacher !

Anwendungsfall https://www.iconﬁnder.com/icons/171729/search_icon

_anwendungsfall:setup • Ausprobieren und selbst im kleinen Testen! • Testsetup
mit Vagrant/Puppet (3 mongod, mongos, configserver) • online (mit Dokumentation): https:/ /github.com/strud/vagrant- machines

_anwendungsfall:vagrant

_anwendungsfall:puppet

_anwendungsfall:daten • Wikipedia Dump • „Real World“ Daten • ~
4,4 Mio. Abstracts (3,8 GB XML)

_anwendungsfall:daten • URL • Titel (Text) • Abstract (Volltext) https://www.iconﬁnder.com/icons/171735/note_icon

_anwendungsfall:daten • Java Parser und Import • online: https:/ /github.com/strud/db_evaluation

_anwendungsfall:kandidaten • Titel • Text • unklare Verteilung

_anwendungsfall:kandidaten • künstlich, z.B. count(docs) % Anzahl Shards + Random
ID • ideale Verteilung beim Einfügen • Weitere Shards? • alternativ: _id

_anwendungsfall:kandidaten • URL • strukturiert • geeignet für Baumdatenstrukturen

_anwendungsfall:kandidaten • ab 2.4: Hashed Index • zufällig • von
MongoDB selbst erzeugt

Praxis https://www.iconﬁnder.com/icons/171728/settings_icon

_sharding:_id • Balancer sehr aktiv • sehr unbalanciert 0 750000
1500000 2250000 3000000 shard00 shard01 shard02

_sharding:titel • Balancer anfangs aktiv (Einschwingen) • unbalanciert • Titel-Queries
performant 0 500000 1000000 1500000 2000000 shard00 shard01 shard02

_sharding:url • Balancer anfangs aktiv (Einschwingen) • unbalanciert • URL
Queries performant 0 500000 1000000 1500000 2000000 shard00 shard01 shard02

_sharding:hash(titel) • kaum Balanceraktivität • (fast) ausbalanciert • max. Insertperformance
• aber: nicht alle Queries möglich 0 500000 1000000 1500000 2000000 shard00 shard01 shard02

_sharding:hash(titel) • 1.457.725 • 1.462.456 • 1.465.252 • gleichmäßig!

_talk:fazit • Sharding kann die Datenmenge eines Systems erhöhen •
Sharding könnte die Performance verbessern

_talk:fazit • hashed sharding-keys = gute Lösung für balancing, nicht
alle Abfragen werden unterstützt • selbstdefiniert = beste Performance • schlechter sharding-key = Problem

_talk:fazit • „Kenne die Daten des Systems“ • „Teste mit
realen Daten des Systems“ • „Kenne die realen UseCases!“ • „Beratersprech“? • Mut zum Ausprobieren!

Fragen? • https:/ /github.com/strud/vagrant-machines • https:/ /github.com/strud/db_evaluation • http:/ /www.meetup.com/MUGBerlin
• Twitter: @StRud2nd

http:/ /www.wordle.net

MongoDB - Datenverteilung, aber wie?

MongoDB - Datenverteilung, aber wie?

More Decks by Stefan Rudnitzki

Other Decks in Programming

Featured

Transcript