Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Verteilte Dateisysteme

Verteilte Dateisysteme

Was sind verteilte Dateisysteme und wie funktionieren sie im Prinzip?

Wolfgang Stief

July 08, 2004
Tweet

More Decks by Wolfgang Stief

Other Decks in Technology

Transcript

  1. 1/17 P i ? Einf¨ uhrungsaufwand von Filesystemen f¨ ur

    virtualisierte parallele Datenbanken best Systeme GmbH, Unterf¨ ohring Wolfgang Stief [email protected] Dipl.-Ing. (FH) Systemingenieur Unix 2004-07-08 GIMS Zugspitze
  2. 2/17 P i ? Agenda Verteilte Dateisysteme im SAN Virtualisierung

    von Plattenkapazit¨ at Anwendung im richtigen Leben? Einf¨ uhrungsaufwand?
  3. 3/17 P i ? Motivation • große bis sehr große

    Datenbanken • mehr Daten in k¨ urzerer Zeit • Gridcomputing, horizontal scaling • m¨ oglichst geringer Administrationsaufwand bei maximaler Leistung • brachliegende Disk-Kapazit¨ aten
  4. 4/17 P i ? Von SCSI zu Fiber Channel •

    SCSI hat Bus-Topologie, also potentiell Zugriffskonflikte m¨ oglich. • SCSI ist nicht vorgesehen f¨ ur mehrere Hosts an einem Bus. • SCSI ist nicht vorgesehen f¨ ur große Entfernungen (>25m). • SAN erlaubt Vernetzung von Hosts mit Storage. • Zeitgleicher Zugriff von Hosts auf gleiches Stora- ge wird prinzipiell m¨ oglich. • SAN hat Switch-Topologie, dadurch strukturierte Verkabelung und kurze Latenzzeiten m¨ oglich. FC-Switch FC-Fabric host1 host2 host3
  5. 5/17 P i ? Einschr¨ ankung von SANs? Problem: Bisherige

    Filesysteme sind exklusiv (NTFS, ufs, ext2, ext3, ReiserFS, VxFS, JFS etc.) ⇒ kein konkurrierender Read/Write Zugriff auf gleiche Datenbasis m¨ oglich. ⇒ Shared Data muss durch (langsames) Netz. L¨ osung: Einsatz von verteilten Filesystemen mit Multiple Writer Funktion. Beispiele: Sun QFS (homogen, Solaris), IBM GPFS (Linux + AIX), RedHat GFS (Linux, GPL), Oracle OCFS (Linux, GPL), IBM SAN-FS (heterogen), ADIC StorNext Filesystem (heterogen)
  6. 6/17 P i ? Wie funktioniert ein verteiltes Dateisystem? host1

    host2 host3 mdc FC Fabric 10/100/1000 MBit Ethernet 1/2 GBit Fiber Channel Meta Data LUN Windows Linux Solaris • Request ¨ uber TCP/IP an Metadata Controller (MDC). • Read/Write ¨ uber FCP + SAN direkt auf Storage.
  7. 7/17 P i ? Verteilte Filesysteme – Implementierung Application VFS

    (Unix) ufs vxfs qfs sanfs ntfs fat32 vxfs fat16 IFS (Windows) ext3 sanfs Device Drivers: SCSI / FCP / iSCSI etc. Userland Kernel Space
  8. 8/17 P i ? Verteilte Filesysteme – Pro und Contra

    Pro + breitbandiger Zugriff von allen angeschlossenen Hosts auf das Storage + einheitliche Sicht auf Daten + Trennung von Daten und Metadaten ⇒ schnelles Filesystem Contra − erh¨ ohter Aufwand f¨ ur Infrastruktur − kein natives Filesystem ⇒ wom¨ oglich Probleme mit Betriebssystemwerkzeugen (dump, fsck u. ¨ a.)
  9. 9/17 P i ? Agenda Verteilte Dateisysteme im SAN Virtualisierung

    von Plattenkapazit¨ at Anwendung im richtigen Leben? Einf¨ uhrungsaufwand?
  10. 10/17 P i ? Storage Virtualisierung – Prinzip • Plattensubsysteme

    werden vollst¨ andig von Hosts entkoppelt. • Kein direkter Zugriff von Host auf phy- sikalische Disk. • Virtualization Engine kann in Software oder Hardware realisiert sein. FC Fabric 10/100/1000 MBit Ethernet FC Fabric Virtualization Engine host1 Windows host2 Solaris host3 Linux host4 HP-UX host5 AIX 1/2 GBit FC 1/2 GBit FC
  11. 11/17 P i ? Storage Virtualisierung – Features • Storage

    Pooling ( ” Da rotieren doch auch noch ein paar Gigabytes unbenutzt rum!“) • Vergabe von Policies ( ” Welche Daten kommen in welchen Topf?“) • Volume Management ¨ uber Rechner- und Storage-Grenzen hinweg • zentrale – m¨ oglicherweise einheitliche – Verwaltung heterogener Storage-Systeme (Sun, HDS, IBM, HP, EMC2. . . ) • LAN-less Backup u. Restore • Block Level Snapshots und Remote Mirrors, auch wenn Disk-Subsysteme sowas nicht origin¨ ar bieten
  12. 12/17 P i ? Storage Virtualisierung – Pro und Contra

    Pro + einfachere Administration + verbesserte Nutzung der Ressourcen + h¨ ohere Durchs¨ atze durch RAID-Striping + LAN-less od. sogar Server-less Backup Contra − erh¨ ohter Administrationsaufwand − wenig Einfluß auf Datenlokation − langsamstes Kettenglied kann Gesamtperformance ausbremsen − hohe Initialkosten
  13. 13/17 P i ? Agenda Verteilte Dateisysteme im SAN Virtualisierung

    von Plattenkapazit¨ at Anwendung im richtigen Leben? Einf¨ uhrungsaufwand?
  14. 14/17 P i ? Storage Virtualisierung – Wer macht sowas?

    Oracle: ASM – Automatic Storage Management • Verwaltet Disks in verteilter Umgebung • Vergr¨ oßern der Speicherkapazit¨ at durch einfaches Zuf¨ ugen von physikalischen Disks • automatisches Loadbalancing – Daten werden nach Zuf¨ ugen von Disks im Hintergrund neu verteilt • k¨ ummert sich selbst¨ andig um Mirroring • Bestandteil von Oracle 10g • f¨ ur Mainframer ist das nat¨ urlich ein sehr alter Hut :-)
  15. 15/17 P i ? Agenda Verteilte Dateisysteme im SAN Virtualisierung

    von Plattenkapazit¨ at Anwendung im richtigen Leben? Einf¨ uhrungsaufwand?
  16. 16/17 P i ? Einf¨ uhrungsaufwand? • Umdenken erforderlich •

    wesentlicher Eingriff in bestehende Infrastruktur • u. u. relativ hohe Initialkosten • Zeitaufwand zur Datenmigration • ggf. mehrere Zwischenschritte notwendig, wenn alte Plattensysteme zuk¨ unftig in Virtua- lisierung einbezogen werden sollen