Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Introducción a Apache HBase

Introducción a Apache HBase

Charla impartida a mi equipo del Grupo de Investigación en Technologías de Bases de Datos acerca de Apache HBase

Avatar for Marcos Ortiz

Marcos Ortiz

March 21, 2013
Tweet

Other Decks in Technology

Transcript

  1. 3 Qué es HBase? Clon de Google BigTable: http://labs.google.com/papers/bigtable.html Creada

    originalmente en Powerset en 2007 SubProyecto de Apache Hadoop
  2. 4 Modelo de almacenamiento basado en columnas Es un sistema

    de almacenamiento orientado a columnas semiestructurado Distribuido sobre varios servidores Tolerante a fallos de servidores Usa HDFS como sus sistema de almacenamiento
  3. 5 Tablas y regiones Las filas son almacenadas en un

    orden det tipo byte- lexicográfico Las tablas son dinámicamente divididas en ¨regiones¨ Cada región contiene los valores desde [startKey, endKey] Las regiones son hosteadas en un RegionServer
  4. 7 Almacenamiento Piensen en un sistema de etiquetas. Los valores

    pueden ser de cualquier dimensión, no hay nombres predefinidos o tamaños
  5. 8 Familia de columnas Las tablas estás compuestas por 1

    o más Columns Families (CF), que no son más que unidades para la optimización del rendimiento
  6. 9

  7. 10 Almacenamiento create 'crash_report_signatures', {NAME => 'counters', COMPRESSION => 'LZO',

    VERSIONS => '1', TTL => '2147483647', BLOCKSIZE => '65536', IN_MEMORY => 'false', BLOCKCACHE => 'true'}, {NAME => 'json', COMPRESSION => 'LZO', VERSIONS => '3', TTL => '2147483647', BLOCKSIZE => '65536', IN_MEMORY => 'false', BLOCKCACHE => 'true'}
  8. 12 Quién usa HBase? 110 TB en HDFS ~ 40

    TB en HBase 2300 crash p/min > 120 servidores físicos
  9. 13 Quién usa HBase? +30 Billones de eventos de +

    10 Millones de usuarios + 10 años de datos (clínicos, financieros, operacionales)
  10. 14 Quién usa HBase? OpenTSDB: sistema desarrollado para el monitoreo

    de todos los servicios y servidores en SU ~ 6 TB en HBase para las métricas >100 TB en otro cluster de HBase para el sistema de recomendación Emplean a varios de los HBase commiters
  11. 16 Desarrollo futuro de HBase * Apache Hadoop 2.0: HA

    NameNode, no más SPOF para HBase * Failover automático para HA Namenodes (HDFS-3042) * Pistas para el copiado de bloques de forma específica (HBASE-4755) * Hard links para HDFS (HDFS-3370): Permitirá el clonado y snapshots de tablas eficientemente
  12. 17 Contactos Todd Lipcon (Cloudera) Lars George (Cloudera) Michael Stack

    (StumbleUpon) Jean-Daniel Cryans (StumbleUpon) Nicolas Spiegelberg (Facebook) Jonathan Grey (Former VP of Data Engineering Team at Facebook, Founder at Continuuity) Andrew Purtell (Trend Micro) Lars Hofhansl (Salesforce.com) Doug Meil (CTO at Explorys)
  13. 19 Recursos HBase at Explorys: How Big Data saved lives:

    http://www.slideshare.net/cloudera/from-big-data-to-lives-saved-hbase-in-heathca HBase and HDFS: Past, Present and Future por Todd Lipcon: http://www.slideshare.net/cloudera/1-todd-lipcon-past-present-futurepdf Powered by HBase's list: http://wiki.apache.org/hadoop/Hbase/PoweredBy