Slide 1

Slide 1 text

1 Introducción a HBase Marcos Ortiz [email protected] @marcosluis2186

Slide 2

Slide 2 text

2 El auge del NoSQL

Slide 3

Slide 3 text

3 Qué es HBase? Clon de Google BigTable: http://labs.google.com/papers/bigtable.html Creada originalmente en Powerset en 2007 SubProyecto de Apache Hadoop

Slide 4

Slide 4 text

4 Modelo de almacenamiento basado en columnas Es un sistema de almacenamiento orientado a columnas semiestructurado Distribuido sobre varios servidores Tolerante a fallos de servidores Usa HDFS como sus sistema de almacenamiento

Slide 5

Slide 5 text

5 Tablas y regiones Las filas son almacenadas en un orden det tipo byte- lexicográfico Las tablas son dinámicamente divididas en ¨regiones¨ Cada región contiene los valores desde [startKey, endKey] Las regiones son hosteadas en un RegionServer

Slide 6

Slide 6 text

6 Tablas y regiones

Slide 7

Slide 7 text

7 Almacenamiento Piensen en un sistema de etiquetas. Los valores pueden ser de cualquier dimensión, no hay nombres predefinidos o tamaños

Slide 8

Slide 8 text

8 Familia de columnas Las tablas estás compuestas por 1 o más Columns Families (CF), que no son más que unidades para la optimización del rendimiento

Slide 9

Slide 9 text

9

Slide 10

Slide 10 text

10 Almacenamiento create 'crash_report_signatures', {NAME => 'counters', COMPRESSION => 'LZO', VERSIONS => '1', TTL => '2147483647', BLOCKSIZE => '65536', IN_MEMORY => 'false', BLOCKCACHE => 'true'}, {NAME => 'json', COMPRESSION => 'LZO', VERSIONS => '3', TTL => '2147483647', BLOCKSIZE => '65536', IN_MEMORY => 'false', BLOCKCACHE => 'true'}

Slide 11

Slide 11 text

11 Quién usa HBase?

Slide 12

Slide 12 text

12 Quién usa HBase? 110 TB en HDFS ~ 40 TB en HBase 2300 crash p/min > 120 servidores físicos

Slide 13

Slide 13 text

13 Quién usa HBase? +30 Billones de eventos de + 10 Millones de usuarios + 10 años de datos (clínicos, financieros, operacionales)

Slide 14

Slide 14 text

14 Quién usa HBase? OpenTSDB: sistema desarrollado para el monitoreo de todos los servicios y servidores en SU ~ 6 TB en HBase para las métricas >100 TB en otro cluster de HBase para el sistema de recomendación Emplean a varios de los HBase commiters

Slide 15

Slide 15 text

15 Quién usa HBase?

Slide 16

Slide 16 text

16 Desarrollo futuro de HBase * Apache Hadoop 2.0: HA NameNode, no más SPOF para HBase * Failover automático para HA Namenodes (HDFS-3042) * Pistas para el copiado de bloques de forma específica (HBASE-4755) * Hard links para HDFS (HDFS-3370): Permitirá el clonado y snapshots de tablas eficientemente

Slide 17

Slide 17 text

17 Contactos Todd Lipcon (Cloudera) Lars George (Cloudera) Michael Stack (StumbleUpon) Jean-Daniel Cryans (StumbleUpon) Nicolas Spiegelberg (Facebook) Jonathan Grey (Former VP of Data Engineering Team at Facebook, Founder at Continuuity) Andrew Purtell (Trend Micro) Lars Hofhansl (Salesforce.com) Doug Meil (CTO at Explorys)

Slide 18

Slide 18 text

18 Recursos

Slide 19

Slide 19 text

19 Recursos HBase at Explorys: How Big Data saved lives: http://www.slideshare.net/cloudera/from-big-data-to-lives-saved-hbase-in-heathca HBase and HDFS: Past, Present and Future por Todd Lipcon: http://www.slideshare.net/cloudera/1-todd-lipcon-past-present-futurepdf Powered by HBase's list: http://wiki.apache.org/hadoop/Hbase/PoweredBy

Slide 20

Slide 20 text

20 Preguntas Sugerencias Comentarios ???