#9 Dans les coulisses de Google BigQuery

2/35 Qui suis-je ? Aurélie Vache Développeuse Full Stack chez
@aurelievache

3/35 “Big Data” != “Hadoop”

GFS MapReduce BigTable 2004 2008 2012 Dremel Colossus BigQuery Google
et la révolution Big Data 2002 2006 2010 2015 DatalabBeta 4/35

5/35 • AaaS (Analytics as a Service) • stocker, analyser,
exécuter des requêtes sur des grands volumes de données et partager ses données structurées Qu’est ce que BigQuery ?

6/35 Qu’est ce que BigQuery ?

7/35 Pourquoi utiliser BigQuery ? - SLA 99.9% - Pas
de coût de serveurs, d'opération et de maintenance - Infrastructure de Google - Moins complexe écosystème Hadoop - BigQuery SQL

8/35 Pourquoi utiliser BigQuery ? - Scalabilité - Rapide -
“Pay only for what you use” - Requêtes synchrones et asynchrones - Facilité d’interconnexion avec outils tierces

9/35 Inconvénients/Limitations : - “ Append-only tables ” - Latences
réseau possibles - Performant sur des énormes tables (Go, To, Po), moins sur de petites tables - Les données doivent être structurées

Dans quel cas l’utiliser ? 10/35

11/35 Quotas : Requêtes • 20 000 req/jour • 100
To données 10 000 lignes insérées /sec / table Streaming Chargement • 1 000 jobs /table / jour • 10 000 jobs /projet /jour • ...

12/35 Coûts : Gratuit : Chargement des données + Export
des données + tables lues + copies de tables + données dans le cache. Requêtes 5$ par To de requêtes 0,01$ pour 200 Mo Stockage Insertion 0,020$/Go/mois

13/35 Architecture technique : 1. BDD orientée colonne

14/35 Architecture technique : 2. Architecture en arbre

15/35 Architecture technique > Résultats :

16/35 Composants Project (billing, top-level container) Dataset (organization, access control)
Job (query, import, export, copy) Table (data with schema) <project>:<dataset>.<table_name>

17/35 Composants > Table Ex de schéma : date:TIMESTAMP,cid:INTEGER,cl,toto,titi,uid:INTEGER Type
de données possible : string, integer, float, boolean, timestamp et record (nested / repeatable).

18/35 Comment charger vos données ?

19/35 Comment charger vos données ?

20/35 L’API REST

21/35 Exemple en JAVA : // insert data List<TableDataInsertAllRequest.Rows> rowList
= new ArrayList<TableDataInsertAllRequest.Rows>(); rowList.add(new TableDataInsertAllRequest.Rows() .setInsertId(""+System.currentTimeMillis()) .setJson(new TableRow().set("adt", null))); TableDataInsertAllRequest content = new TableDataInsertAllRequest().setRows(rowList); TableDataInsertAllResponse response = bigquery.tabledata().insertAll( PROJECT_NUMBER, DATASET_ID, TABLE_ID, content).execute(); System.out.println("kind="+response.getKind()); System.out.println("errors="+response.getInsertErrors()); System.out.println(response.toPrettyString());

22/35 Connecteurs :

23/35 Fonctions intéressantes : - TOP - TABLE_DATE_RANGE - REGEXP_MATCH
/ REGEXP_REPLACE / REGEXP_EXTRACT BigQuery SQL : Variante de l’instruction SELECT SQL standard

24/35 Demo Time !

25/35 Visualisation et BI ETL Third-party tools : Connecteurs

26/35 Performances :

27/35 Ils utilisent BigQuery

28/35 État des lieux - Cluster Hadoop : - 12
serveurs sous Cloudera Manager v4.6 et CDH 4.3.0 - Facturation de l'électricité pour une dizaine de serveurs : environ 2 000 kilowatt heure / semaine : soit une centaine d'euros par mois - Coût hardware - Coût opérationnel - Évènement : Changement et réduction d’équipe

29/35 - Coût hardware : 0 € - Coût opé
: 0 € Passage à Google BigQuery :

30/35 Utilisation :

31/35 - Bien structurer ses données - Split by date
- Utiliser le query cache - Setter une date d’expiration lors de la création de la table Astuces/Tips :

32/35 - Attention aux jointures - Possibilité de partager un
dataset/des rows à des collaborateurs - Format date : UTC ! - Ne pas utiliser l'instruction SELECT * FROM Astuces/Tips :

33/35 - BigQuery : https://cloud.google.com/bigquery/ - SLA : https://cloud.google.com/bigquery/sla -
Quotas : https://cloud.google.com/bigquery/quota-policy - Prix : https://cloud.google.com/bigquery/#pricing - Pricing calculator : https://cloud.google.com/products/calculator/ - SQL : https://cloud.google.com/bigquery/query-reference Liens

34/35 Pour aller plus loin ...

35/35 SELECT questions FROM meetup:TDS.bigquery

#9 Dans les coulisses de Google BigQuery

#9 Dans les coulisses de Google BigQuery

More Decks by Toulouse Data Science

Other Decks in Programming

Featured

Transcript