My humble notes after I attended Big Data Paris 2013.
To be be able to clik links to the presentation material, download the PDF version!
I'm @OlivierChirouze on twitter.
Velocity – Variety – Visualization – Value Creation • Big volume + data crossing (external sources) • New tools and technology – Distributed database and processing – In-memory database
volume of data • Still not mature on: – Source of data – Visualization – Creating value • Big data is a priority mainly in Asia • France is lagging behind (for example UK is behind) • New roles, new jobs, new opportunities – Chief Data Officer: trendy job. Attached directly to CEO or IT dpt. Le Big Data et ses premières applications : quel bilan en tirer ? • Rappel : définition du Big Data, ce qu’il change par rapport au décisionnel actuel • Où en est-on de la mise en oeuvre ? Comment est-il vu par les dirigeants en France, en Europe et aux Etats-Unis ? Quelles sont les points de blocage ? • Le Big Data est-il un buzzword ou une réelle mutation ? Une techno IT ou une application business ? Evolution du concept et de ses interprétations en année 1 • Quels sont les secteurs qui ont prioritairement adopté le Big Data ? • Les enjeux du Big Data : enjeu économique, technologique, réglementaire, sociétal… • Préconisations pour une meilleure adoption Matteo Pacca, MC KINSEY & COMPANY, partner Presentation
China = almost only "national web sites" are used – France = 36% only of the traffic goes to French web sites • Business Intelligence = a lot of the data is declarative (= limited value) Débat sur la mise en place du Big Data : quels apports ? Quels freins ? Stéphane Grumbach, INRIA, directeur de recherche Georges Epinette, LES MOUSQUETAIRES, DSIO Jean-Baptiste Dézard, IBM, directeur Marketing Software Christophe Baroux, GOOGLE, Sales & Business Development Manager, Southern Europe • Main goal: to transform non-structured data into structured data. Les données du Big Data, une matière hétéroclite et réellement nouvelle ? • De quelle(s) donnée(s) parle-t-on ? Donnée structurée, non structurée, multistructurée… comment définir les données du Big Data ? • L’origine de ces données : d’où viennent-elles ? Donnée qualitative vs. Donnée quantitative Xavier Gréhant, DASSAULT SYSTEMS, R&D Product Manager EXALEAD Sébastien Lefebvre, MESAGRAPH, CEO Presentation Presentation
providing some kind of Master Data Management (MDM) on multiple data sources (ex: Facebook, Ebay, Foursquare etc). – Aggregation – data quality – public (basic) data. Ex: product description, customer address • Externalize your MDM and add external sources. • Benefits: data can be consolidated across multiple customers. Focus sur les data markets • Les data markets, un secteur en explosion Eva Ho, FACTUAL, VP Marketing and Operations Presentation
shape of (data value / data size) • New solutions – New horizontal scale – Very large sequential reads in parallel – Allows for change and fails – No fixed database schema (ex: JSON format) • Everything turns around Apache Hadoop Map Reduce – computational framework + File System Comprendre l’univers Hadoop – Open Source et offres éditeurs • Histoire d’Hadoop et de son adoption • La plateforme Open Source : avantages/inconvénients. Quelles sont les statistiques d’utilisation ? • Quelle offre proposer à partir d’Hadoop ? Grands critères de choix • Hive, HBase, Pig, R,... Les déclinaisons de l'écosystème Hadoop • L’interopérabilité avec les architectures existantes Ted Dunning, MAPR, Chief Application Architect Presentation
Cascading: providing SQL-like levels – Hbase: Key-value storage – Talend: Tools for developers – OpenNLP, Carrot: Search languages • Moving into a distributed DB architecture: – Scripts must be able to scale out horizontally – don't try to just "translate" standard procedures into Hadoop procedures, would probably fail improving performance (has to be re-thought to run parallel)
move it to SQL databases • NoSQL have been made for clustering from the start La perspective NoSQL et ses liens avec Hadoop • NoSQL, Hadoop: pourquoi les associe-t-on? Fonctionnent-ils l'un sans l'autre? • Spécificités du système NoSQL et objectifs Tugdual Grall, COUCHBASE, Technical Evangelist Presentation Application Data Data T Application Data T T T T T T T T T T T T
• Up to 16 nodes of 512Gb in RAM = 8To storing + compression up to x7 • Disk backup in case of incident • Quite impressive… on paper Le traitement in-memory, mythe et réalité • Fonctionnement du traitement in-memory • Résultats obtenus, performance en termes de vitesse • Les limites éventuelles de l’in-memory Jean-Michel Jurbert, SAP, Directeur de Marché solutions BI Analytiques Presentation
adapted to MDM, graph databases are more adapted • Cypher = Neo4J requesting language “based on ASCII art” • Integrated graphical representation of graphs Presentation: Neo4 START john=node:node_auto_index(name = 'John') MATCH john-[:friend]->()-[:friend]->fof RETURN john, fof • 1 million nodes visited in 1 second on a standard PC
– Estimation = 16Pb / year in 2016 – Key = VIN! – Confidentiality issues higher than standard enterprise information • New logic: – Data treatment is more and more integrated in the same logical module than data itself (Map Reduce) • You’d better take it for granted that there will be a Hadoop cluster in every company very soon! Comment faire évoluer la DSI vers le Big Data ? Témoignages et analyses. • Infrastructures de stockage : cloud, scalabilité ou augmentation fixe du volume de stockage… quelle option choisir pour votre entreprise ? • Comment mettre en place une architecture décisionnelle Big Data en limitant les changements ? Quel environnement technique ? • Le MDM à l’épreuve du Big Data : faut-il tout passer en mode Big Data ? • L’enjeu de la sécurité, pierre angulaire de la transition vers le Big Data • Le Big Data au service du Green IT : quand deux problématiques d’avenir se rejoignent… • Exemples dans des petites et grandes entreprises Matthias Herberts, CREDIT MUTUEL ARKEA,DSI Jean-Marie Messager, SOPRA GROUP, Directeur Practice BI Sébastien Verger, EMC GREENPLUM, CTO Jules-Henri Gavetti, IKOULA, Président Marion Hamacek, CATALINA MARKETING, Catalina VP IT International Jean-Louis Ghiglione, RENAULT, Responsable de la Veille Technologique et Benchmarking
All data from all black boxes are systematically downloaded after each flight! – 1000 parameters / second! • Accident prevention • Detecting weak signals, not typical patterns – Main tools will only retrieve obvious physical links! • Lessons learned: – Mix statisticians and business experts – Iterative work Customer feedback: Safety Line
• Decisions are data-driven • Decision makers should have a minimum knowledge of statistics Focus sur un nouveau personnage : le Chief Data Officer - De CIO à CDO • Missions et rôle dans l’entreprise • Existe-t-il des exemples aboutis d’intégration du CDO en entreprise ? Etat des lieux en France et à l’étranger Pierre Delort, ASSOCIATION NATIONALE DES DSI, Président
page analysis • First business context: recipe web sites and blogs • Graph database • Objective: – format information to make it usable by computers • Graph database • Impressive artificial intelligence engine Customer feedback: Chef Jerome
in France – Room for improvement: National education system • Rule of thumb: – Do not plan for what data will be useful to the public – Publish data publically, as a principle! • Limit for privacy: – By law: not allowed to publish statistical data concerning “less than x people” (minimum volume to avoid obvious identification of persons) L’Open Data, avenir du Big Data? • Qu’est-ce que l’Open Data ? En quoi se différencie-t-il du Big Data ? Quel degré d’avancement par rapport au Big Data ? • Quels sont les projets actuels et quels sont leurs objectifs ? • En quoi est-ce un segment d’avenir ? L’Open Data est-il plus porteur que le Big Data ? Romain Lacombe, ETALAB, Responsable Innovation et Développement François Lainée, CETADATA, président • Need to find a business model – Example: how to monetize mobile phone data gathered by a community of individuals? L’Internet des Objets, fantasme ou réalité ? • Du RFID à l’Internet des Objets… où en est-on dans la connectivité progressive des objets ? • Quels sont les espoirs autour de ces innovations ? Quels progrès en attendre ? • En quoi le Big Data et Internet des Objets s’entraînent-ils mutuellement ? Franck Le Gall, INNO TSD, directeur et coordinateur des projets FP7 BUTLER et PROBE-IT Alessandro Bassi, FP7 iOT-A PROJECT, Technical Co-ordinator Presentation Presentation
just created in Paris • Data is not a sub-product of applications anymore – Data is in the center • “Hadoop: as revolutionary for data treatment as Linux was for OS.” Qui est le data scientist et quel est son rôle ? • Profil et formation : quelles qualités doit-il réunir ? • Compétences métiers : quel est son rôle dans l’entreprise ? • Quelles compétences acquérir pour un spécialiste "traditionnel" du décisionnel ? • Le recrutement des data scientists : où les trouver ? y’a-t-il un manque de ressources ? Arnaud Laroche, BLUESTONE, associé Stéphan Clémençon, TELECOM PARISTECH, Professeur Stéphane Tufféry, ENSAI, Professeur Jacques Froissant, ALTAIDE, CEO
Internet of things – Open data – Mobile phones / always connected – Make data volume a strength, not a constraint • Value driven – Crossing data from multiple sources – Data-driven decisions – Data visualization • Velocity – New technology, tools, architecture • Graph databases • Distributed databases and procedures IBM: “90% of current world data has been created in the last 2 years”