Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Big Data Paris 2013 - my feedback

Big Data Paris 2013 - my feedback

My humble notes after I attended Big Data Paris 2013.
To be be able to clik links to the presentation material, download the PDF version!
I'm @OlivierChirouze on twitter.

Olivier Chirouze

May 28, 2013
Tweet

Other Decks in Programming

Transcript

  1. • 3 & 4 april 2013 – Conferences – Customer

    workshops – IT providers stalls
  2. • New constraints and strengths: the “5Vs” – Volume –

    Velocity – Variety – Visualization – Value Creation • Big volume + data crossing (external sources) • New tools and technology – Distributed database and processing – In-memory database
  3. • MDM: Master Data Management – How to govern data

    • BI: Business Intelligence – How to interpret data • Data visualization – Presenting data
  4. • Focus today is on storing and managing the high

    volume of data • Still not mature on: – Source of data – Visualization – Creating value • Big data is a priority mainly in Asia • France is lagging behind (for example UK is behind) • New roles, new jobs, new opportunities – Chief Data Officer: trendy job. Attached directly to CEO or IT dpt. Le Big Data et ses premières applications : quel bilan en tirer ? • Rappel : définition du Big Data, ce qu’il change par rapport au décisionnel actuel • Où en est-on de la mise en oeuvre ? Comment est-il vu par les dirigeants en France, en Europe et aux Etats-Unis ? Quelles sont les points de blocage ? • Le Big Data est-il un buzzword ou une réelle mutation ? Une techno IT ou une application business ? Evolution du concept et de ses interprétations en année 1 • Quels sont les secteurs qui ont prioritairement adopté le Big Data ? • Les enjeux du Big Data : enjeu économique, technologique, réglementaire, sociétal… • Préconisations pour une meilleure adoption Matteo Pacca, MC KINSEY & COMPANY, partner Presentation
  5. • Where does the data come from? – US &

    China = almost only "national web sites" are used – France = 36% only of the traffic goes to French web sites • Business Intelligence = a lot of the data is declarative (= limited value) Débat sur la mise en place du Big Data : quels apports ? Quels freins ? Stéphane Grumbach, INRIA, directeur de recherche Georges Epinette, LES MOUSQUETAIRES, DSIO Jean-Baptiste Dézard, IBM, directeur Marketing Software Christophe Baroux, GOOGLE, Sales & Business Development Manager, Southern Europe • Main goal: to transform non-structured data into structured data. Les données du Big Data, une matière hétéroclite et réellement nouvelle ? • De quelle(s) donnée(s) parle-t-on ? Donnée structurée, non structurée, multistructurée… comment définir les données du Big Data ? • L’origine de ces données : d’où viennent-elles ? Donnée qualitative vs. Donnée quantitative Xavier Gréhant, DASSAULT SYSTEMS, R&D Product Manager EXALEAD Sébastien Lefebvre, MESAGRAPH, CEO Presentation Presentation
  6. • Data markets are aggregator of data. • Factual is

    providing some kind of Master Data Management (MDM) on multiple data sources (ex: Facebook, Ebay, Foursquare etc). – Aggregation – data quality – public (basic) data. Ex: product description, customer address • Externalize your MDM and add external sources. • Benefits: data can be consolidated across multiple customers. Focus sur les data markets • Les data markets, un secteur en explosion Eva Ho, FACTUAL, VP Marketing and Operations Presentation
  7. • Very interesting conference! • Big data is changing the

    shape of (data value / data size) • New solutions – New horizontal scale – Very large sequential reads in parallel – Allows for change and fails – No fixed database schema (ex: JSON format) • Everything turns around Apache Hadoop Map Reduce – computational framework + File System Comprendre l’univers Hadoop – Open Source et offres éditeurs • Histoire d’Hadoop et de son adoption • La plateforme Open Source : avantages/inconvénients. Quelles sont les statistiques d’utilisation ? • Quelle offre proposer à partir d’Hadoop ? Grands critères de choix • Hive, HBase, Pig, R,... Les déclinaisons de l'écosystème Hadoop • L’interopérabilité avec les architectures existantes Ted Dunning, MAPR, Chief Application Architect Presentation
  8. • Huge ecosystem around: – Zookeeper: coordination – Hive, Pig,

    Cascading: providing SQL-like levels – Hbase: Key-value storage – Talend: Tools for developers – OpenNLP, Carrot: Search languages • Moving into a distributed DB architecture: – Scripts must be able to scale out horizontally – don't try to just "translate" standard procedures into Hadoop procedures, would probably fail improving performance (has to be re-thought to run parallel)
  9. • Sqoop = SQL + Hadoop. Extract Hadoop data to

    move it to SQL databases • NoSQL have been made for clustering from the start La perspective NoSQL et ses liens avec Hadoop • NoSQL, Hadoop: pourquoi les associe-t-on? Fonctionnent-ils l'un sans l'autre? • Spécificités du système NoSQL et objectifs Tugdual Grall, COUCHBASE, Technical Evangelist Presentation Application Data Data T Application Data T T T T T T T T T T T T
  10. • SAP Hanna: in-memory interfacing with existing SAP BI solutions

    • Up to 16 nodes of 512Gb in RAM = 8To storing + compression up to x7 • Disk backup in case of incident • Quite impressive… on paper  Le traitement in-memory, mythe et réalité • Fonctionnement du traitement in-memory • Résultats obtenus, performance en termes de vitesse • Les limites éventuelles de l’in-memory Jean-Michel Jurbert, SAP, Directeur de Marché solutions BI Analytiques Presentation
  11. • Neo4J is a graph database • SQL is not

    adapted to MDM, graph databases are more adapted • Cypher = Neo4J requesting language “based on ASCII art” • Integrated graphical representation of graphs Presentation: Neo4 START john=node:node_auto_index(name = 'John') MATCH john-[:friend]->()-[:friend]->fof RETURN john, fof • 1 million nodes visited in 1 second on a standard PC
  12. • Renault is gathering all data from all electrical vehicles

    – Estimation = 16Pb / year in 2016 – Key = VIN! – Confidentiality issues higher than standard enterprise information • New logic: – Data treatment is more and more integrated in the same logical module than data itself (Map Reduce) • You’d better take it for granted that there will be a Hadoop cluster in every company very soon! Comment faire évoluer la DSI vers le Big Data ? Témoignages et analyses. • Infrastructures de stockage : cloud, scalabilité ou augmentation fixe du volume de stockage… quelle option choisir pour votre entreprise ? • Comment mettre en place une architecture décisionnelle Big Data en limitant les changements ? Quel environnement technique ? • Le MDM à l’épreuve du Big Data : faut-il tout passer en mode Big Data ? • L’enjeu de la sécurité, pierre angulaire de la transition vers le Big Data • Le Big Data au service du Green IT : quand deux problématiques d’avenir se rejoignent… • Exemples dans des petites et grandes entreprises Matthias Herberts, CREDIT MUTUEL ARKEA,DSI Jean-Marie Messager, SOPRA GROUP, Directeur Practice BI Sébastien Verger, EMC GREENPLUM, CTO Jules-Henri Gavetti, IKOULA, Président Marion Hamacek, CATALINA MARKETING, Catalina VP IT International Jean-Louis Ghiglione, RENAULT, Responsable de la Veille Technologique et Benchmarking
  13. • Yahoo Consumer Connect: – Carrefour fidelity card holders panel,

    crossed with Yahoo logs (48Tb of data) • Targeting tool – identify profile panel Carrefour panel (16OOO users) – Find similar profiles in Yahoo database – Present appropriate ad on these profiles – Mesure KPIs • Good results Customer feedback: Yahoo & Carrefour
  14. • Data value creation • Airplanes black boxes analysis –

    All data from all black boxes are systematically downloaded after each flight! – 1000 parameters / second! • Accident prevention • Detecting weak signals, not typical patterns – Main tools will only retrieve obvious physical links! • Lessons learned: – Mix statisticians and business experts – Iterative work Customer feedback: Safety Line
  15. • Chief Data Officer more generally attached to IT department

    • Decisions are data-driven • Decision makers should have a minimum knowledge of statistics Focus sur un nouveau personnage : le Chief Data Officer - De CIO à CDO • Missions et rôle dans l’entreprise • Existe-t-il des exemples aboutis d’intégration du CDO en entreprise ? Etat des lieux en France et à l’étranger Pierre Delort, ASSOCIATION NATIONALE DES DSI, Président
  16. • Innovative start-up providing ultra-contextual advertisement based on semantic web

    page analysis • First business context: recipe web sites and blogs • Graph database • Objective: – format information to make it usable by computers • Graph database • Impressive artificial intelligence engine Customer feedback: Chef Jerome
  17. • Open data: – make raw data public • Staring

    in France – Room for improvement: National education system • Rule of thumb: – Do not plan for what data will be useful to the public – Publish data publically, as a principle! • Limit for privacy: – By law: not allowed to publish statistical data concerning “less than x people” (minimum volume to avoid obvious identification of persons) L’Open Data, avenir du Big Data? • Qu’est-ce que l’Open Data ? En quoi se différencie-t-il du Big Data ? Quel degré d’avancement par rapport au Big Data ? • Quels sont les projets actuels et quels sont leurs objectifs ? • En quoi est-ce un segment d’avenir ? L’Open Data est-il plus porteur que le Big Data ? Romain Lacombe, ETALAB, Responsable Innovation et Développement François Lainée, CETADATA, président • Need to find a business model – Example: how to monetize mobile phone data gathered by a community of individuals? L’Internet des Objets, fantasme ou réalité ? • Du RFID à l’Internet des Objets… où en est-on dans la connectivité progressive des objets ? • Quels sont les espoirs autour de ces innovations ? Quels progrès en attendre ? • En quoi le Big Data et Internet des Objets s’entraînent-ils mutuellement ? Franck Le Gall, INNO TSD, directeur et coordinateur des projets FP7 BUTLER et PROBE-IT Alessandro Bassi, FP7 iOT-A PROJECT, Technical Co-ordinator Presentation Presentation
  18. • Strong needs for this new profile – MBA course

    just created in Paris • Data is not a sub-product of applications anymore – Data is in the center • “Hadoop: as revolutionary for data treatment as Linux was for OS.” Qui est le data scientist et quel est son rôle ? • Profil et formation : quelles qualités doit-il réunir ? • Compétences métiers : quel est son rôle dans l’entreprise ? • Quelles compétences acquérir pour un spécialiste "traditionnel" du décisionnel ? • Le recrutement des data scientists : où les trouver ? y’a-t-il un manque de ressources ? Arnaud Laroche, BLUESTONE, associé Stéphan Clémençon, TELECOM PARISTECH, Professeur Stéphane Tufféry, ENSAI, Professeur Jacques Froissant, ALTAIDE, CEO
  19. • French data visualization start-up • Make data more understandable,

    more interactive and fun Customer feedback: 10h11 (yes, that’s the name of the company )
  20. • Data visualization: – Relay information – Help contextualize –

    Objective is either to clarify information or to focus on some data – Aesthetics and interactivity stimulate curiosity
  21. • Volume increase – Web 2.0 and personal data –

    Internet of things – Open data – Mobile phones / always connected – Make data volume a strength, not a constraint • Value driven – Crossing data from multiple sources – Data-driven decisions – Data visualization • Velocity – New technology, tools, architecture • Graph databases • Distributed databases and procedures IBM: “90% of current world data has been created in the last 2 years”
  22. • Huge business perspective • Technological shift (revolution?) • Organization

    changes – New roles • Data scientist • Data Chief Officer
  23. • Big Data conference – www.bigdataparis.com – All conference presentations

    • Open data – French government open data – Rennes open data • Dataviz – Information is beautiful – Visual complexity – owni.fr – infosthetics.com
  24. 1. Gapminder: interactive world’s health study: – http://www.gapminder.org/ • Don’t

    miss Hans Rosling video playing with GapMinder! – http://www.youtube.com/watch?v=hVimVzgtD6w
  25. 4. U.S. Federal spending dataviz with explanation and source code!

    – http://www.pitchinteractive.com/usbudget/
  26. 5. Lifemap: “a visualization of my life between ages 6

    and 24” – http://www.flickr.com/photos/ritwikdey/426048360/
  27. 6. If the world was a village of 100 people:

    – http://lcharpen.wordpress.com/2012/03/07/si-le-monde-etait-un-village-de-100- personnes-un-jour-une-infographie/