Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Le moteur de recherche, inspirateur technologiq...

Le moteur de recherche, inspirateur technologique du Big Data ?

Open World Forum

October 11, 2012
Tweet

More Decks by Open World Forum

Other Decks in Technology

Transcript

  1. Le  moteur  de  recherche,   inspirateur  technologique   du  Big

     Data  ?     Emmanuel  Keller,  CEO  OpenSearchServer  
  2. Google  1.0   24  millions  de  pages   «  It

     is  foreseeable  that  by  the  year  2000,  a   comprehensive  index  of  the  Web  will  contain   over  a  billion  documents.  »   PageRank   «  Also,  a  PageRank  for  26  million  web  pages  can   be  computed  in  a  few  hours  on  a  medium  size   workstaFon.  »    
  3. Google  1.0   «  We  intend  to  speed  up  Google

     considerably   through  distribuFon  and  hardware,  soHware,   and  algorithmic  improvements  »   1997  -­‐  IBM  Deskstar  16GP  
  4. Rappel   Informa5que  n.f.     Science  du  traitement  automaFque

      et  raFonnel  de  l'informaFon   meLant  en  œuvre  des  matériels  et   des  logiciels.  
  5. …c’est  pas  nouveau   •  Bayer,  Rudolf;  McCreight,  E.  (July

     1970),   Organiza\on  and  Maintenance  of  Large   Ordered  Indices,  Mathema\cal   •  Bayer,  Rudolf  (1971),  "Binary  B-­‐Trees  for   Virtual  Memory  »  
  6. La  structure  en  arbre   Réduire  le  nombre   de

     lectures  physiques   sur  le  disque  dur  
  7. Une  forêt  d’arbres   •  Un  système  de  fichiers  (FAT,

     NTFS,  EXT3,  ZFS)   est  avant  tout  une  structure  en  arbre.   •  Les  bases  de  données  basent  leurs  index  sur  la   taille  des  blocs  du  disque  dur   •  La  mémoire  virtuelle  
  8. Quand  au  calcul   •  Les  fondeurs  peinent  à  suivre

     la   loi  de  Moore:  la  technologie  du   silicium  aEeint  ses  limites   •  Les  cœurs  mul\ples  compliquent   les  développements:  obliga\on   d’intégrer  le  parallélisme  
  9. Google  2.0   MapReduce:   «  Simplified  Data  Processing  on

     Large  Clusters  »   By  Jeffrey  Dean  and  Sanjay  Ghemawat  (Google  Inc.)   San  Francisco,  CA,  December,  2004   hEp://research.google.com/archive/mapreduce.html     Hadoop:  Implémenta\on  open  source  sous   licence  Apache  2.0    
  10. Map  Reduce   Source:  hEp://www.gridgainsystems.com   MAP   Répar\r  la

     charge  sur   plusieurs  nœuds     (WORK)   Chaque  nœud  travaille  sur   une  par\e  des  données     REDUCE   Le  résultat  de  chaque  nœud   est  consolidé  pour  cons\tuer   le  résultat  final  
  11. No  SQL  Database   Redis,  HBase,  Cassandra,   Mongo  DB,

     MemCache  DB,   Berkeley  DB,  Big  Table,…   •  Une  approche  simplifiée  de  l’accès  aux  données   •  Principe  Clé  /  Valeur   •  Se  «  cloudise  »  très  bien  
  12. Vers  un  nouveau  paradigme   •  Applica\ons  (Pentaho)   • 

    JAVA,  C  /  C++  ?  L   •  API,  API,  API,  API…   •  Système  de  fichiers   – XtreemFS   – Sector/Sphere   – Oracle  Clustered  File   System  (GPL  !!!!)   – Disques  SSD  
  13. Q    &    A   Merci  pour  votre  aEen\on

        ekeller@open-­‐search-­‐server.com