Data Kaggler #1

#1 Meetup Data Kaggle Toulouse Data Science @tlse_dasci Mercredi 13
Avril 2016

Bienvenue les Data Kagglers

Nos Sponsor

Merci pour le soutien

Alexia Audevart Florent Pajot Reynald Rivière Frédéric Sicot TOULOUSE DATA
SCIENCE Les contacts TDS “Data Kaggle”

SOMMAIRE • Comment se passe une Compétition Kaggle ? •
Les règles • REX • Les compétitions actuelles • Discussion

Comment se passe une Compétition Kaggle ?

Ca commence par une question Prédire le prix de vente
des tubes de mes fournisseurs ?

avec des données

Enfin un classement, des prix On peux y gagner des
€, un job, faire connaissances avec d’autres Kaggler, vivre une aventure en équipe, etc.

Un forum, des scripts Un excellent moyen pour monter en
compétence, être une source d’inspiration, éviter la feuille blanche, avoir des avis (pas toujours bons à suivre), etc.

Règles

Règles Générales Peu de règles générales • Voir le wiki
de Kaggle (https://www.kaggle.com/w iki/Home) • Chaque compétition dispose de ses propres règles

Calculs des scores Calcul d’une métrique en fonction du type
de problème https://www.kaggle.com/wiki/ Metrics Très important de comprendre la métrique pour créer le bon modèle

Classement public et privé q A chaque soumission, un score
« public » est calculé sur une portion du jeu de test (entre 1/4 et 1/3), ce qui donne lieu à un classement public (public leaderboard). q A la fin d’une compétition, il faut choisir quelles soumissions proposer pour le calcul du score privé sur le reste du jeu de test (learderboard inconnu des compétiteurs). C’est ce score qui détermine le vainqueur. q La soumission peut (ou pas) être votre meilleur score public ou dernière soumission. q Le but est de trouver le modèle le plus généraliste.

Former une équipe q Chaque participant doit être membre de
Kaggle. Désignation d’un leader. q Même nombre de soumissions quelque soit le nombre d’équipiers. q Communications interdites en dehors de l’équipe. q Prix répartis équitablement (frais applicables si > 6). Possibilité de répartir différemment.

REX Compétition Kaggle

q La problématique posée • Estimer la probabilité de survie
d’un passage du Titanic q L'approche utilisée / les outils • R • MICE / CART / randomForest / cForest / Kmeans • Approche basée sur du feature engineering q Les données • Données par passage : nom, classe, cabine, âge… • Données manquantes q Leçons apprises • Utilisation des arbres de décision • Traiter les données manquantes

q La problématique posée • Déterminer la sévérité d’une perturbation
ayant lieu sur un réseau télécom (3 niveaux de sévérité). • Enjeu: déterminer rapidement l’étendu et l’impact d’une perturbation pour mieux informer et satisfaire ses clients. q L'approche utilisée / les outils • R • XGBoost / randomForest / Matrix / K-means • Utilisation de l’emprunte d’un événement pour déterminer sa sévérité q Les données • Evénements, sévérité, ressources, log features • Labels déséquilibrés • Pas de données manquantes J q Leçons apprises • Travailler sur des matrices creuses • Ne pas se débarrasser de l’id avant d’être sûr qu’il n’apporte pas d’information • Feature selection • Choisir la bonne stratégie de CV

q La problématique posée • Quel est le chiffre représenté
sur cette image ? q L'approche utilisée / les outils • Classification multi-classe • Python • SVM, NeuralNets q Les données • Images en niveaux de gris 28x28 pixels q Leçons apprises • Manipulation et préparation d’une image

q La problématique posée • Identifier les coordonnées de certains
points d’intérêts sur l’image d’un visage (nez, centre des yeux, bouche, sourcils…) q L'approche utilisée / les outils • Python • SVM, NN, CNN q Les données • Images en niveaux de gris 96x96 pixels • 7049 / 1783 q Leçons apprises • Utilisation d’un CNN • Optimization d’un réseau de neurones (performances / généralisation) • Enrichissement d’une base d’images par transformation (translation, rotation…) • SIFT Methods

q La problématique posée • Quelles sont les 5 prochaines
destinations préférées des clients américains de AirBnb ? q L'approche utilisée / les outils • Python, scikit learn • Gradient boosting • Classification multi label q Les données • Navigation Internet des clients/prospects • Statistiques touristiques • Données linguistiques • Données identitaires q Leçons apprises • Scoring : Normalized Discounted Cumulative Gain • Cross validation instable • Feature engineering sur la navigation Internet • Analyse prédictive sur les données manquantes (age)

q La problématique posée • Prédire les ventes de 1200
magasins Rossmann en Allemagne sur une période pour faciliter l’approvisionnement. q L'approche utilisée / les outils • Python, • scikit learn, • Regression linéaire, • Gradient boosting, Random Forest • Blend, • Cross validation q Les données • Campagnes promotionnelles, • Vacances scolaires, jour férié, etc. • Contexte concurentiel du magasin, • Ajout des données météo, • Ajout des données google trend de recherche. q Leçons apprises • Scoring : Root Mean Square Percentage Error (RMSPE), • Apprentissage et blend selon plusieurs axes : random split, par magasin, • Séries temporelles, • Intégration de données exogènes.

q La problématique posée • Prédire les milliers de modèles
de tubes le devis des fournisseurs q L'approche utilisée / les outils • Python, • scikit learn, • Régression linéaire, • XgBoost, • Blend q Les données • Description détaillée des tubes (usinage, matière, traitement, etc.), q Leçons apprises • Scoring : Root Mean Squared Logarithmic Error | Kaggle • Validation, • Gradient boosting, • Feature engineering, • Dummification

Les Compétitions actuelles

q La problématique posée • Identifier les clients insatisfaits du
service bancaire Santander q L'approche utilisée / les outils • Python, • scikit learn, • Classification/Régression logistique • Blend, Stacking (linéaire, non linéraire) q Les données • Des centaines de données anonymisées… ;-( q Leçons apprises • Scoring : Area Under Curve • Split du Leader board un peu étrange • Cross validation locale instable

q La problématique posée • Evaluer la pertinence des résultats
du moteur de recherche pour l’améliorer q L'approche utilisée / les outils • Python, • Scikit learn, • Régression linéaire, • TFIDF, SVD, • Bagging. q Les données • Description détaillée des produits • Set d’apprentissage évalué à la main q Leçons apprises • Scoring : Root Mean Squared Error (RMSE) • Stemmer, correcteurs, stopwords, • Beaucoup, beaucoup de feature engineering • A suivre…

q La problématique posée • Aider à classer les déclarations
de sinitres des clients de l’assureur q L'approche utilisée / les outils • Python, • Scikit learn, • Stacking à 2 niveaux efficace • Régression logistique. • ExtraTreeClassifier, KNN q Les données • Des centaines de données anonymisées de tous types … q Leçons apprises • Scoring : logloss • Stacking • Attention aux équipiers…

@tlse_dasci www.meetup.com/Tlse-Data-Science Merci!

Data Kaggler #1

Data Kaggler #1

Toulouse Data Science

More Decks by Toulouse Data Science

Other Decks in Programming

Featured

Transcript

#1 Meetup Data Kaggle Toulouse Data Science @tlse_dasci Mercredi 13

Bienvenue les Data Kagglers

Nos Sponsor

Nos Sponsor

Merci pour le soutien

Alexia Audevart Florent Pajot Reynald Rivière Frédéric Sicot TOULOUSE DATA

SOMMAIRE • Comment se passe une Compétition Kaggle ? •

Comment se passe une Compétition Kaggle ?

Ca commence par une question Prédire le prix de vente

avec des données

Enfin un classement, des prix On peux y gagner des

Un forum, des scripts Un excellent moyen pour monter en

Règles

Règles Générales Peu de règles générales • Voir le wiki

Calculs des scores Calcul d’une métrique en fonction du type

Classement public et privé q A chaque soumission, un score

Former une équipe q Chaque participant doit être membre de

REX Compétition Kaggle

q La problématique posée • Estimer la probabilité de survie

q La problématique posée • Déterminer la sévérité d’une perturbation

q La problématique posée • Quel est le chiffre représenté

q La problématique posée • Identifier les coordonnées de certains

q La problématique posée • Quelles sont les 5 prochaines

q La problématique posée • Prédire les ventes de 1200

q La problématique posée • Prédire les milliers de modèles

Les Compétitions actuelles

q La problématique posée • Identifier les clients insatisfaits du

q La problématique posée • Evaluer la pertinence des résultats

q La problématique posée • Aider à classer les déclarations

@tlse_dasci www.meetup.com/Tlse-Data-Science Merci!