dans R (rappel) Créer des données appropriées pour R Importer des données Manipuler des fichiers de données brisées Identifier le problème Le réparer dans une feuille de calcul Le réparer dans R Manipuler des formats de données douteuses Restructurer de large à long Sauvegarder et exporter des données
studio et rouvrez-le en double- cliquant sur le fichier du projet R-studio rouvrira avec tous vos scripts ouverts tel qu'ils étaient lorsque vous aviez quitté Vous pouvez naviguer tous vos fichiers directement dans votre dossier de projet
qui contient toutes les commandes que vous utiliserez! Une fois écrit et sauvegardé, votre fichier script vous permet de faire des changements et ré- exécuter l'analyse avec un effort minimal!
Sauvegardez votre propre script: Fichier -> Enregistrer sous -> Mon_propre_script.R o référer au code fourni uniquement si nécessaire o éviter de copie-coller ou d'exécuter le code directement du script 02_Importer vos données.R
texte qui suit commentaires/documentation annotez le script de quelqu’un d’autre est une bonne façon d'apprendre rappelez de ce que vous avez fait dire à vos collaborateurs ce que vous avez fait bon pas vers la science reproductible
(chemin) pour y arriver “/” sépare les dossiers et fichiers “.” indique le répertoire de travail courant c.-à- où vous avez créé votre projet Pour savoir quel est le répertoire de travail courant tapez “getwd()” dans la console R Studio définit automatiquement le répertoire qui contient votre projet R Alors il n’est pas nécessaire d’établir le répertoire avec R Studio (seulement avec R) setwd ("~ / Desktop / PhD / HIVER atelier 2013/Stats/Intro Jour 1")
Et examinez les avec: Comparez vos données à celles qui se retrouvent dans R et à celles de votre voisin Examiner les données data() head(); str(); names(); attributes(); summary(); plot()
first few rows structure of the object names of items in the object attributes of the object summary statistics plot of all variable combinations data(CO2) head(CO2) str(CO2) names(CO2) attributes(CO2) summary(CO2) plot(CO2) Working with a data frame importez des bases de données intégrées regardez les premières lignes structure de l’objet noms d’éléments dans l’objet attributs de l’objet statistique sommaire graphique de toutes les combinaisons de variables
par la virgule (.csv) dans le dossier de données peut être créé à partir de presque toutes les applications (Excel, LibreOffice, GoogleDocs) Fichier -> Enregistrer sous… .csv
pas de texte dans les colonnes numériques y compris les espaces NA (non disponible) est permis Évitez des valeurs numériques pour des données qui n’ont pas de signification numérique Sujet, Réplication, Traitement 1,2,3 -> A,B,C ou S1,S2,S3 ou … Préparation des données pour R
Plusieurs mesures par ligne Excel, SPSS… Avantages Joue bien avec les humains Pas de répétition des données Bon pour jeter un coup d’oeil Inconvénients Ne joue pas bien avec R Long Niveaux sont exprimés dans une colonne Une valeur mesurée par ligne Avantages Joue bien avec les ordinateurs Inconvénients Ne joue pas bien avec les humains Beaucoup de copie coller et oublier le coup d’oeil! Préparation des données pour R ID variable Phosphore Région 1 52 rivière 2 175 lac … ID variable Facteur Valeur mesurée 1 Phosphore 52 1 Région rivière 2 Phosphore 175 2 Région lac …
pour R, ou trouver des données intéressantes en ligne et préparer les NB: il est possible de faire tout votre travail de préparation au sein de R peut être très fastidieux garde les données originaux intacts pouvez même alterner entre le format long et large
de données iris_data<-‐read.csv(“./Data/iris_good.csv”) Rappel: pour découvrir quels sont les arguments que la fonction nécessite, utiliser l'aide “?” ! Objet (nom) Fonction (ce que je fais) Argument (à quoi s’applique ceci) ?read.csv
R mes_bonnes_données<-read.csv(…) Essayez d'importer des données qui ne sont pas prêtes pour R pas_prêtes<-read.csv(…) Examiner les deux Importez vos données
Par exemple: Remplacez des valeurs spécifiques iris_data$mean.sepal.length[iris_data$Species=="setosa"]<-with(iris_data, mean(Sepal.Length)) iris_data$Species[iris_data$Species=="setosa"]<-"Setosa" Manipuler les données
à ce que ressemble vos données ou les données que vous avez téléchargés Vous pouvez le faire en R (ou non…) Importer vos propres données non préparées SVP ne pas regarder les réponses dans le script avant d'essayer Travailler avec vos voisins et amusez-vous! INDICE: Il y a 4 erreurs
point: Cela n'a pas fonctionné parce que l'extension est .txt et non .csv iris_brisées<-read.csv("iris_broken.csv") > iris_brisées<-read.csv("iris_broken.csv") Error in file(file, "rt") : cannot open the connection In addition: Warning message: In file(file, "rt") : cannot open file 'iris_broken.csv': No such file or directory iris_brisées<-read.csv("iris_broken.txt") EURREUR 1
file I ever imported into R\t\t\t\t\t 2 I since do a way better job of cleaning up my data\t\t\t \t\t 3 But some collaborators will never diverge from their sloppy ways\t \t\t\t\t 4 \tSepal.Length\tSepal.Width\tPetal.Length\tPetal.Width \tSpecies 5 1\t5.1\t3.5\t1.4\t0.2\tsetosa 6 2\t4.9\t3\t1.4\t0.2\tsetosa head(iris_brisées) Les données semblent être regroupés dans une seule ligne! ERREUR 2 Données mal formatées
entrées L'argument sep indique à R quel caractère sépare les valeurs de chaque ligne du fichier (ici, TAB a été utilisé) Les 4 premières lignes sont inutiles Y at-il autre chose étrange? iris_brisées<-read.csv("iris_broken.txt", sep = “”) head(iris_brisées) str(iris_brisées) ERREUR 2 iris_brisées<-read.csv("iris_broken.txt", sep = "", skip = 4) head(iris_brisées) str(iris_brisées) ERREUR 3 Données mal formatées
variables apparaissent toujours comme facteurs rangée 23 de Sepal Width a été inscrit comme “_3.6” au lieu de “3.6” Deux nouveaux arguments dont nous aurons besoin as.is as.numeric Indique à R de laisser la variable tout seule Indique à R de rendre la variable numérique iris_brisées$Sepal.Width[23] class(iris_brisées$Sepal.Width) Données mal formatées
caractères Donc l'étape suivante est d'utiliser as.numeric Notez le message d'avertissement car un NA a été introduit là où il y avait des valeurs non-numériques ERREUR 5 iris_data<-read.csv("iris_broken.txt", sep="", skip=4, na.strings=c("NA", "na","forgot_this_value"), as.is=c("Sepal.Width", "Petal.Length")) iris_brisées$Sepal.Width <- as.numeric(iris_brisées$Sepal.Width) iris_brisées$Petal.Length <- as.numeric(iris_brisées$Petal.Length) Données mal formatées