Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Analyse de données RNA-seq avec génome de référence sous UNIX

PFRoux
July 10, 2018

Analyse de données RNA-seq avec génome de référence sous UNIX

PFRoux

July 10, 2018
Tweet

More Decks by PFRoux

Other Decks in Science

Transcript

  1. Analyse de données RNA-seq avec génome de référence sous UNIX

    Agrocampus Ouest - 30 et 31 janvier 2017 Pierre-François ROUX Département « Biologie cellulaire & infection » Unité « Organisation nucléaire & oncogenèse » Institut Pasteur – Paris [email protected] CELL BIOLOGY & INFECTION 1
  2. Connaître ses données pour mieux les analyser Introduction à l’analyse

    de données RNA-seq 2 Données mRNA- seq Taille de l’insert Lane Multiplexage Taille des reads Type de librairie Flowcell Plate-forme Adapteurs
  3. Images Le prétraitement des données Introduction à l’analyse de données

    RNA-seq 3 Séquençage Données séquenceurs Librairies HiSeq Données brutes .bcl CASAVA Traitement séquenceur • Traitement des images pour assigner les nucléotides et la qualité associés • Suppression des séquences problématiques (décalage dans le cluster)
  4. Images Le prétraitement des données Introduction à l’analyse de données

    RNA-seq 4 Séquençage Données séquenceurs Librairies HiSeq Données brutes .bcl CASAVA Traitement séquenceur • Traitement des images pour assigner les nucléotides et la qualité associés • Suppression des séquences problématiques (décalage dans le cluster) Traitement plate-forme • Utilisation de CASAVA pour convertir les .bcl en .fastq • Utilisation de CASAVA pour dé-multiplexer les données • Génère des statistiques globales via FastQC • Recherche des contaminants • Aligne de manière grossière sur le génome et le transcriptome (si disponibles) • Donne les statistiques grossières d’alignement sur le génome et le transcriptome
  5. Le prétraitement des données Introduction à l’analyse de données RNA-seq

    5 En théorie : (V4PE125) 900 Gb par run soit 450Gb / flowcell soit 56 Gb / lane soit 450M reads / lane soit 56 M read / individu en 8-plexage
  6. Le prétraitement des données Introduction à l’analyse de données RNA-seq

    6 En théorie : (V4PE125) 900 Gb par run soit 450Gb / flowcell soit 56 Gb / lane soit 450M reads / lane soit 56 M read / individu en 8-plexage
  7. Images Aperçu d’une pipeline classique de traitement de données mRNA-seq

    Introduction à l’analyse de données RNA-seq 9 Séquençage Traitement des données Mesure de l’expression Données séquenceurs Librairies HiSeq Données brutes Données prétraitées Données alignées Données filtrées .bcl .fastq .bam .bam CASAVA STAR SAMtools Données filtrées Visualisation Données de comptage Subread .bam .txt Données filtrées Données de visualisation .bam .wig RSeqQC
  8. ETAPE 1: Préparation des données - Connexion au serveur -

    10 Pipeline détaillé pour l’analyse de données RNA-seq www.genouest.org
  9. ETAPE 1: Préparation des données - Connexion au serveur -

    11 Pipeline détaillé pour l’analyse de données RNA-seq
  10. ETAPE 1: Préparation des données - Connexion au serveur -

    12 Pour accéder au cluster Genouest depuis Windows • Installer PuTTY • Générer une clé SSH via PuTTY Key Generator • Une clé publique .pub • Une clé privée .ppk • Un mot de passe protégeant la clé privé • Sauvegarder les clés • Ajouter la clé publique sur le compte via http://my.genouest.org • Charger la clé privée via Pageant • Se connecter au cluster genossh.genouest.org vie PuTTY avec le login et le mot de passe Genouest Pipeline détaillé pour l’analyse de données RNA-seq
  11. Pipeline détaillé pour l’analyse de données RNA-seq 13 genossh.genouest.org 22

    Via PuTTY (Windows) Via ssh (Linux / Mac) Connectez vous au cluster via PuTTY ETAPE 1: Préparation des données - Connexion au serveur - TP
  12. ETAPE 1: Préparation des données - Connexion au serveur -

    Pipeline détaillé pour l’analyse de données RNA-seq 14 Nœuds de calcul ssh ou PuTTY Vous Serveur frontal Nœud maître qlogin : connexion en interactif qsub et qarray : soumission de jobs Pas de traitement lourd sur le frontal ! Seulement de la manipulation de fichiers.
  13. ETAPE 1: Préparation des données - Connexion au FTP -

    Pipeline détaillé pour l’analyse de données RNA-seq 15 Pour le transfert de données via FileZilla Sur le cluster Sur votre machine
  14. ETAPE 1: Préparation des données - Gestion des librairies -

    Pipeline détaillé pour l’analyse de données RNA-seq 16 Gestion des librairies sur Genouest De nombreux outils sont pré-installés sur le cluster. Ils sont listés dans /softs/local et sur le site internet de Genouest www.genouest.org
  15. ETAPE 1: Préparation des données - Gestion des librairies -

    Pipeline détaillé pour l’analyse de données RNA-seq 17 Gestion des librairies sur Genouest De nombreux outils sont pré-installés sur le cluster. Ils sont listés dans /softs/local et sur le site internet de Genouest www.genouest.org
  16. ETAPE 1: Préparation des données - Gestion des librairies -

    Pipeline détaillé pour l’analyse de données mRNA-seq 18 Gestion des librairies sur Genouest De nombreux outils sont pré-installés sur le cluster. Ils sont listés dans /softs/local et sur le site internet de Genouest www.genouest.org
  17. ETAPE 1: Préparation des données - Gestion des librairies -

    Pipeline détaillé pour l’analyse de données mRNA-seq 19 Une fois connecté sur le cluster, connectez vous en interactif avec un nœud en utilisant qrsh Vérifiez la version du shell utilisé Chargez les environnements des outils dont nous aurons besoin au court de la formation TP
  18. ETAPE 1: Préparation des données - Import des données -

    Pipeline détaillé pour l’analyse de données RNA-seq 20 Créez un répertoire « Formation_RNAseq » avec mkdir Explorer le contenu du répertoire ./Data/0-Raw en utilisant ls TP A l’intérieur de ce répertoire, créez les répertoires « Annotation », « Reference » et « Data » Rendez vous dans ce répertoire avec cd Importez les données RNA-seq dans le répertoire « Data » en utilisant cp
  19. ETAPE 1: Préparation des données - Génome de référence -

    Pipeline détaillé pour l’analyse de données RNA-seq 21 Qu’est-ce qu’une référence ? Fichier .fasta contenant la séquence du génome ou du transcriptome sur laquelle l’alignement des données RNA-seq va être effectué Où trouver ma référence favorite ?
  20. ETAPE 1: Préparation des données - Génome de référence -

    Pipeline détaillé pour l’analyse de données RNA-seq 22 Qu’est-ce que le format .fasta / .fa ? Fichier de texte contenant les séquences biologiques (nucléiques ou protéique) au format IUPAC Dans un génome de référence il y a autant de > que de chromosomes ou de groupe de liaisons (une séquence par chromosome) Descripteur de la séquence (commence toujours par > ) Séquence au format IUPAC
  21. ETAPE 1: Préparation des données - Génome de référence -

    Pipeline détaillé pour l’analyse de données RNA-seq 23 Importez le génome de référence depuis Ensembl en utilisant wget Le déplacer dans le répertoire Annotation et le renommer en utilisant mv Le décompresser en utilisant gunzip Explorez sont contenu en utilisant more TP
  22. ETAPE 1: Préparation des données - Annotation - Pipeline détaillé

    pour l’analyse de données RNA-seq 24 Importez le fichier d’annotation .gtf en utilisant wget Le décompresser en utilisant gunzip Sélectionnez uniquement les éléments relatifs au chromosome 8 avec grep Explorez sont contenu en utilisant more TP
  23. ETAPE 1: Préparation des données - Qualité des données brutes

    - Pipeline détaillé pour l’analyse de données RNA-seq 25 Qu’est-ce que le format .fastq ? Format de base pour stocker des données NGS (DNA-seq, RNA-seq, ChIP-seq …) Extension du format .fasta = identifiant + séquence + qualité Informations relatives à un read ➝ Identifiant unique ➝ Séquence nucléotidique (IUPAC) ➝ + ➝ Scores de qualité Phred codé en ASCII
  24. ETAPE 1: Préparation des données - Qualité des données brutes

    - Pipeline détaillé pour l’analyse de données RNA-seq 26 Qu’est-ce que le format .fastq ? Format de base pour stocker des données NGS (DNA-seq, RNA-seq, ChIP-seq …) Extension du format .fasta = identifiant + séquence + qualité Informations relatives à un read ➝ Identifiant unique
  25. ETAPE 1: Préparation des données - Qualité des données brutes

    - Pipeline détaillé pour l’analyse de données RNA-seq 27 Qu’est-ce que le format .fastq ? Format de base pour stocker des données NGS (DNA-seq, RNA-seq, ChIP-seq …) Extension du format .fasta = identifiant + séquence + qualité Informations relatives à un read ➝ Scores de qualité Phred codé en ASCII QPhred = -10 log10 P = ASCII - 33 QPhred = ? = 63 – 33 = 30 ó P = 10-3
  26. ETAPE 1: Préparation des données - Qualité des données brutes

    - Pipeline détaillé pour l’analyse de données RNA-seq 28 Explorez le contenu d’un .fastq TP
  27. ETAPE 1: Préparation des données - Qualité des données brutes

    - Pipeline détaillé pour l’analyse de données RNA-seq 29 Comment vérifier la qualité des données brutes ? En utilisant FastQC Il génère un répertoire en sortie qui contient un .html. Lorsqu’on clique sur ce .html une page web s’ouvre. Elle contient toutes les sorties de l’analyse.
  28. ETAPE 1: Préparation des données - Qualité des données brutes

    - Pipeline détaillé pour l’analyse de données RNA-seq 30 Lancer une analyse FastQC pour un des fichiers .fastq Télécharger le répertoire sur votre ordinateur (via FileZilla) Observer les sorties obtenues TP
  29. ETAPE 1: Préparation des données - Qualité des données brutes

    - Pipeline détaillé pour l’analyse de données RNA-seq 31 Statistiques générales A vérifier : - Mode d’encodage des qualités - Nombre de séquences - Longueur des séquences
  30. ETAPE 1: Préparation des données - Qualité des données brutes

    - Pipeline détaillé pour l’analyse de données RNA-seq 32 Qualité Phred brutes moyennes selon la position - Plus la valeur de Phred est élevée, meilleure est la qualité - Au dessous de 30, il est en général recommander de nettoyer les données (trimming via cutadapt) - Ce sont les extrémités qui posent le plus souvent problème
  31. ETAPE 1: Préparation des données - Qualité des données brutes

    - Pipeline détaillé pour l’analyse de données RNA-seq 33 Contenu moyen en base à la position - La proportion de chaque base, à chaque position est identique dans une librairie « aléatoire » - Si ça n’est pas le cas : il peut y avoir une contamination (primers, adaptateurs …). - Biais lié au random priming : certains oligo-primers fonctionnent mieux que d’autres.
  32. ETAPE 1: Préparation des données - Qualité des données brutes

    - Pipeline détaillé pour l’analyse de données RNA-seq 34 Taux de GC A gauche : distribution biaisées à cause des gènes très exprimées A droite : contamination des reads par des adaptateurs
  33. ETAPE 1: Préparation des données - Qualité des données brutes

    - Pipeline détaillé pour l’analyse de données RNA-seq 35 Taux de duplication A gauche : librairie RNA-seq classique. Mais l’analyse ne tient compte que de la séquence pour définir les duplicats A droite : librairie contaminée par des adaptateurs
  34. ETAPE 1: Préparation des données - Qualité des données brutes

    - Pipeline détaillé pour l’analyse de données RNA-seq 36 Contenu en k-mers A gauche : librairie RNA-seq classique. Pas de biais particulier car pas de pattern cyclique. A droite : librairie contaminée par des adaptateurs, pattern cyclique dans les k-mers enrichis. GATCGGA--- -ATCGGAA-- --TCGGAAG- ---CGGAAGA
  35. ETAPE 1: Préparation des données - Qualité des données brutes

    - Pipeline détaillé pour l’analyse de données RNA-seq 37 Contenu en adaptateurs En haut : librairie RNA-seq classique. Légère contamination avec adaptateurs Illumina. En bas : librairie contaminée +++ par des adaptateurs Nextera
  36. ETAPE 1: Préparation des données - Qualité des données brutes

    - Pipeline détaillé pour l’analyse de données RNA-seq 38 Lancez une analyse FastQC pour un des fichiers .fastq Téléchargez le répertoire sur votre ordinateur (via FileZilla) Observez les sorties obtenues Faites un Blast de la première séquence surreprésentée. S’agit-il d’une contamination ? TP
  37. ETAPE 1: Préparation des données - Trimming et nettoyage -

    Pipeline détaillé pour l’analyse de données RNA-seq 39 Quality-trimming et adapter-trimming avec cutadapt TruSeq Universal Adapter: Sens : 5’ AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT 3’ Anti-sens : 5’ AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGTAGATCTCGGTGGTCGCCGTATCATT 3’ TruSeq Indexed Adapter : Sens : 5’ AGATCGGAAGAGCACACGTCTGAACTCCAGTCAC - NNNNNN - ATCTCGTATGCCGTCTTCTGCTTG 3’ Anti-sens : 5’ CAAGCAGAAGACGGCATACGAGAT - NNNNNN - GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT 3’
  38. ETAPE 1: Préparation des données - Trimming et nettoyage -

    Pipeline détaillé pour l’analyse de données RNA-seq 40 Quality-trimming et adapter-trimming avec cutadapt -a : 3’ adapter pour le read 1 de la paire -A : 3’ adapter pour le read 2 de la paire --minimum-length : longue minimal des reads après trimming -q : seuils de qualité Phred pour les 2 extrémités (séparés par une virgule) -o : nom de fichier de sortie pour les reads 1 -p : nom de fichier de sortie pour les reads 2
  39. ETAPE 1: Préparation des données - Trimming et nettoyage -

    Pipeline détaillé pour l’analyse de données RNA-seq 41 TP Procédez au trimming des données correspondant à l’individu Poulet_M1 Lancez une analyse de qualité avec fastqc Observez les sorties obtenues Comparez avant / après trimming
  40. ETAPE 2 : Alignement - Introduction - Pipeline détaillé pour

    l’analyse de données RNA-seq 42 Principales problématiques • Si la profondeur de séquençage est suffisante : possible d’inférer directement la structure complète du transcriptome (TSS, TTS, jonctions d’épissage, transcrits …). Mais CE N’EST PAS NOTRE OBJECTIF ICI à Utilisation d’un fichier GTF pour guider l’alignement • La référence utilisée correspond à un mélange hétérogènes d’haplotypes à Autoriser des mis-matches • Les séquences à aligner contiennent des erreurs de séquençage à Autoriser des mis-matches • Les séquences correspondent, en majorité, à des mRNA matures à Tenir compte de l’épissage
  41. ETAPE 2 : Alignement - Introduction - Pipeline détaillé pour

    l’analyse de données RNA-seq 43 Principes – Alignement TopHat2 1- L’ensemble des reads sont mappés en plein via Bowtie sur le génome de référence. Les reads non mappés sont stockés. 2- Les reads mappés dans la phase 1 sont ensuite assemblés et les structures exoniques sont définies. 3- Les sites de splicing potentiels (GT-AG, GC-AG, AT-AC) sont identifiés et une référence temporaire est crée après retrait des introns. 4- Les reads stockés lors de la phase 1 sont alors mappés sur cette nouvelle référence temporaire.
  42. ETAPE 2 : Alignement - Introduction - Pipeline détaillé pour

    l’analyse de données RNA-seq 44 Principes – Alignement STAR 1- Pour chaque read un « Maximum Mappable Prefix » est défini en partant de l’extrémité 5’ à alignement jusqu’au site donneur d’épissage. 2- La recherche de MMP est ensuite réitéré pour la portion non-mappé des reads à alignement depuis le site accepteur d’épissage. En parallèle : SNPs et indels sont pris en compte par extension des MMPs
  43. ETAPE 2 : Alignement - Introduction - Pipeline détaillé pour

    l’analyse de données RNA-seq 45 Pourquoi utiliser STAR ? à Plus de reads au moins partiellement bien alignés à Moins d’alignements totalement erronés
  44. ETAPE 2 : Alignement - Introduction - Pipeline détaillé pour

    l’analyse de données RNA-seq 46 Pourquoi utiliser STAR ? à Taux de faux positifs optimal à 300 fois plus rapide que GSNAP à 40 fois plus rapide que TopHat2
  45. ETAPE 2 : Alignement - STAR : Index - Pipeline

    détaillé pour l’analyse de données RNA-seq 47 Création de l’index de la référence --runMode : nom de l’outil STAR utilisé --genomeDir : répertoire de sortie --genomeFastaFiles : fichier .fasta d’entrée --sjdbGTFfile : fichier .gft d’entrée comprenant les jonctions d’épissage connues (facultatif)
  46. ETAPE 2 : Alignement - STAR : Alignement - Pipeline

    détaillé pour l’analyse de données RNA-seq 48 Alignement des séquences --runMode : nom de l’outil STAR utilisé --genomeDir : répertoire de sortie --readFilesIn : fichier .fastq d’entrée (R1 et R2) --outFilterMultimapNmax : nombre maximum d’alignements autorisés --outFilterMismatchNmax : nombre maximum de mismatches autorisés --outFilterIntronMotifs : type de filtres utilisés pour les jonctions non- canoniques
  47. ETAPE 2 : Alignement - STAR - Pipeline détaillé pour

    l’analyse de données RNA-seq 49 Générez l’indexation du génome de référence via STAR genomeGenerate TP Lancez l’alignement via STAR alignReads
  48. ETAPE 2 : Alignement - STAR : Exploration des sorties

    - Pipeline détaillé pour l’analyse de données RNA-seq 50 Les sorties de STAR _SJ.out.tab : coordonnées des jonctions d’épissage _Log.progress.out : fichier log permettant de suivre la progression _Log.out : fichier log principal (surtout pour debbugage) _Log.final.out : fichier log contenant les statistiques d’alignement _Aligned.out.sam : alignements
  49. ETAPE 2 : Alignement - STAR : Exploration des sorties

    - Pipeline détaillé pour l’analyse de données RNA-seq 51 Explorez le contenu du fichier Poulet_M1_Log.final.out en utilisant more
  50. ETAPE 2 : Alignement - Le format SAM / BAM

    - Pipeline détaillé pour l’analyse de données RNA-seq 52 Qu’est ce que le format .sam / .bam ? à Le header @HQ : header line VN : version du format SO : ordre de tri des alignements @SQ : header line SN : nom de la référence LN : longueur de la référence @PG : program ID : nom de l’outil CL : ligne de commande
  51. ETAPE 2 : Alignement - Le format SAM / BAM

    - Pipeline détaillé pour l’analyse de données RNA-seq 53 Qu’est ce que le format .sam / .bam ? à Les alignements HWI-ST314:280:C45E9ACXX:1:1101:5332:2090 99 8 19927541 255 99M = 19927718395 GGATCG[...]CCCFF[...] HWI-ST314:280:C45E9ACXX:1:1101:5332:2090 147 8 19927718 255 59M118N41M = 19927541-395 TTCTC[...] BB@80[...] Identifiant du read Bitwise flag Nom de la référence Position de la première base Qualité du mapping CIGAR line Identifiant de la référence sur laquelle s’aligne le read suivant Position du read suivant Taille de l’insert Séquence du read Qualité Phred de chaque base
  52. ETAPE 2 : Alignement - Le format SAM / BAM

    - Pipeline détaillé pour l’analyse de données RNA-seq 54 Qu’est ce que le format .sam / .bam ? à Les alignements : le bitwise flag 99 = 1 + 2 + 32 + 64 • Read pairé • Read mappé en paire • L’autre read de la paire est mappé en reverse • Ce read est mappé en forward
  53. ETAPE 2 : Alignement - Le format SAM / BAM

    - Pipeline détaillé pour l’analyse de données RNA-seq 55 59M118N41M • 59 bases alignées en plein • 118 bases insérées • 41 bases alignées en plein à Read splicé Qu’est ce que le format .sam / .bam ? à Les alignements : le bitwise flag
  54. ETAPE 2 : Alignement - Le format SAM / BAM

    - Pipeline détaillé pour l’analyse de données RNA-seq 56 Explorez le contenu du fichier Poulet_M1_Aligned.out.sam avec more TP Explorez les champs « bitwise » et leur signification http://broadinstitute.github.io/picard/explain-flags.html
  55. ETAPE 2 : Alignement - Le format SAM / BAM

    - Pipeline détaillé pour l’analyse de données RNA-seq 57 Manipuler les .bam à Eviter de travailler avec les .sam, car format texte volumineux à Convertir en l’équivalent binaire .bam 3 fois moins volumineux à Utilisation de la suite SAMtools --h : inclure le header dans le fichier de sortie --b : écrire la sortie au format .bam --S : le fichier d’entrée est au format .sam > : redirection de la sortie standard vers le fichier .bam
  56. ETAPE 2 : Alignement - Le format SAM / BAM

    - Pipeline détaillé pour l’analyse de données RNA-seq 58 Convertissez le fichier .sam en .bam en utilsant samtools view TP Combien d’alignements ont été rapportés par STAR ? Combien y a t-il de reads alignés au niveau du gène LPHN2 ? Procédez au tri du fichier .bam avec samtools sort Créez l’index du .bam trié avec samtools index
  57. ETAPE 2 : Alignement - Qualité des alignements - Pipeline

    détaillé pour l’analyse de données mRNA-seq 59 Evaluer la qualité des alignements avec RSeqQC à Propose de nombreux modules pour évaluer la qualité des alignements issus des NGS à Certains modules spécifiques au RNA-seq : • Saturation des librairies • Distribution des séquences alignées • Uniformité de la couverture à Format d’entrée : • Bam • Bed (pour certaines analyses)
  58. ETAPE 2 : Alignement - Qualité des alignements - Pipeline

    détaillé pour l’analyse de données RNA-seq 60 Via UCSC, téléchargez la position des gènes au format .bed pour la référence Galgal4. TP
  59. ETAPE 2 : Alignement - Qualité des alignements - Pipeline

    détaillé pour l’analyse de données RNA-seq 61 Via UCSC, téléchargez la position des gènes du chromosome 8 au format .bed pour la référence Galgal4. TP
  60. ETAPE 2 : Alignement - Le format BED - Pipeline

    détaillé pour l’analyse de données RNA-seq 62 Qu’est ce que le format .bed ? à « browser extensible data » à Format tabulaire adapté à l’affichage de données de type structurelles sur les « genome browsers » (UCSC, Ensembl, IGV …) Chromosome Start End Nom Score Strand Dessins RGB Block info
  61. ETAPE 2 : Alignement - Le format BED - Pipeline

    détaillé pour l’analyse de données RNA-seq 63 Copiez le fichier .bed UCSC sur le cluster via FileZilla dans le répertoire Annotation Explorez son contenu avec more Créer un nouveau .bed en retirant la mention « chr » en début de ligne avec sed
  62. ETAPE 2 : Alignement - Qualité des alignements - Pipeline

    détaillé pour l’analyse de données RNA-seq 64 Générez les statistiques d’alignements avec RSeqQC bam_stat.py. TP
  63. ETAPE 2 : Alignement - Qualité des alignements - Pipeline

    détaillé pour l’analyse de données RNA-seq 65 Déterminez le protocole utilisé pour préparer la librairie en utilisant RSeqQC infer_experiment.py. TP
  64. ETAPE 2 : Alignement - Qualité des alignements - Pipeline

    détaillé pour l’analyse de données RNA-seq 66 Générez le méta-profile de couverture autour des gènes avec RSeqQC geneBody_coverage.py. TP
  65. ETAPE 2 : Alignement - Qualité des alignements - Pipeline

    détaillé pour l’analyse de données RNA-seq 67 Evaluez le degré de saturation des jonctions d’épissage via RSeqQC junction_saturation.py. TP
  66. ETAPE 2 : Alignement - Qualité des alignements - Pipeline

    détaillé pour l’analyse de données RNA-seq 68 Evaluez la distribution des reads via RSeqQC read_distribution.py. TP
  67. ETAPE 2 : Alignement - Qualité des alignements - Pipeline

    détaillé pour l’analyse de données RNA-seq 69 Evaluez la saturation de la librairie via RSeqQC RPKM_saturation.py. TP Quartiles d’expression Dans l’idéal, si la librairie est saturée, on atteint une stabilisation de la moyenne du pourcentage d’erreur relative autour de 0 malgré le sous-échantillonnage
  68. ETAPE 2 : Alignement - Qualité des alignements - Pipeline

    détaillé pour l’analyse de données RNA-seq 70 TP Evaluez la quantité de duplicats de PCR avec read_duplication.py de la suite RSeqQC Procédez au retrait des duplicats de PCR en utilisant samtools rmdup Générez de nouveau le profil de duplication sur le .bam filtré
  69. ETAPE 2 : Alignement - Qualité des alignements - Pipeline

    détaillé pour l’analyse de données RNA-seq 71 TP Comparez les sorties avant / après retrait des duplicats
  70. ETAPE 2 : Alignement - Générer un profil de couverture

    - Pipeline détaillé pour l’analyse de données RNA-seq 72 TP Créez un fichier texte précisant la taille (en bp) de la référence avec echo Indexez le .bam sans duplicats de PCR avec samtools index Générez deux .wig normalisés (1 par strand) avec RSeqQC bam2wig.py Convertissez les .wig en .bigwig via wigToBigWigtéléchargé sur UCSC
  71. ETAPE 3 : Visualisation - IGV - Pipeline détaillé pour

    l’analyse de données RNA-seq 73 Visualisation interactive avec IGV à Outil de visualisation haute performance pour l’exploration interactive de jeux de données génomiques à En entrée il nous faut : à Un génome de référence .fasta (possible de choisir parmi une bibliothèque de références déjà existantes ou de créer sa propre référence) à Un / des fichiers d’alignements .bam triés par position et le / les .bai associés à Eventuellement un fichier d’annotation (.gtf)
  72. ETAPE 3 : Visualisation - IGV : Référence déjà existante

    - Pipeline détaillé pour l’analyse de données RNA-seq 74 Lancez IGV en cliquant sur l’icône du bureau Windows TP Cherchez le génome d’intérêt (ici galGal4)
  73. ETAPE 3 : Visualisation - IGV : Créer une référence

    - Pipeline détaillé pour l’analyse de données RNA-seq 75 Lancez IGV en cliquant sur l’îcone du bureau Windows TP Cliquez sur Genomes > Create .genome File …
  74. ETAPE 3 : Visualisation - IGV : Créer une référence

    - Pipeline détaillé pour l’analyse de données RNA-seq 76 Lancez IGV en cliquant sur l’îcone du bureau Windows TP Cliquez sur Genomes > Create .genome File … Identifiant Description Séquence de référence (.fasta) Annotation (.gtf)
  75. ETAPE 3 : Visualisation - IGV : Visualisation - Pipeline

    détaillé pour l’analyse de données RNA-seq 77 TP Rapatriez les fichier .bam, .bai et .bw stockés sur le cluster sur votre machine via FileZilla
  76. ETAPE 3 : Visualisation - IGV : Visualisation - Pipeline

    détaillé pour l’analyse de données RNA-seq 78 TP Annotation (.gtf) Taille de la région affichée Couverture à la position Alignements Référence (.fa) Paire de reads alignés en plein + insert Reads épissés SNPs Déletion Explorez l’interface d’IGV ainsi que les alignements
  77. ETAPE 4 : Mesure d’expression - featureCount : gènes et

    transcrits - Pipeline détaillé pour l’analyse de données RNA-seq 79 Mesure d’expression avec Subread featureCount -t : élément associé au comptage -g : méta-élément associé au comptage (gene_id ou transcript_id) -p : comptage des fragments plutôt que des reads -s : 0 : comptage « unstranded » 1 : comptage « stranded » 2 : comptage « reversely stranded » -a : fichier .gtf -o : fichier de sortie
  78. ETAPE 4 : Mesure d’expression - featureCount : gènes et

    transcrits - Pipeline détaillé pour l’analyse de données RNA-seq 80 Procédez au comptage par gène et exon avec featureCount Procédez au comptage par transcrit avec featureCount TP
  79. ETAPE 4 : Mesure d’expression - featureCount : gènes et

    transcrits - Pipeline détaillé pour l’analyse de données RNA-seq 81 Explorez les sortie de featureCount TP Identifiant du gène / transcrit Référence des 3 exons du gène / transcrit Start des 3 exons du gène / transcrit End des 3 exons du gène / transcrit Strand des 3 exons du gène / transcrit Taille cumulée des 3 exons Comptage brutes
  80. ETAPE 4 : Mesure d’expression - featureCount : gènes et

    transcrits - Pipeline détaillé pour l’analyse de données RNA-seq 82 Explorez les sortie de featureCount TP Quelques exemples de gènes à regarder plus précisément : - FMO3 - GORAB - RXRG