Analyses bioinformatiques et statistiques de données de ChIP-seq sous UNIX et R - Journée 1

Analyses bioinformatiques et statistiques de données de ChIP-seq sous UNIX
et R Agrocampus Ouest - Avril 2017 Pierre-François ROUX Département « Biologie cellulaire & infection » Unité « Organisation nucléaire & oncogenèse » Institut Pasteur – Paris [email protected] CELL BIOLOGY & INFECTION Journée 1 1

Pourquoi étudier la chromatine ? Introduction au ChIP-seq 2 Dans
la cellule eucaryote, la chromatine correspond à une association ADN / protéines Identifier à l’échelle du génome l’ensemble des interaction ADN / protéines et les profiles de modifications d’histones est essentiel pour améliorer nos connaissances relatives à la régulation de la transcription et de la différenciation cellulaire L’état chromatinien impact directement la transcription en influençant la compaction de l’ADN Les altérations chromatiniennes sont héritables, mais potentiellement réversibles (epi-drugs) Un génome eucaryote => centaines / milliers d’épigenome

Mécanismes épigénétiques et santé Introduction au ChIP-seq 3 EPIGENETIC MECHANISMS
are affected by these factors and processes: Development t (in utero, childhood) Environmental chemicals t Drugs/Pharmaceuticals t Aging t Diet t CHROMOSOME CHROMATIN DNA HISTONE TAIL HISTONE TAIL DNA accessible, gene active DNA inaccessible, gene inactive Histones are proteins around which DNA can wind for compaction and gene regulation. HISTONE GENE EPIGENETIC FACTOR METHYL GROUP DNA methylation Methyl group (an epigenetic factor found in some dietary sources) can tag DNA and activate or repress genes. Histone modiﬁcation The binding of epigenetic factors to histone “tails” alters the extent to which DNA is wrapped around histones and the availability of genes in the DNA to be activated. HEALTH ENDPOINTS Cancer t Autoimmune disease t Mental disorders t Diabetes t https://commonfund.nih.gov/epigenomics/figure

Méthodologies pour le profilage épigénomique Introduction au ChIP-seq 4 www.encodeproject.org

Qu’est-ce que le ChIP-seq ? Introduction au ChIP-seq 5 Protocole
classique : • Combinaison entre immunoprécipitation de la chromatine et séquençage à haut-débit • Permet de mapper à l’échelle du génome les intéractions in vivo protéines – ADN • Cibles classiques : facteurs de transcriptions, RNA polymérase, modifications d’histone • 106 – 107 cellules, 3 jours de préparation Barski, A., Cuddapah, S., Cui, K., Roh, T. Y., Schones, D. E., Wang, Z., et al. “High- resolution profiling of histone methylations in the human genome.” Cell 2007 Johnson, D. S., Mortazavi, A., Myers, R. M., and Wold, B. “Genome-wide mapping of in vivo protein-DNA interactions.” Science 316, 2007 Mikkelsen, T. S., Ku, M., Jaffe, D. B., Issac, B., Lieberman, E., Giannoukos, G., et al. “Genome-wide maps of chroma/n state in pluripo- tent and lineage-commiGed cells.” Nature 2007 Robertson et al., "Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing." Nat Methods. 2007

classique : • Combinaison entre immunoprécipitation de la chromatine et séquençage à haut-débit • Permet de mapper à l’échelle du génome les intéractions in vivo protéines – ADN • Cibles classiques : facteurs de transcriptions, RNA polymérase, modifications d’histone • 106 – 107 cellules, 3 jours de préparation

classique : • La protéine d’intérêt est cross-linkée in vivo à l’ADN par traitement au formaldéhyde • La chromatine est fragmentée par sonication ou traitement à la nucléase micrococcale (fragments de 200-600 bp) • Le complexe ADN-protéine est immuno- précipité • Le cross-linking est levé • Les librairies NGS sont préparées de façon standard (+ size selection en général) • Séquençage massivement parallèle

Qu’est-ce que le ChIP-seq ? Introduction au ChIP-seq 8 Transcription
factor mapping • Johnson et al. Science 2007 • First paper using ChIP-seq Histone mapping • Barski et al. Cell 2007 • 20 histone markers Enhancer identification • Visel et al. Nature 2009 • Using p300 as marker Study DNA methylation • Bock et al. Nat. Biotech. 2010 Study protein-RNA interaction • Sanford et al. Genome Res. 2009 Study microRNA targets • Chi et al. Nature 2010 • Target Ago protein (part of RISC) Mining TF regulatory networks • Garber et al. Mol Cell 2012 Pubmed hits per year for “ChIP-seq”

ChIP-exo : ChIP-seq + exonuclease digestion • Meilleure résolution que
le ChIP-seq (1 bp vs 100 bp) iChIP-seq : indexing-first ChIP-seq • 500 à 10000 cellules HITS-CLIP : High-throughput sequencing of RNA isolated by crosslinking immunoprecipitation • Etude des interactions protéines – ARN ChIP-3C-seq / ChIA-PET-seq : • Etude des interactions chromatine – protéine – chromatine MeDIP-seq : Methylated DNA immunoprecipitation and sequencing • Etude de la méthylation (5mC) Protocoles dérivés du ChIP-seq 9 Introduction au ChIP-seq

Protocoles pour lesquels l’analyse est similaire au ChIP-seq 10 Introduction
au ChIP-seq FAIRE-seq : Formaldehyde-Assisted Isolation of Regulatory Elements • Etude des régions accessibles de la chromatine DNase-seq : DNase I hypersensitive sites sequencing • Etude des régions accessibles de la chromatine • TF Footprinting ATAC-seq : Assay for Transposase-Accessible Chromatin • Etude des régions accessibles de la chromatine • TF Footprinting • Positionnement des nucléosomes MNase-seq : Micrococcal Nuclease digestion and sequencing • Positionnement des nucléosomes

Avant de commencer 11 Introduction au ChIP-seq

Des données bruitées et biaisées Introduction au ChIP-seq 12 Design
expérimental de qualité • Protocol lourd è effet batch potentiellement important Optimisation du protocole • Types cellulaires • Anti-corps • Sonication ou digestion MNase Réplicats biologiques • Au moins 2 • Variation biologique / technique Control négatif • Input (ADN non immunoprécipité) • IgG (obsolète)

Connaître ses données pour mieux les analyser Introduction à l’analyse
de données ChIP-seq 13 Données ChIP- seq Taille des fragments Lane Multiplexage Taille des reads Type de librairie Flowcell Plate-forme Adapteurs

Aperçu d’une pipeline classique de traitement de données ChIP-seq Introduction
à l’analyse de données ChIP-seq 14 Données brutes .fastq Données trimmées .fastq Fastq-mcf Bowtie 1 Données alignées .bam Données dédupliquées PicardTools Données filtrées SAMtools .bam .bam Prétraitement FastqScreen • Contamination FastQC • Qualité des reads • Contenu en GC • Taux de duplication • Séquences sur- représentées SAMTools • Taux d’alignement • Taux du duplicats • Régions blacklistées SPP • Efficacité de l’IP • NSC, RSC

à l’analyse de données ChIP-seq 15 Données brutes .fastq Données trimmées .fastq Fastq-mcf Bowtie 1 Données alignées .bam Données dédupliquées PicardTools Données filtrées SAMtools .bam .bam Prétraitement .bed Données filtrées .bam Pics .bed MACS 2 IDR Pics reproductibles Analyses préliminaires IDR • Taux d’irreproductibilité

à l’analyse de données ChIP-seq 16 Données brutes .fastq Données trimmées .fastq Fastq-mcf Bowtie 1 Données alignées .bam Données dédupliquées PicardTools Données filtrées SAMtools .bam .bam Prétraitement .bed Données filtrées .bam Pics .bed MACS 2 IDR Pics reproductibles Analyses préliminaires EdgeR / DESeq Analyse différentielle Régions différentielles .txt Bedtools • FRIP R • Clustering • PCA • Meta-profiles

à l’analyse de données ChIP-seq 17 Données brutes .fastq Données trimmées .fastq Fastq-mcf Bowtie 1 Données alignées .bam Données dédupliquées PicardTools Données filtrées SAMtools .bam .bam Prétraitement .bed Données filtrées .bam Pics .bed MACS 2 IDR Pics reproductibles Analyses préliminaires EdgeR / DESeq Analyse différentielle Régions différentielles .txt Visualisation Analyse de motifs Analyses intégratives deepTools Données de visualisation .wig PWMEnrich Motifs enrichis .logo ChromHMM Etats chromatiniens .bed

Se connecter au cluster Analyse de données de ChIP-seq sous
UNIX 18

UNIX 19

UNIX 20 Pour accéder au cluster Genouestdepuis Windows • Installer PuTTY • Générer une clé SSH via PuTTY Key Generator • Une clé publique .pub • Une clé privée .ppk • Un mot de passe protégeant la clé privé • Sauvegarder les clés • Ajouter la clé publique sur le compte via http://my.genouest.org Login : tp1, tp2 … MDP : tp12cluster! • Charger la clé privée via Pageant • Se connecter au cluster genossh.genouest.org vie PuTTY avec le login et le mot de passe Genouest

Analyse de données de ChIP-seq sous UNIX 21 genossh.genouest.org 22
Via PuTTY (Windows) Via ssh (Linux / Mac) Connectez vous au cluster via PuTTY Se connecter au cluster TP

Se connecter au FTP Analyse de données de ChIP-seq sous
UNIX 22 Pour le transfert de données via FileZilla Sur le cluster Sur votre machine

Le gestionnaire de tâches SGE Analyse de données de ChIP-seq
sous UNIX 23 Nœuds de calcul ssh ou PuTTY Vous Serveur frontal Nœud maître qlogin : connexion en interactif qsub et qarray : soumission de jobs Pas de traitement lourd sur le frontal ! Seulement de la manipulation de fichiers.

sous UNIX 24 Une fois connecté sur le cluster, connectez vous en interactif avec un nœud en utilisant qrsh Vérifiez la version du shell utilisé Créez les répertoires qui stockeront sorties standards, données, scripts … avec mkdir TP

sous UNIX 25 Importez les données brutes en utilisant cp TP

sous UNIX 26 Pas de traitement lourd sur le frontal ! Seulement de la manipulation de fichiers. Commandes SGE de base qrsh : Démarrer une session interactive qconf : Configurer / Se renseigner sur l’architecture du cluster -sql : lister les queues disponibles -spl : lister les environnements de parallélisation disponibles -sc : lister les complexes disponibles qhost : Connaître les ressources disponibles sur le cluster qsub : Soumettre un job -q : nom de la queue sur laquelle le job est soumis -pe : nom de l’environnement de parallélisation utilisé -cwd : exécuter le job dans le répertoire courant -V : exporter les environnements charger dans le répertoire courant -e : répertoire dans lequel enregistrer les STDERR -o : répertoire dans lequel enregistrer les STDOUT -N : nom du job -b y : lancer directement une ligne de commande plutôt qu’un script qstat : Accéder aux statistiques des jobs en court qdel : Supprimer un job en court

sous UNIX 27 Tester les commandes qhost, qstat et qconf avec les différentes options HOSTNAME : Nom de la machine ARCHITECTURE : Architecture NCPU : Nbre de processeurs NCOR : Nbre de coeurs LOAD : Occupation processeur (%) MEMTOT : Mémoire RAM totale MEMUSE : Mémoire RAM utilisée qhost : Connaître les ressources disponibles sur le cluster TP

sous UNIX 28 Tester les commandes qhost, qstat et qconf avec les différentes options Job-ID : identifiant unique du job qstat : Accéder aux statistiques des jobs en court prior : priorité dans la file d’attente name : nome du job user : propriétaire du job state : statut du job r : running E : error s : suspended d : deletion h : hold R : restarted t : transfering w : waiting queue : nome de la queue slots : nombre de processeurs occupés par le job TP

sous UNIX 29 Tester les commandes qhost, qstat et qconf avec les différentes options qconf : Configurer / Se renseigner sur l’architecture du cluster Liste des files d’attente disponibles sur Genouest. Par défaut all.q est utilisée. Mais sur certains clusters il est indispensable de préciser la file d’attente utilisée lors de la soumission d’un job via qsub. Liste des environnements de parallélisation disponible sur Genouest. A préciser uniquement lorsque l’on fait du multithreading (1 job unique découpé en plusieurs processus, tournant sur plusieurs cœurs simultanément). Il faut que les outils / scripts supporte le multithreading (ex : samtools sort -@) TP

sous UNIX 30 Tester les commandes qhost, qstat et qconf avec les différentes options qconf : Configurer / Se renseigner sur l’architecture du cluster Liste des files complexes définis sur Genouest. Ce sont les « variables » paramétrables sur Genouest. Parfois nécessaire de les modifier pour demander des ressources particulières (Ex : h_vmem=100G si vous avez besoin de 100 Go de RAM pour le job soumis) TP

sous UNIX 31 Lancez une analyse FastQC via qsub A la racine de votre home (indiqué par ~) deux fichiers texte sont créés. STDOUT STDERR A la racine de votre home (indiqué par ~) deux fichiers sont créés STDERR : le job n’a pu être exécuté car le nœud sur lequel votre job a été exécuté ne connaît pas la commande fastqc TP

Gérer les environnements sur le cluster Analyse de données de
ChIP-seq sous UNIX 32 Gestion des librairies sur Genouest De nombreux outils sont pré-installés sur le cluster. Ils sont listés dans /softs/local et sur le site internet de Genouest www.genouest.org

ChIP-seq sous UNIX 35 Configurer le .bashrc à La machine sur laquelle vous êtes connectés et avez chargé vos environnements est différente de celle sur laquelle le job tourne à Pour « communiquer » ces informations aux machines sur lesquelles sont soumis les jobs, il faut paramétrer le .bashrc à .bashrc = fichier texte caché contenant les configurations de votre shell, et les lignes de codes à exécuter à chaque ouverture de session du le cluster, et sur chaque machines sur lesquelles sont soumis les jobs

ChIP-seq sous UNIX 36 Explorer le contenu de votre .bashrc avec nano à Pour vous déplacer sous nano, utiliser les flèches directionnelles à Pour quitter l’éditeur nano tapez « Ctrl » + « X » sur votre clavier à Pensez à sauvegarder si vous avez fait des modifications (touche « Y » puis « Entrée ») TP

ChIP-seq sous UNIX 37 Créez des alias dans votre .bashrc à Pour vous déplacer sous nano, utiliser les flèches directionnelles à Pour quitter l’éditeur nano tapez « Ctrl » + « X » sur votre clavier à Pensez à sauvegarder si vous avez fait des modifications (touche « Y » puis « Entrée ») TP

ChIP-seq sous UNIX 38 A la fin du .bashrc, ajouter la ligne permettant de charger l’environnement FastQC à Pour vous déplacer sous nano, utiliser les flèches directionnelles à Pour quitter l’éditeur nano tapez « Ctrl » + « X » sur votre clavier à Pensez à sauvegarder si vous avez fait des modifications (touche « Y » puis « Entrée ») TP

ChIP-seq sous UNIX 39 Lancez de nouveau l’analyse FastQC via qsub -cwd : exécuter le job dans le répertoire courant -V : exporter le contenu du .bashrc -N : renommer le job -b y : exécuter une ligne de commande TP

La parallélisation à gros grains Analyse de données de ChIP-seq
sous UNIX 40 Structure des boucles en bash Grammaire de base Définition d’une variable avec allocation statique Commande à exécuter Référence à la variable

La parallélisation à gros grains Analyse de données de ChIP-seq
sous UNIX 41 Structure des boucles en bash Grammaire de base Définition d’une variable avec allocation dynamique Commande à exécuter Référence à la variable

Le transfert de données entre le cluster et votre machine
Analyse de données de ChIP-seq sous UNIX 42 Pour le transfert de données via FileZilla Sur le cluster Sur votre machine

Présentation des données Analyse de données de ChIP-seq sous UNIX
43 Lignée cellulaire GM12878 (projets ENCODE / HapMap) • Lignée lymphoblastoide dérivée de lymphocytes B • Traitement au TNFa pendant 6h Anticorps anti-p65 polyclonal de lapin (Santa-Cruz Biotechnology sc-372) • P65 = RELA = NFKB p65 subunit • Impliqué dans la réponse immunitaire ChiP-seq Illumina HiSeq 2000 SE 25 bp • 10 x 106 cellules • Sonication • NEBNext library preparation kit • Amplification par 15 cycles de PCR

Présentation des données Analyse de données de ChIP-seq sous R
44 TP Echantillons 2 réplicats RELA ChIP-seq après traitement au TNFa 2 réplicats Sono-seq Replicat Nom Séquences Totales (M) Séquences Chr19 (M) RELA TNFa Rep 1 RELA_REP1 41 0.83 Rep 2 RELA_REP2 43 0.76 Input Rep 1 NPUT_REP1 46 0.86 Rep 2 INPUT_REP2 39 0.85

ETAPE 1 : Préparation des données - Qualité des données
brutes - Analyse de données de ChIP-seq sous UNIX 45 Qu’est-ce que le format FASTQ ? Format de base pour stocker des données NGS (DNA-seq, RNA-seq, ChIP-seq …) Extension du format FASTA = identifiant + séquence + qualité Informations relatives à un read ➝ Identifiant unique ➝ Séquence nucléotidique (IUPAC) ➝ + ➝ Scores de qualité Phred codé en ASCII

brutes - Analyse de données de ChIP-seq sous UNIX 46 Qu’est-ce que le format FASTQ ? Format de base pour stocker des données NGS (DNA-seq, RNA-seq, ChIP-seq …) Extension du format FASTA = identifiant + séquence + qualité Informations relatives à un read ➝ Identifiant unique

brutes - Analyse de données de ChIP-seq sous UNIX 47 Qu’est-ce que le format FASTQ ? Format de base pour stocker des données NGS (DNA-seq, RNA-seq, ChIP-seq …) Extension du format FASTA = identifiant + séquence + qualité Informations relatives à un read ➝ Scores de qualité Phred codé en ASCII QPhred = -10 log10 P = ASCII - 33 QPhred = ? = 63 – 33 = 30 ó P = 10-3

ETAPE 1: Préparation des données - Qualité des données brutes
- Analyse de données de ChIP-seq sous UNIX 48 Evaluez la qualité des données brutes avec fastqc TP

- Analyse de données de ChIP-seq sous UNIX 49 Statistiques générales A vérifier : - Mode d’encodage des qualités - Nombre de séquences - Longueur des séquences TP

- Analyse de données de ChIP-seq sous UNIX 50 Qualité Phred brutes moyennes selon la position - Plus la valeur de Phred est élevée, meilleure est la qualité - Au dessous de 30, il est en général recommander de nettoyer les données (trimming via cutadapt) - Ce sont les extrémités qui posent le plus souvent problème

- Analyse de données de ChIP-seq sous UNIX 51 Contenu moyen en base à la position - La proportion de chaque base, à chaque position est identique dans une librairie « aléatoire » - Si ça n’est pas le cas : il peut y avoir une contamination (primers, adaptateurs …). - Biais lié au random priming : certains oligo-primers fonctionnent mieux que d’autres. Ce biais est connu avec les kit Illumina TruSeq et ne pose, a priori, pas de souci

- Analyse de données de ChIP-seq sous UNIX 52 Taux de GC A gauche : distribution biaisées à cause des gènes très exprimées (RNA-seq) A droite : contamination des reads par des adaptateurs (ChIP-seq)

- Analyse de données de ChIP-seq sous UNIX 53 Contenu en k-mers A gauche : librairie NGS classique. Pas de biais particulier car pas de pattern cyclique. A droite : librairie contaminée par des adaptateurs, pattern cyclique dans les k-mers enrichis. GATCGGA--- -ATCGGAA-- --TCGGAAG- ---CGGAAGA

- Analyse de données de ChIP-seq sous UNIX 54 Contenu en adaptateurs En haut : librairie NGS classique. Légère contamination avec adaptateurs Illumina. En bas : librairie contaminée +++ par des adaptateurs Nextera

ETAPE 1: Préparation des données - Trimming et nettoyage -
Analyse de données de ChIP-seq sous UNIX 55 Quality-trimming et adapter-trimmingavec fastq-mcf TruSeq Universal Adapter: Sens : 5’ AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT 3’ Anti-sens : 5’ AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGTAGATCTCGGTGGTCGCCGTATCATT 3’ TruSeq Indexed Adapter : Sens : 5’ AGATCGGAAGAGCACACGTCTGAACTCCAGTCAC - NNNNNN - ATCTCGTATGCCGTCTTCTGCTTG 3’ Anti-sens : 5’ CAAGCAGAAGACGGCATACGAGAT - NNNNNN - GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT 3’

Analyse de données de ChIP-seq sous UNIX 56 Quality-trimming et adapter-trimmingavec fastq-mcf -t seuil de tolérance pour la contamination -C nombre de read analysé pour évaluer la contamionation -q qualité minimale par base -l taille minimale de la séquence restante -S sauvegarder les reads filtrés --qual-mean qualité Phred moyenne du read --max-ns nombre maximal de N par read -o nom de fichier de sortie pour les reads

Analyse de données de ChIP-seq sous UNIX 57 Procédez au trimming avec fastq-mcf Evaluez l’impact du trimming avec fastqc TP

ETAPE 1: Préparation des données - Vérifiez la contamination -
Analyse de données de ChIP-seq sous UNIX 58 Vérifier la contamination des librairies avec fastq_screen --subset nombre de reads utilisés dans l’analyse --outdir répertoire de sortie --aligner algorithme utilisé pour l’alignement (bowtie ou bowtie2) --threads nombre de cœur utilisé par job --conf chemin vers le fichier de configuration

Analyse de données de ChIP-seq sous UNIX 59 Vérifier la contamination des librairies avec fastq_screen

Analyse de données de ChIP-seq sous UNIX 60 Vérifier la contamination des librairies avec fastq_screen TP

Analyse de données de ChIP-seq sous UNIX 61 Explorez les sorties de fastq_screen TP

ETAPE 2 : Alignement - Génome de référence - Analyse
de données de ChIP-seq sous UNIX 62 Qu’est-ce qu’une référence ? Fichier .fasta contenant la séquence du génome ou du transcriptome sur laquelle l’alignement des données NGS va être effectué Où trouver ma référence favorite ?

ETAPE 2 : Alignement - Génome de référence - Analyse
de données de ChIP-seq sous UNIX 63 Qu’est-ce que le format FASTA ? Fichier de texte contenant les séquences biologiques (nucléiques ou protéique) au format IUPAC Dans un génome de référence il y a autant de > que de chromosomes ou de groupe de liaisons (une séquence par chromosome) Descripteur de la séquence (commence toujours par > ) Séquence au format IUPAC

ETAPE 2 : Alignement - Bowtie : Index - Analyse
de données de ChIP-seq sous UNIX 64 Téléchargez la référence avec wgetpuis générez l’index associé avec bowtie- build TP

ETAPE 2 : Alignement - Bowtie : Alignements - Analyse
de données de ChIP-seq sous UNIX 65 Procédez à l’alignement avec bowtie TP -p nombre de threads utilisés -v nombre de mismatches par read -m nombre maximal d’alignements autorisés par read --best ne rapporter que le meilleur alignement --strata mode « strata » -S output au format SAM

ETAPE 2 : Alignement - Bowtie : Alignements - Analyse
de données de ChIP-seq sous UNIX 66 Procédez à l’alignement avec bowtie TP

ETAPE 2 : Alignement - Le format SAM / BAM
- Analyse de données de ChIP-seq sous UNIX 67 Qu’est ce que le format SAM / BAM ? à Les alignements HWI-ST314:280:C45E9ACXX:1:1101:5332:2090 99 8 19927541 255 99M = 19927718 395 GGATCG[...] CCCFF[...] HWI-ST314:280:C45E9ACXX:1:1101:5332:2090 147 8 19927718 255 59M118N41M = 19927541 -395 TTCTC[...] BB@80[...] Identifiant du read Bitwise flag Nom de la référence Position de la première base Qualité du mapping CIGAR line Identifiant de la référence sur laquelle s’aligne le read suivant Position du read suivant Taille de l’insert Séquence du read Qualité Phred de chaque base

- Analyse de données de ChIP-seq sous UNIX 68 Qu’est ce que le format SAM / BAM ? à le bitwise flag 99 = 1 + 2 + 32 + 64 • Read pairé • Read mappé en paire • L’autre read de la paire est mappé en reverse • Ce read est mappé en forward

- Analyse de données de ChIP-seq sous UNIX 69 59M118N41M • 59 bases alignées en plein • 118 bases insérées • 41 bases alignées en plein à Read splicé Qu’est ce que le format SAM / BAM ? à La CIGAR line

ETAPE 2 : Alignement - Retrait des duplicats - Analyse
de données de ChIP-seq sous UNIX 70 Procédez au tri des alignements avex samtools sort TP

ETAPE 2 : Alignement - Retrait des duplicats - Analyse
de données de ChIP-seq sous UNIX 71 Procédez au retrait des duplicats avec MarkDuplicates TP

ETAPE 2 : Alignement - Les régions blacklistées - Analyse
de données de ChIP-seq sous UNIX 72 Pourquoi des régions blacklistées ? • Les expériences de génomique fonctionnelle basées sur les NGS mettent souvent en évidence des régions présentant des signaux anormalement élevés (alignement excessif, non structuré) • Ces régions sont souvent uniquely mappable. Jouer sur la mappability des lectures lors de l’alignement ne permet pas d’éviter ces artefacts • Elles sont souvent situées au sein de séquences répétées (centromères, télomères, satellites) • Il est essentiel de les retirer pour éviter de biaiser le peak-calling ou d’obtenir des mesures de similarité (telle que la corrélation de Pearson) erronées • Régions identifiées et référencées dans le cadre des projets ENCODE et modENCODE

ETAPE 2 : Alignement - Les régions blacklistées - Analyse
de données de ChIP-seq sous UNIX 73 Procédez au retrait des séquences alignées dans les régions blacklistées avec bedtools TP

ETAPE 2 : Alignement - Estimer la qualité des alignements
- Analyse de données de ChIP-seq sous UNIX 74 Téléchargez phantompeakqualtoolset le package R caTools Installez le packages SPP et caTools sur R TP

- Analyse de données de ChIP-seq sous UNIX 75 Delay (n x k in bp) k k Taille moyenne des fragments Immunoprécipitation de la protéines d’intérêt Séquençage des extrémités 5’ des fragments générés Alignement des séquences Calcul de la couverture en séquences (Watson & Crick) Extension des séquences d’origine Modélisation des pics Pourquoi estimer la taille des fragments ? Cross-correlation Watson coverage (+) Crick coverage (-) Delay (n x k in bp) CC Taille moyenne des fragments

- Analyse de données de ChIP-seq sous UNIX 76 Pourquoi estimer la taille des fragments ?

- Analyse de données de ChIP-seq sous UNIX 77 Pourquoi estimer la taille des fragments ?

- Analyse de données de ChIP-seq sous UNIX 78 Evaluez la qualité des alignements et la taille des fragments avec phantompeakqualtools TP -rf écraser les fichiers si déjà existants -s intervalle sur lequel est évalué la cross-correlation -odir répertoire de sortie -savp fichier de sortie pour le graphique du profil de cross-correlation -x intervalle à exclure pour calculer la cross-correlation

- Analyse de données de ChIP-seq sous UNIX 79 Evaluez la qualité des alignements et la taille des fragments avec phantompeakqualtools TP

- Analyse de données de ChIP-seq sous UNIX 80 Evaluez la qualité des alignements et la taille des fragments avec phantompeakqualtools TP −100 0 100 200 300 400 500 0.56 0.58 0.60 0.62 0.64 0.66 0.68 strand−shift (195,210) cross−correlation MCF7_H3K27Ac_Rep1_CHR19_DEDUP_NOBLACKLIST.bam NSC=1.21856,RSC=2.48872,Qtag=2 −100 0 100 200 300 400 500 0.302 0.304 0.306 0.308 strand−shift (185,200,220) cross−correlation MCF7_Input_Rep1_CHR19_DEDUP_NOBLACKLIST.bam NSC=1.0113,RSC=0.473522,Qtag=−1 NSC : Normalized Strand Cross-correlation • Mesure de l’enrichissement indépendante d’une détection préalable des régions enrichies. • Corrélations de Pearson entre les coverages Watson et Crick calculer pour des valeurs grandissantes de décalage (shift) • Valeur maximale atteinte lorsque le shift est égal à la taille des fragments prédominants • Ratio entre la cross-corrélation maximale et la cross-corrélation du background (cross-corrélation minimum) • Sensible aux facteurs expérimentaux (anti-corps) et biologiques (broad vs sharp) Input RELA

- Analyse de données de ChIP-seq sous UNIX 81 Evaluez la qualité des alignements et la taille des fragments avec phantompeakqualtools TP NSC : Relative Strand Cross-correlation • Mesure de l’enrichissement indépendante d’une détection préalable des régions enrichies. • Corrélations de Pearson entre les coverages Watson et Crick calculer pour des valeur grandissante de décalage (shift) • Valeur maximale atteinte lorsque le shift est égal à la taille des fragments prédominants • Ratio entre la cross-corrélation maximale moins la cross-corrélation du background (cross-corrélation minimum) et la cross- correlation du pic phantommoins la cross-correlation du background • Permet d’évaluer l’enrichissement (> 1 : enrichissement, < 1 mauvaise qualité) −100 0 100 200 300 400 500 0.56 0.58 0.60 0.62 0.64 0.66 0.68 strand−shift (195,210) cross−correlation MCF7_H3K27Ac_Rep1_CHR19_DEDUP_NOBLACKLIST.bam NSC=1.21856,RSC=2.48872,Qtag=2 −100 0 100 200 300 400 500 0.302 0.304 0.306 0.308 strand−shift (185,200,220) cross−correlation MCF7_Input_Rep1_CHR19_DEDUP_NOBLACKLIST.bam NSC=1.0113,RSC=0.473522,Qtag=−1 Input RELA

Analyse de données de ChIP-seq sous UNIX 82 ETAPE 3
: Peak-calling & reproductibilité - Peak calling - Objectif • Identifier les régions d’enrichissement local en fragments immuno-précipités • Prise en considération de l’enrichissement local et de l’input En pratique • Identifier les régions ayant produit une quantité significativement plus importante de reads en comparaison à l’attendu déduit à partir de l’input

: Peak-calling & reproductibilité - Peak calling - Problématique : nature de l’enrichissement • Profil classique pour les TFs (NRSF, CTCF, FOXA1 …) • Le TFBS est entourés de deux pics • Profils RNA polymérase II (ou H3K4me1, H3K9ac) • Signal fort autour du TSS • Signal diffus dans la région transcrite • Profils H3K27me3 et H3K9me » • Domaines enrichis de taille variable (1 nucléosome à plusieurs Mb)

: Peak-calling & reproductibilité - Peak calling - Calling sans contrôle Le signal correspondant au background est estimé à partir de distributions aléatoires (Poisson ou Binomiale) Calling avec contrôle négatif Le contrôle est directement utilisé pour définir le niveau de background Calling différentiel : comparaison de deux conditions Le signal est soustrait tout le long du génome à partir des données ChIP-seq

: Peak-calling & reproductibilité - Peak calling - Influence de l’algorithme • De nombreux algorithmes différents (MACS, SICER, BayesPeaks, FindPeaks …) • Ne partagent pas les même paramètres par défaut pour filtrer les pics • Les pics les associés aux meilleures probabilités sont souvent reproductibles entre algorithmes • Pas le cas pour les pics moins robustes

: Peak-calling & reproductibilité - Peak calling - MACS - Etape 1 : modélisation du tag shift • Scan du génome avec une fenêtre couvrant la taille des fragments (e.g. 1000bp) • Identification des 1000 meilleurs régions locales d’enrichissement avec un mfold supérieur à 32 (par défaut) par rapport au modèle aléatoire • Séparation des reads Watson et Crick • La valeur du shift d est définie comme la distance moyenne entre les modes des distribution obtenues pour les reads Watson et Crick

: Peak-calling & reproductibilité - Peak calling - MACS - Etape 2 : peak calling • L’ensemble des reads est shifté par d/2 • Une fenêtre de taille 2d est glissée sur le génome pour trouver des régions candidates présentant un enrichissement local (comparaison à une distribution de Poisson, p < 10-5) • Les pics adjacents sont combinés • Sorties : • Fold enrichment pour les pics ainsi définis (ratio entre le tag count observés et le tag count attendu sous la distribution de Poisson, ou l’input si disponible) • Position du summit (pile-up le plus élevé au sein du pic) • FDR empirique si un contrôle est disponible (sample swap)

ETAPE 4 : Le peak-calling - Peak-calling sans contrôle -
Analyse de données de ChIP-seq sous R 88 ChIPped Control Comptage Comptage Signal / Bruit Valeur seuil Evaluation du signal Evaluation du bruit Ratio Signal / Bruit median

ETAPE 3 : Peak-calling & reproductibilité - Aperçu du pipeline
IDR - Analyse de données de ChIP-seq sous UNIX 89 Irreproducible DiscoveryRate • Il est ESSENTIEL de prendre en compte la reproductibilité dans le contexte des NGS pour aboutir à des découvertes solides • L’approche IDR permet de mesurer à quel point deux réplicats biologiques permettent de mettre en évidence les mêmes observations à l’échelle génomique • Contrairement à d’autres approches, l’approche IDR permet de créer une courbe permettant d’évaluer visuellement à partir de quel seuil les mesures ne sont plus consistantes entre réplicats • En pratique, il s’agit de comparer deux listes ordonnées (par coverage, p-value …) d’observations comprenant à la fois du signal et du bruit • L’algorithme consiste alors à ajuster un modèle aux données rangées pour discriminer signal et bruit Qunhua Li, James B. Brown, Haiyan Huang and Peter J. Bickel “Measuring reproducibility of high throughput experiments.” The Annals of Applied Statistics 2011 Stephen G. Landt, Georgi K. Marinov, Anshul Kundaje, Pouya Kheradpour, Florencia Pauli, Serafim Batzoglou et al. “ChIP-seq guidelines and practices of the ENCODE and modENCODE consortia.” GenomeResearch 2012

IDR - Analyse de données de ChIP-seq sous UNIX 90 Appliquer l’IDR à des données de ChIP-seq Pooled pseudo-replicate2 Nombre de pics reproductibles entre les pooled pseudoreplicates (Np) Pooled pseudo-replicate1 Pool Replicat 1 Replicat 2 Self pseudo-replicate1.1 Self pseudo-replicate1.2 Self pseudo-replicate2.1 Self pseudo-replicate2.2 IDR IDR IDR IDR Nombre de pics reproductibles entre les self pseudoreplicates (N1) Nombre de pics reproductibles entre les self pseudoreplicates (N2) Nombre de pics reproductibles entre les réplicats originaux (Nt) N1 / N2 > 2 Np / Nt > 2 & Reproductibilité faible

ETAPE 3 : Peak-calling & reproductibilité - Pipeline IDR -
Analyse de données de ChIP-seq sous UNIX 91 Mergez les inputs

Analyse de données de ChIP-seq sous UNIX 92 Générez les self-pseudoréplicats

Analyse de données de ChIP-seq sous UNIX 93 Générez les self-pseudoréplicats

Analyse de données de ChIP-seq sous UNIX 94 Procédez au tri et à l’indexation des self-pseudoréplicats

Analyse de données de ChIP-seq sous UNIX 95 Procédez au tri et à l’indexation des self-pseudoréplicats

Analyse de données de ChIP-seq sous UNIX 96 Procédez au peak-callingsur les self-pseudoréplicats

Analyse de données de ChIP-seq sous UNIX 99 Poolez les deux réplicats et créer deux pooled pseudo-réplicats

Analyse de données de ChIP-seq sous UNIX 100 Poolez les deux réplicats et créer deux pooled pseudo-réplicats

Analyse de données de ChIP-seq sous UNIX 101 Procédez au peak-callingsur les pooled-pseudoréplicats

Analyse de données de ChIP-seq sous UNIX 102 Procédez au peak-callingsur les réplicats originels

Analyse de données de ChIP-seq sous UNIX 103 Procédez au peak-callingsur les réplicats originels

Analyse de données de ChIP-seq sous UNIX 104 Triez les pics identifiés par p-value croissante et sélectionnez les 1000 premiers

Analyse de données de ChIP-seq sous UNIX 105 Lancez les analyses IDR

Analyse de données de ChIP-seq sous UNIX 106 Procédez au peak-callingsur les données originelles poolées

Analyse de données de ChIP-seq sous UNIX 107 Définissez le seuil IDR et identifiez les pics reproductibles

IDR - Analyse de données de ChIP-seq sous UNIX 108 Appliquer l’IDR à des données de ChIP-seq

Analyses bioinformatiques et statistiques de do...

Analyses bioinformatiques et statistiques de données de ChIP-seq sous UNIX et R - Journée 1

More Decks by PFRoux

Other Decks in Science

Featured

Transcript