Détection des insertions Alu, L1…
Le pipeline GermlineVar dispose depuis cette nouvelle version d’un module de détection des insertions d’éléments transposables (MEI) en région codante.
SeqOne Newsletter Juin 2019
Contexte
Depuis la découverte de la mutation BRCA2:c.156_157insAlu qui compte pour plus de 25% des mutations délétères dans la population du centre/nord du Portugal [1], une attention particulière a été prêtée à ces réarrangements génomiques. De nouvelles observations ont mis en évidence de nombreuses autres insertions Alu dans des gènes de prédisposition au cancer [2], APC, MLH1, MSH2, etc.
Dans cette MàJ du pipeline GermlineVar, nous avons inclus AluMEI, un nouveau module développé par les bioinformaticiens de SeqOne qui permet de détecter de tels réarrangements. En effet, les variant callers (GATK, Freebayes) utilisés pour l’appel de variants (SNV/Indels) ne sont pas capables de détecter ces grandes insertions qui dépassent la longueur des reads (Insertion Alu ~300bp).
Méthodologie de détection
Le module AluMEI est formé par trois composants qui permettent de détecter, identifier et annoter les insertions MEI :
- MEI detection. Dans cette première étape, AluMEI procède à la recherche de clusters (groupes) de reads contenant des extrémités non alignées (softclip) sur le génome de référence et qui pourraient être des candidats d’insertions MEI. Une séquence consensus des nucléotides non alignés est déterminée à partir des reads de chaque cluster afin d’identifier l’insertion.
- MEI identification: pour chaque cluster, la séquence consensus est alignée avec HMMER [3] (v3.2.1) contre la base DFAM (v3.0) afin d’identifier de potentiels éléments transposables. Seules les séquences pour lesquelles un hit probable (e-value < 0.01 & score > 30) dans la base DFAM à été identifié passent à l’étape suivante.
- MEI annotation: Les insertions MEI sont ensuites annotées avec RefSeq afin de connaitre la position exacte de l’insertion sur le transcrit. Seules les insertions en séquence codante sont finalement retenues et annotées en tant que potentiel “frameshift”. Le nom de l’élément transposable le plus probable qui a été identifié dans DFAM avec HMMER est utilisé pour établir le code HGVS de l’insertion.
Des variants sans VAF
Les insertions MEI détectées par le pipeline AluMEI sont présentées dans le Variant Viewer sans VAF associée. Nous avons fait ce choix pour éviter que de vraies insertions Alu avec une VAF faible ne soient arbitrairement filtrées (filtre sur la VAF). En effet, lors de la capture, suivant la position des sondes et de l’insertion MEI, les fragments ne portant pas la mutation peuvent être préférentiellement sélectionnés. Ce biais de capture induit une sous estimation de la VAF pour ce type de réarrangement.
Il est cependant possible d’avoir une idée de l’importance du signal en ragardant les reads de la région de l’insertion dans le navigateur IGV (page variant). Au niveau du site d’insertion se produit une chute du signal liée à la partie des reads qui porte l’élément transposable et ne s’aligne pas sur le génome de référence. Plus cette chute est importante, pour la fraction allélique observée est importante.
Bibliographie / Webographie
[1] Peixoto, A. et al. The c.156_157insAlu BRCA2 rearrangement accounts for more than one-fourth of deleterious BRCA mutations in northern/central Portugal. Breast Cancer Res. Treat. 114, 31–38 (2009).
[2] Qian, Y. et al. Identification of pathogenic retrotransposon insertions in cancer predisposition genes. Cancer Genet. 216-217, 159–169 (2017).
[3] http://hmmer.org/
[4] http://dfam.org/home
Comments