SeqOne users

Gestion plus complète des UMI en contexte somatique

11 February 2021

Tirez-partie des UMI de manière optimale en sélectionnant l’un des 3 nouveaux modes d’analyses de SomaVar, et grâce à un rapport QC repensé et plus complet.

Newsletter Février 2021

Introduction

Etape incontournable de la plupart des protocoles NGS, tant pour la préparation des librairies que leur enrichissement en cibles d’intérêt, la PCR génère pour chaque molécule unique un nombre variable de clones, ou duplicats. 

Or cette étape est connue non seulement pour engendrer certains biais, amplifiant préférentiellement certaines séquences et augmentant ainsi artificiellement la couverture d’une position donnée dans le génome, mais également des erreurs qui peuvent s’avérer problématiques lors de la recherche de variants de très faible fréquence allélique.

Le recours à un index moléculaire unique (UMI, également connu sous le nom d’identifiant moléculaire unique) dans le workflow de prépration du séquençage, en amont de la PCR, offre une solution à ces problèmes. Ces UMI permettent à l’issue du séquençage d’identifier les séquences provenant d’une même molécule intiale, et ainsi de renforcer la précision du séquençage en éliminant les erreurs [1].

Avantages du recours aux UMI

Ceci présente deux avantages majeurs :

  • Une estimation plus précise de la fréquence allélique, en améliorant le processus de déduplication.

Au cours du pipeline d’analyse bioinformatique, les duplicats de PCR sont identifiés lors de l’étape de déduplication : les lectures s’alignant exactement à la même position dans le génome de référence étant identifiées comme autant de clones d’une seule et même molécule initiale. Une seule de ces séquences est alors retenue comme représentative de la molécule de départ pour la suite du pipeline.

Cependant deux séquences aux coordonnées génomiques identiques pourraient tout aussi bien provenir de deux séquences distinctes, issues de cellules différentes. Avec une approche de déduplication classique, celles-ci seraient réduites à une seule molécule pendant le processus de déduplication C’est donc autant de signal perdu pour la détection des variants, en plus de n’être qu’une représentation partielle du signal à cette position.

Lorsque chaque molécule est indexée en amont de l’amplification par PCR, de sorte que chacun clone puisse-t-être associé à la moculécule initiale, des séquences identiques à l’issue de l’alignement, mais provenant de molécules distinctes seront associées à des UMI différents.

  • Une sensibilité accrue pour identifier les variants de faible fréquence.

Les multiples clones de PCR peuvent être utilisés pour augmenter la qualité de la séquence représentative du fragment d’ADN d’origine. Puisque le fragment a été dupliqué avant le séquençage puis séquencé plusieurs fois, les multiples copies peuvent être utilisées pour corriger les erreurs de séquençage. En générant une séquence consensus à partir de ces duplicats, lequel repose sur un vote à la majorité pour chaque position, on peut alors éliminer en grande partie ce bruit de fond.

Cette application devient alors particulièrement utile lors de la recherche de variants de très faible fréquence allélique, lors du séquençage d’ADN tumural circulant (ADNct) par exemple, pour laquelle les erreurs générées lors de la PCR ou du séquençage peuvent rapidement devenir problématiques.

Utilisation sur SeqOne

En pratique, plusieurs modalités de traitement des UMI sont proposées sur la plateforme lors du lancement d’une analyse SomaVar :

  1. Standard mode (mode recommandé) : des consensus sont générés à partir des duplicats de PCR portant le même UMI, lorsque leur nombre est supérieur ou égal à 2. Les UMI représentés par une seule séquence (singletons) sont également conservés.
  2. High quality : les consensus sont générés à partir des duplicats de PCR portant le même UMI lorsque leur nombre est supérieur à 3, et les UMI supportées par 1 (singletons) ou 2 reads sont éliminés de l’analyse. Ce mode d’analyse est également plus stringent sur la qualité des bases à l’issue de la génération du consensus, et permet la détection de variants dont la fréquence allélique est inférieure à 1%. Il est recommandé lorsque la profondeur de séquençage est supérieure à 5000X, et pour des applications telles que le séquençage d’ADNtc.
  3. UMI disabled : les UMI ne sont pas utilisés pour la déduplication, et ceux-ci sont coupés de l’extrémité des séquences en amont de l’analyse.

Le rapport quality control de l’analyse SomaVar offre désormais une vue plus détaillée de la composition de l’échantillon, en particulier de la distribution des UMI selon le nombre de séquences qui les portent. Cette meilleure représentation de l’échantillon permet d’orienter le choix du mode d’analyse le plus approprié.

Distribution des UMI en termes de nombre de séquences au sein d’un échantillon.

Analyse des CNV

Vous souhaitez détecter les CNV à partir de vos données de capture avec UMI ? Le pipeline SomaCNVCapture sera désormais disponible dans vos projets UMI également. 


Quelle que soit la configuration sélectionnée lors du lancement de vos analyses SomaVar dans ce projet, l’analyse des CNV reposera sur une approche standard : des séquences consensus seront générées à partir des duplicats de PCR porteurs d’un même index, et les singletons seront conservés

Limitations actuelles et rétrocompatibilité

  • Seuls les kits suivants sont actuellements supportés sur la plateforme SeqOne :

– QIAGEN QIAseq 

– Agilent XTHS/Low input

– Agilent XTHS V2

– IDT xGen UDI-UMI

Si vous utilisez un autre protocole, contactez-nous !

  • Seul les worksets SomaVar et SomaRNA sont compatibles avec les données UMI.
  • Chacune des deux nouvelles configurations UMI (standard, high quality) présente des différences avec l’implémentation actuellement disponible pour SomaVar v1.4, résumées dans le tableau suivant :
SomaVar v1.4UMISomaVar v1.5 UMI standardSomaVar v1.5 UMI high quality
Nombre minimal de reads par consensus223
Qualité minimale de chaque base dans le consensus (score phred)303040
Reads hors consensus filtrésouinonoui

Bibliographie

[1] Kou, R. et al. Benefits and Challenges with Applying Unique Molecular Identifiers in Next Generation Sequencing to Detect Low Frequency Mutations. PLoS One 11, e0146638 (2016).

Need help improving your genomic analysis process ?
We'd love to help !