Améliorations bionformatiques du pipeline SomaVar amplicon
A travers une meilleure gestion des séquences chevauchantes et des amorces d’amplification, nous avons amélioré le calcul des fréquences alléliques lors de l’analyse de données amplicons avec SomaVar.
Newsletter Janvier 2020
Nous avons retravaillé le pipeline SomaVar amplicon afin d’améliorer ses performances sur le calcul de la fréquence allélique des variants (VAF). Ces modifications n’affectent pas la capacité de détection du pipeline (variant calling), mais permettent de corriger le calcul de la VAF dans les régions :
- de chevauchement entre les séquences paired-end,
- couvertes par des séquences correpondant en partie aux amorces de PCR d’un ou plusieurs amplicons.
Nouveautés
Gestion des séquences chevauchantes : chaque amplicon correspondant à un seul produit de PCR, les portions chevauchantes entre les R1 & R2 à l’issue de séquençage paired-end correspondent à la même information. Afin de corriger l’augmentation artificielle de la couverture locale qui résulte de ces situations de chevauchement, notre pipeline inclut désormais une étape de sélection d’une des séquences sur la base de sa qualité.
Gestion des amorces d’amplification : un bon design implique souvent que les amplicons se chevauchent et, potentiellement, que cette région de chevauchement couvre une des amorces d’amplification si celle-ci n’a pas été éliminée des séquences. Celle-ci peut donc résulter en un faux positif, si une mutation est présente dans la séquence des amorces, ou diluer la fréquence d’un variant.
Nous proposons désormais une étape facultative de soft-clipping sur une longueur fixe de 20 paires de bases à chaque extrémité des séquences, éliminant ainsi ces portions de séquences des étapes bioinformatiques ultérieures (alignement, variant calling).
Retrocompatibilité
Une étape de soft-clipping de 20 paires de bases était prévue par défaut dans la version précédente du workset SomaVar. Cependant, pour tous les projets de panels amplicons déjà créés, l’effet n’est pas rétroactif et toute nouvelle analyse lancée le sera sans soft-clipping des amorces.
L’élimination des séquences des amorces étant prévue dans certains kits, notamment les kits Ampliseq (Illumina), cette étape de soft-clipping est devenue facultative et paramétrable à la création du projet.
Comments