Nouvelle version du Workset CNVCapture (v2)
Le pipeline d’analyse CNVCapture (germline) évolue : nouvel algorithme de calling, meilleure gestion de la sélection des contrôles pour une amélioration significative des performances (sensibilité et précision).
SeqOne Newsletter Juin 2019

Dans le cadre de notre processus d’amélioration continue, nous vous proposons aujourd’hui une nouvelle version du workset CNVCapture (v2) permettant la recherche de CNVs constitutionnels dans les données de captures. Cette nouvelle version fait suite au développement en interne d’un nouveau moteur de détection des CNVs (CNV-Panel-V2) qui améliore significativement les résultats (sensibilité et précision) grâce notamment à une nouvelle méthodologie de sélection des échantillons contrôles. Nous allons passer en revue les changements majeurs et discuter des améliorations apportées.
Meilleurs sélection des contrôles
Une étape critiques dans l’analyse de CNVs dans les données de capture est de sélectionner, pour chaque échantillon, une liste de contrôles parmi les autres échantillons du même run. Ces contrôles permettront de détecter si une région présente un excès (amplification) ou une carence (délétion) de signal. Le problème posé par cette méthode d’analyse par couverture concerne la sélection des contrôles. Il s’agit de choisir le plus grand nombre possible de contrôles (puissance statistique) sachant qu’ils doivent posséder des caractéristiques globales de couverture les plus proches possible (limitation de la variabilité) de celles de l’échantillon pour lequel nous recherchons les CNVs.
Pour ce faire, nous avons introduit une procédure de sélection des meilleurs contrôles parmi les échantillons du même run en utilisant une combinaison des scores de corrélation de Pearson (corrélation linéaire) et de Spearman (corrélation de rang). Ces tests statistiques donnent des indications complémentaires sur la relation entre deux échantillons. Afin de ne pas biaiser le choix des contrôles, nous avons également introduit une autre méthode statistique, la distance de malhanobis, qui permet d’exclure les régions “outliers” (ex: un CNV) avant de calculer les corrélations. Nous avons également défini deux seuils: un seuil minimal de 6 échantillons contrôles nécessaires pour la recherche des CNVs et un seuil maximum de 12 (les mieux corrélés parmi l’ensemble des contrôles).
De plus, pour chaque région considérée, nous avons introduit une sous-sélection des contrôles basée sur l’écart inter-quartile (IQR). Cette procédure permet de supprimer les outliers par région. Par exemple, si un des contrôles sélectionnés présente une variation du nombre de copies pour la région concernée, il ne participera pas au calcul des métriques de cette région (copy-ratio, z-score, etc…)
L’ensemble de ces nouvelles procédures de sélection des contrôles permet de garantir une meilleure estimation du nombre de copies (et autres métriques, zscore ..) et ainsi d’améliorer les performances de sensibilité et de précision pour la recherche des CNVs.
Découpage plus précis des régions
Afin de mieux identifier les régions du gène impliquées dans la variation du nombre de copie, l’annotation des régions étudiées (couvertes par le manifest) a été affinée avec la création de 4 sous-catégories :
- les régions exoniques sont divisées en exon-UTR et exon-CDS
- les régions bordant les exons sont divisées en upstream et downstream (jusqu’à 1000pb)
Nouvel procédure de calling: plus besoin de hard-filter
Dans cette nouvelle version nous avons également introduit un score de probabilité de détection de CNV qui combine le copy-ratio, le z-score et la variabilité des contrôles. Il permet de catégoriser automatiquement les régions dans l’une des quatre classes suivantes :
- Normal : Pas de variation du nombre de copies par rapport aux contrôles
- Amplification : Gain de copie(s)
- Deletion : Perte de copie(s)
- Failed : Echec de détection du nombre de copies (variabilité trop grande)
Ce score permet de s’affranchir des procédures de “hard-filtering”qui impliquent de fixer des valeurs seuils arbitraires sur les différentes métriques. Pour conclure, les performances de détections des CNVs sont grandement augmentées.
Comments