Alignements multiples dans votre genome browser intégré

La visualisation IGV integrée sur SeqOne gagne en flexibilité, vous permettant désormais d’afficher de multiples alignements dans une même fenêtre.

Newsletter octobre 2020

Un affichage modulable dans IGV

Afin de fluidifier la navigation sur la plateforme SeqOne, et en particulier la visualisation des variants dans le genome viewer intégré, nous avons entrepris de générer un alignement allégé, centré autour des variants de chaque échantillon, à l’issue des pipelines d’analyse GermlineVar, GermlineFamily, SomaVar et SomaDuo.

Représentation schématique de la génération du bam échantillon minimal

Dans la pratique, chaque échantillon dispose désormais de deux fichiers bam associés :

  • le fichier d’alignement brut, disponible au téléchargement depuis l’onglet Files.
  • le nouveau fichier bam dit “minimal”, ou min.bam, généré à la fin de l’analyse bioinformatique et à destination d’IGV.

De plus, le genome viewer intégré gagne en flexibilité, et permet désormais l’alignement de multiples fichiers bams. Ceux-ci peuvent aussi bien être les alignements d’échantillons différents à la même position à des fins de comparaison, ou bien le même échantillon (alignement brut, ou généré par une autre analyse).

Utilisation

A partir de la page variant, une icône d’options sur l’onglet Genome browser vous permet d’accéder au menu de paramétrage des alignements (Tracks settings).

Détail des options disponibles dans le genome browser

L’ensemble des projets et échantillons de votre compte sont alors disponibles à la sélection à partir de menus déroulants.

Enfin, il est possible de sélectionner le bam souhaité parmi ceux générés pour l’échantillon, qu’il s’agisse de son alignement brut (noté sample BAM file) ou du fichier généré par le dernier pipeline lancé sur l’échantillon (noté BAM from latest analysis).

Menu de sélection de l’alignement à ajouter dans la fenêtre Genome browser

Masquez sélectivement certains variants

La fonctionnalité deja vu vous permet de sélectionner des mutations dans votre tableau de variants afin de les masquer.

Newsletter octobre 2020

Nouveauté

L’analyse bioinformatique de données NGS obtenues sur un large panel de gènes ou un exome peut délivrer un nombre important de variants, qu’il convient ensuite de filtrer pour identifier la ou les mutations responsable(s) d’une pathologie.

Si le système de filtres dynamiques de SeqOne permet de réduire cette liste à une sélection de variants pertinents dans le contexte d’une analyse, il peut être utile de mettre de côté ceux d’entre eux n’étant pas retenus pour le patient étudié, afin de ne pas y consacrer davantage de temps lors de l’interprétation.

C’est là l’idée derrière la fonctionnalité Déjà Vu, vous permettant de masquer sélectivement et de manière reversible certains variants lors de votre analyse.

Comment ça marche ?

Déjà vu repose sur la sélection d’un ou plusieurs variants à partir du tableau de variants, via un outil de sélection. 

Dès lors qu’au moins un variant est sélectionné, une icône apparaît dans l’en-ête du tableau, vous donnant la possibilité de masquer la sélection. Celle-ci devient alors grisée.

Utilisation de Déjà Vu pour masquer une sélecion de variants.

Cette action est reversible, par le biais d’une seconde icône vous permettant de faire réapparaître les variants souhaités.

Icônes permettant respectivement d’afficher (gauche) et de masquer (droite) une sélection de variants.

Exemple d’utilisation

Après avoir inspecté une première série de variants, suite à l’application d’un filtre par exemple, certains peuvent être rapidement sélectionnés et masqués. Une fois le filtre levé, ou remplacé par un autre, ces variants apparaitront toujours grisés, de sorte d’éviter de s’y attarder à nouveau.

Si votre sélection de variants s’étend sur plusieurs pages du tableau de variants, seule la sélection visible sur la page en cours sera masquée, afin d’éviter tout risque d’erreur.

Contrairement à l’outil VKB, la sélection de variants annotés “déjà vus” est restreinte à l’analyse en cours, et est entièrement reversible.

Configurez votre tableau de variants

Sélectionnez les colonnes d’annotations souhaitées depuis l’onglet dédié, et enregistrez vos profils de colonnes personnalisés pour chaque type d’analyse.

Newlsetter octobre 2020

Nouveau système de gestion des colonnes

En plus du jeu de colonnes affiché par défaut dans votre tableau de variants, de nombreux éléments d’annotations et informations peuvent y être ajoutés sous la forme de colones supplémentaires.

Il suffit pour cela de dérouler la liste des rubriques disponibles à partir de l’encart Columns, localisé à gauche du tableau.

Menu de configuration des colonnes dans le tableau de variants

Les colonnes ainsi sélectionnées persisteront d’une analyse à l’autre, pour toute la durée de votre session.

Enregistrer un profil de colonnes

La configuration sélectionnée pour votre tableau de variants peut désormais être enregistrée, afin que celle-ci ne soit plus réinitialisée à chaque déconnexion.

Ce nouveau système fonctionne d’une manière analogue aux profils de filtres : après avoir déroulé le menu de sélection des colonnes, coché ou décoché les colonnes souhaitées, le profil correspondant peut être enregistré via le menu déroulant Select profile.

Le profil ainsi créé devient alors disponible dans ce menu, applicable d’un simple clic, et peut être réinitialisé à tout moment :

Appliquer un profil de colonnes enregistré

Des profils de colonnes spécifiques selon le type d’analyse

De la même manière que pour les filtres, le profils de colonnes enregistrés sont propres à un type d’analyse : SomaVar, GermlineVar, GermlineFamily, etc.

Seuls les profils utilisables dans l’analyse en cours sont affichés par défaut,  dans la rubrique Personal profiles. Ceux générés à partir d’un type d’analyse différent, et incompatibles avec l’analyse en cours sont listés sous la rubrique Incompatible profiles, le nom du pipeline compatible s’affichant en survolant le profil avec la souris.

Analysez vos données d’RNA-seq ciblé

Nouveau pipeline pour l’analyse de données RNA-Seq ciblé (capture) avec recherche des gènes de fusion, mutations et analyse du splicing.

Newsletter Janvier 2020
Logo du workset
SomaRNA™

Contexte

Gènes hybrides formés de deux gènes précédemment indépendants, les gènes de fusion résultent de réarrangements chromosomiques tels que les translocations, les délétions ou encore les inversions.

Les transcrits résultants de ces réarrangements sont impliqués dans divers types de cancers [1], étant plus susceptibles de conduire à la production de protéines anormales. Ainsi, la plupart des gènes de fusion identifiés à ce jour sont associés à des cancers hématologiques, sarcomes mais aussi carcinomes [2]. Les identifier est donc un enjeu primordial dans l’identification de cibles thérapeutiques.

Par exemple, les fusions de gènes codant pour des tyrosines kinases représentent une classe importante d’oncogènes associés aux tumeurs hématologiques et solides. Ils sont produits par des translocations et d’autres réarrangements chromosomiques d’un sous-ensemble de gènes de tyrosines kinases.  Il a été montré que les inhibiteurs de tyrosine kinase étaient particulièrement efficaces dans le traitement de ces types de cancers [3].

Nouveautés

Nous avons créé SomaRNA, un outil dédié à l’analyse de données de RNA-seq issues d’approches ciblées de type capture, permettant entre autres d’identifier et visualiser les événements de fusions de gènes à l’échelle du transcrit, tout en détectant SNV et indels.

Ce dernier est disponible au lancement d’une analyse si le type de données du projet a été défini comme ARN à sa création.

Comment ça marche ?

La détection et la visualisation des fusions par SomaRNA repose sur la combinaison de deux outils :

  • STAR, un aligneur de données RNA-seq conçu pour l’alignement de séquences non contiguës directement sur le génome de référence [4] ,
  • Arriba, qui détecte les fusions de gènes à partir d’alignements chimériques [5].

A partir des alignements chimériques issues de STAR, Arriba applique un ensemble de filtres pour éliminer les artéfacts connus et les transcrits observés en contexte non-pathologique. Il associe à chaque événement de fusion potentiel un score de confiance, lequel dépend de multiples critères :

  • le nombre de séquences supportant la fusion,
  • l’équilibre entre les split reads et les paires de reads discordantes,
  • la distance entre les breakpoints, leur position (intragénique ou non),
  • le type d’événement.

Le résultat final est une liste de prédictions de fusions, que l’interface propose sous la forme de différents onglets :

Informations générales sur la fusion, telles que le nombre de spanning reads couvrant la fusion, sa nature (translocation, duplication, inversion or délétion) et son impact sur le cadre de lecture.

Informations relatives aux partenaires, avec les symboles des gènes impliqués dans l’événement de fusion et, pour chacun, les exons impliqués à l’échelle du transcrit ainsi que les coordonnées génomiques du point de fusion.

Représentations graphiques de la fusion, aussi bien à l’échelle du gène et de l’exon, que de la protéine. 

Un premier onglet présente la structure de la fusion et les partenaires impliqués, la couverture des exons couverts par le manifeste de l’analyse étant représentée sous la forme d’un diagramme sur fond jaune :

Les domaines protéiques conservés à l’issue de la fusion  sont mis en évidence dans une seconde vue, pour permettre l’identification de cibles thérapeutiques potentielles :

Autres fonctionnalités

SomaRNA contient une étape de détection des variants à l’issue de l’alignement de STAR, via le variant caller Freebayes.

A l’instar des worksets SomaVar et GermlineVar, ces variants sont ensuite annotés et rendus disponibles dans un onglet Variants.

A venir 

Cette première itération du workset ARN sera bientôt complémentée par des modules dédiés à l’expression ainsi qu’à la détection des sites d’épissage alternatifs.

Durant la phase beta de cette fonctionnalité, n’hésitez-pas à nous faire part de vos retours par mail à l’adresse support@seq.one.

Biblioraphie

[1] Yoshihara, K., Wang, Q., Torres-Garcia, W., Zheng, S., Vegesna, R., Kim, H., and Verhaak, R.G.W. (2015). The landscape and therapeutic relevance of cancer-associated transcript fusions. Oncogene 34, 4845–4854.

[2] Mitelman, F., Johansson, B., and Mertens, F. (2007). The impact of translocations and gene fusions on cancer causation. Nat. Rev. Cancer 7, 233–245.

[3] Medves, S., and Demoulin, J.-B. (2012). Tyrosine kinase gene fusions in cancer: translating mechanisms into targeted therapies. J. Cell. Mol. Med. 16, 237–248.

[4] Dobin A, Davis CA, Schlesinger F, Drenkow J, Zaleski C, Jha S, Batut P, Chaisson M, Gingeras TR. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 2013;29:15–21

[5] https://github.com/suhrig/arriba

Améliorations bionformatiques du pipeline SomaVar amplicon

A travers une meilleure gestion des séquences chevauchantes et des amorces d’amplification, nous avons amélioré le calcul des fréquences alléliques lors de l’analyse de données amplicons avec SomaVar.

Newsletter Janvier 2020

Nous avons retravaillé le pipeline SomaVar amplicon afin d’améliorer ses performances sur le calcul de la fréquence allélique des variants (VAF). Ces modifications n’affectent pas la capacité de détection du pipeline (variant calling), mais permettent de corriger le calcul de la VAF dans les régions :

  • de chevauchement entre les séquences paired-end,
  • couvertes par des séquences correpondant en partie aux amorces de PCR d’un ou plusieurs amplicons.

Nouveautés

Gestion des séquences chevauchantes : chaque amplicon correspondant à un seul produit de PCR, les portions chevauchantes entre les R1 & R2 à l’issue de séquençage paired-end correspondent à la même information. Afin de corriger l’augmentation artificielle de la couverture locale qui résulte de ces situations de chevauchement, notre pipeline inclut désormais une étape de sélection d’une des séquences sur la base de sa qualité.

Gestion des amorces d’amplification : un bon design implique souvent que les amplicons se chevauchent et, potentiellement, que cette région de chevauchement couvre une des amorces d’amplification si celle-ci n’a pas été éliminée des séquences. Celle-ci peut donc résulter en un faux positif, si une mutation est présente dans la séquence des amorces, ou diluer la fréquence d’un variant.

Nous proposons désormais une étape facultative de soft-clipping sur une longueur fixe de 20 paires de bases à chaque extrémité des séquences, éliminant ainsi ces portions de séquences des étapes bioinformatiques ultérieures (alignement, variant calling).

Retrocompatibilité

Une étape de soft-clipping de 20 paires de bases était prévue par défaut dans la version précédente du workset SomaVar. Cependant, pour tous les projets de panels amplicons déjà créés, l’effet n’est pas rétroactif et toute nouvelle analyse lancée le sera sans soft-clipping des amorces.

L’élimination des séquences des amorces étant prévue dans certains kits, notamment les kits Ampliseq (Illumina), cette étape de soft-clipping est devenue facultative et paramétrable à la création du projet.

Nouvel outil d’analyse des CNV en contexte somatique

Nouveau pipeline et nouvelle interface d’interprétation pour l’analyse des CNV dans les panels de capture somatique. Le pipeline à été testé et validé avec des échantillons FFPE !

Newsletter Janvier 2020
Logo du workset SomaCNVCapture™

Un workset dédié à l’analyse de CNV à partir de données de panels de gènes en contexte somatique fait son entrée sur SeqOne. Si la bioinformatique sous-jacente est similaire au pipeline CNVCapture déjà disponible pour l’analyse de variants constitutionnels, ce nouvel outil présente quelques spécificités qui vont être détaillées dans les paragraphes suivants.

Nouveautés

Des paramètres adaptés au contexte somatique. A l’instar du workset CNVPanel, la procédure de sélection des contrôles au sein de la cohorte s’appuie sur la combinaison de scores de corrélation, suivie de l’élimination des outliers.

Cependant, en raison de la complexité des échantillons tumoraux, les seuils utilisés pour définir ces échantillons contrôles au sein de la cohorte sont plus permissifs, autorisant un score de corrélation plus faible (à 80%) et un degré de variation inter-individuelle plus élevé (maximum 30 %).

Une nouvelle visualisation à l’échelle du gène. La résolution des CNV est ici donnée à l’échelle du gène, représenté sous la forme d’un bloc dans lequel :

  • La couleur est donnée en fonction du statut du gène (gain ou délétion).
  • Le Z-score ayant été utilisé pour déterminer ce statut y est reporté ainsi que le nombre moyen de copies ou le génotype observé, selon que le variant est un gain ou une perte de copie(s).
  • Le pourcentage de régions du gène affectées par la variation, ou chunk ratio, est visible sous la forme d’un pourcentage (voir ci-dessous).
Détail du bloc représentatif d’un gène

Comment ça fonctionne ?

Le statut du gène (amplification, délétion ou normal) est là-encore défini par le biais de la région, ou chunk, présentant le Z-score le plus élevé en valeur absolue. C’est ce Z-score qui déterminera le Z-score associé au gène.

Une nouvelle statistique calcule le nombre de chunks à l’échelle du gène partageant le même statut que le gène dans son ensemble, et le seuil de ce ratio peut être modulé par l’utilisateur au moyen d’un filtre à partir de l’interface.

Interface de visualisation des CNV et filtres associés

Utilisation

Le workset SomaCNVCapture est disponible lors du lancement d’une nouvelle analyse, à partir d’un projet de capture de panel de gènes.

Il nécessite l’analyse conjointe d’un minimum de 8 échantillons.

Cette fonctionnalité n’est pour l’instant pas disponible pour les données amplicons.

Durant la phase beta de cette fonctionnalité, n’hésitez-pas à nous faire part de vos retours à l’adresse support@seq.one.