En quelques mots
Logiciels
-
LEVIATHAN
Un outil de détection de variants de structure permettant une consommation de ressources réduite par rapport à l'état-de-l'art, ainsi que l'analyse d'organismes non-modèles sur lesquels les outils existants ne peuvent être appliqués.
-
LRez
Un outil et une bibliothèque C++ permettant de traiter les barcodes de données Linked-Reads (indexation, requêtage, ...), à partir de fichiers BAM et FASTQ.
-
CONSENT
Un outil d'auto-correction de lectures longues, permettant un excellent passage à l'échelle. À l'heure actuel, CONSENT est le seul outil permettant de passer à l'échelle sur les données ultra-long reads.
-
ELECTOR
Un outil permettant une évaluation automatique de la qualité des outils de correction de lectures longues.
-
HG-CoLoR
Un outil de correction hybride de lectures longues, principalement destiné au traitement des lectures longues extrêmement bruitées.
En plus de mots
Dans un premier temps, ma thèse a ainsi abouti au développement d'une méthode permettant d'évaluer automatiquement la qualité de la correction fournie par les différentes méthodes disponibles. Le développement de cette méthode a principalement été motivé par les difficultés de passage à l'échelle, notamment en termes de temps, de l'unique méthode disponible permettant de réaliser une telle évaluation. Comparée à celle-ci, la méthode proposée dans le cadre de ma thèse a notamment permis de réduire jusqu'à 22 fois le temps nécessaire à l'évaluation. Cette méthode d'évaluation, via une comparaison de l'ensemble des méthodes de correction existantes, a également permis de révéler deux difficultés majeures de l'état-de-l'art : la correction de lectures disposant de taux d'erreurs supérieurs à 30%, et la correction de lectures atteignant des longueurs supérieures à 50 000 paires de bases.
Dans un second temps, ma thèse a alors abouti au développement de deux méthodes de correction visant à surmonter les difficultés sus-mentionnées. Une première méthode de correction hybride a ainsi été mise au point, dans le but de corriger efficacement les lectures longues affichant des taux d'erreurs supérieurs à 30%. Comparée aux autres méthodes de correction hybride, cette méthode a permis d'atteindre le meilleur compromis entre temps d'exécution et qualité des résultats, permettant notamment de réduire à 0,3% le taux d'erreurs d'un jeu de données affichant initialement 44%. Une seconde méthode, adoptant cette fois une approche d'auto-correction, a ensuite été développée, dans le but de corriger les lectures atteignant des longueurs extrêmement importantes. Comparée aux autres méthodes d'auto-correction, cette méthode a permis une réduction plus importante du taux d'erreurs d'un jeu de données du génome humain, et ainsi, la génération d'un assemblage de meilleure qualité. De plus, cette méthode a également permis la correction de lectures atteignant jusqu'à 340 000 paires de bases, ne pouvant être traitées par aucune des méthodes d'auto-correction disponibles jusqu'alors.
Dans le cadre de mon post-doctorat, je m'intéresse actuellement au traitement de données dites Linked-Reads. Ces données associent la haute qualité des lectures courtes avec une information longue distance, obtenue via l'ajout d'identifiants, appelés barcodes, aux lectures provenant d'une même molécule. Ainsi, ces données permettent de combiner les avantages des lectures courtes et des lectures longues. Dans un premier temps, mon post-doctorat a abouti au développement d'un outil et d'une librairie C++ permettant un traitement efficace des barcodes contenus dans ces données, notamment via des fonctionnalités d'indexation et de requêtage. Cette contribution représente le premier outil et la première librairie de la littérature permettant un tel traitement. Dans un second temps, mon travail a ensuite abouti au développement d'une méthode de détection de variants de structure à l'aide de données Linked-Reads. Cette méthode se démarque notamment de l'état-de-l'art par une consommation mémoire et des temps d'exécution réduits, ainsi que par sa capacité à traiter des organismes non-modèles, que les outils existants ne parviennent pas à analyser. Par la suite, mon travail se portera sur l'étude et le développement de nouvelles de génotypage de variants.