En quelques mots

Mes travaux de recherche s'inscrivent dans la large problématique du traitement de données issues des séquenceurs à haut débit. Ces données, appelées lectures, permettent de résoudre une large variété de problèmes dans le domaine de la biologie, tels que la recherche de variations ou de mutations, ainsi que l'assemblage de génomes de nouveaux organismes pour lesquels des génomes de références ne sont pas disponibles. Plus précisément, je m'intéresse aux lectures longues et fortement bruitées, issues de séquenceurs de troisième génération, et aux problématiques liées au traitement et à la correction de ces erreurs. Je m'intéresse également aux données Linked-Reads, combinant une haute qualité de séquençage à une information longue distance, et plus particulièrement à la découverte de variants de structures à l'aide de ces données.

Mots-clés : bioinformatique, séquençage à haut débit, correction d'erreurs, variants de structure, alignement, assemblage, indexation

Logiciels

  • LEVIATHAN

    Un outil de détection de variants de structure permettant une consommation de ressources réduite par rapport à l'état-de-l'art, ainsi que l'analyse d'organismes non-modèles sur lesquels les outils existants ne peuvent être appliqués.

  • LRez

    Un outil et une bibliothèque C++ permettant de traiter les barcodes de données Linked-Reads (indexation, requêtage, ...), à partir de fichiers BAM et FASTQ.

  • CONSENT

    Un outil d'auto-correction de lectures longues, permettant un excellent passage à l'échelle. À l'heure actuel, CONSENT est le seul outil permettant de passer à l'échelle sur les données ultra-long reads.

  • ELECTOR

    Un outil permettant une évaluation automatique de la qualité des outils de correction de lectures longues.

  • HG-CoLoR

    Un outil de correction hybride de lectures longues, principalement destiné au traitement des lectures longues extrêmement bruitées.

En plus de mots

Au cours de ma thèse, je me suis principalement intéressé au traitement des lectures issues de séquenceurs de troisième génération. Ces lectures, contrairement à celles issues de séquenceurs de deuxième génération, atteignent des longueurs bien plus importantes (plusieurs dizaines de milliers de paires de bases, contre seulement quelques centaines), mais affichent également des taux d'erreurs bien plus élevés (15 à 30% en moyenne, contre environ 1%). Les lectures de deuxième génération sont alors qualifiées de lectures courtes, tandis que celles de troisième génération sont qualifiées de lectures longues. Ainsi, bien que la longueur des lectures de troisième génération soit particulièrement intéressante, notamment pour résoudre des problèmes d'assemblage, leurs importants taux d'erreurs en restreignent l'utilisation. Des développements algorithmiques spécifiques sont alors nécessaires afin de traiter ces erreurs. Deux principales approches existent dans le domaine de la correction de lectures longues. D'une part, la correction hybride vise à utiliser les informations portées par les lectures courtes, de haute qualité, afin de corriger les lectures longues. D'autre part, l'auto-correction vise à s'affranchir de l'utilisation de lectures courtes, et à corriger les lectures longues uniquement à partir des informations qu'elles contiennent. Depuis l'apparition des séquenceurs de troisième génération, de nombreux outils de correction ont alors été développés.

Dans un premier temps, ma thèse a ainsi abouti au développement d'une méthode permettant d'évaluer automatiquement la qualité de la correction fournie par les différentes méthodes disponibles. Le développement de cette méthode a principalement été motivé par les difficultés de passage à l'échelle, notamment en termes de temps, de l'unique méthode disponible permettant de réaliser une telle évaluation. Comparée à celle-ci, la méthode proposée dans le cadre de ma thèse a notamment permis de réduire jusqu'à 22 fois le temps nécessaire à l'évaluation. Cette méthode d'évaluation, via une comparaison de l'ensemble des méthodes de correction existantes, a également permis de révéler deux difficultés majeures de l'état-de-l'art : la correction de lectures disposant de taux d'erreurs supérieurs à 30%, et la correction de lectures atteignant des longueurs supérieures à 50 000 paires de bases.

Dans un second temps, ma thèse a alors abouti au développement de deux méthodes de correction visant à surmonter les difficultés sus-mentionnées. Une première méthode de correction hybride a ainsi été mise au point, dans le but de corriger efficacement les lectures longues affichant des taux d'erreurs supérieurs à 30%. Comparée aux autres méthodes de correction hybride, cette méthode a permis d'atteindre le meilleur compromis entre temps d'exécution et qualité des résultats, permettant notamment de réduire à 0,3% le taux d'erreurs d'un jeu de données affichant initialement 44%. Une seconde méthode, adoptant cette fois une approche d'auto-correction, a ensuite été développée, dans le but de corriger les lectures atteignant des longueurs extrêmement importantes. Comparée aux autres méthodes d'auto-correction, cette méthode a permis une réduction plus importante du taux d'erreurs d'un jeu de données du génome humain, et ainsi, la génération d'un assemblage de meilleure qualité. De plus, cette méthode a également permis la correction de lectures atteignant jusqu'à 340 000 paires de bases, ne pouvant être traitées par aucune des méthodes d'auto-correction disponibles jusqu'alors.

Dans le cadre de mon post-doctorat, je m'intéresse actuellement au traitement de données dites Linked-Reads. Ces données associent la haute qualité des lectures courtes avec une information longue distance, obtenue via l'ajout d'identifiants, appelés barcodes, aux lectures provenant d'une même molécule. Ainsi, ces données permettent de combiner les avantages des lectures courtes et des lectures longues. Dans un premier temps, mon post-doctorat a abouti au développement d'un outil et d'une librairie C++ permettant un traitement efficace des barcodes contenus dans ces données, notamment via des fonctionnalités d'indexation et de requêtage. Cette contribution représente le premier outil et la première librairie de la littérature permettant un tel traitement. Dans un second temps, mon travail a ensuite abouti au développement d'une méthode de détection de variants de structure à l'aide de données Linked-Reads. Cette méthode se démarque notamment de l'état-de-l'art par une consommation mémoire et des temps d'exécution réduits, ainsi que par sa capacité à traiter des organismes non-modèles, que les outils existants ne parviennent pas à analyser. Par la suite, mon travail se portera sur l'étude et le développement de nouvelles de génotypage de variants.

Mots-clés : bioinformatique, séquençage à haut débit, correction d'erreurs, variants de structure, alignement, assemblage, indexation