En quelques mots

Mes travaux de recherche s'inscrivent dans la large problématique du traitement de données issues des séquenceurs à haut débit. Ces données, appelées lectures, permettent de résoudre une large variété de problèmes dans le domaine de la biologie, tels que la recherche de variations ou de mutations, ainsi que l'assemblage de génomes de nouveaux organismes pour lesquels des génomes de références ne sont pas disponibles. Plus précisément, je m'intéresse aux lectures longues et fortement bruitées, issues de séquenceurs de troisième génération, et aux problématiques liées au traitement et à la correction de ces erreurs.

Mots-clés : bioinformatique, séquençage à haut débit, correction d'erreurs, alignement, assemblage, indexation

Logiciels

  • CONSENT

    Un outil d'auto-correction de lectures longues, permettant un excellent passage à l'échelle. À l'heure actuel, CONSENT est le seul outil permettant de passer à l'échelle sur les données ultra-long reads.

  • ELECTOR

    Un outil permettant une évaluation automatique de la qualité des outils de correction de lectures longues.

  • HG-CoLoR

    Un outil de correction hybride de lectures longues, principalement destiné au traitement des lectures longues extrêmement bruitées.

En plus de mots

Au cours de ma thèse, je me suis principalement intéressé au traitement des lectures issues de séquenceurs de troisième génération. Ces lectures, contrairement à celles issues de séquenceurs de deuxième génération, atteignent des longueurs bien plus importantes (plusieurs dizaines de milliers de paires de bases, contre seulement quelques centaines), mais affichent également des taux d'erreurs bien plus élevés (15 à 30% en moyenne, contre environ 1%). Les lectures de deuxième génération sont alors qualifiées de lectures courtes, tandis que celles de troisième génération sont qualifiées de lectures longues. Ainsi, bien que la longueur des lectures de troisième génération soit particulièrement intéressante, notamment pour résoudre des problèmes d'assemblage, leurs importants taux d'erreurs en restreignent l'utilisation. Des développements algorithmiques spécifiques sont alors nécessaires afin de traiter ces erreurs. Deux principales approches existent dans le domaine de la correction de lectures longues. D'une part, la correction hybride vise à utiliser les informations portées par les lectures courtes, de haute qualité, afin de corriger les lectures longues. D'autre part, l'auto-correction vise à s'affranchir de l'utilisation de lectures courtes, et à corriger les lectures longues uniquement à partir des informations qu'elles contiennent. Depuis l'apparition des séquenceurs de troisième génération, de nombreux outils de correction ont alors été développés.

Dans un premier temps, ma thèse a ainsi abouti au développement d'une méthode permettant d'évaluer automatiquement la qualité de la correction fournie par les différentes méthodes disponibles. Le développement de cette méthode a principalement été motivé par les difficultés de passage à l'échelle, notamment en termes de temps, de l'unique méthode disponible permettant de réaliser une telle évaluation. Comparée à celle-ci, la méthode proposée dans le cadre de ma thèse a notamment permis de réduire jusqu'à 22 fois le temps nécessaire à l'évaluation. Cette méthode d'évaluation, via une comparaison de l'ensemble des méthodes de correction existantes, a également permis de révéler deux difficultés majeures de l'état-de-l'art : la correction de lectures disposant de taux d'erreurs supérieurs à 30%, et la correction de lectures atteignant des longueurs supérieures à 50 000 paires de bases.

Dans un second temps, ma thèse a alors abouti au développement de deux méthodes de correction visant à surmonter les difficultés sus-mentionnées. Une première méthode de correction hybride a ainsi été mise au point, dans le but de corriger efficacement les lectures longues affichant des taux d'erreurs supérieurs à 30%. Comparée aux autres méthodes de correction hybride, cette méthode a permis d'atteindre le meilleur compromis entre temps d'exécution et qualité des résultats, permettant notamment de réduire à 0,3% le taux d'erreurs d'un jeu de données affichant initialement 44%. Une seconde méthode, adoptant cette fois une approche d'auto-correction, a ensuite été développée, dans le but de corriger les lectures atteignant des longueurs extrêmement importantes. Comparée aux autres méthodes d'auto-correction, cette méthode a permis une réduction plus importante du taux d'erreurs d'un jeu de données du génome humain, et ainsi, la génération d'un assemblage de meilleure qualité. De plus, cette méthode a également permis la correction de lectures atteignant jusqu'à 340 000 paires de bases, ne pouvant être traitées par aucune des méthodes d'auto-correction disponibles jusqu'alors.

bioinformatique, séquençage à haut débit, correction d'erreurs, alignement, assemblage, indexation