In a few words

My research deals with the broad problematic of high-throughput sequencing data analysis. The data produced by these sequencing techologies, called reads, allow to resolve a wide variety of biological problems, such as variation or mutation detection, as well as de novo assembly, which aims at producing new reference genomes for species that lack one. More precisely, my work focuses on highly noisy long reads from third generation sequencing technologies, and on the problematics related to the processing and the correction of these errors. I'm also interested in linked-reads data, which combine a high sequencing quality a long-range information, and more precisely in structural variant calling using such data.

Keywords: bioinformatics, high-throughput sequencing, error correction, structural variants, alignment, assembly, indexing

Softwares

  • LEVIATHAN

    A structural variant calling tool, reducing resource consumption compared to the state-of-the-art, and allowing to analyze non-model organisms on which existing tool cannot be applied.

  • LRez

    A tool and a C++ library allowing to process the barcodes from linked-reads data (indexation, querying, ...), from both BAM and FASTQ files.

  • CONSENT

    A self-correction tool for long reads which allows an excellent scalability. To date, CONSENT is the only tool which is able to scale to ultra-long reads data.

  • ELECTOR

    A tool allowing to evaluate the quality of long-read error correction tools.

  • HG-CoLoR

    A hybrid error correction tool for long reads, mainly designed to process extremely noisy long reads.

In a lot of words

I have yet to properly translate the following few lines, and can only provide the French version for now. Sorry! Translation will be available as soon as possible.

Au cours de ma thèse, je me suis principalement intéressé au traitement des lectures issues de séquenceurs de troisième génération. Ces lectures, contrairement à celles issues de séquenceurs de deuxième génération, atteignent des longueurs bien plus importantes (plusieurs dizaines de milliers de paires de bases, contre seulement quelques centaines), mais affichent également des taux d'erreurs bien plus élevés (15 à 30% en moyenne, contre environ 1%). Les lectures de deuxième génération sont alors qualifiées de lectures courtes, tandis que celles de troisième génération sont qualifiées de lectures longues. Ainsi, bien que la longueur des lectures de troisième génération soit particulièrement intéressante, notamment pour résoudre des problèmes d'assemblage, leurs importants taux d'erreurs en restreignent l'utilisation. Des développements algorithmiques spécifiques sont alors nécessaires afin de traiter ces erreurs. Deux principales approches existent dans le domaine de la correction de lectures longues. D'une part, la correction hybride vise à utiliser les informations portées par les lectures courtes, de haute qualité, afin de corriger les lectures longues. D'autre part, l'auto-correction vise à s'affranchir de l'utilisation de lectures courtes, et à corriger les lectures longues uniquement à partir des informations qu'elles contiennent. Depuis l'apparition des séquenceurs de troisième génération, de nombreux outils de correction ont alors été développés.

Dans un premier temps, ma thèse a ainsi abouti au développement d'une méthode permettant d'évaluer automatiquement la qualité de la correction fournie par les différentes méthodes disponibles. Le développement de cette méthode a principalement été motivé par les difficultés de passage à l'échelle, notamment en termes de temps, de l'unique méthode disponible permettant de réaliser une telle évaluation. Comparée à celle-ci, la méthode proposée dans le cadre de ma thèse a notamment permis de réduire jusqu'à 22 fois le temps nécessaire à l'évaluation. Cette méthode d'évaluation, via une comparaison de l'ensemble des méthodes de correction existantes, a également permis de révéler deux difficultés majeures de l'état-de-l'art : la correction de lectures disposant de taux d'erreurs supérieurs à 30%, et la correction de lectures atteignant des longueurs supérieures à 50 000 paires de bases.

Dans un second temps, ma thèse a alors abouti au développement de deux méthodes de correction visant à surmonter les difficultés sus-mentionnées. Une première méthode de correction hybride a ainsi été mise au point, dans le but de corriger efficacement les lectures longues affichant des taux d'erreurs supérieurs à 30%. Comparée aux autres méthodes de correction hybride, cette méthode a permis d'atteindre le meilleur compromis entre temps d'exécution et qualité des résultats, permettant notamment de réduire à 0,3% le taux d'erreurs d'un jeu de données affichant initialement 44%. Une seconde méthode, adoptant cette fois une approche d'auto-correction, a ensuite été développée, dans le but de corriger les lectures atteignant des longueurs extrêmement importantes. Comparée aux autres méthodes d'auto-correction, cette méthode a permis une réduction plus importante du taux d'erreurs d'un jeu de données du génome humain, et ainsi, la génération d'un assemblage de meilleure qualité. De plus, cette méthode a également permis la correction de lectures atteignant jusqu'à 340 000 paires de bases, ne pouvant être traitées par aucune des méthodes d'auto-correction disponibles jusqu'alors.

Keywords: bioinformatics, high-throughput sequencing, error correction, structural variants, alignment, assembly, indexing