Génotypage et appel d’allèles pour les régions complexes du génome humain

Chercheur principal : Dr Philip Awadalla

Affiliation : L'Institut ontarien de recherche sur le cancer

Début : 2021

Alors que la majorité du génome humain est identique parmi les individus, certaines régions diffèrent. Ces régions variables ont souvent des impacts biologiques importants, car des variantes génétiques spécifiques ont une capacité différente à remplir certaines fonctions biologiques. Afin d’identifier les variantes génétiques d’un individu, son ADN est comparé à un génome de référence (étalon-or), et les différences entre l’individu et le modèle de référence sont précisées. Ce travail s’effectue avec des données de séquençage à lecture courte, où l’ADN a été découpé en millions de petits éléments qui sont ensuite reconstitués en utilisant la référence comme guide. Cependant, pour les régions qui contiennent de nombreuses variantes, l’ADN est trop différent pour être comparé au modèle de référence et des variantes génétiques spécifiques ne peuvent être identifiées. Cela est vrai pour les personnes d’ascendance africaine et asiatique, qui montrent plus de différences par rapport au génome de référence et qui sont sous-étudiées en recherche génomique par rapport aux personnes d’ascendance européenne. Nous développons une approche informatique qui améliore la capacité d’identifier ces variantes génétiques, et nous prévoyons la tester et la valider sur des individus de diverses ethnies choisis parmi l’univers de CanPath. Dans le but d’évaluer l’exactitude de notre approche, nous comparerons nos prédictions avec les variantes identifiées à l’aide de la technologie moderne de séquençage à lecture longue qui utilise des éléments d’ADN plus longs pour les comparer avec plus de précision au génome de référence. Nous faisons l’hypothèse que notre approche sera en mesure d’identifier avec précision les variantes génétiques dans des régions complexes à l’aide de données de séquençage à lecture courte, permettant de repérer des variantes difficiles à saisir parmi les milliers d’individus pour qui nous disposons de données de séquençage à lecture courte.