Former les analystes de demain : l’atelier CanPath met en avant la puissance des données synthétiques

Que faut-il faire pour rendre les données sur la santé de la population plus accessibles à la recherche et à l’éducation ?
Lors de son premier atelier sur les ensembles de données synthétiques, CanPath a accueilli un groupe diversifié de chercheurs, d’enseignants et de stagiaires pour une journée complète d’apprentissage pratique. Ensemble, ils ont exploré comment les données synthétiques et les outils basés sur le cloud peuvent réduire les obstacles à la recherche et à l’enseignement dans le domaine de la santé de la population, tout en offrant des informations puissantes et concrètes.
CanPath est la plus grande étude sur la santé de la population au Canada. Elle suit plus de 330 000 Canadiens afin d’explorer comment la génétique, l’environnement, le mode de vie et le comportement influencent les maladies chroniques. Mais comment les chercheurs et les enseignants peuvent-ils acquérir de l’expérience avec ce type de données réelles sans passer par le long processus d’approbation éthique et d’accès aux données ?
L’ensemble de données synthétiques de CanPath et son environnement de recherche sécurisé offrent une solution. L’ensemble de données synthétiques est un outil gratuit d’enseignement et de recherche qui imite la structure statistique des données réelles de CanPath, sans révéler aucune information sur les participants. Il est hébergé sur la plateforme Lifebit, un environnement basé sur le cloud où les utilisateurs peuvent constituer des cohortes, exécuter des modèles statistiques et s’exercer de manière pratique dans un espace sécurisé et évolutif.

Le 24 juin 2025, lors du premier atelier sur l’ensemble de données synthétiques de CanPath, les participants ont eu l’occasion de l’essayer par eux-mêmes.
La journée a débuté par une présentation générale de CanPath et de l’ensemble de données synthétiques, donnée par Noah Frank, gestionnaire d’opérations de recherche chez CanPath. Créé à l’aide du package open source R synthpop, l’ensemble de données synthétiques reflète les données réelles de CanPath sans contenir aucune information réelle sur les participants. Il préserve les modèles statistiques entre les variables, ce qui le rend idéal pour une exploration en toute sécurité dans le domaine de la recherche et de l’éducation.

Après une présentation de la plateforme Lifebit, les participants se sont lancés dans un mini-exercice guidé d’étude d’association pangénomique (GWAS). Si certains ont trouvé les premières étapes intimidantes, le personnel de CanPath et de Lifebit s’est déplacé de table en table pour offrir conseils et réconfort.
« L’analyse était un peu avancée pour moi, mais j’ai pu découvrir l’expérience utilisateur et j’ai obtenu exactement ce dont j’avais besoin », a déclaré Sophie Hogeveen, responsable de l’accès aux données pour l’Étude longitudinale sur le vieillissement au Canada (ELVC). « Cela m’a donné beaucoup à réfléchir alors que l’ELVC se prépare à passer à un environnement basé sur le cloud. »
Sangram Keshari Sahu, de Lifebit, a présenté aux participants les aspects techniques de la plateforme, en mettant l’accent sur la création de cohortes, l’interrogation de variables et l’exécution de pipelines. Si certains exemples s’orientaient vers des applications avancées, ils ont contribué à susciter des idées sur les possibilités de la plateforme, en particulier pour les enseignants qui envisagent d’intégrer l’ensemble de données synthétiques dans un cours.

« Plusieurs participants ont mentionné qu’ils effectuaient généralement ce type de travail en local », a déclaré Jeff Brabec, responsable senior de la réussite client chez Lifebit. « Mais c’est justement l’intérêt d’utiliser un environnement de recherche fiable basé sur le cloud. Qu’elles soient synthétiques ou non, la sécurité est primordiale lorsque vous travaillez avec des données de santé réelles. »
Plus tard dans la journée, Sheraz Cheema, gestionnaire de données chez CanPath, a montré comment utiliser l’ensemble de données pour des questions de recherche en santé publique, en présentant des études de cas réels. Son approche patiente et progressive a aidé les participants à comprendre comment adapter l’outil à leurs propres besoins en matière d’enseignement et d’apprentissage.

« Je m’attendais à ce que l’accent soit davantage mis sur la génomique et la transcriptomique », a déclaré Phuong Nguyen, étudiante en première année de doctorat à l’Institut des sciences médicales de l’Université de Toronto, « mais j’ai été agréablement surprise d’apprendre qu’il existait des données environnementales et cliniques. Le fait de voir comment ces facteurs interagissent ouvre de nouvelles possibilités pour mes recherches. »
Les 22 participants ont apporté des perspectives variées : chercheurs en génomique, en santé environnementale et en sciences cliniques, éducateurs, personnel de soutien et étudiants. Ils venaient de toute l’Ontario et de la Saskatchewan, et les présentateurs avaient fait le déplacement depuis le Royaume-Uni et les États-Unis. Les participants étaient à différentes étapes de leur carrière, allant d’étudiants de premier cycle à des professeurs chevronnés.

« J’ai pris beaucoup de notes pendant les parties consacrées aux statistiques, en particulier sur la modélisation par régression », a ajouté Phuong. « Cela m’a rappelé beaucoup de concepts, et je suis impatient de rafraîchir mes connaissances en mathématiques et de les appliquer à mon travail. J’ai même eu une conversation très intéressante avec un post-doctorant qui m’a suggéré quelques approches d’apprentissage automatique à essayer. C’était vraiment encourageant. »
« L’un des défis de ce type d’atelier est la diversité des niveaux techniques des participants », explique Jeff. « Mais tout le monde a pu poser des questions à son niveau, et nous avons obtenu des réponses à toutes les questions. C’est le meilleur résultat possible. »
L’un des points forts a été l’esprit de collaboration qui a régné pendant la session pratique. Le personnel circulait dans la salle pour aider les participants en temps réel.

« Pour moi, le plus intéressant a été de rencontrer des personnes issues de domaines très variés », a déclaré Sangram. Cela ouvre vraiment de nouvelles perspectives et aide à comprendre ce sur quoi travaillent les autres. Le fait d’être en présentiel a fait toute la différence. Cela valait vraiment la peine de faire autant d’heures d’avion depuis Londres pour être ici. Et d’un point de vue technique, cela a été un excellent test de résistance. Notre équipe a tout vérifié en arrière-plan pour s’assurer que tout fonctionnait correctement, et ce fut le cas. »

Il s’agissait du premier atelier de ce type organisé par CanPath, mais l’intérêt pour les données synthétiques et les environnements de recherche fiables ne cesse de croître. Les participants à l’atelier sur les ensembles de données synthétiques peuvent continuer à utiliser la plateforme et ont eu la possibilité de bénéficier d’un accompagnement personnalisé lors de permanences individuelles. Leurs commentaires contribueront à façonner les sessions futures.
« J’avais déjà suivi une formation et lu beaucoup de documentation sur l’environnement cloud, mais je ne comprenais pas encore très bien comment les chercheurs allaient utiliser la plateforme dans la pratique », a déclaré Maya Vu, consultante en programmes et politiques chez Healthy Future Sask, la cohorte de CanPath en Saskatchewan. « Le fait de le faire en direct avec l’aide du personnel m’a vraiment aidée à comprendre. »
Rendre les données sur la santé de la population accessibles à l’enseignement et à la recherche nécessite plus qu’un simple ensemble de données. Il faut des outils, de la formation et un sentiment d’appartenance à une communauté, ce que cet atelier a prouvé être à portée de main.
Vous souhaitez explorer vous-même l’ensemble de données synthétiques et la plateforme ?
Des questions ? Envoyez-nous un courriel à apply@canpath.ca
Pour plus d’informations, veuillez contacter
Megan Fleming
Agente des communications et de l’application des connaissances
Partenariat canadien pour la santé de demain (CanPath)
info@canpath.ca