Rencontrez la chercheuse : Sabine Halabi sur la validation des modèles de risque de cancer avec les données CanPath

Affichés novembre 12, 2025

Plein feux sur les chercheurs : Sabine Halabi

La chercheuse de l’Université de Colombie-Britannique (UBC), Sabine Halabi, ne s’attendait pas à tomber amoureuse de la science des données ou de l’épidémiologie du cancer lorsqu’elle a commencé son programme de maîtrise. En fait, elle venait d’un milieu de psychopharmacologie et n’avait jamais écrit une ligne de code. Mais sa passion pour la santé des femmes et la possibilité de travailler avec des données démographiques l’ont conduite à se lancer dans un projet ambitieux : valider cinq modèles existants de risque de cancer de l’endomètre à l’aide des données du projet BC Generations, qui fait partie de CanPath.

Sa thèse est devenue la première étude canadienne à valider ces modèles de manière externe, révélant des résultats inattendus sur les performances des modèles et l’importance d’une méthodologie solide dans la recherche sur la prévention du cancer. Nous avons rencontré Sabine pour discuter de son parcours de recherche, de ce qu’elle a appris en travaillant avec les données de CanPath et de la manière dont ce travail façonne la prochaine étape de sa carrière, alors qu’elle entame un doctorat axé sur l’épidémiologie nutritionnelle et l’apprentissage automatique.

Q : Qu’est-ce qui vous a d’abord attiré vers l’étude du risque de cancer de l’endomètre et qu’est-ce qui vous a motivée à en faire le sujet de votre projet de recherche de maîtrise ?

Mon parcours de recherche n’a pas été linéaire du tout. Lorsque j’ai commencé, je n’avais aucune expérience en science des données, en données administratives ou en recherche sur le cancer. J’ai d’abord travaillé dans la recherche en psychopharmacologie, où j’ai acquis une certaine expérience quantitative et eu l’occasion de participer à sept publications. À l’époque, je faisais mon baccalauréat à l’Université de Toronto (U of T), où j’étudiais la biologie humaine, l’immunologie et les mathématiques ; mon parcours était donc interdisciplinaire. Mais le véritable tournant dans mes intérêts de recherche s’est produit lors d’un cours sur la santé mondiale pendant ma dernière année à l’U of T, où j’ai été inspirée par mon assistant d’enseignement et son travail. Dans ce cours, j’ai rédigé un rapport sur l’épidémie de VIH chez les travailleuses du sexe en Ouganda, ce qui m’a fait découvrir le monde de la population et de la santé publique, et j’ai été conquise !

Je savais que je voulais me concentrer sur la santé des femmes dans mon master tout en acquérant plus d’expérience avec les données démographiques. Je ne cherchais pas spécifiquement à faire des recherches sur le cancer de l’endomètre, mais j’étais intéressée par les travaux et l’expertise de la Dre Aline Talhouk en matière de statistiques et d’apprentissage automatique. Le projet sortait de ma zone de confort et j’ai dû apprendre à coder à partir de zéro, mais Aline a cru en moi. L’apprentissage a été difficile, mais c’est aussi l’une des expériences les plus enrichissantes que j’ai vécues.

Q : Comment le fait de travailler avec les données CanPath pendant votre master a-t-il influencé votre intérêt pour la recherche en santé publique ?

Cela a influencé tout ! Cette expérience a éveillé mon intérêt pour l’épidémiologie et la santé publique, et m’a également permis de découvrir la science des données. J’ai réalisé à quel point la recherche à grande échelle, basée sur les données, pouvait être puissante pour comprendre les tendances et les inégalités en matière de santé dans le monde réel. C’est un domaine en constante évolution, et j’adore ce défi.

Les données au niveau de la population offrent une fenêtre unique sur la vie et les expériences des gens. La combinaison de données d’enquête, administratives et nationales permet de découvrir des schémas qui ne reflètent pas seulement la biologie, mais aussi d’autres facteurs dont on ne soupçonnait pas l’influence sur les résultats en matière de santé. C’est ce qui m’a attiré : l’idée que les données peuvent raconter des histoires sur la santé au niveau de la population et, en fin de compte, éclairer de meilleures politiques et stratégies de prévention.

Travailler avec CanPath m’a non seulement permis d’approfondir mon intérêt pour la santé de la population, mais m’a également appris à quoi ressemble une collecte de données rigoureuse et où nous devons encore nous améliorer. Cela a également façonné ma façon de penser la recherche. J’ai appris que les méthodes sont tout aussi importantes que le sujet. La question de recherche peut changer, mais des méthodes solides et des compétences en science des données sont applicables à tous les domaines.

Je prépare actuellement un doctorat à la School of Population and Public Health de l’UBC avec la Dre Rachel Murphy, où je continuerai à travailler avec CanPath dans le cadre des études BIEN et CHARM.

Q : Pour ceux qui ne sont pas familiers avec le sujet, qu’est-ce qu’un modèle de prédiction des risques et pourquoi est-il important pour la prévention du cancer de l’endomètre ?

Il s’agit essentiellement d’un outil statistique qui utilise des facteurs de risque connus pour estimer le risque d’une personne de développer une maladie. Dans le cas du cancer de l’endomètre, ces modèles peuvent nous aider à classer les personnes en groupes à faible, moyen ou haut risque, afin de mieux cibler les interventions de prévention. Cela est particulièrement important car il n’existe pas de directives de dépistage systématique pour le cancer de l’endomètre.

Ces modèles peuvent être utilisés à l’échelle de la population à moindre coût. Dans certains cas, ils peuvent être mis en œuvre sous la forme de simples calculateurs en ligne facilement utilisables par le grand public. L’outil d’évaluation du risque de cancer du sein de Gail en est un exemple. Il suffit de saisir quelques informations pour obtenir une estimation personnalisée du risque. De tels outils peuvent alléger la charge qui pèse sur le système de santé en aidant les cliniciens à déterminer les personnes qui pourraient bénéficier le plus des soins préventifs, tout en permettant aux individus de comprendre et de gérer leur propre risque.

Q : Vous avez testé cinq modèles sur une large population en Colombie-Britannique. Qu’est-ce qui vous a le plus marqué dans vos conclusions ?

L’une des principales conclusions est que les modèles les plus simples sont ceux qui fonctionnent le mieux. À chaque mise à jour d’un modèle, de plus en plus de variables sont ajoutées, qu’il s’agisse de données récemment publiées dans la littérature ou testées par d’autres groupes. On pourrait penser que les modèles plus récents et plus complexes seraient plus performants, mais dans mon travail, les modèles statistiques de base les ont surpassés en termes de discrimination et d’adéquation à la population.

Cela a renforcé l’idée de parcimonie : parfois, un nombre réduit de variables plus significatives permet d’obtenir un modèle plus performant. J’ai également été surpris que le modèle d’apprentissage automatique que nous avons validé ne soit pas plus performant que le modèle statistique. Il est tentant de se laisser séduire par les « nouveautés brillantes », mais nous ne pouvons ignorer la force des approches statistiques traditionnelles.

Dans l’ensemble, tous les modèles ont affiché des performances modérées. Étant donné qu’ils ont tous été développés aux États-Unis ou en Europe, le fait qu’ils aient obtenu des résultats modérés en Colombie-Britannique suggère qu’ils ont du potentiel, mais nous devons encore les réentraîner ou les adapter afin de mieux refléter les caractéristiques et les facteurs de risque de la population canadienne. Cela pourrait les rendre plus précis et, en fin de compte, plus utiles pour orienter les stratégies de prévention et de dépistage ici, chez nous.

Q : Y a-t-il eu des résultats qui vous ont surpris ou qui ont remis en question vos hypothèses de départ ?

Oui. L’une des premières choses qui m’a frappé, c’est que le nombre réel de cas de cancer de l’utérus était inférieur à ce que l’on pouvait attendre d’après les données générales de prévalence. La différence n’était pas énorme, mais cela m’a amené à réfléchir à ce qui pourrait se passer au cours des 30 années de suivi ou à la manière dont les gens évoluent dans le système de santé, ce qui peut avoir une incidence sur la façon dont nous recueillons les données sur la population.

Un autre point intéressant était que le tabagisme, qui, selon certaines publications, pourrait avoir un effet protecteur contre le cancer de l’endomètre, ne montrait pas de différence statistique entre les personnes atteintes et non atteintes d’un cancer de l’utérus dans nos données. Cela pourrait s’expliquer par la taille des sous-groupes ou par l’association elle-même. Quoi qu’il en soit, cela nous rappelle que les schémas que nous supposons vrais ne se vérifient pas toujours dans différentes populations.

Cela a également mis en évidence l’importance de la collaboration avec les cliniciens. Lorsque les résultats remettent en question des croyances de longue date, la participation des médecins permet de garantir une interprétation responsable des résultats. Pour moi, cela a renforcé l’importance de rester curieux et ouvert à ce que disent les données, même lorsqu’elles vont à l’encontre des attentes.

Q : Si vous deviez améliorer ces modèles, quels facteurs supplémentaires incluriez-vous et pourquoi ?

En fait, afin de déterminer si le statut socio-économique est un facteur de risque pertinent pour le cancer de l’utérus, j’ai calculé un indice de statut socio-économique à partir du revenu, de la profession et d’autres variables connexes dans l’ensemble de données CanPath. Je n’ai pas eu l’occasion d’intégrer cet indice comme prédicteur du modèle, mais je serais intéressée de voir s’il améliorerait les performances du modèle et sa généralisation à la population.

Je suis également curieux de connaître le rôle potentiel des scores de risque polygéniques, qui combinent les informations provenant de multiples variantes génétiques pour estimer le risque héréditaire. J’ai mené une revue systématique, récemment acceptée par BMC Cancer, qui synthétise tous les modèles de cancer de l’utérus, y compris ceux qui utilisent des scores de risque polygéniques. Dans l’ensemble, ils ne sont pas beaucoup plus performants que les modèles traditionnels, mais le domaine est encore en pleine évolution.

Alors, plus c’est toujours mieux ? Je ne pense pas. Pour vraiment améliorer les modèles, nous devons les valider et les réentraîner sur des données plus diversifiées. Si un modèle est développé principalement sur des populations blanches aux États-Unis ou en Europe, puis appliqué ailleurs, il ne fonctionnera pas bien dans les communautés systématiquement exclues. La population canadienne comprend des personnes d’origines diverses, et nos modèles doivent refléter TOUTES ces populations, et pas seulement un segment. Ce n’est qu’ainsi que la prédiction des risques pourra être précise et équitable.

Q : Comment vos conclusions pourraient-elles aider les chercheurs, les cliniciens ou même les patients à l’avenir ?

Il s’agit du premier projet visant à valider des modèles de risque de cancer de l’endomètre au Canada, ce qui nous fournit un cadre de référence essentiel. Il montre aux chercheurs et aux cliniciens qu’il ne suffit pas de prendre un modèle dans un contexte donné et de l’appliquer ailleurs. Il faut le tester en interne et en externe sur des populations plus diversifiées, puis éventuellement de manière prospective dans des contextes cliniques afin de s’assurer qu’il fonctionne pour la population qu’il est censé servir.

Il apporte également quelque chose de précieux au public : même si les gens n’utilisent pas le modèle lui-même, ils apprennent à connaître les facteurs de risque connus du cancer de l’utérus et la manière dont ces facteurs sont utilisés pour estimer le risque. Si un modèle venait à être mis en œuvre cliniquement, il pourrait réduire la charge pesant sur le système en aidant à orienter les stratégies de prévention, d’autant plus que nous ne disposons pas actuellement de lignes directrices en matière de dépistage du cancer de l’utérus.

En fin de compte, ces travaux nous aident à progresser vers une prévention plus précise, personnalisée et équitable, où l’évaluation des risques reflète la réalité de toutes les populations, et pas seulement d’un sous-ensemble.

Q : Que signifient vos recherches pour les participantes à CanPath qui partagent leurs données et rendent ce travail possible ?

Les participantes sont au cœur de ce travail. En tant que chercheurs quantitatifs, nous devons nous rappeler qu’elles ne sont pas seulement des lignes dans un ensemble de données. Ce sont des personnes qui ont accepté de partager des informations sur leur vie. Nous avons la responsabilité de traiter ces informations avec soin et de partager les résultats, afin que les participants se sentent impliqués dans le processus de recherche.

Comme il s’agit de la première étude de validation de ces modèles, les participants peuvent littéralement dire : « Je suis le cadre ! » S’ils savent que ce travail est en cours et en voient l’impact, cela renforce leur confiance, les rassure sur l’importance de leur contribution et les encourage à participer à l’avenir.

J’essaie également de contribuer à la diffusion des connaissances en dehors des articles universitaires. Je participe à la production du podcast GOSH avec la Gynecologic Cancer Initiative. Il s’agit d’un podcast réalisé en partenariat avec des patients, où les gens peuvent entendre des explications en langage simple sur la recherche sur le cancer gynécologique et écouter les témoignages de patients et les conversations des chercheurs. C’est l’une des façons dont j’essaie de rendre la recherche aux personnes qu’elle concerne.

Q : Vous commencez actuellement votre doctorat à l’UBC. Sur quoi allez-vous travailler ensuite ?

Mon doctorat s’oriente davantage vers la nutrition et l’apprentissage automatique, en collaboration avec la Dre Rachel Murphy. Le projet est encore en cours d’élaboration, mais je travaille à l’amélioration de la classification des aliments ultra-transformés à l’aide de méthodes d’apprentissage automatique afin de remédier aux inégalités alimentaires dans le contexte canadien. Les données BIEN et CHARM serviront de base à ces travaux.

Je me considère désormais comme une méthodologiste en formation. Je souhaite me former de manière approfondie à l’apprentissage automatique, aux données administratives et aux méthodes épidémiologiques. C’est beaucoup de travail, mais si nous parvenons à améliorer la classification des aliments ultra-transformés, cela pourrait à terme éclairer les politiques alimentaires, les recommandations nutritionnelles et les stratégies de prévention des maladies chroniques liées à l’alimentation.

Q : Qu’est-ce qui vous enthousiasme le plus dans votre contribution à la recherche sur la santé de la population à ce stade ?

La santé de la population est le terrain. C’est la base dont vous avez besoin avant de mettre en place un programme de prévention ou une intervention de santé publique. Elle remet en question ce que les gens pensent « savoir ». L’analyse de données à grande échelle nous permet de vérifier si les hypothèses de longue date se vérifient dans les populations réelles et de découvrir des tendances qui, autrement, pourraient passer inaperçues. Ce type de preuves est difficile à ignorer.

Ce qui m’enthousiasme le plus, c’est la possibilité de mettre en lumière les populations systématiquement exclues, c’est-à-dire les groupes les plus souvent négligés ou sous-représentés dans nos recherches, mais qui souffrent des plus grandes inégalités en matière de santé. La recherche sur la santé de la population fondée sur des données nous permet de voir ces écarts, de les quantifier et, en fin de compte, de concevoir des interventions meilleures et plus équitables.

Même si mon travail ne joue qu’un rôle mineur, j’espère qu’il incitera d’autres personnes à remettre en question les hypothèses et à rendre la recherche plus rigoureuse, plus inclusive et plus équitable.

Q : Avez-vous des conseils à donner aux chercheurs en début de carrière qui utilisent les données CanPath ?

N’oubliez jamais « l’autre », c’est-à-dire les participants qui se trouvent derrière les données. Traitez votre travail avec intention. Et si vous envisagez d’utiliser CanPath ou tout autre ensemble de données volumineux, cela peut sembler intimidant, mais relevez le défi. Plongez-vous dans l’apprentissage. Vous êtes stagiaire pour une raison. N’ayez pas peur d’essayer, de poser des questions et d’acquérir des compétences au fur et à mesure.


La thèse de maîtrise de Sabine a commencé comme un saut dans l’inconnu : un sujet lié à la santé des femmes en dehors de sa zone de confort, un ensemble de données avec lequel elle n’avait jamais travaillé et un cours intensif sur les méthodes qu’elle a dû apprendre par elle-même en cours de route. Ce saut a conduit à la première validation canadienne de ces modèles de risque de cancer de l’endomètre et à une nouvelle conviction que des méthodes solides et transparentes sont la colonne vertébrale de la recherche en santé publique.

Alors qu’elle entame son doctorat et continue à travailler avec les données de CanPath sur la nutrition et l’apprentissage automatique, son approche reste la même : traiter les participants non pas comme des « points de données », mais comme des partenaires, remettre en question les hypothèses même lorsqu’elles sont acceptées depuis longtemps, et mener des recherches auxquelles les autres peuvent se fier et sur lesquelles ils peuvent s’appuyer. Pour Sabine, ce n’est que le début, mais cela montre déjà comment un seul projet de formation peut façonner non seulement une carrière, mais aussi la manière dont la recherche sur la prévention du cancer sera menée à l’avenir. Nous sommes impatients de vous faire part des progrès de Sabine dans le cadre de son doctorat !

Pour plus d’informations, veuillez contacter :
Megan Fleming
Agente des communications et de l’application des connaissances
Partenariat canadien pour la santé de demain (CanPath)
info@canpath.ca