Aerial view of crowd connected by lines, representing the synthetic dataset

L’ensemble de données synthétiques de CanPath

L’ensemble de données synthétiques de CanPath est une ressource polyvalente conçue pour la recherche, l’éducation et les applications pratiques, qui offre aux éducateurs un soutien et des conseils solides pour l’intégrer dans leur programme d’études.

Que sont les données synthétiques ?

Les données synthétiques sont conçues pour reproduire les propriétés statistiques et la structure des données réelles sans compromettre la confidentialité. Créées à l’aide de simulations informatiques et d’algorithmes avancés, les données synthétiques offrent une alternative sûre et polyvalente aux chercheurs et aux scientifiques des données.

Qu’est-ce que l’ensemble de données synthétiques de CanPath ?

L’ensemble de données synthétiques de CanPath a été manipulé pour imiter les données harmonisées au niveau national de CanPath, mais n’inclut ni ne révèle les données réelles des participants à CanPath.

Comment a-t-il été développé ?

L’ensemble de données synthétiques a été créé à l’aide d’un logiciel R open-source appelé « synthpop ». Ce logiciel a été conçu pour générer des versions synthétiques de données d’enquêtes longitudinales. Il a échantillonné de manière aléatoire les données CanPath, en remplaçant et en réorganisant les informations relatives aux participants. Ainsi, l’ensemble de données synthétiques préserve les modèles statistiques (c’est-à-dire les relations entre les variables), mais aucune des données du monde réel.

Quels sont les avantages de l’ensemble de données synthétiques de CanPath ?

Qu’est-ce qui est disponible ?

Données canadiennes

L’ensemble de données synthétiques est similaire à un échantillon aléatoire de données CanPath, qui comprend des participants du projet BC Generations, du projet Alberta Tomorrow, de l’Étude sur la santé Ontario, de CARTaGENE et de la VOIE atlantique.

Il comprend plus de 40 000 observations avec 403 variables catégorielles provenant du questionnaire de base et des questionnaires supplémentaires sur les maladies à CanPath.

Aires d’information

Les variables comprennent des informations sociodémographiques et économiques, le mode de vie et le comportement (par exemple, le tabagisme, la consommation d’alcool, la nutrition), la perception de la santé et certaines maladies autodéclarées telles que l’hypertension artérielle, l’arthrite et le premier cancer.

Variables d’exposition à l’environnement CANUE

Il comprend également des variables environnementales provenant de l’ensemble de données du Consortium canadien de recherche en santé environnementale urbaine (CANUE), telles que l’indice de privation matérielle et l’exposition moyenne annuelle à la pollution de l’air ambiant.

Exemples d’utilisation

Les enseignants des universités et collèges canadiens peuvent utiliser gratuitement l’ensemble de données dans le cadre de leurs cours. CanPath fournira l’ensemble de données et un dictionnaire de données.

Processus d’accès à l’ensemble de données synthétiques

La demande remplie et les pièces justificatives peuvent être soumises par courriel à apply@canpath.ca. Les demandes seront examinées dans un délai de deux semaines.

Critères d’admissibilité

  • Le candidat doit enseigner dans une université ou un collège canadien ;
  • L’ensemble de données est demandé pour une utilisation dans le cadre d’un cours ;
  • Les objectifs du cours sont pertinents au but, à la vision et à la mission de CanPath ;
  • L’ensemble de données de CanPath s’aligne sur les objectifs et les méthodes du cours.

Documents requis

  1. Formulaire de demande rempli
  2. Copie de la demande de CÉR*
    • Lettre de décision du CÉR ou preuve d’exemption
  3. Court CV du candidat (2 pages)
  4. Plan de cours**

*Une demande de CÉR, une lettre de décision et une preuve d’exemption ne sont nécessaires que si un autre ensemble de données est utilisé en même temps que l’ensemble de données dans le cours.

**Le plan de cours doit mentionner l’utilisation de l’ensemble de données synthétiques de CanPath.

Après chaque itération du cours, les utilisateurs doivent fournir à CanPath un retour d’information sur l’utilisation de l’ensemble de données à l’aide du formulaire d’utilisation de l’ensemble de données.

Pour toute autre question, veuillez contacter le bureau d’accès à CanPath.