Que sont les données synthétiques ?
Les données synthétiques sont conçues pour reproduire les propriétés statistiques et la structure des données réelles sans compromettre la confidentialité. Créées à l’aide de simulations informatiques et d’algorithmes avancés, les données synthétiques offrent une alternative sûre et polyvalente aux chercheurs et aux scientifiques des données.
- Préservation de la vie privée : Les données synthétiques garantissent la protection de la vie privée des individus en ne contenant aucune information personnelle réelle.
- Représentation réaliste : Elles reflètent les caractéristiques statistiques des données réelles, ce qui les rend idéales pour tester et former des modèles d’apprentissage automatique.
- Large applicabilité : De la santé à la finance, les données synthétiques sont inestimables pour valider des modèles et mener des expériences sans risquer d’exposer des informations sensibles.
Qu’est-ce que l’ensemble de données synthétiques de CanPath ?
L’ensemble de données synthétiques de CanPath a été manipulé pour imiter les données harmonisées au niveau national de CanPath, mais n’inclut ni ne révèle les données réelles des participants à CanPath.
Comment a-t-il été développé ?
L’ensemble de données synthétiques a été créé à l’aide d’un logiciel R open-source appelé « synthpop ». Ce logiciel a été conçu pour générer des versions synthétiques de données d’enquêtes longitudinales. Il a échantillonné de manière aléatoire les données CanPath, en remplaçant et en réorganisant les informations relatives aux participants. Ainsi, l’ensemble de données synthétiques préserve les modèles statistiques (c’est-à-dire les relations entre les variables), mais aucune des données du monde réel.
Quels sont les avantages de l’ensemble de données synthétiques de CanPath ?
- Vaste échantillon (plus de 40 000 participants)
- Données canadiennes réelles au niveau de la population
- Variété de domaines d’information permettant un large éventail de sujets de recherche
- Aucun coût pour les enseignants
- Possibilité pour les étudiants de demander l’accès aux données réelles de CanPath pour publier leurs résultats
Qu’est-ce qui est disponible ?
Exemples d’utilisation
Les enseignants des universités et collèges canadiens peuvent utiliser gratuitement l’ensemble de données dans le cadre de leurs cours. CanPath fournira l’ensemble de données et un dictionnaire de données.
Processus d’accès à l’ensemble de données synthétiques
La demande remplie et les pièces justificatives peuvent être soumises par courriel à apply@canpath.ca. Les demandes seront examinées dans un délai de deux semaines.
Critères d’admissibilité
- Le candidat doit enseigner dans une université ou un collège canadien ;
- L’ensemble de données est demandé pour une utilisation dans le cadre d’un cours ;
- Les objectifs du cours sont pertinents au but, à la vision et à la mission de CanPath ;
- L’ensemble de données de CanPath s’aligne sur les objectifs et les méthodes du cours.
Documents requis
- Formulaire de demande rempli
- Copie de la demande de CÉR*
- Lettre de décision du CÉR ou preuve d’exemption
- Court CV du candidat (2 pages)
- Plan de cours**
*Une demande de CÉR, une lettre de décision et une preuve d’exemption ne sont nécessaires que si un autre ensemble de données est utilisé en même temps que l’ensemble de données dans le cours.
**Le plan de cours doit mentionner l’utilisation de l’ensemble de données synthétiques de CanPath.
Après chaque itération du cours, les utilisateurs doivent fournir à CanPath un retour d’information sur l’utilisation de l’ensemble de données à l’aide du formulaire d’utilisation de l’ensemble de données.
Pour toute autre question, veuillez contacter le bureau d’accès à CanPath.