Rédiger un PGD - DMP - SMP - Données de la recherche - Guides thématiques at Fondation Nationale des Sciences Politiques

LE DMP EN 60s

[Vidéo] La minute plan de gestion de données
(Data Management Plan), Doranum

MODELE

Data Management Plan DMP

Accessible sur l'outil OPIDoR

DES DÉTAILS !

Rédiger un PGD-DMP-SMP

Tous les bailleurs de fonds de la recherche s'y sont mis : le Plan de Gestion de Données (PGD) ou Data Management Plan (DMP) est un document-cadre qui permet aux différents acteurs d’un projet de recherche de définir l'ensemble des actions à mener concernant la gestion des données produites et utilisées dans le cadre d'un projet : stockage, standards, diffusion, réutilisations possibles, archivage, propriété... Le Plan de Gestion de Logiciels (PGL) ou Software Management Plan (SMP) en est la déclinaison adaptée aux logiciels.

Pourquoi s'embêter à faire ça ? Planifier les actions, décider en amont de certains aspects de la collecte et du traitement des données, anticiper l'allocation de ressources (stockage, recrutement, logiciels) ; certains coûts peuvent être éligibles à financement (projets H2020, Horizon Europe...). Encore faut-il y avoir pensé avant.

Sciences Po a également rédigé un modèle de DMP en français et en anglais, adapté aux problématiques des chercheurs de l'établissement. Il est téléchargeable en français et en anglais, et également accessible en ligne, sur l'outil OPIDoR. Un modèle pour la rédaction de SMP en français complète ce dispositif.

Les questions posées dans ces modèle de DMP et de SMP sont accompagnées de conseils et d'exemples de réponses. Nous sommes à votre disposition pour tout éclaircissement des attendus, pour toute relecture, corédaction, data interview...

Passer à l'acte

QUAND ?

Projet Horizon 2020, Horizon Europe, ERC

Vrai Le DMP est obligatoire, c'est un livrable. Quand ? Dans les 6 mois qui suivent le démarrage du projet.

ANR - Agence nationale pour la recherche

True Le DMP est obligatoire, c'est un livrable. Quand ? Dans les 6 mois qui suivent le démarrage du projet.

SAB - Scientific Advisory Board Sciences Po

Faux Le DMP n'est pas obligatoire.
Cependant, la rédaction d'un DMP permet d'anticiper actions et ressources. Lancez-vous !
Quand ? : dès le début du projet.

Thèses

Rédiger un DMP n'est pas obligatoire.
Mais pourquoi ne pas essayer ?
Quand ? Dès le début de votre thèse.

Autres financements

Quelles obligations ?
Contactez la Mission d'appui aux projets scientifiques (MAPS) de la Direction scientifique.

Le DMP passé au crible - en 7 épisodes :

Spins off :

Le DMP passé au crible - épisode 0/7 :

Qu'est-ce qui se trame ?

Trame d'un DMP

INFORMATION GENERALE

INFORMATION GENERALE SUR LE PROJET
Acronyme et intitulé du projet
Numéro de projet
Programme de recherche

INFORMATION GENERALE SUR LE DMP
Histoire du DMP
Auteur (s) du DMP
Contributeurs et relecteurs du DMP
Date de remise de la V1 (V2...)

VUE GENERALE DU PROJET
Description du projet
Agence de financement du projet
Date de début du projet
Date-butoir du projet
Coordinateur(s) scientifique(s) du projet

PROJETS DIVISES EN WORK PACKAGES
Intitulé des Work Packages
Coordinateurs de Work Packages
Work Packages

VUE GENERALE DES DONNEES

DESCRIPTION GENERALE DES DONNEES

DONNEES PRODUITES, COLLECTEES ET UTILISEES PENDANT LE PROJET
Types de données
Mode et méthodologie de collecte et de production
Fréquence de collecte et production des données
Volume des jeux de données produits et collectés
Formats de fichiers utilisés
Logiciels utilisés pour le traitement des données

STOCKAGE DES DONNEES
Sécurité des données
Conventions de nommage des données et organisation des données
Liste des utilisateurs des données pendant le projet
Propriétaire(s) des données

PROTECTION DES DONNEES PERSONNELLES

ACCES AUX DONNEES
Accessibilité des données
Utilisation de standards d'identification des données comme les identifiants uniques
Versioning des données
Thèmes et mots-clés, standards de métadonnées
Qualité des données

CONSERVATION DE LONG TERME ET ARCHIVAGE PERENNE DES DONNEES

RESPONSABILITES ET RESSOURCES POUR LA GESTION DES DONNEES
Responsabilités
Acquisition et installation d'équipements spécifiques
Recrutement et/ou formation nécessaires à une bonne FAIRisation des données (Faciles à trouver, Accessibles, Interopérables, Réutilisables)
Coûts

Le DMP passé au crible - épisode 1/7 :
Le DMP parle du DMP

Qu'on se le dise, le DMP n'est pas seulement un document administratif ! C'est un “livrable formalisé”, un jeu de questions-réponses, un document unique qui regroupe des informations auparavant dispersées. Il décrit le cycle de vie des données produites et collectées : planification/financement, collecte-analyse, stockage, archivage et sélection des données, publication, diffusion, partage, raisons de non partage, le cas échéant. Conseil : encore et toujours se conformer aux principes FAIR !

Des modèles de DMP existent : des modèles institutionnels (Sciences Po) ou des modèles de financeurs : Agence Nationale de la Recherche (ANR), Commission européenne (programmes H2020, Horizon Europe), European Research Council. Certains modèles sont très succincts (ERC par exemple). Le Consortium of European Social Science Data Archives (CESSDA) présente un panorama des modèles et informations requises en matière de DMP.

Pourquoi retracer une histoire du DMP ?
Le projet de recherche va évoluer, les données collectées et produites au cours du projet vont évoluer aussi. On vous demande donc de préciser les différentes versions du document :

La première version du document est à rendre 6 mois après le début du projet. Elle énonce ce que le chercheur compte faire, elle ne doit être ni complète ni gravée dans le marbre
La version finale concerne les réalisations effectives et concrètes du projet
Une version intermédiaire est obligatoire pour les projets de plus de 30 mois.

Cela permet in fine de valoriser le travail en cours.

Format de date : norme ISO 8601 AAAA-MM-JJ

En pratique
L'exigence pour une V0 de DMP peut être du niveau de détail d’une V1 voire d’un V2, signe de l’intérêt grandissant du bailleurs de fonds (ERC) pour le sujet et avec des délais contraints : 3 semaines pour remettre la V0 du DMP alors que le projet n’a pas encore officiellement commencé. Comment atteindre un haut niveau de précision dans la réponse aux questions avant le début du projet ?

Pourquoi donner des dates ?
Dater chaque version du document. Les dates servent de "deadlines", de dates butoir pour la rédaction des versions du document. Elles permettent de planifier les activités clés nécessaires à la bonne gestion des jeux de données au cours d’un projet de recherche. Elles servent à mesurer les solutions pour parer les risques. Elles peuvent même aboutir à la réalisation d’un calendrier de travail.

Format de date : norme ISO 8601 AAAA-MM-JJ

Pourquoi donner des noms aux auteurs et contributeurs ?

"Bien s'affilier"
Dans le DMP, on vous demande de vous affilier selon la charte de signature de Sciences Po :

pour des raisons de visibilité et de reconnaissance des auteurs et des laboratoires
pour éviter la dissémination des publications et des données dans les différentes variantes de noms pour un même laboratoire ou une même institution
pour faciliter le recensement exhaustif et fiable des publications et des données du chercheur ou de la chercheuse dans le cadre des enquêtes du HCERES (Haut Conseil de l'Évaluation de la Recherche et de l'Enseignement Supérieur)
pour faciliter la recherche d'experts ou d'expertes du domaine ou de collaborations pour un projet de recherche à venir, un article, une conférence.

Identification des auteurs : l'ORCID vaut de l'or !
Vous pouvez éventuellement indiquer le numéro d'ORCID ou tout autre numéro d'identification univoque.

Explicitation des rôles au sein du DMP
Etre clair sur la répartition du travail entre les chercheurs ou les chercheuses et les personnels d'accompagnement : corédaction, relecture, conseils.

Le DMP passé au crible - épisode 2/7 :
Le DMP parle du projet

Quoi décrire ?
Lors de la rédaction du DMP, il convient de décrire les objectifs du projet de recherche, le lien entre les données produites et collectées et les objectifs de recherche, l’utilité des données : pour qui ? Y a-t-il mélange de méthodes issues de différentes sciences sociales ?

DMP = obligation des financeurs de la recherche
Lors de la rédaction du DMP, il faut indiquer le nom des bailleurs de fonds publics du projet. En effet pour ces derniers, il s'agit d'un retour sur investissement dans la recherche : je te donne de l'argent mais en échange, tu partages tes données pour ne pas avoir à repayer pour refaire la même chose :

Financeur européen : Horizon H2020, Horizon Europe, ERC (European Research Council). Pour les projets financés par le programme H2020, l'Open research data pilot (H2020) est un élément du programme de financement qui engage à mettre à disposition les données qui peuvent être diffusées dans un entrepôt et à réaliser un plan de gestion de données. Une possibilité d'« opt-out », de désengagement du financement, existe, en collaboration avec la Maps qui s’occupe du lien avec les bailleurs de fonds et de la rédaction des contrats de recherche.
- Dans ce cas, deux possibilités :
  - Demander l’extension de la deadline
  - Demander un amendement pour sortir du Open Data Pilot call. Raisons possibles : incompatibilité des exigences avec l’objectif du projet, obligation de protection des données, de sécurité, de confidentialité des données, en cas de non-génération de données par le projet.
Financeur français : ANR = Agence Nationale de la Recherche. « L’ Agence demande à ce que les publications consécutives aux projets qu'elle finance soient déposées en texte intégral dans une archive ouverte et impose la rédaction d'un plan de gestion des données (DMP) pour les projets financés à partir de 2019. ». C'est une conséquence du Plan national pour la science ouverte du 4 juillet 2018, annoncé par la ministre Frédérique Vidal qui rend obligatoire l’accès ouvert pour les publications et pour les données issues de recherches financées sur fonds publics.

DMP = 1 projet, des projets
WP = world packages : ce sont des projets à l’intérieur du projet.

Le cas échéant, indiquer pour chacun d’eux :

Les tâches
Les dates butoir signant des étapes importantes
Les livrables

Dans le DMP, vous devez détailler ces éléments.

Workpackage leader et workpackage partners
Cette partie du DMP est intéressante quand chaque sous-projet est géré par un partenaire différent du projet ; avec toujours un leader. Elle sert à donner les noms et les fonctions des différents partenaires, à répartir les responsabilités sur les WP et les domaines (collecte des données, traitement des données, accès aux données).

Le DMP passé au crible - épisode 3/7 :
Le DMP parle de données... Il était temps !

Quels types de données ?
Idée centrale : donner des détails sur le type de données : numériques (bases de données, tableurs), textuels, chiffres, images, fichiers audio, fichiers vidéo, médias composites.

Concrètement : il peut s'agir d'entretiens semi-directifs (technique d’enquête qualitative) ; d'enregistrements audio, de transcriptions de programmes radio ou de shows TV, de notes d’observation, de photos, de données de recensement, de données d’enquêtes individuelles, de questionnaires auto-administrés sur Internet, de tweets, de retweets, de commentaires sur Twitter, des données générées à partir d’un modèle économique, de rapports et de recommandations d’institutions, des documents de séance, de documents d’opinion, de transcriptions de débats et d’audiences parlementaires, de documents gouvernementaux, de jurisprudence...

Quels modes de collecte et de production ?
Indiquer le mode de production : en face-à-face, par téléphone, mail, visioconférence, focus group, méthode d’échantillonnage, outil numériques utilisés comme le logiciel Blaise pour la rédaction de questionnaire dans le projet Elipps. Préciser les critères de choix des personnes interrogées, pourquoi ce pays et pas un autre par exemple.

Indiquer les variables de pondération : une enquête est fondée sur un échantillon : chaque personne sélectionnée est représentative non seulement d'elle-même, mais aussi des autres personnes qui n'ont pas été échantillonnées. Par exemple, si le pourcentage de femmes ayant répondu à une enquête est inférieur au pourcentage de femmes dans la population cible, il faut une pondération des résultats (ici augmentation) pour que les résultats reflètent la part réelle des femmes dans la population cible. Prise en compte de l'âge, du sexe, de la provenance géographique ?

Données collectées : toujours documenter la provenance des données et le critère de choix des sources, expliquer les raisons pour lesquelles l’utilisation de sources de données existantes a été envisagée puis écartée. Indiquer des références précises au lecteur ou à la lectrice curieuse.

Le mode de collecte et de production peut être documenté dans un fichier de type « Lisez-moi » ou dans un article déposé dans une archive ouverte pour que chacun puisse bénéficier de l’expérience du chercheur/de la chercheuse : Spire, HAL. Ex : documentation du processus de collecte des données Twitter.

Quelle fréquence de collecte et de production ?
Indiquer les itérations de collecte le cas échéant : collecte « one shot », mensuelle/annuelle des données ou deux fois pendant les 3-5 ans du projet.

Quel volume de données ?
Indiquer le volume prévisionnel et approximatif des données en début de projet ; et le volume réel et définitif à la fin du projet. Ils sont exprimés en espaces de stockage requis (bites, octets, mégaoctets, teraoctets, gigaoctets) ou en objets, dossiers, lignes et colonnes.

Le DMP passé au crible - épisode 4/7 :
Le DMP parle technique

Un format doit-il être ouvert ou fermé ?
Lors de la rédaction du DMP, il faut indiquer les formats de vos fichiers.

La logique DMP : conseiller les formats ouverts, lisibles par la plupart des machines, acceptés dans les entrepôts de données comme data.sciencespo car ils facilitent le partage et la réutilisation à long terme des données. Différents éléments peuvent permettre de justifier l’utilisation d’un format X, même s’il est fermé : l’expertise de l’institution sur tel ou tel format, sa rareté, son utilité pour traiter un certain de type de données spécifiques à telle discipline, son utilisation régulière par votre communauté de recherche.

Les formats fermés posent problème : ils obligent à utiliser un logiciel de lecture payant. Leur « recette de fabrication » est donc cachée. La lecture ou la modification des fichiers est conditionnée à la possession du logiciel adéquat, payant (ex: .psd > Photoshop ; SPSS ou Stata pour les données statistiques) ; .xsl, .doc, .ppt. Mais tous les formats propriétaires ne sont pas fermés : standard pdf, ajout de « x » aux extensions des formats de la suite Office.

De fait, les formats fermés ne sont pas compatibles avec les principes d’interopérabilité et de réutilisation des FAIR Data.

Formats ouverts : les fichiers sont encodés de façon transparente (code source disponible et modifiable), leur « recette de fabrication » fait partie du domaine public. Ils sont interopérables : ils peuvent être créés, lus et modifiés par tous les logiciels destinés à traiter le type du fichier : image, texte, audio…

Exemples : image (jpeg, png, tiff, gif), texte (docx, plain text (txt), html, xml, pdf, json), audio (aiff, wave, mp3), données tabulaires (xml,csv, sdmx), compressé : .zip...

L'outil Facile mis en place par le CINES (Centre informatique national de l'enseignement supérieur) permet de vérifier la validité de formats de vos fichiers de données, c'est-à-dire, voir s’ils sont toujours lisibles.

Conversion de format : l'entrepôt de données data.sciencespo transforme les formats fermés en formats ouverts. Magique !

Quels logiciels et quels langages utilisés pour la collecte ou le traitement des données ?
Lors de la rédaction du DMP, il faut indiquer les logiciels ou langage que vous avez utilisés. Exemples : Excel, Stata, R, Python.

Quelle procédure de stockage des données ?
Lors de la rédaction du DMP, expliquer comment les données vont être stockées pendant le projet de recherche donc à court ou moyen terme : cela sert de base au traitement ultérieur des contenus. La durée de conservation n'est pas réglementée.

Conseils :

Éviter le stockage uniquement sur des ordinateurs portables, des disques durs externes ou des périphériques de stockage tels que des clés USB. Attention à la perte de clés USB suite à un déménagement, un incendie, un vol, un cambriolage, un PC qui crame et autres joyeusetés. Surveillez vos anti-virus !
Le CASD – Centre d’Accès Sécurisé aux Données – est utile lorsque vous avez des données massives à stocker (étude des tweets, retweets, commentaires sur un million de comptes twitter par exemple). L'identification se fait en deux étapes par empreintes digitales et biométriques et le stockage sur un ordinateur non connecté au réseau internet.
Privilégier l'utilisation de systèmes de stockage robustes (qui ont des performances stables), avec sauvegarde automatique, comme ceux utilisés par Sciences Po
Éviter la copie unique : règle des 3 2 1 = 3 copies sur 2 supports différents (usb, disque dur externe, serveurs institutionnels – adaptés pour données sensibles, clouds) dont 1 dans une localisation différente (hors de son bureau).

Par exemple, sur le projet Elipss : les données sont stockées sur des machines virtuelles sur un hyperviseur dédié aux données de la recherche. Un hyperviseur est une plate-forme de virtualisation qui permet à plusieurs systèmes d'exploitation de travailler sur une même machine physique en même temps. Il permet de stocker les données nominatives et les données d'enquêtes dans deux systèmes d'information différents. Un cryptage des données est mis en place pour en garantir la confidentialité.

Et à Sciences Po ?
Il est recommandé de stocker ses données dans le Google Drive institutionnel (Google Apps for Education) : c'est un peu mieux que Dropbox car un contrat entre Sciences Po et Google garantit l'existence d'une procédure de sauvegarde et de confidentialité des données. De plus, le risque de perte des données en cas de faillite est plus important chez Dropbox que chez Google. Donc, ne pas mettre de données personnelles ou sensibles dans Dropbox (récupération par les propriétaires de la solution de stockage).
De plus en plus d'établissements mettent à disposition des services de partage et de stockage collaboratifs, de cloud computing ou de virtualisation du poste de travail. Exemples : Renater, Open science framework, cumulus, Huma-Num...

Quid des problèmes de sécurité liés à l'utilisation d'une solution de visioconférence pour collecter ses données en contexte de confinement ?
Je vous laisse deviner laquelle... Zoom !
Conseils : indiquer pour rassurer que le stockage dans le cloud de l’outil est limité à 15 jours (ce qui permet la retranscription des entretiens au besoin) et que les données sont automatiquement détruites ensuite ; conseiller de transmettre les documents uniquement par mail, préciser l'existence de l'appui technique d'un helpdesk bien identifié (courriel + téléphone) et de nombreux tutoriels de Sciences po sur le sujet sur l'intranet et sur le site web.
Garanties fournies par l’outil : test de pénétration, rapport de transparence, ingénieurs dédiés à la sécurité de l'appli, norme de chiffrement des données AES256.

Sécurité des données
Expliquer comment les données seront récupérées en cas d'incident ; n'oubliez pas que vous pouvez stocker vos données dans les serveurs sécurisés de la DSI.
Utiliser des mots de passe à niveau de protection élevé (longue chaîne de caractères, majuscules, chiffre, caractères spéciaux). Préciser les personnes qui auront accès aux données pendant le projet de recherche, comment l'accès aux données est contrôlé, en particulier dans le cadre de recherches menées en collaboration entre différentes institutions.

Règles de nommage des fichiers et d'arborescence des dossiers
Structurer, hiérarchiser, nommer ses données, ses fichiers, ses dossiers : le jeu de données doit pouvoir être compréhensible par quelqu’un qui ne l’a pas constitué (chercheur, citoyen le cas échéant) ; le jeu de données doit aussi être utilisable si le producteur de données est parti : par exemple un post-doc étranger retourné dans son pays.

Concrètement : comment seront différenciées les interviews de personnes et d'organisations différentes ? Une arborescence des fichiers est-elle prévue (par source, par thème, par objectif de recherche, par organisme, par fonction, usage de pseudonymes...) ?
En essayant de ne pas répéter les termes entre noms de dossiers et noms de fichiers ?
La réflexion sur l’arborescence claire des fichiers se fait généralement au moment de la V2 : dans l’idéal, elle prépare au dépôt dans un entrepôt de données. Pour le projet Elipss, l'arborescence des dossiers et des fichiers, évolutive, est mise en place en amont du projet.

Pourquoi suivre des règles de nommage de fichiers ?
Cela permet de faciliter la recherche, la disponibilité et la réutilisation des données et de faire gagner du temps à la chercheuse ou au chercheur intéressés par les données.

Quelques règles de nommage des fichiers : il doit être bref et refléter le contenu.
Composition : sujet, date, version ; pas d’espaces ; pas de caractères spéciaux (doit être lisibles par des machines) ; pas de mots vides, abréviations communément compréhensibles, majuscules, caractères alphanumériques. Inclure l'acronyme du projet pour le différencier des projets ultérieurs de la chercheuse. Inclure un mot sur le contenu de chaque interview ? Dans l'idéal, l'élément le plus important doit être mentionné en premier pour faciliter la recherche du document.

Recommandation : 3 parties obligatoires séparées par un underscore : préfixe [nom des données]_racine [acronyme du projet]_suffixe [indiquant la date : norme ISO 8601 et la version – ou la date de dernière mise à jour]. L'usage de l'underscore entre les termes facilite la lecture des fichiers via des systèmes d'exploitation autres que celui du producteur par exemple. Inclure une précision sur la mention de version à la fin du nom du fichier : VP.Vdef ou V1, V2... La mention de version peut servir si le chercheur compte réinterviewer certaines personnes ou si le discours des personnes interviewées évolue dans le temps.

Le DMP passé au crible - épisode 5/7 :
Le DMP parle juridique

Qui est propriétaire des données ?
Dans le DMP, indiquer vos réflexions sur les questions de propriété intellectuelle de vos données. À qui appartiennent les données du chercheur ? Elles appartiennent aux chercheurs si elles sont transformées ou sélectionnées ; les données produites et les analyses sur les données sont au chercheur.
Statut juridique des données brutes au sein d’une base de données : de « libre parcours ». Aucun monopole légal à son détenteur ; seule la structure de la base de données peut prétendre à être protégée par le droit de la propriété intellectuelle si elle est originale ; le droit "sui generis des bases de données" protège la structure de la base pendant 15 ans.

Cela n’affecte ni les brevets, ni le droit à l’image ou ni le droit à la vie privée.

Les données sont-elles protégées ?
Lors de la rédaction du DMP, indiquer vos réflexions sur les questions de protection des données personnelles qui vous servent d'objet d'étude.

Lorsque l'on manipule des données à caractère personnel, il convient d'appliquer les lois sur la protection des données (par exemple, RGPD).
Cela revient à obtenir un consentement libre et éclairé :

Le contenu des interviews est soumis à l’autorisation des personnes interviewées pour toute diffusion.
- L'outil : le formulaire de consentement – voir avec Nawale Lamrini, DPO. Il est nécessaire d'annoncer les règles du jeu aux personnes interviewées avant d'obtenir leur accord : objectifs de recherche, mode de collecte, réutilisation des données... ; laisser ses coordonnées pour donner la possibilité aux interviewé.e.s de revenir sur leurs propos ; collecte et traitement des seules données nécessaires au projet (principe de minimisation des données), modèle dans la langue de l’interviewé, droit de retrait, conditions de stockage et d’anonymisation des données.
- Indiquer clairement que la participation est volontaire : pas de pression directe ou indirecte, les participations permettent la retranscription, l’enregistrement audio ou vidéo de leur entretien ; à leur demande, pas d’enregistrement ; les participants ont le droit de ne pas répondre à certaines questions.
Envisager l'anonymisation des données personnelles pour la préservation et/ou le partage : une anonymisation suffisante pour protéger la confidentialité des données personnelles permettent la diffusion de l’information à des fins de recherche. Anonymiser = enlever des identifiants personnels directs (nom, adresse, N° de sécurité sociale) ou indirects (profession, ethnie).
- Exemples de logiciels permettant de modifier/supprimer les données personnelles et sensibles : Gimp (images), metadata anonymisation toolkit (tout format).
Envisager la pseudonymisation des données personnelles : ce travail est moins fiable car il est facile de retrouver de qui on parle par recoupement. Les données pseudonymisées sont toujours des données personnelles. Conseil : crypter les données confidentielles, chiffrer les contenus ; stocker la clé de cryptage à un endroit différent des données.
Ces informations sont précisées dans la déclaration de traitement des données dans le registre DPO.

En pratique

Il faut parfois du temps pour fournir l'ensemble de la documentation juridique et contractuelle requise. Donc prenez les devants !
Quels documents fournir si vous collectez de nombreuses données personnelles ?
° Un « data processing agreement » sur les infrastructures d’hébergement et la politique de protection des données entre le data controller (Sciences po) et le data processor, sous-traitant (université partenaire étrangère)
° Un « data use agreement » si les données d’enquêtes collectées proviennent d'une agence de presse étrangère

Quid des problèmes de confidentialité liées à l'utilisation d'une solution de visioconférence pour la collecte des données en contexte de confinement ?
Des mesures pour éviter les risques d’intrusion : procédure d'authentification (identifiants Sciences po, mot de passe sécurisé), lien de visioconférence privé et non-partagé, diffusion de l'ID meeting et non de l'ID personnel.
Information et collecte du consentement sont inclus dans l’outil, traduction du dispositif dans les formulaires de consentement : distribués en amont par mail, signature électronique des participants, ajout de l’obligation de ne pas diffuser l’URL sur le web ou sur les réseaux sociaux.

Le DMP passé au crible - épisode 6/7 :
Le DMP parle partage car il sait que vous êtes généreux

Le contexte
La loi Lemaire ou Loi pour une république numérique 2016 vous donne le droit de déposer en archive ouverte la version post-print de vos publications de SHS (post-print = revue par les pairs, sans la mise en page éditeur), dans les 12 mois suivant publication.

Mais quid des données ?

Art. 30 : « Dès lors que les données issues d'une activité de recherche financée au moins pour moitié par des dotations de l’État (…) ne sont pas protégées par un droit spécifique ou une réglementation particulière et qu'elles ont été rendues publiques par le chercheur, l'établissement ou l'organisme de recherche, leur réutilisation est libre. L'éditeur d'un écrit scientifique mentionné ne peut limiter la réutilisation des données de la recherche rendues publiques dans le cadre de sa publication. » C'est particulièrement vrai pour les données dont la publication présente un intérêt économique, social, sanitaire ou environnemental.

L'article L312-1 du Code des relations entre le public et l’administration acte le principe d’ouverture par défaut des données publiques. Par extension, les données de la recherche sont assimilées à des données publiques.

Cet article s'applique sur des données sélectionnées.

Les avantages :

Enquêtes, interviews, enregistrements sur le terrain, uniques et irremplaçables : il est utile de les garder à disposition de la communauté à des fins d’information et de connaissance fine des sujets
Question du coût en temps et en argent : est-ce reproductible mais à des coûts dissuasifs ? Mettre à disposition ses données évite aux autres de devoir repayer et permet de gagner du temps à la communauté qui par exemple aura en tête des entretiens similaires (du point de vue du fond, comme de la forme et de la méthode)
Science cumulative : pourquoi ? Éviter de refaire ce qui a été déjà fait ; faciliter la coopération et le partage d’information entre les partenaires d’un projet collaboratif
Valeur de preuve scientifique : le partage des données permet de poser l’antériorité de sa recherche, de lutter contre la fraude, de se servir des données comme preuve des conclusions d’un article ou d’un chapitre d’ouvrage
Découverte : la mise à disposition des données permet l’exploration de thèmes qui n’avaient pas été envisagés par des chercheurs d’origine
À terme : les activités de gestion des données seront prises en compte dans la nomination et la promotion des chercheur.ses ; la prise en compte des activités de gestion de données est déjà effective pour le financement des projets de recherche avec l'idée d'améliorer le retour sur investissement de la recherche financée.

Certaines revues, y compris en SHS, demandent que les données d’appui des articles soient partagées dans un entrepôt de confiance, assermenté (comme data.sciencespo), et ce à des fins de validation des résultats et d'accès à une information plus poussée et précise pour les lecteurs et lectrices désireux.ses d'approfondir. Cet accès peut se faire sur demande via un formulaire en ligne. Il peut s'agir des données :

ayant permis la rédaction de l’article
sur lesquelles reposent les conclusions d’un article.

Et le DMP alors ?

Durant la rédaction du DMP, il convient d'expliquer à quel moment les données seront rendues disponibles, quels sont les délais de publication ou d'embargo prévus (liés à l'application d'un brevet par exemple) le cas échéant, s'il y a une la restriction à certaines communautés de recherche.

Le data paper est votre ami : pourquoi ?
Autre moyen de valoriser ses données : le "data paper". Perte de temps ? Non car vous pouvez réutiliser les informations du DMP (et du carnet de recherche si vous en tenez un au cours du projet) !

Le data paper est un article peer-reviewed [relue par les pairs] publié dans une revue classique ou dans un data journal dédié. Il montre l'originalité d'un jeu de données par rapport aux objectifs de recherche et à la recherche en général, le potentiel de réutilisation des données, le protocole de recherche, le contexte d’obtention des données, la méthodologie de collecte, la méthode d'échantillonnage et la fiabilité des données. C'est une version plus consistante des fichiers "read me"/"lisez-moi" associés aux jeux de données ou du dictionnaire de données.

Il est construit comme un article classique : affiliation, résumé, mots-clés, enjeux généraux et spécifiques, remerciements, références bibliographiques, annexes, figures, tableaux, relatifs à la méthodologie, à la qualité des données ou proposant une synthèse des données. Il apporte une reconnaissance supplémentaire car il est citable (citation : base de l'évaluation quantitative de la recherche aujourd'hui).

C'est un article publié dans une revue scientifique classique publiant différentes formes d’articles dont des data papers ou dans un data journal, revue contenant exclusivement des data papers : Data in brief, le Research Data Journal for the humanities and social sciences, de nombreux titres en économie.

Data.sciencespo est votre ami : pourquoi ?

Le travail sur le DMP permet de gagner du temps lors de l'étape ultérieure idéale qu'est le dépôt dans un entrepôt institutionnel comme datasciencespo.

Les avantages de datasciencespo :

Dispose d’un modèle économique clair, visible par tous, partagé largement : il est fondé sur la solution dataverse de data.sciencespo adoptée aussi à Harvard, en Lorraine, à Paris 8…
Offre des garanties en matière de visibilité et de préservation des données, d’indexation, de signalement qui permettent de trouver le jeu de données que l’on souhaite plus facilement
Institutionnel : il est adossé à la politique de l’institution cf. volet « gestion des données » dans la charte science ouverte en cours d’élaboration par la DRIS et la DS.

Les identifiants uniques sont vos amis : pourquoi ?

Lors de la rédaction du DMP, indiquer s’il sera envisagé d’attribuer aux données un identifiant pérenne.

L'usage d'un identifiant numérique pérenne comme le DOI (digital object identifier) peut faciliter la visibilité (y compris sur les moteurs de recherche) et la réutilisation de vos jeux de données. Le DOI fournit aussi un lien stable à vos données (il permet de les localiser). Il permet de récupérer une citation juste et complète de la ressource sans avoir à tout ressaisir : cela peut servir quand/si les agences d'évaluation de la recherche demandent aux chercheurs/laboratoires une liste de leurs productions (thèses, articles, interventions dans des conférences, mais également les jeux de données...). Il permet de comptabiliser les citations et les réutilisations de votre jeu de données en ligne. L'entrepôt de données data.sciencespo accole automatiquement un DOI à chaque jeu de données déposé. Les DOI sont fournis par des agences spécialisées : CrossRef, DataCite du CNRS.

Constitution d’un DOI : préfixe de l’agence de DOI (Inist-CNRS par exemple) ; suffixe de l’institution = Sciences Po.

Les mots-clés et les standards de métadonnées sont vos amis : pourquoi ?

Lors de la rédaction du DMP, indiquer les mots-clés et métadonnées utilisés pour décrire les données.

Associer des mots clés aux jeux de données permet de décrire le projet et en améliorer la visibilité : sujet, domaine, mode de collecte, couverture géographique et temporelle...

Les métadonnées associées au jeu de données permettent d'aller plus loin : décrire la ressource de manière qu’elle soit retrouvée par les moteurs de recherche, y compris par des chercheurs d’autres disciplines – plusieurs types :

Métadonnées descriptives : elles permettent de découvrir, d’évaluer les données décrites : titre, auteur, sujets, mots-clés, date…
Métadonnées de provenance (origine, traitement) : elles permettent la bonne compréhension du contexte et favorisent la réutilisation
Métadonnées techniques et administratives : conditions de lecture par l’homme et la machine, logiciels de lecture des données, configuration, versions du logiciel, formats, droits et accès (licences de diffusion : ce que le producteur du jeu de données autorise ou non concernant la réutilisation de son jeu de données).

Chaque métadonnée à son gabarit :

Nom du projet : texte libre
Date : norme ISO AAAA-MM-JJ…

Deux modes de création de métadonnées cohabitent souvent :

Les métadonnées embarquées : elles sont récupérées automatiquement quand on renseigne le DOI ou quand on dépose le document (comme dans HAL) : cependant, un contrôle qualité reste nécessaire, le résultat n’est pas toujours optimal !
Les métadonnées externes

Les standards de métadonnées sont des modèles de métadonnées : standards disciplinaires, par exemple la norme internationale DDI (data documentation initiative), sous format XML, adaptée aux données et types de ressources en sciences sociales, en particulier les données d’enquêtes. Elle permet de décrire l’étude et les variables, la source, l'origine géographique, la couverture temporelle, la méthode de collection et production. Ce standard est utilisé par data.sciencespo ; il permet d'ajouter du code informatique qui peut aussi être partagé sur GitHub.

Le versionning est votre ami : pourquoi ?

Lors de la rédaction du DMP, indiquer la mention de version du jeu de données en cas de correction, d’erreur, de rétraction d’un interviewé sur une partie de ses réponses. Le versioning permet de repérer les changements entre versions

La qualité des données est l'ami de vos collègues en STM : pourquoi ?
Contrôler la qualité des données : contrôler la conformité de la collecte des données, documenter les processus : calibration, répétition des échantillons ou des mesures, capture standardisée des données, validation de saisie des données.

Pas de partage sans préservation à long terme : pourquoi ?

Lors de la rédaction du DMP, indiquer si un archivage pérenne des données est envisagé.

Ne pas confondre le stockage avec les solutions d'archivage pérenne sur 10, 20, 30 ans qui permettent de lutter contre l'obsolescence technologique tous les 5 ans en moyenne : recopie de supports, migration de formats. Cela nécessite une sélection des données et donc de réfléchir aux jeux de données qui seront archivés car ils sont uniques et ceux qui seront détruits à la fin du projet car ils sont facilement reproductibles.

Les critères de sélection sont : potentiel de réutilisation scientifique, valeur de preuve, valeur historique, etc.

Procédure : décrire les données qui seront à préserver à long terme ; fournir l’information sur la durée d’archivage pérenne des données ; décrire les utilisations (et/ou les utilisateurs) prévisibles des données dans un cadre de recherche ; mentionner la plateforme d’archivage choisie.

La Dris s'occupe de ce type d'archivage en lien avec l'opérateur national, le CINES (Centre informatique national de l’enseignement supérieur), opérateur pour l’archivage des données et documents numériques produits par la communauté de l'Enseignement supérieur et de la recherche française.

Le DMP passé au crible - épisode 7/7 :
Le DMP parle gros sous et ressources humaines surtout

Appelez-moi le responsable
Lors de la rédaction du DMP, indiquer les rôles et responsabilités concernant les activités de gestion des données : saisie des données, production des métadonnées, qualité des données, stockage et sauvegarde, archivage et partage des données, apurement des données (contrôle des données, vérification des données manquantes, recherche de doublons, contrôle de vraisemblance).

Nommer la ou les personne(s) responsable(s) et impliqué(es) dans la mesure du possible. Pour les projets menés en collaboration : quelle coordination des responsabilités des données entre partenaires ?

Qui est responsable de la mise en œuvre du DMP : examen, révision, mises à jour régulières ?

Acquisition et installation de matériels spécifiques : serveurs, machines virtuelles, logiciels dédiés, licences supplémentaires ?

Chiffrage et justification des ressources humaines : temps de personnel (en ETP = équivalent temps plein ; profils : post-doctorat, assistant de recherche…), coûts de préparation des données pour le dépôt… Recrutement ou formation à prévoir ? Le coût du recrutement peut s'évaluer par exemple à 540 000 euros.

Frais de stockage, frais d’archivage, coût matériel, logiciel particulier, machine particulière.

Ces coûts sont éligibles dans le cadre du financement ANR - Commission européenne : le chercheur ou la chercheuse peut demander de l’argent supplémentaire pour payer ces frais. Encore faut il y avoir penser suffisamment en amont : le DMP est là pour ça.
Contact : la Maps.

Pour aller plus loin :
► Un guide de l'université d'Utrecht pour calculer les coûts de gestion des données
► Un tableau des coûts par le Landelijk Coördinatiepunt Research Data Management (LCRDM), y compris les dépenses techniques

► Quelques points par type de données que l'on peut signaler dans le PGD-DMP si vous voulez un financement supplémentaire :

Etat de traitement des données	Jeux de données	Types de données	Coûts
Données brutes	Interviews	Fichiers audio	Location d'équipements audio Coûts de location d'espaces Stockage des données & backup
Données traitées	Transcription d'interviews	Fichiers Word	Coût en personnel : recrutement d'assistants de recherche pour saisie manuelle Stockage des données & backup
	Logiciels d'analyse de données	Script R	Coût en personnel : développeur pour écrire un programme de fouille de données.
Données analysées	Graphique de régression	Fichiers Photoshop	Coûts en logiciels
	Site web du projet	HTML, Java	Frais d'hébergement Personnel pour construire l'architecture du site web.

Le DMP passé au crible - spin off :
La data interview (ou interview-données)
comme outil pour alimenter son DMP

Check list

Quelle est l’histoire de ces données ? Leur contexte de production / collecte ? Le projet de recherche auquel elles sont liées ?
De quel(s) type(s) et dans quel(s) format(s) sont-elles ?
Quelle est la durée de vie supposée du jeu de données ?
Comment pourraient-elles être (ré)utilisées, et pourquoi ?
Quelle est la taille du jeu de données ?
Quel accroissement ?
Quelle audience potentielle pour ce jeu de données ? 7. À qui appartiennent les données ?
Y a-t-il des données sensibles ?
Quelles publications ou découvertes découlent de ces données ?
Comment rendre ces données accessibles ?
Source : M. Witt et J. Carlson, « Conducting a Data Interview », 2007 (en ligne).

Le DMP passé au crible - spin off :
Quid des software management plans ?