" "
Sciences Po | Library - New window

Guides thématiques

Bac à sable Cyril

Vous êtes plutôt chiffres?

DES CHIFFRES !

1 chiffre parlant.

En quelques lignes, quelle réalité des données de la recherche il révèle.

Chiffres actualisés en novembre 2021.

 

 

 

 


J. Cham, « Data : by the numbers », PhD Comics, 31/05/2004

Les principes FAIR :  4 lettres pour un peu plus qu'un énième sigle.

►​ Et alors ?

 Intégrer les principes FAIR à la rédaction d'un data management plan (DMP), c'est s'assurer d'une gestion saine des données et prévenir un certain nombre de risques :

  • Findable (= faciles à trouver) : identifiants uniques et pérennes ; fichiers et dossiers clairement nommés et organisés.
  • Accessible : données déposées dans un entrepôt de diffusion certifié ; stockées sur 2 supports fiables dont 1 à distance pendant le projet ; archivées en partie à l’issue du projet.
  • Interoperable : schéma de métadonnées partagé et adapté à la discipline ; formats connus, ouverts, documentés, partagés.
  • Reusable (= réutilisables) : conformité RGPD, Loi Lemaire et Droit de la propriété intellectuelle actés ; licence de diffusion autorisant la réutilisation clairement apposée ; data paper explicitant les implications du jeu de données rédigé.

17 : c'est le nombre de recommandations de bonne gestion des logiciels que l'on trouve à l'heure actuelle dans les SMP (Software Management Plans).

►​ Et alors ?

Ces 17 recommandations consistent à renseigner les items suivants : nom et objectifs ; usagers ; nature des compétences en configuration ; contribution au projet de recherche ; accès ; infrastructure ; aide pour les développeurs ; méthode et régularité de tests ; environnements ; rôles ; preuve de concept ; mises à jour ; documentation du code ; droit d'auteur et licences de diffusion ; plan de préservation ; projet Open Source ; liage DMP-PGD et SMP.

 

540 000 euros : c'est un exemple de surcroît de financement que vous pouvez demander aux bailleurs de fonds européens de la recherche pour assurer une gestion humaine et technique plus "FAIR" de vos données.

►​ Et alors ? 

Cela pourra vous servir à recruter des collègues (post-doctorant.e.s, assistant.e.s de recherche) qui seront en charge de la bonne gestion de vos données : saisie des données, production des métadonnées, qualité des données, stockage et sauvegarde, archivage et partage des données, apurement des données (contrôle des données, vérification des données manquantes, recherche de doublons, contrôle de vraisemblance). Cela peut servir également à acheter des logiciels de traitement de données.

Contact : la Maps.

 

3 1 : la règle d'or du stockage des données !

►​ Et alors ? 

La règle des 3 2 1 = 3 copies sur 2 supports différents (usb, disque dur externe, serveurs institutionnels – adaptés pour données sensibles, clouds) dont 1 dans une localisation différente (hors de son bureau). Le serveur du CASD – Centre d’Accès Sécurisé aux Données – est utile lorsque vous avez des données massives à stocker (étude des tweets, retweets, commentaires sur un million de comptes twitter par exemple). L'identification se fait en deux étapes par empreintes digitales et biométriques et le stockage sur un ordinateur non connecté au réseau internet.

 

10... 20... 30... : c'est le nombre d'années que peut durer l'archivage "pérenne" de vos données selon le programme que vous avez choisi. C'est mieux que les 5 ans d'obsolescence programmée si vous ne faites rien.

►​ Et alors ? 

Ne pas confondre le stockage avec les solutions d'archivage pérenne sur 10, 20, 30 ans VS l'obsolescence technologique tous les 5 ans en moyenne : recopie de supports, migration de formats. Cela nécessite une sélection des données et donc de réfléchir aux jeux de données qui seront archivés car uniques et ceux qui seront détruits à la fin du projet car facilement reproductibles.

Critères de sélection : potentiel de réutilisation scientifique, valeur de preuve, valeur historique, etc.

Procédure : décrire les données qui seront à préserver à long terme ; fournir l’information sur la durée d’archivage pérenne des données ; décrire les utilisations (et/ou les utilisateurs) prévisibles des données dans un cadre de recherche ; mentionner la plateforme d’archivage choisie.

La DRIS s'occupe de ce type d'archivage en lien avec l'opérateur national, le CINES (Centre informatique national de l’enseignement supérieur), opérateur pour l’archivage des données et documents numériques produits par la communauté Enseignement supérieur et recherche française. 
Coût de la facture d'électricité pour le Cines : 800 000 euros par an !

: c'est le nombre d'étoiles du programme du Linked Open Data de Tim Berners-Lee !


►​ Et alors ? 

Publier vos données sous licence ouverte et dans un format ouvert et non propriétaire, structurer vos données pour les rendre lisible par des humains et des machines, lier vos données à d'autres données pour y rajouter du contexte : autant de recommandations permettant de regrouper les données structurées sur le web non sous la forme de silos de données isolés les uns des autres mais en les reliant entre elles (récupération automatique, non-duplication).

 

31 projets européens en cours, 12 projets ANR en cours à Sciences Po.

►​ Et alors ? 

Pour tous ces projets, un DMP ou PGD ou Data Management Plan ou Plan de Gestion de Données est obligatoire : c'est un livrable pour les financeurs avec des cases à remplir mais c'est surtout un outil programmatique de bonne gestion, un outil de management de risques, de partenaires, du budget, du calendrier et un document unique et évolutif.
Au moment de la demande de financement, nous pouvons également écrire pour vous un paragraphe sur la gestion FAIR de vos données que vous pourrez insérer dans votre réponse aux financeurs afin d'améliorer vos chances.

 

7 : c'est un exemple du nombre de work packages que peut contenir un projet européen.

►​ Et alors ? 

Les work packages (WP), ce sont les projets à l’intérieur du projet.

Pour chacun d’eux, il y a :

  • des tâches
  • des dates butoirs signant des étapes importantes
  • des livrables.

Dans le DMP, vous devez détailler ces éléments.

Workpackage leader et workpackage partners
Cette partie du DMP est intéressante quand chaque sous-projet est géré par un partenaire différent du projet ; un leader est toujours affecté à chaque sous-projet. Le DMP sert ici à donner les noms et les fonctions des différents partenaires et à répartir les responsabilités sur les WP et les domaines d'action (collecte des données, traitement des données, accès aux données).

Nommer son fichier en 3 parties !


►​ Et alors ? 

La recommandation suggère de nommer son fichier en 3 parties obligatoires séparées par un underscore :
préfixe [nom des données]_racine [acronyme du projet]_suffixe [indiquant la date : norme ISO 8601 et la version – ou la date de dernière mise à jour].
Ex : interviewsBamako_ProjetX_20200202_Vdef

L'usage de l'underscore entre les termes facilite la lecture des fichiers via des systèmes d'exploitation autres que celui du producteur, par exemple. 

On peut également inclure une précision sur la mention de version à la fin du nom du fichier : VP.Vdef ou V1, V2... La mention de version peut servir si le chercheur compte réinterviewer certaines personnes ou si le discours des personnes interviewées évolue dans le temps.

404 : c'est le numéro de l'erreur sur laquelle les autres chercheurs et chercheuses risquent de tomber si vous n'utilisez pas de DOI !


►​ Et alors ? 

 Le remède anti-erreur 404 : accoler à ses données un identifiant unique et pérenne comme les DOI ou Digital Object Identifier, sorte d’ISBN ou d'ISSN de la ressource en ligne. Il fournit un lien stable à la ressource ; il rend possible l'ubiquïté de la ressource ; il permet de récupérer une citation juste et complète de la ressource sans avoir à tout ressaisir.

15 : c'est le nombre d'années de protection d'une base de données au titre de la propriété intellectuelle.

►​ Et alors ? 

Propriété intellectuelle des données.

À qui appartiennent les données du chercheur ? 
Aux chercheurs si elles sont transformées, sélectionnées ; les données produites et les analyses sur les données sont au chercheur.
Statut juridique des données brutes au sein d’une base de données = de « libre parcours » : aucun monopole légal à son détenteur ; seule la structure de la base de données peut prétendre à être protégée par le droit de la propriété intellectuelle si elle est originale ; 15 ans de protection = « droit sui generis des bases de données ».

Cela n’affecte ni les brevets,  ni le droit à l’image ou le droit à la vie privée.

 

2016 : c'est l'année d'entrée en vigueur de la Loi Lemaire pour une République numérique.

►​ Et alors ? 

Spécificités des données de la recherche in Loi pour une république numérique 2016, art. 30 : « Dès lors que les données issues d'une activité de recherche financée au moins pour moitié par des dotations de l’État (…) ne sont pas protégées par un droit spécifique ou une réglementation particulière et qu'elles ont été rendues publiques par le chercheur, l'établissement ou l'organisme de recherche, leur réutilisation est libre. 

L'éditeur d'un écrit scientifique mentionné ne peut limiter la réutilisation des données de la recherche rendues publiques dans le cadre de sa publication. »
Cf. «  as open as possible as closed as necessary »

Spécificités des données administratives : le principe d'ouverture s'applique particulièrement pour les données dont la publication présente un intérêt économique, social, sanitaire ou environnemental.
Article L312-1 du Code des relations entre le public et l’administration.

La loi Lemaire acte donc le principe d’ouverture par défaut des données publiques. Par extension, les données de la recherche sont assimilées à des données publiques.

1 000 000 : c'est le nombre de comptes Twitter analysés dans le cadre du projet Participate (Sciences Po/Harvard) qui vise à comprendre pourquoi des personnes au faible revenu financent des campagnes électorales aux États-Unis, en Grande-Bretagne et en France !


►​ Et alors ? 

L'augmentation du volume d'écrits scientifiques et de données de la recherche occasionne une massification de l'information. La consultation, l'exploitation et le croisement manuels sont impossibles mais certains outils de fouille et de visualisation de données le permettent et par là même, permettent l'acquisition de nouvelles connaissances, la découverte de nouvelles tendances et la recherche transdisciplinaire.

Dernière mise à jour: Oct 28, 2023 4:16 PM