Projet OpenEdition Data : quelle stratégie pour l’ouverture des données d’OpenEdition ?

Humanités numériques

OpenEdition dévoile les résultats d’une étude stratégique sur l’ouverture des données dans le cadre du projet OpenEdition Data. S’inscrivant dans le mouvement de l’open data, ce projet de recherche du programme OpenEdition Lab a pour but de simplifier l’accès aux données des différentes plateformes d’OpenEdition.

Le projet OpenEdition Data comprend trois étapes :

  1. une étude stratégique sur l’ouverture des données ;
  2. la définition d’un cahier des charges fonctionnel pour le portail OpenEdition Data ;
  3. un accompagnement à l’ouverture des données.

La première étape visait à dresser un état de l’art de l’open data dans le domaine de l’édition scientifique accompagné d’un audit des données dans le but d’analyser le positionnement d’OpenEdition dans le paysage de l’open data et d’établir une stratégie de mise en œuvre. Cette étape comportait plusieurs phases :

  • un état de l’art de l’open data dans le domaine de l’édition scientifique ;
  • des entretiens avec des usagers (chercheurs, producteurs de données, porteurs de projets, etc.) sur les données de l’édition scientifique ;
  • un atelier de définition des personas avec des membres d’OpenEdition ;
  • une étude du positionnement stratégique d’OpenEdition.

 

État de l'art de l'open data dans l'édition scientifique

Plusieurs plateformes françaises et étrangères (Persée, Cairn, PLOS, Hindawi, Scopus, Web of Science, I4OC, Sage, Dalloz, HAL, HumaNum, F1000Research.com) ont été étudiées afin de dresser un panorama des politiques open data des différents acteurs de l’édition scientifique. Ce dernier a été complété par des entretiens avec des personnes ressources (CCSD / HAL, HumaNum/Isidore et Persée) pour explorer la conduite et l’impact de projets open data dans les organisations.

Les entretiens ont permis de mettre en avant trois aspects importants pour mener un projet open data :

  • les projets s’inscrivent dans une démarche partenariale et doivent s’appuyer sur les premiers usagers et demandeurs de données ;
  • il est nécessaire de favoriser le développement des usages en utilisant des protocoles facile d’utilisation. Les protocoles OAI-PMH sont peu compréhensibles et l’utilisation des standards du web sémantique demande un travail considérable mais génère très peu d’usages ;
  • le besoin de documentation et d’accompagnement des usagers doit être pris en compte afin de développer une communauté d’usagers autour des jeux de données.

 

Entretiens et persona pour comprendre les besoins des usagers futurs d’OpenEdition Data

Pour comprendre les pratiques et les besoins des usagers potentiels d’OpenEdition Data, l’équipe a procédé en deux temps : des entretiens avec des usagers potentiels de données, puis une définition en interne des personas dans le but de mettre en avant la diversité des usagers potentiels des données d’OpenEdition.  

Il ressort des entretiens plusieurs éléments pour comprendre les besoins et les usages des utilisateurs de données ouvertes :

  • les modalités d’accès aux données : les usagers interrogés avaient une préférence pour les données brutes, des ensembles de données sous la forme de « dumps » plutôt que des interfaces de programmation (APIs) permettant de requêter la base pour sortir des sous-ensembles de données. Si l’API est trop restrictive et les données dans des formats trop complexes, le scrapping, qui consiste à extraire automatiquement le contenu de pages web, peut être une alternative efficace à l’utilisation de données ouvertes ;
  • la prévisualisation des données : voir un échantillon des données aide à savoir ce qu’elles contiennent, à imaginer leur potentiel et à savoir si cela va être simple ou non de travailler avec ces données ;
  • la documentation des données : élément essentiel qui doit être orienté vers les usages plutôt que vers la description.

 

L’ouverture des données d’OpenEdition ?

Un audit de données a été réalisé pour définir la méthode d’ouverture des données d’OpenEdition. Huit jeux de données ont été identifiés pour le projet :

  • Métadonnées
  • Texte intégral
  • Statistiques de consultation
  • Citations
  • État des collections (Coverage List)
  • Liste des institutions abonnées
  • Données administratives d’OpenEdition
  • Indicateurs d’activité

Une ouverture progressive des données est envisagée pour le projet OpenEdition data. Le portail devrait dans un premier temps agréger et exposer les données existantes (métadonnées des documents, état des collections d’OpenEdition Journals, OpenEdition Books et Hypothèses, etc.) et dans un second temps permettre l’ouverture de données à forte valeur ajoutée.