BiblioGraph : un outil et une méthode pour visualiser les paysages scientométriques
Développé avec le soutien de la Mission pour les initiatives transverses et interdisciplinaires (MITI) du CNRS et en collaboration avec Ouestware, BiblioGraph est un outil expérimental permettant de transformer un corpus de notices bibliographiques en un paysage scientométrique — autrement dit une visualisation prenant la forme d'un réseau de références et de métadonnées extraites d'un corpus de notices bibliométriques.
BiblioGraph a été développé dans le cadre de CAIAC, un projet proposant pour la première fois l'exploration cartographique des oppositions et des alliances scientifiques présentes dans la littérature académique sur l’intelligence artificielle. Pour cela, CAIAC proposait de développer une nouvelle méthode d’analyse des controverses et des collaborations scientifiques basée sur l’analyse visuelle des réseaux de co-citation.
Selon la définition de Wikipédia, « la scientométrie est la science de la mesure et de l'analyse de la science ». Cette approche est parfois critiquée, et non sans raison, certaines de ses techniques réduisant parfois la carrière de chercheurs individuels ou la production de centres de recherche à des indicateurs quantitatifs que les décideurs politiques ou les agences de financements de la recherche peuvent facilement s’approprier. Le facteur d’impact des revues scientifiques ou h-index
Cependant, les méthodes développées par la recherche scientométrique sont infiniment plus riches et sophistiquées que les quelques mesures les plus connues et utilisées. Loin d'être synonyme de quantification ou simplification, la scientométrie peut proposer des techniques extrêmement complexes pour explorer la production scientifique dans le temps et l'espace. BiblioGraph, par exemple, a été développé pour exploiter certaines idées classiques de la scientométrie afin de générer, non pas des indicateurs numériques, mais des paysages visuels.
Avant d'illustrer le fonctionnement de BiblioGraph, il est important de présenter brièvement l'idée de paysage scientométrique, sur laquelle se base l'outil. Nous appelons « paysage scientométrique » une représentation visuelle d'un ensemble de données décrivant un corpus de publications scientifiques. Plus précisément, un « paysage scientométrique » est un réseau d'éléments apparaissant dans des publications scientifiques (références, auteurs, mots-clés, revues, etc.) regroupés par le fait d'apparaître dans les mêmes publications.
Un paysage scientométrique est produit en deux étapes successives. La première étape consiste en la construction d'un « fond de carte » par une technique scientométrique classique appelée bibliographic coupling ou co-citation
Toutes les publications citées par l'article de PlosOne deviendront des nœuds du réseau des références et seront toutes liées entre elles car elles apparaissent ensemble dans l'article. Il en sera de même pour toutes les publications citées par l'article de Nature. La publication C, étant citée par les deux articles sera le pont entre les deux groupes de références.
Une fois généré selon la méthode qu'on vient de décrire, le réseau des références est ensuite spatialisé à l'aide d'un algorithme force-dirigé (force-based ou force-directed layout). Cet algorithme simule un système de forces physiques : il assigne une force de répulsion aux nœuds et une force d’attraction aux liens, et cherche ensuite à trouver une position d’équilibre. Dans cette position d'équilibre, les nœuds les plus directement ou indirectement connectés tendent à se retrouver spatialement proches et le réseau peut ainsi être lu quasiment comme une carte géographique
Une fois le réseau de base construit et spatialisé, la deuxième étape de la création d'un paysage scientométrique consiste en l'extraction de toutes les autres métadonnées qui sont contenues dans les notices bibliographiques du corpus comme, par exemple :
- les mots clés associés aux publications ;
- les journaux, livres ou conférences où elles sont parues ;
- les bailleurs de fonds qui les ont soutenues ;
- les auteurs qui les ont signées ;
- les affiliations nationales et institutionnelles de leurs auteurs.
Tous ces différents éléments sont alors ajoutés en tant que nouveaux nœuds aux réseaux de base et connectés, non pas entre eux, mais uniquement aux références qui figurent dans les mêmes notices bibliographiques. Revenons à notre exemple de PlosOne et Nature :
Le réseau comprenant maintenant les références et les métadonnées est ensuite spatialisé à nouveau, en utilisant le même algorithme force-dirigé, mais en gardant la position des références fixes, de sorte que les métadonnées soient positionnées en fonction des connexions avec elles, et non l'inverse. Autrement dit, le réseau de co-citation reste inchangé comme fond de carte et les métadonnées sont positionnées sur ce fond par ce que l'on pourrait appeler une « projection relationnelle ».
Pour illustrer le fonctionnement de BiblioGraph et la lecture d'un paysage scientométrique, nous proposons un exemple concernant la géo-ingénierie des océans, c'est-à-dire les différentes techniques suggérées par les scientifiques et les ingénieurs pour utiliser les mers et les océans comme puits de CO2 — des lieux où l'on peut capter et stocker du CO2 pour compenser (idéalement du moins) notre incapacité à réduire nos émissions de gaz à effet de serre. Cette recherche préliminaire fait partie du projet européen OceanNets et est conduite à l'Institute for Advanced Sustainability Studies (IASS) à Potsdam.
Nous avons utilisé une requête très complexe pour récupérer un corpus de notices bibliographiques à partir de Scopus — la base de données bibliométriques d'Elsevier. Cette requête nous permet d'identifier 2 169 notices de publication parues entre 1953 et 2021, et de les télécharger au format CSV avec toutes leurs métadonnées, y compris (et de manière cruciale pour BiblioGraph) leurs références.
Après lecture et pré-traitement de ces corpus, BiblioGraph offre aux chercheurs et chercheuses la possibilité de définir le seuil d'occurrence pour chacun des éléments qui deviendront des nœuds dans le réseau, en définissant ainsi la taille du graphe résultant. En pratique, le chercheur choisit le nombre minimum d'occurrences de chaque type d'items à inclure dans les réseaux et obtient un aperçu du nombre de nœuds qui seront ajoutés au réseau pour chaque seuil.
Sur la base des seuils choisis par le chercheur, BiblioGraph génère un réseau de références de base, le spatialise et projette les autres métadonnées sur ce fond de carte selon la méthode expliquée précédemment. Le chercheur peut enfin télécharger le graphe sous forme d'image ou, mieux encore, sous forme de fichier graphique (gexf) à ouvrir dans un logiciel d'analyse de réseau tel que Gephi.org
Voici ci-dessous le paysage scientométrique généré par BiblioGraph à partir des notices bibliographiques sur la géo-ingénierie océanique (après un traitement graphique Gephi et Inkscape). La carte est disponible en ligne en version zoomable et en haute résolution.
Pour lire la carte, il faut se rappeler que :
- les nœuds gris représentent les références (citées dans les notices bibliographiques du corpus sur la géo-ingénierie des océans) ;
- les nœuds colorés représentent les métadonnées (présentes dans ce même corpus) ;
- la taille des nœuds est proportionnelle au nombre d'occurrences de chaque élément dans le corpus ;
- les connexions correspondent à la co-occurrence dans les publications du corpus ;
- la position des nœuds dépend de leur connexions ;
- les connexions ont été remplacées par une carte de chaleur (heatmap) de densité pour augmenter la lisibilité de l'image.
Nous n'avons pas l'espace ici pour discuter les intuitions que ce paysage nous suggère (mais cela sera l'objet d'une publication à paraître), mais nous pouvons déjà remarquer la séparation du réseau en deux principaux clusters. Sur la gauche, la région du paysage scientométrique relative à la fertilisation des océans, une méthode très discutée et controversée ayant pour but d'accroître artificiellement la quantité d'organismes marins capables d'absorber le CO2, en injectant du fer dans les océans. Sur la droite, la région relative au « carbone bleu », c'est-à-dire aux techniques de conservation des écosystèmes côtiers pour accroître leur capacité de capture du CO2.
Le cas de la géo-ingénierie des océans n’est qu’un exemple d’un sujet qui peut être exploré par le BiblioGraph. L’outil permet en effet de visualiser n’importe quel corpus de publications scientifiques extrait de Scopus ou ISI Web of Science par une requête visant une question scientifique, une institution de recherche, une sous-discipline, un pays ou une période dans la limite des capacités techniques du navigateur Web dans lequel BiblioGraph est lancé. BiblioGraph est entièrement open source et son code est disponible sur Github.
Tommaso Venturini, chargé de recherche CNRS, Centre Internet et Société (CIS, UPR2000, CNRS) ; Kari De Pryck, Institute for Advanced Sustainability Studies