COPERNIC, des données à la connaissance : outiller l’analyse des flux de publications
#VALORISATION
L’ère numérique et la communication en réseau sont à l’origine de profondes transformations non seulement dans les manières de s’organiser et de communiquer mais aussi de développer des stratégies d’influence ou de manipulation des opinions à grande échelle.
Porté par le Groupe de recherche sur les enjeux de la communication (GRESEC, Université de Grenoble) et la fédération de recherche Innovation, connaissances et société (Innovacs, FR3391, CNRS / Université Grenoble Alpes), le projet COPERNIC, qui bénéficie depuis 2022 du dispositif de prématuration du CNRS, s’inscrit dans la continuité d’une réflexion apparue dans les sciences humaines et sociales au début des années 2000, portant sur les spécificités de la conduite d’études ethnographiques en ligne ainsi que sur l’exploitation des traces numériques d’usages. La disponibilité massive de données numériques alimente, depuis, le débat sur le renouvellement des méthodes qualitatives et quantitatives ainsi que leurs complémentarités.
Partant du constat qu’il n’existe pas de solution logicielle simple à mettre en œuvre par un chercheur ou une chercheuse ne disposant pas d’un bagage technique conséquent, le premier objectif du projet a été de proposer un environnement numérique facilitant l’accès à l’analyse de collections de données de taille importante. Dans ce sens, le projet vise le développement d’un dispositif numérique dédié à l’étude empirique de la communication et des communautés en réseau telles qu’elles peuvent apparaître et devenir agissantes sur le web et les médias sociaux.
L’originalité de la proposition réside dans la spécialisation de cet instrument qui renvoie à l’étude des phénomènes et des comportements informationnels ou communicationnels en ligne, suivant une démarche d’instrumentalisation au service des sciences humaines et sociales (SHS).
L’objectif de la réalisation informatique proposée se concentre sur l’étape d’analyse. En particulier, elle ne porte pas sur l’amont, c’est-à-dire sur la production de données brutes, issues de la capture des messages instantanés produits et échangés sur les pages de forum, de blog ou d’autres supports de diffusion du web. Il ne s’agit pas non plus d’un outil de collecte, branché sur les services de valorisation des données des plateformes.
Les verrous techniques que comporte l’activité de collecte n’incitent pas, en effet, à investir dans une proposition logicielle susceptible d’être rapidement obsolète ou nécessitant un effort conséquent et incertain de maintenance. Sur cet aspect du travail avec des données, il existe une offre de services payants de plus en plus structurée. Si celle-ci s’adresse de manière privilégiée aux entrepreneurs de l’économie numérique, elle permet aussi aux chercheurs et chercheuses, moyennant un coût d’accès, de compenser les difficultés de mise en œuvre de collecte. S’il convient de mettre en place une alternative, celle-ci devrait relever d’une logique collective et d’une dynamique communautaire au sein des mondes de la recherche. Cependant, le développement de sources ouvertes de données et de dépôts, ainsi que l’évolution du cadre réglementaire européen1 apportent du crédit à un positionnement de projet privilégiant la suite du cycle de vie des données. Éviter l’étape de constitution de collection de données brutes préserve partiellement des interrogations sur la représentativité, la qualité, etc. des matériaux de la recherche.
Dans ce contexte, les jeux de données d’entrée sont constitués de représentations de publications, c’est-à-dire de contenus édités (textes, images, etc.) postés par des individus sur des plateformes de diffusion en ligne et à destination d’un ensemble plus ou moins étendu et ciblé d’abonnés à ces mêmes services. Cette définition de la publication correspond à différents outils de communication et modalités d’usage (e-mail, blog, forums…) mobilisés dans des contextes et des finalités variés. Les contextes d’études envisagés concernent alors, par exemple, les jeux d’acteurs, les mobilisations partisanes, les controverses, etc. se développant dans les espaces de commentaires des médias en ligne ou dans des arènes thématiques sur les médias sociaux.
La perspective « publication » traduit une problématisation relevant des sciences de l’information et de la communication. Elle met l’accent sur la dynamique de processus inhérente à l’acte de communication et complète l’approche ethnographique évoquée précédemment. Ainsi, les techniques d’analyse mobilisées intègrent différentes dimensions, que ce soit l’analyse de contenu, de réseaux ou de séries temporelles. Le recouvrement des enjeux disciplinaires et méthodologiques conduit à introduire les principes d’une analyse multi-dimensionnelle. Cela se traduit par la possibilité de produire simultanément des analyses de nature différente et de circuler (aisément) entre des vues uni-dimensionnelles simples ou croisées.
La part exploratoire dans la prise en main de corpus de données natives est importante. Elle l’est d’autant plus que la mise à disposition de collections documentées dans les entrepôts est encore faible. La réalisation de corpus associée à l’observation synchrone d’événements ou de phénomènes sociaux en ligne est souvent le point de départ de recherches dont les objectifs se préciseront au fur et à mesure. Dans tous les cas, il est souvent préférable, et plus simple, de ratisser large pour filtrer dans un second temps plutôt que d’imaginer une sélection au fil de l’eau dont le risque est d’affaiblir la qualité heuristique de la collection. La collecte rétrospective permet de corriger cet inconvénient mais elle n’est pas toujours possible, ou peut être appauvrie du fait de la gestion des historiques par les plateformes. Dans tous les cas, l’activité exploratoire fait partie de l’appropriation du corpus et d’une réflexion de consolidation stratégique quant à la suite de la démarche analytique.
Ainsi, la constitution d’un socle technique appuyé sur les méthodes de statistiques exploratoires permet d’envisager l’étape de découverte et de prise en main des collections. Comme le souligne le sociologue Michel Grossetti, directeur de recherche CNRS au Laboratoire interdisciplinaire solidarités, sociétés, territoires (LISST, UMR5193, CNRS / Université Toulouse - Jean Jaurès), cette étape ne doit pas enfermer l’analyse dans « des plans standardisés de traitements enchainant mécaniquement les techniques »2.
La mise en œuvre d’un design de plateforme web répond à plusieurs contraintes qui viennent d’être énoncées : facilité d’accès au travers d’un navigateur, principes de navigation et d’organisation graphique largement intégrés dans les habitudes de travail. Ce sont autant d’éléments favorables à l’adoption de cette technologie qui permet, en outre, de maquetter rapidement et de disposer quasiment en permanence d’un démonstrateur témoignant de l’avancée du projet et permettant d’en imaginer les prolongements.
Au travers de cette maquette évolutive, l’expérimentation instrumentale a été portée tout au long du développement par des études de cas construites à partir de collections de données issues principalement de collectes réalisées sur Twitter-X et YouTube dans le cadre de projets exploratoires conduits en interne. Les dimensions de ces collections ont été graduellement poussées de quelques dizaines de milliers jusqu’à plus d’un million d’enregistrements.
La première année du projet a ainsi été guidée par l’objectif de la réalisation d’une preuve de concept (POC) suffisamment aboutie pour valider le cinquième degré de l’échelle SRL (Societal Readiness Level). La principale difficulté a été d’organiser un développement collaboratif intégrant simultanément les contraintes de l’expérimentation et celle d’une programmation web mêlant design d’interface et développement fonctionnel. La solution consistant à implanter des éléments de méthode s’est avérée rapidement bloquante et, en définitive, prématurée. La plateforme telle qu’elle apparaissait progressivement se devait d’être, avant tout, un atelier modulable et recomposable. Un constat s’est imposé : le temps d’élaboration de la méthode n’est pas le temps du développement de la technique. Le premier est le résultat d’une maturation qui correspond à la maîtrise des objectifs de l’analyse et la validation empirique des résultats. Ce processus peut être lent alors que celui de la résolution technique reste relativement stable. À la suite, l’articulation entre les deux se joue dans le design d’interface qui devient le lieu de mise en cohérence de séquences d’actions.
Cette année d’apprentissage a permis d’ajuster le processus de développement et de trouver la granularité fonctionnelle adaptée. Suite à cela, l’équipe projet disposait d’un environnement dans lequel elle avait isolé et mis en place un cycle de prétraitements, identifiant ainsi une manière d’engager le processus d’analyse.
Le choix d’une approche centrée sur les données séparant, d’un côté, les représentations enregistrées dans une base de données et, de l’autre, les modules fonctionnels s’est imposé comme la meilleure manière de pouvoir tracer les étapes de traitements, et de supporter les différentes dimensions d’analyse. Des états de données peuvent ainsi être sauvegardés et donner lieu à différentes branches de traitements supportant une démarche exploratoire où les hypothèses foisonnent et où les nombreux retours en arrière nécessaires sont possibles.
L’exploration des cas d’études a souligné les limites interprétatives d’une implémentation privilégiant les outils statistiques. Il est apparu nécessaire de mixer les techniques quantitatives et qualitatives et d’introduire une dimension sémantique sur les données. La mise en cohérence de ces objectifs a rendu le projet perméable aux problématiques de la représentation des connaissances, y compris dans les aspects liés à la diffusion et aux cadrages contemporains de la science ouverte et participative.
Dans le cas présent, la sémantisation consiste à catégoriser des objets représentationnels et, au travers de ces catégories, d’établir des réseaux de relations signifiantes entre ces objets. Le recours au formalisme du web des données s’est avéré nécessaire dans une logique d’interopérabilité et d’ouverture des données.
Différents types de catégorisation sont distingués en fonction de la nature des traitements et de leur niveau d’abstraction. Tout d’abord, au plus proche des données, les traitements de statistiques exploratoires, d’analyse de graphe ou d’analyse linguistique automatique constituent différentes variantes de nature formelle et algorithmique. Les variables secondaires qu’ils produisent doivent pouvoir être nommées et catégorisées afin d’être manipulées plus facilement par l’analyste et entrer à leur tour dans des traitements plus abstraits. Les raisonnements catégoriels qui suivent alors s’appuient sur des connaissances partagées, associées aux contextes d’analyse et aux études de terrains préalables, ou sur des intuitions qui émergent des processus en cours. Soutenir ces modalités de production de connaissances rapproche le projet d’instrumentation des CAQDAS (Computer-Assisted Qualitative Data Analysis Software), une famille d’outils qui opèrent sur des données non structurées, dont Nvivo3 est un exemple parmi les plus répandus dans les SHS.
Le glissement opéré de traitements quantitatifs à des traitements qualitatifs est soutenu algorithmiquement grâce à un mécanisme de représentation formelle des connaissances et d’inférences logiques permettant d’importer et d’exploiter des ontologies décrites suivant le standard OWL du web sémantique. L’intérêt de ce mécanisme est de pouvoir organiser une exploration inférentielle et, simultanément, de garantir la cohérence de l’ensemble des connaissances produites tout au long des traitements.
L’exploitation d’un niveau sémantique ne se résume pas à l’implémentation d’un mécanisme représentationnel. La catégorisation de regroupements de comptes constitués en réseaux doit, par exemple, supporter une caractérisation et une mise en relation de groupes traduisant des jeux d’acteurs et des logiques d’actions au sein d’une arène. Les formalisations d’ontologies proposées dans des modèles courants (FOAF, SIOC, etc.) ne répondent que très grossièrement à ces besoins.
La formalisation nécessaire de connaissances fines associées aux catégories sociales n’existe pas. De ce fait, les études de cas abordées comme moyen de validation de l’environnement d’analyse ont comme rôle secondaire de soutenir la modélisation formelle du domaine étudié. Dans le cas présent, définir la classe « groupe » et la décliner en sous-classes selon la nature (formelle, institutionnelle, etc.) du regroupement constitue l’un des attendus clefs de ce travail.
Le mécanisme de catégorisation est présent dans différents traitements automatisés procédant à des regroupements de comptes (clustering, etc.). Il se décline également dans une variante manuelle et contrôlée d’indexation des objets représentationnels. Les ontologies en cours d’élaboration peuvent ainsi être évaluées rapidement à partir des études de cas et contribuer à la mise au point des méthodes.
Ce développement en cascade des différentes briques constitutives de la plateforme est significatif de la démarche expérimentale et empirique engagée dans le projet COPERNIC. L’intégration dans la plateforme assure l’articulation entre les logiques de formalisations spécifiques (propres aux cas) ou génériques. Elle garantit aussi la mise en cohérence des niveaux d’ingénierie des connaissances ou du logiciel. Maintenir au mieux l’indépendance de ces activités est une condition nécessaire pour ne pas conditionner l’avancée des développements. Cette séparation est assurée dans le principe de modularité des traitements et de paramétrage de la plateforme. Des mécanismes d’import et d’export, suivant des formats interopérables, assurent ici le découplage entre le développement d’ontologies et celui des mécanismes représentationnels.
Dans le cas présent, l’engagement dans un processus de prématuration a contribué au repositionnement de travaux de laboratoire éparses dans un projet de plateformisation et une dynamique de science ouverte. L’originalité du projet met en concurrence deux échelles de temps. Celle, d’une part, de pratiques scientifiques issues des sciences humaines et sociales qui interrogent des objets de recherche dont la nature et la dynamique questionnent en retour la méthodologie et les techniques d’analyses mobilisées. Celle, d’autre part, d’une ingénierie de projet dont l’objectif est la finalisation d’un produit. Dans le premier cas, les enjeux sont conceptuels et théoriques, alors que dans le second ils sont économiques et industriels. Cette différence se reporte sur deux échelons différents de l’échelle SRL, le 3e et le 8e à partir desquels se construit un double discours qui peut devenir inaudible voire disqualifiant selon les interlocuteurs.
Le positionnement médian adopté dans le projet COPERNIC cible le prototypage (SRL 5e) en tant qu’étape d’évaluation pouvant conduire à différentes formes d’itérations, y compris rétrogrades, afin de consolider les modèles ou leurs fondements. L’expression non linéaire de la démarche projet, rappelle la fragilité des connaissances disponibles et le caractère empirique de l’approche scientifique. Elle se confronte à une culture technologique de résultats. Considérer les spécificités de l’instrumentalisation dans les champs des sciences humaines et sociales, c’est accepter de s’écarter d’un idéal de réalisation et considérer, en outre, que ce processus est partie prenante de la construction disciplinaire.
Dans son évolution, la plateforme est désormais identifiée comme Digital Data Fabrik. La référence industrielle de ce démonstrateur insiste sur la finalité productive et structurée des traitements. Elle met en avant la dimension d’atelier, c’est-à-dire un espace de travail organisé qui concentre en un même lieu l’ensemble des outils nécessaires à la finalisation d’un projet d’étude. La facilitation qui en découle a été notre premier objectif. Elle est aussi une manière d’exprimer la centralité de l’activité sur les données ainsi que la création de valeur qu’elle produit. Ce recentrage a permis d’identifier plus clairement les enjeux méthodologiques liés à l’exploration de données qui ont alors orienté la réponse apportée amenant à définir l’efficience comme nouvel objectif.
L’ouverture de cette plateforme web à des utilisateurs est l’étape suivante. Cela suppose la mise en place d’une maintenance corrective et d’une dynamique collaborative autour de cas d’usages avec comme objectif la difficile étape du déploiement à plus large échelle. C’est une nouvelle dynamique de projet qui doit s’engager.
Aller plus loin
Contact
Notes
- Voir l’article 40 du Digital Service Act (DSA) qui permet aux chercheurs et chercheuses agréés via l’Arcom d’obtenir des données auprès des plateformes du web.
- Grossetti M. 2023, Petit guide des statistiques exploratoires en sciences sociales. https://shs.hal.science/halshs-03947774/
- Développé par la société RITME.