Le logiciel SPPAS récompensé lors de la remise des Prix science ouverte du logiciel libre de la recherche

Distinctions

Pour la toute première année, le Ministère de l’Enseignement Supérieur, de la Recherche et de l’Innovation (MESRI) a lancé un appel à candidatures pour le Prix science ouverte du logiciel libre de la recherche. La remise des prix, organisée lors des Journées européennes de la science ouverte les 4 et 5 février dernier, a permis de récompenser des logiciels mis au point par des équipes françaises. Le logiciel d’annotation automatique SPPAS, développé par Brigitte Bigi, chargée de recherche CNRS au Laboratoire Parole et Langage (LPL, UMR7309, CNRS / AMU), figure parmi les dix logiciels récompensés. Il est le seul à relever des sciences humaines et sociales.

Les travaux de Brigitte Bigi, interdisciplinaires par nature, s'inscrivent majoritairement dans le domaine de la linguistique computationnelle appliquée (sous-domaine de l'Intelligence Artificielle), et s'appliquent au domaine de la linguistique de corpus. L'enjeu de ses travaux est de proposer des méthodes pour annoter, combiner puis exploiter les différentes modalités de la parole. Attachée au principe « open source1 » et soutenue par une politique en faveur de la science ouverte au sein du LPL, Brigitte Bigi a envisagé d’entrée la conception d’un logiciel libre afin de le partager le plus largement possible avec la communauté scientifique.

Ainsi est né, en 2011, l’outil SPPAS, logiciel de linguistique computationnelle appliquée et de linguistique de corpus capable de produire automatiquement des annotations à partir de la parole enregistrée, de vidéos et de leur transcription orthographique.

En linguistique de corpus, en particulier lorsqu'il s'agit de traiter des données orales, la démarche des chercheurs et chercheuses consiste à collecter des données (dans le cas présent, des enregistrements audio et vidéo), à les annoter, c'est-à-dire à apporter des enrichissements tels que la transcription orthographique ou phonétique, puis à analyser ces annotations.

SPPAS facilite cette démarche en proposant trois fonctionnalités majeures :

  • l'enrichissement du corpus avec des annotations qui sont générées automatiquement ;
  • l'analyse assistée des annotations ;
  • la conversion de fichiers d'annotations depuis et vers différents formats pour assurer l'interopérabilité avec les logiciels d'annotation manuelle.

Ce logiciel est le fruit d’une collaboration intense depuis plusieurs années, entre les différents chercheurs et chercheuses impliqués dans ces problématiques. Son originalité tient à sa flexibilité au regard des exigences particulières liées aux différents objectifs de recherche de ses utilisateurs.

La réponse scientifique privilégiée lors de la conception d'une nouvelle annotation place les compétences et les connaissances des experts linguistes au cœur du système, en minimisant la quantité de données à observer pour apprendre un modèle/une représentation et concevoir une approche méthodologique, a contrario des approches « deep learning » qui s'appuient uniquement sur de très grandes quantités de données.

L'autre aspect majeur des annotations automatiques de SPPAS réside dans leur approche multilingue. Effectivement, les algorithmes/méthodes ne dépendent pas de la langue traitée : les connaissances linguistiques sont externalisées dans des bases de connaissances que l'on appelle « ressources linguistiques ». Ces deux aspects conceptuels permettent, d'une part, de pouvoir traiter rapidement des langues peu dotées informatiquement, d’autre part d'ajouter de nouvelles langues ou variantes dans le système sans le modifier. Actuellement, les ressources linguistiques de deux à seize langues sont fournies, selon l’annotation.

À sa création, SPPAS se destinait essentiellement aux phonéticiens du laboratoire car il permettait d'automatiser l'alignement texte-son dont ils ont besoin. Effectuée manuellement, c'est une tâche qui requiert plus d'une heure de travail pour une minute d'enregistrement, ce qui explique le besoin d'automatisation. Aujourd'hui, ce sont vingt-trois annotations automatiques qui sont proposées dans le logiciel.

Ainsi, grâce à son adaptabilité technique et son ouverture à l’interdisciplinarité, SPPAS peut désormais s'intégrer dans le processus d'annotation de corpus des linguistes de différentes spécialités (phonéticiens, prosodistes, psycho-linguistes, neuro-linguistes, etc.).

Depuis sa création, le logiciel, ou l'une de ses parties, a fait l'objet de vingt-neuf publications : quatre relatives au logiciel lui-même, dix-huit sur les annotations, trois sur les ressources linguistiques, deux sur les analyses et deux sur la représentation des données.

En 2021, le package de SPPAS a été téléchargé près de 1 800 fois par des utilisateurs provenant majoritairement de Chine (23,9 %), de France (10,7 %) et des États-Unis (9,3 %).

SPPAS est devenu le logiciel de référence en terme d'annotation automatique de l'oral.

image
Page d'édition des annotations automatiques, avec un visuel du fichier audio, de la transcription orthographique, d'annotations automatiques - phonèmes, syllabes et mots alignés, ainsi que la vidéo annotées avec un maillage 2D (68 points)
© Brigitte Bigi / LPL

Inscrit dans le deuxième Plan national pour la science ouverte, le prix science ouverte du logiciel libre de la recherche veut mettre en valeur les projets et les équipes qui œuvrent au développement et à la diffusion des logiciels libres, et qui contribuent à la construction d’un bien commun de première importance. Son objectif est de reconnaître la contribution importante que constitue la production de logiciels libres et d’attirer l’attention de la communauté scientifique sur des réalisations d’exception ou très prometteuses, permettant de donner de la visibilité à des productions qui peuvent servir de modèle pour les prochaines générations de chercheurs et ingénieurs.

Découvrir SPPAS

  • 1« Open source » tel que défini par Richard Stallman, qui a notamment popularisé le terme anglais « copyleft » et a publié la première version de la licence publique générale GNU. Richard Stallman décrit en ces termes sa philosophie : « Je puis expliquer la base philosophique du logiciel libre en trois mots : liberté, égalité, fraternité. Liberté, parce que les utilisateurs sont libres. Égalité, parce qu’ils disposent tous des mêmes libertés. Fraternité, parce que nous encourageons chacun à coopérer dans la communauté. » (https://fr.wikipedia.org/wiki/Richard_Stallman).

Contact

Brigitte Bigi
Chargée de recherche CNRS, Laboratoire Parole et Langage