ATILF. Des mots pour le dire, le dire par des mots

La Lettre Sciences du langage

L'ATILF fête ses 20 ans en 2021 ! L'occasion de faire un point sur les activités florissantes de ce laboratoire en  sciences du langage.

Historique

Malgré la pandémie de Covid-19, cette année anniversaire des vingt ans du laboratoire Analyse et Traitement Informatique de la Langue Française (ATILF, UMR7118, CNRS / Université de Lorraine) a permis une réflexion sur le passé du laboratoire, partagé et individuel, et de se replonger aux origines. Ce regard historique nous aide à mieux nous connaître aujourd’hui les uns les autres et, surtout, à pouvoir mieux imaginer l’avenir que nous voulons construire.

Les recherches fondamentales en sciences du langage nous informent sur notre identité humaine collective et individuelle, passée et présente, tandis que les recherches appliquées ont un impact sociétal réel. À l’ATILF, l’étude du langage et de la langue française en particulier prend de nombreuses directions, en partie visibles à travers notre histoire depuis la création du laboratoire le 1er janvier 2001. Cette date « 01.01.01 » reflète des éléments binaires : une double compétence en sciences du langage et en informatique rendue possible par la fusion entre l’Institut national de la langue française (INaLF – CNRS) et le laboratoire Langues, Discours, Cognition (LANDISCO – Université Nancy 2). Mais cette binarité n’est pas exclusive, notamment avec l’intégration en 2006 du Centre de Recherches et d’Applications Pédagogiques en Langues (CRAPEL – Université Nancy 2). Notre périmètre évolue toujours, sans toutefois abandonner les thématiques qui sont l'héritage du laboratoire et ont fait la notoriété des anciennes composantes dont les origines remontent aux années 1950.

En lexicologie, l’INALF avait été créé pour produire le Trésor de la Langue Française (TLF) dont le premier tome a été publié en 1971, le seizième et dernier en 1994. À la différence des autres ressources de l’époque, ce grand dictionnaire du français des xixe et xxe siècles se voulait descriptif de l’usage réel, en s’inspirant d’un corpus conçu spécialement à cette fin, Frantext.

Le TLFi est disponible gratuitement et continue à faire référence : en juillet 2021, le Journal Officiel annonce que « les mots, termes, expressions et tournures de la langue française attestés… dans le Trésor de la langue française sont approuvés », à côté de ceux des 8e et 9e éditions du Dictionnaire de l’Académie Française. Si ce dernier a une toute autre approche, prescriptive afin de normaliser la langue, l’ATILF collabore avec ce partenaire académique pour le traitement de ses fascicules et l’accès en ligne aux dernières éditions. Le TLF n’a pas vocation à être mis à jour. Mais le TLF-Étym apporte un travail sur l’étymologie, l’origine et l’évolution des mots et leurs usages.

Cette orientation lexicale et étymologique s'est poursuivie avec de nombreuses autres ressources de renommée mondiale : le Französisches Etymologisches Wörterbuch (FEW) — initié par Walther von Wartburg en 1922 en Suisse et désormais géré par l’ATILF — a fixé le standard pour l’étymologie du français et d’autres langues ; le Dictionnaire Étymologique Roman (DÉRom) amorcé à l’ATILF en 2008, et le Dictionnaire du Moyen Français (DMF) 1330-1500 dont la dernière version voit le jour en 2015, sont également des ressources incontournables pour les chercheurs et chercheuses dans leurs domaines respectifs. Ce travail est rendu possible grâce à une collection importante d’archives historiques aujourd’hui accessibles au public, au centre de documentation Michel Dinet sur deux sites (Linguistique et Didactique). Ce dernier compte en tout 46 000 ouvrages et 71 abonnements en cours ainsi que de nombreux fonds comme celui de Claire Blanche Benveniste inauguré en 2011.

L’histoire de la langue française inspire un autre projet actuellement en cours : la création du Dictionnaire des Constructions du Verbe au xvie siècle (DCV16), qui met l’accent sur un pan de recherches en syntaxe. Entre lexique et syntaxe, on retrouve aussi un fort intérêt pour les unités polylexicales, avec un projet ANR autour de leur extraction automatique. Enfin, dans ce contexte, nous devons citer une approche hautement novatrice pour la visualisation des systèmes lexicaux depuis 2011, où chaque unité est principalement caractérisée par un ensemble de liens paradigmatiques et syntagmatiques qui la connectent aux autres unités lexicales de la langue.

Pour accomplir toutes ces tâches, le laboratoire s’est toujours investi fortement dans l’informatique pour la création de corpus, leur analyse et leur mise à disposition. La base de données Frantext citée ci-dessus a vu le jour dans les années 1970, continue à évoluer, et compte aujourd’hui 5 503 références, soit 260 millions de mots, disponibles à travers une interface entièrement mise à jour en 2018 et dotée d’un moteur de recherche conçu par nos soins. Pour les recherches de pointe spécialisées, il est souvent nécessaire de créer des outils en interne, comme Lemmes Graphies et Règles Morphologiques (LGERM) pour l’analyse des textes, ou ItsyBitsy pour des graphes lexicaux en 3D.

Humanités numériques

L'ATILF a été précurseur dans les humanités numériques. Mais qu'entendons-nous par humanités numériques ? La notion d'humanités numériques caractérise une communauté et un ensemble de pratiques relatives aux usages numériques en SHS. Ce mouvement traduit une volonté de considérer les nouveaux contenus numériques et milite en faveur de la diffusion, du partage et de la valorisation des savoirs. L’ATILF collabore très activement avec la Très grande infrastructure de recherche (TGIR) Huma-Num, créée en 2013, à travers différents projets. Au sein du projet HaS-DARIAH, la participation du laboratoire consiste à décrire l’équipement d’excellence (Equipex) Ortolang (Outils et Ressources pour un Traitement Optimisé de la LANGue / Open Resources and TOols for LANGuage), en montrant comment il s’intègre à la panoplie d’outils mis à disposition des chercheurs et chercheuses européens en linguistique. C’est aussi le cas à travers le consortium CORpus, Langues et Interactions (CORLI) qui réunit des chercheurs et enseignants-chercheurs en linguistique et se donne pour objectif de fédérer différents acteurs engagés dans la production et le traitement de corpus numériques écrits et oraux, quels que soient la langue et/ou le système d’écriture considérés. Il s’agit également de permettre la représentation la plus large possible de cette communauté, afin d’accompagner le développement des corpus écrits, oraux et multimodaux, d’en faire converger les pratiques et de financer des actions répondant à ses missions.

Corpus et ressources

L’une des missions principales que s'était donné l’ATILF était et est toujours de partager des ressources linguistiques sur des plateformes ouvertes à la communauté de la recherche et au grand public.

C’est ainsi le cas d’Ortolang, déjà cité, qui intègre, depuis 2013, de nombreuses ressources hébergées par le Centre National de Ressources Textuelles et Lexicales (CNRTL), centre créé en 2005 grâce au CNRS avec pour objectif de regrouper sur un seul portail un ensemble de ressources linguistiques informatisées et d’outils de traitement de la langue. Fort du succès d’Ortolang et de sa visibilité nationale et internationale, l’ATILF continue à œuvrer pour le maintien et la pérennisation de la plateforme qui héberge plus de 500 ressources pour plus de 11 To de données, recevant plus de 700 000 requêtes quotidiennes. Dans ce même esprit de partage et d’interopérabilité, le laboratoire a accueilli la première réunion du consortium TEI (Text Encoding Initiative) organisée hors des États-Unis en 2003.

Ces intérêts pour le lexique, les corpus et l’informatique sont transversaux, impulsant des recherches au sein des cinq équipes scientifiques. En discours, par exemple, ils permettent un travail poussé sur le français parlé et la variation à travers les 1,5 millions de mots du corpus Traitement de Corpus Oraux en Français (TCOF), entre autres. Ce corpus contient aussi des interactions enfant-adulte, ouvrant la voie vers l’étude de l’acquisition du français langue maternelle et, plus largement, la cognition. En psycholinguistique, d’autres corpus de données collectées sur le terrain visent le diagnostic et la modélisation de troubles pathologiques en langues ; on a recours à l’intelligence artificielle (IA) pour la fouille de publications scientifiques en médecine ; d’autres corpus en orthophonie visent une harmonisation de la terminologie dans cette discipline. Un corpus de 60 millions de mots de bi-textes littéraires français et allemands avec leurs traductions est en cours de construction en lien avec des recherches en phraséologie franco-allemande. Issu de travaux terminologiques, TermiTH (corpus de 295 millions de mots) comprend l’enrichissement terminologique à partir d’un corpus d’articles scientifiques en chimie et en SHS.

Partenariats

Si certains de ces projets reçoivent des financements conséquents (2,6 millions d’euros pour Ortolang en 2012-2019), ce fonctionnement ne favorise pas toujours la pérennisation. Ainsi, d’autres projets préfèrent des financements successifs plus modestes, souvent en partenariat avec des organismes locaux, nationaux ou internationaux —écoles, hôpitaux, collectivités territoriales… —, publics (par exemple, EDF en 2011) et privés (par exemple, le journal L’Est Républicain depuis 2008) qui représentent souvent des terrains de recherche précieux.

D’autres liens importants se sont tissés avec des organismes de recherche en France, comme l’Institut de l'information scientifique et technique (Inist, UAR76, CNRS) et l’Institut national des langues et civilisations orientales (Inalco). Notons aussi des collaborations régulières avec d’autres laboratoires, comme le Laboratoire Lorrain de Recherche en Informatique et ses Applications (Loria, UMR7503, CNRS / Université de Lorraine / Inria) à Nancy ou le laboratoire Interactions, Corpus, Apprentissages, Représentations (ICAR, UMR5191, CNRS / ENS Lyon / Université Lumière Lyon 2) à Lyon. Le laboratoire noue également des liens à l’étranger, notamment avec la Chine, par l’accueil de la délégation chinoise de l'Université de Wuhan en 2015, et la première visite de l'Université d’Éducation de Hong Kong en 2017.

Nous pouvons constater un véritable maillage académique qui a évolué et s'est renforcé au fil des années et qui évoluera encore dans cet écosystème. La visée sociétale de ces projets a été évidente lorsqu’il s’agit de la santé mentale ou de la coopération transfrontalière : citons par exemple le premier atelier du Groupe de Lexicographie Franco-Allemande (GLFA) de l'équipe de recherche Lexique en 2013 et le lancement du dictionnaire Actes de Langage Stéréotypés (ALS) en 2020.

À ce propos, l’ATILF s’intéresse à d’autres langues que le français, notamment aux langues romanes comme en témoigne l’organisation du 27e Congrès International de Linguistique et Philologie Romanes (CILPR) en 2013. D’autres actions à impact réel ont porté sur le lexique de domaines spécialisés, à travers, par exemple, l’exposition « Des mots de l’environnement et du développement durable » organisée en 2014, ou avec le développement d’un projet sur la chimie verte dont l’objectif est de faciliter l’accès aux textes scientifiques en français (et d’autres langues). C’est également l’objet du Contrat de plan État / Région Lorraine Langues, Connaissances et Humanités Numériques (CPER LCHN) porté conjointement avec le Loria en 2014 et, plus récemment, du projet Open Language and Knowledge for Citizens (OLKi, IMPACT LUE – Lorraine Université d’Excellence), porté depuis 2019 avec le Loria, les Archives Henri Poincaré - Philosophie et Recherches sur les Sciences et les Technologies (AHP-PReST, UMR7117, CNRS / Université de Lorraine / Université de Strasbourg), la Maison des Sciences de l'Homme Lorraine (MSH Lorraine, USR3261, CNRS / Université de Lorraine) et d’autres laboratoires lorrains. Plus largement, la communication scientifique et technique (CST) auprès du grand public représente une mission importante, à commencer par les rencontres nationales CNRS jeunes « Sciences et citoyens » à partir de 2003.

Pour les plus petits, le plurilinguisme a fait l’objet de recherches dès la maternelle, comme le montre le projet Kidilang initié en 2011. Nous participons également, en collaboration avec l’Académie Française, à la Nouvelle de la Classe, concours annuel organisé, depuis 2009, auprès des primaires par la Ville de Nancy qui encourage l’expression littéraire et fait connaître nos recherches. Nos travaux textuels servent également au sein des lycées et collèges grâce à LyText (depuis 2010) et CoText (depuis 2019, FEDER Planète) pour l’interprétation de textes littéraires menant au baccalauréat. Parmi nos actions de formation à l’université, on note en particulier l’accès aux textes de l’Agrégation dans Frantext depuis 2001, le lancement en 2010 du Master Européen de Lexicographie, Erasmus Mundus (EMLex), avec neuf autres universités étrangères.

Un autre volet concerne l’apprentissage des langues, surtout depuis l’intégration du CRAPEL en 2006 ; en effet, l’ATILF est l’une des premières unités avec un fort volet de recherches en didactique des langues. Reconnue internationalement pour son travail sur l’autonomisation depuis plusieurs décennies, l’équipe poursuit cette orientation avec une journée d’études organisée pendant la pandémie en 2021, notamment autour du projet EDOlang, plateforme destinée aux apprenants de l’université de Lorraine qui intègre un corpus d’entretiens de conseil pour la formation des formateurs, domaine riche en recherches. Fleuron, l’un des rares corpus multimodaux en didactique, a été conçu pour accompagner l’autoformation linguistique et interculturelle des étudiants et étudiantes de l’étranger qui se préparent à venir étudier en France. Ce corpus est également utilisé par les migrants et migrantes, les francophones peu scolarisés et d’autres personnes en situation d’insécurité langagière, appuyé par le Portail Français Langue d’Intégration et d’Insertion (FL2I) lancé en 2015. Ces projets mettent en vitrine l’apport de l’informatique qui permet d’autres projets didactiques : l’apprentissage sur corpus ou encore par réalité virtuelle où des apprenants — même de pays différents — peuvent collaborer pour explorer des espaces en 3D dans une langue étrangère.

L’ensemble de ces évolutions porte l’empreinte des directions successives de l’ATILF : Jean-Marie Pierrel (2001-2012) pour la linguistique informatique ; Eva Buchi (2013-2017) pour la linguistique historique ; moi-même (2018-2022) pour la didactique. Une fois initiée, ces domaines perdurent et se font compléter par d’autres ; de nouvelles orientations scientifiques sont à attendre dès 2023 sous la direction de Mathieu Constant et son travail en intelligence artificielle. Mais le plus important : l’ensemble des membres du laboratoire représentent une richesse et mixité extraordinaire pour la recherche en sciences du langage, le fil rouge de l'appel à projet 2020 CNRS QVT (Qualité de vie).

Alex Boulton, directeur de l'ATILF

Contact

Alex Boulton
Directeur du laboratoire Analyse et Traitement Informatique de la Langue Française