Vers une représentation perceptive du son

15 avril 2026

La Lettre Autres Sciences du langage

#INTERDISCIPLINARITÉS

Comment représenter ce que nous entendons réellement ? La question paraît simple. Elle engage pourtant l’un des problèmes les plus profonds des sciences de la perception. Deux personnes voient-elles exactement la même couleur ? Entendent-elles un même son de la même manière ? Ces interrogations ne relèvent pas seulement de la physique, de la biologie ou des sciences cognitives : elles intéressent également les sciences humaines et sociales, dès lors qu’elles touchent à notre manière de percevoir, de catégoriser et d’interpréter les sons.

C’est à la frontière entre sciences du vivant, physique, mathématiques, phonologie, psycholinguistique et psychoacoustique que se situe BioSpeech, un projet soutenu par la Mission pour les initiatives transverses et interdisciplinaires (MITI) du CNRS. Il s’appuie notamment sur des travaux récents coordonnés par Giuseppina Turco¹, consacrés à l’émergence des sous-harmoniques dans un modèle mathématique de la cochlée (partie de l’oreille interne traduisant les informations acoustiques en impulsions nerveuses).

Au point de départ de BioSpeech réside une question ambitieuse : peut-on construire une représentation du son plus proche de la perception que les outils acoustiques classiques ?

Aujourd’hui, pour étudier la parole, la musique ou la perception auditive, on utilise presque systématiquement le spectrogramme (figure 1). Cet outil visualise la répartition des fréquences au cours du temps. Il est extrêmement utile, notamment en phonétique et en traitement du signal. Mais il repose sur une décomposition de type Fourier : il décrit avec précision les composantes fréquentielles d’un signal, sans pour autant garantir qu’il corresponde à ce qui est effectivement perçu par le cerveau à travers l’oreille. Autrement dit, un spectrogramme montre-t-il le son tel qu’il est entendu ?

Une vieille énigme : pourquoi certains sons « vont bien ensemble » ?

Pour aborder cette question, Giuseppina Turco et son équipe sont reparties d’un problème très ancien : pourquoi certaines combinaisons de sons sont-elles perçues comme consonantes, et d’autres comme dissonantes ?

Depuis Pythagore (vers 570 av. J.-C.), on sait que certains intervalles musicaux, comme l’octave, la quinte ou la quarte, correspondent à des rapports numériques simples. Cette découverte a nourri une idée durable : l’harmonie ne relèverait pas seulement de la culture ou de l’esthétique, mais reposerait aussi sur certaines propriétés physiques du son.

Figure 1. Un son et sa représentation spectrographique. Le spectrogramme visualise la répartition des fréquences au cours du temps

Après près de deux millénaires de silence sur cette question, Gioseffo Zarlino propose au xvi^e siècle une explication célèbre : la triade majeure serait consonante parce qu’elle est, en un sens, déjà contenue dans les harmoniques d’un son périodique². On savait en effet déjà à l’époque, bien avant la formalisation de l’analyse de Fourier, qu’un son périodique de fréquence F s’accompagne de composantes de fréquences 2F , 3F , 4F, 5F, etc. Or, les fréquences 3F et 5F correspondent à la quinte juste et à la tierce majeure de la fondamentale, transposées dans les octaves supérieures.

Mais cette intuition soulève immédiatement une difficulté : qu’en est-il de la triade mineure ? Pour l’expliquer, plusieurs théoriciens, à partir de Zarlino, ont invoqué au fil des siècles l’existence de sous-harmoniques, c’est-à-dire de fréquences du type F/2, F/3, F/4, F/5… L’idée est que les fréquences F, F/3 et F/5 dessinent, une fois ramenées dans une même octave, les notes d’un accord mineur sous forme renversée. Or, dans la décomposition de Fourier d’un son périodique de fréquence F, ces sous-harmoniques n’apparaissent pas.

Pendant longtemps, ces sous-harmoniques sont restées une sorte de présence fantomatique dans l’histoire de la théorie musicale : intuitivement plausibles pour certains, physiquement douteux pour d’autres. Cette fascination se retrouve encore au xx^e siècle chez des auteurs comme Michelangelo Abbado (violoniste renommé et père du célèbre chef d’orchestre Claudio Abbado), qui s’interroge explicitement sur l’existence des « harmoniques inférieurs »³.

Mais les sous-harmoniques n’ont pas hanté seulement les théories : elles ont aussi nourri l’imaginaire des compositeurs. Dès que l’électronique l’a permis, des instruments capables de les produire ont été conçus, comme le Mixturtrautonium développé par Oskar Sala à partir du Trautonium de Friedrich Trautwein — une sorte d’équivalent allemand des Ondes Martenot, associé notamment à l’univers de Paul Hindemith. Cette fascination se prolonge aujourd’hui encore dans des instruments comme le Subharmonicon de Moog ou le module A-113 de Doepfer.

Figure 2. La cochlée, organe central de l’audition. Les différentes régions de la membrane basilaire répondent préférentiellement à différentes fréquences et transmettent cette organisation au système auditif central

Et si les sous-harmoniques n’étaient pas dans le son, mais dans l’écoute ?

Le projet BioSpeech reprend cette vieille controverse sous un angle nouveau. L’idée n’est pas de chercher les sous-harmoniques dans le signal acoustique lui-même, mais dans la manière dont le système auditif le traite.

L’organe central est ici la cochlée, dans l’oreille interne (figure 2). Elle joue un rôle décisif dans l’analyse du son : différentes régions de la membrane basilaire répondent préférentiellement à différentes fréquences, et cette organisation fréquentielle est ensuite transmise au cortex auditif. C’est en grande partie sur ce fonctionnement que repose notre représentation moderne du son comme « image acoustique ».

Dans ses travaux, Giuseppina Turco part d’un modèle volontairement simple, inspiré de Helmholtz⁴ : la membrane basilaire y est décrite comme un ensemble de cordes vibrantes aux propriétés différentes. Chaque « corde » possède sa fréquence de résonance et répond plus fortement lorsque le son entrant s’en approche.

Jusqu’ici, rien de surprenant : ce modèle rend bien compte de l’apparition de pics correspondant à la fréquence fondamentale et à ses harmoniques. Mais une analyse plus approfondie révèle autre chose. Une corde ne possède pas un seul mode d’oscillation : elle peut aussi vibrer selon plusieurs modes propres. Dès lors, un son de fréquence F peut exciter non seulement la région accordée sur F, mais aussi des régions dont les fréquences de résonance sont proches de F/2, F/3, F/5, etc., via leurs modes supérieurs (figure 3).

Figure 3. Réponse de la membrane basilaire à un signal périodique. Outre la fréquence fondamentale et ses harmoniques, l’activation de modes supérieurs fait émerger des sous-harmoniques dans la représentation cochléaire

Le résultat est décisif : des sous-harmoniques émergent dans la représentation cochléaire du son, alors même qu’ils ne figurent pas parmi les composantes de Fourier du signal d’entrée.

Cette hypothèse donne un cadre nouveau à une intuition ancienne : ce que nous percevons n’est pas forcément réductible à la simple liste des fréquences contenues dans le son physique. Une partie de la structure perceptive est produite par l’appareil auditif lui-même. Dans cette perspective, l’accord majeur apparaît comme déjà présent dans le monde physique, tandis que l’accord mineur se construit plus intimement dans l’écoute.

Du spectrogramme calculé au spectrogramme perçu

C’est ici que BioSpeech ouvre une perspective plus large. Si la cochlée ne se contente pas de capter passivement les fréquences présentes, mais contribue à organiser activement le signal entendu, alors il devient possible d’imaginer une représentation alternative du son : non plus seulement un spectrogramme « physique », mais un spectrogramme orienté vers la perception, un spectrogramme perçu.

Un tel outil serait particulièrement intéressant pour les sciences du langage. En phonologie, il pourrait aider à mieux comprendre comment certains contrastes phonémiques — par exemple entre /p/ et /b/ — sont réellement perçus par les locuteurs. En psycholinguistique, il offrirait un cadre pour mieux relier le signal acoustique à la perception effective de la parole. En psychoacoustique, il pourrait contribuer à mieux comprendre pourquoi certains timbres paraissent « sombres » ou « clairs », y compris lorsque ces impressions ne se lisent pas immédiatement dans les représentations standards.

L’enjeu dépasse donc la seule musique ou encore la physique. Comprendre comment le système auditif transforme un signal en objet perceptif, c’est aussi mieux comprendre comment les humains accèdent à la parole, catégorisent les sons et construisent du sens à partir d’un flux acoustique continu.

Une question profondément ancrée dans les sciences humaines et sociales

À première vue, parler de cochlée, de résonance ou d’équations semble relever uniquement des sciences physiques ou biologiques. Pourtant, la question posée par BioSpeech est ainsi pleinement une question de sciences humaines et sociales : comment passe-t-on d’un phénomène matériel à une expérience perceptive partagée ? Quels sont les rapports entre contraintes biologiques, formes culturelles et usages linguistiques ?

Les facteurs culturels restent évidemment essentiels. La manière d’écouter, de classer les sons, de les valoriser ou de les nommer varie selon les langues, les traditions musicales et les contextes sociaux. Mais cette diversité n’empêche pas de rechercher aussi les bases communes de la perception. C’est précisément dans cette articulation entre universalité biologique et variation culturelle que se situe la dimension SHS du projet.

L’interdisciplinarité n’est donc pas ici un simple assemblage de compétences. Elle constitue la condition même du problème. Pour comprendre ce qu’est un son perçu, il faut faire dialoguer modélisation mathématique, acoustique, physiologie de l’audition, théorie de la musique, sciences du langage et psychologie de la perception.

Perspectives

Le travail sur les sous-harmoniques constitue ainsi moins un aboutissement qu’un point de départ. Il suggère que les représentations classiques du son, aussi puissantes soient-elles, ne suffisent peut-être pas à décrire la réalité perceptive.

La perspective de BioSpeech est d’explorer cette piste jusqu’au bout : construire des outils capables de mieux représenter ce que l’oreille extrait effectivement du signal, et non pas seulement ce que le signal contient au sens strict. À terme, cela pourrait renouveler notre manière d’étudier la parole, la musicalité du langage, le timbre, la consonance, et plus généralement la relation entre matière sonore et expérience auditive. Autrement dit, il ne s’agit pas seulement de mieux décrire les sons, mais de mieux comprendre comment ils deviennent, pour nous, des objets de perception.

Giuseppina Turco, chargée de recherche CNRS, Laboratoire de linguistique formelle

Contact

Giuseppina Turco

Chargée de recherche CNRS, Laboratoire de linguistique formelle (LLF)

pr~|nyyrwj7}~{lxIlw{|7o{

Aller plus loin

Boscain U., Ma X., Prandi D., Turco G. 2026, A solution to the mystery of the sub-harmonic series via a linear model of the cochlea. HAL, hal-05287347v2. https://hal.science/hal-05287347v2/file/linear-model-cochlea.pdf
Retrouver cet article dans la Lettre de l'institut n° 96

Notes

Chargée de recherche CNRS au Laboratoire de linguistique formelle (LLF, UMR7110, CNRS / Université Paris Cité).
Zarlino G. 1558, Le istitutioni harmoniche, Venezia.
Abbado M. 1964, Sull’esistenza dei suoni armonici inferiori, Acta Musicologica, 36(4) : 234-237.
Helmholtz H. v. 1863, Die Lehre von den Tonempfindungen als physiologische Grundlage für die Theorie der Musik, Braunschweig.