M4) Grammaires génératives et musique
De Chomsky à GTTM
Et si la musique, comme le langage, obéissait à des règles cachées que notre cerveau applique inconsciemment ? Cette idée a révolutionné la linguistique en 1957, puis la musicologie en 1983.
Où se situe cet article ?
C’est ici que les deux grandes séries se rencontrent : la théorie des langages formels (L1, série L) et la représentation musicale (M3, série M). Cet article montre comment les grammaires de Chomsky ont été adaptées à la musique, ouvrant la voie au I2 (Bol Processor) et à GTTM (A Generative Theory of Tonal Music, la théorie générative de la musique tonale de Lerdahl et Jackendoff, 1983).
Pourquoi c’est important ?
Quand vous écoutez une mélodie, votre cerveau fait un travail remarquable : il regroupe les notes en phrases, identifie les tensions et les résolutions, anticipe la suite. Vous faites tout cela sans y penser, même sans formation musicale. Comment est-ce possible ?
L’hypothèse des grammaires génératives apporte une réponse fascinante : notre cerveau possèderait des « règles » innées pour structurer les sons, qu’il s’agisse de parole ou de musique. Cette idée, née en linguistique avec Noam Chomsky (linguiste américain, né en 1928), a profondément influencé la façon dont nous comprenons, analysons et même générons la musique.
Pour quiconque s’intéresse à la notation musicale formelle (comme BP3, le Bol Processor — voir I2) ou à l’analyse automatique, comprendre cette filiation intellectuelle est essentiel. Elle explique pourquoi certains formalismes fonctionnent et d’autres échouent.
Chronologie rapide
- 1957 : Chomsky publie Syntactic Structures, naissance des grammaires génératives
- 1983 : Lerdahl et Jackendoff publient GTTM (A Generative Theory of Tonal Music)
- Années 1990 : Bernard Bel développe BP3, appliquant ces idées à la génération musicale
L’idée en une phrase
Une grammaire générative est un ensemble fini de règles capables de produire un ensemble infini de structures valides, qu’il s’agisse de phrases ou de séquences musicales.
Expliquons pas à pas
Exemple 1 : Les phrases françaises
Commençons par le langage. En français, vous pouvez créer une infinité de phrases correctes que vous n’avez jamais entendues :
« Le chat violet de ma voisine mange des spaghettis sur le toit. »
Cette phrase est probablement nouvelle pour vous, mais vous savez immédiatement qu’elle est grammaticalement correcte. Comment ? Parce que votre cerveau applique des règles implicites :
Phrase → Sujet + Verbe + Complément
Sujet → Article + Nom + (Complément du nom)
Complément du nom → "de" + Sujet
Avec ces quelques règles, on peut générer une infinité de phrases. C’est l’intuition fondamentale de Chomsky : un nombre fini de règles peut engendrer une créativité infinie.
Exemple 2 : Une mélodie qui « marche »
Maintenant, écoutez mentalement ces deux séquences :
Séquence A : Do – Ré – Mi – Fa – Sol – Do (ascendante, résolue)
Séquence B : Do – Fa# – Sib – Mi – Réb – La (intervalles aléatoires)
Même sans formation musicale, la séquence A vous semble « logique », tandis que B semble chaotique. Pourquoi ? Parce que A respecte des règles implicites de la tonalité occidentale :
- Mouvement par degrés conjoints (notes voisines)
- Début et fin sur la tonique (Do)
- Direction cohérente (montée puis résolution)
Ces règles sont exactement ce qu’une grammaire musicale tente de formaliser.
La révolution Chomsky (1957)
Le contexte
Avant Chomsky, la linguistique était dominée par le behaviorisme : on pensait que le langage s’apprenait uniquement par imitation et renforcement. Un enfant entend des phrases, les répète, et ses erreurs sont corrigées.
Le problème de la pauvreté du stimulus
Chomsky a démontré que cette explication était insuffisante. Considérez :
- Les enfants produisent des phrases qu’ils n’ont jamais entendues
- Ils font des erreurs systématiques (« je sontais » au lieu de « j’étais ») qui révèlent l’application de règles
- La quantité de langage entendue est insuffisante pour expliquer la maîtrise acquise
Sa conclusion : le cerveau humain possède une « grammaire universelle » innée, un ensemble de principes qui contraignent les langues possibles.
Les règles de réécriture
Chomsky a formalisé les grammaires avec des règles de production :
S → NP VP (une phrase = groupe nominal + groupe verbal)
NP → Det N (groupe nominal = déterminant + nom)
VP → V NP (groupe verbal = verbe + groupe nominal)
Det → "le" | "un"
N → "chat" | "chien"
V → "mange" | "voit"
Ces règles génèrent des phrases comme « le chat mange un chien » ou « un chien voit le chat ». Simple, mais puissant.
Le transfert vers la musique : ce qui fonctionne
La structure hiérarchique
La découverte majeure qui transfère de la linguistique à la musique est la hiérarchie. Tout comme une phrase se décompose en propositions, puis en syntagmes, puis en mots, une pièce musicale se décompose en :
- Mouvements
- Sections
- Phrases
- Motifs
- Notes
Cette structure arborescente permet de comprendre comment on perçoit la musique à plusieurs échelles simultanément.
Pourquoi un arbre et pas une simple liste ?
Imaginez « Frère Jacques » comme une liste plate : Do, Ré, Mi, Do, Do, Ré, Mi, Do…
On perd l’information cruciale que « Do Ré Mi Do » forme un groupe (le motif « Frère Jacques »).Avec un arbre :
Chanson / \ Phrase 1 Phrase 2 / \ / \ Motif Motif Motif Motif | | | | Do Ré Do Ré Mi Fa Mi Fa Mi Do Mi Do Sol Sol
L’arbre capture les relations d’inclusion : un motif appartient à une phrase, qui appartient à la chanson. C’est cette structure que notre cerveau construit inconsciemment.
La récursion
La récursion — la capacité d’une règle à s’appliquer à son propre résultat — existe aussi en musique :
En linguistique :
« Le chat [que le chien [que Pierre a vu] a mordu] est noir. »
En musique :
- Un thème contient un motif
- Une variation développe le thème (qui contient le motif)
- Une sonate développe la variation (qui développe le thème, qui contient le motif)
Les règles de production
BP3 (Bol Processor 3), développé par Bernard Bel dans les années 1990, utilise explicitement des règles de production pour générer de la musique :
S → _tempo(80) A B A
A → C D C
C → do re mi | mi re do
D → fa sol la sol fa
B → D C D
Comment lire cette grammaire ?
S → _tempo(80) A B A: le symbole de départ S se réécrit avec un tempo de 80 BPM (battements par minute), suivi de trois sections A, B, AC → do re mi | mi re do: le symbole|indique un choix (aléatoire ou pondéré) entre deux alternatives- Les lettres majuscules (S, A, B, C, D) sont des non-terminaux (symboles intermédiaires), les minuscules (do, re, mi…) sont des terminaux (les notes jouées)
Cette grammaire peut générer plusieurs mélodies différentes selon les choix faits à chaque | (ou). C’est exactement le principe de Chomsky appliqué à la musique.
Le transfert vers la musique : ce qui doit être adapté
Les différences entre langage et musique sont souvent présentées comme des incompatibilités qui invalideraient l’approche grammaticale en musique. En réalité, ce sont des différences de degré — et les reconnaître ne fait que mieux calibrer les outils formels nécessaires.
La compositionnalité : propositionnelle vs. perceptive
En linguistique, le sens se compose : « gros chat noir » = sens(gros) + sens(chat) + sens(noir). C’est le principe de compositionnalité sémantique (attribué à Frege, logicien allemand, 1848-1925).
En musique, la composition existe aussi, mais elle opère sur un autre plan :
- Une cadence V → I (dominante → tonique) compose tension + résolution = repos
- Un crescendo sur une dissonance compose intensité + instabilité = attente
- Un motif transposé compose le motif original + un décalage = développement
La différence : la compositionnalité linguistique est propositionnelle (elle construit des affirmations sur le monde, qui peuvent être vraies ou fausses). La compositionnalité musicale est perceptive et affective (elle construit des expériences de tension, mouvement, résolution, surprise). C’est un décalage de registre, pas une absence.
Les catégories fonctionnelles : fixes vs. contextuelles
En linguistique, les mots se classent en catégories fonctionnelles au même niveau d’abstraction : nom, verbe, adjectif, adverbe, préposition… En musique, des catégories fonctionnelles comparables existent au même niveau (celui de la note) :
| Catégories linguistiques (niveau mot) | Catégories musicales (niveau note) |
|---|---|
| Nom → peut être sujet | Note tonique → point de repos |
| Verbe → porte l’action | Note de passage → mouvement entre deux pôles |
| Adjectif → qualifie | Appoggiature (note ornementale qui crée une tension avant de se résoudre) → ornement expressif |
| Adverbe → modifie | Broderie (note voisine décorative) → note voisine |
La différence principale : en linguistique, « chat » est un nom dans (presque) tous les contextes. En musique, un Ré est « tonique » en ré majeur mais « note de passage » en do majeur. Les catégories musicales sont plus contextuelles.
Mais même en linguistique, le contexte joue : « marche » est un nom (« la marche ») ou un verbe (« il marche ») selon la phrase. « Run » en anglais est nom ou verbe. Les catégories ne sont donc pas absolument fixes non plus — la différence est, là encore, de degré.
Attention au piège : il ne faut pas confondre les catégories fonctionnelles (toutes au même niveau) avec les niveaux hiérarchiques (note → motif → phrase → section). Cette confusion reviendrait, en linguistique, à comparer « nom, verbe, adjectif » avec « mot, syntagme, proposition, phrase » — ce sont deux axes d’analyse distincts.
Et la question du sens musical ?
La relation signifiant-signifié en musique — le rapport entre le signe musical et ce qu’il « désigne » — est un sujet vaste qui dépasse le cadre de cet article. Notons simplement que le signe musical EST arbitraire au sens de Saussure (linguiste suisse, 1857-1913) : la même hauteur s’appelle « do » en solfège, « C » en notation anglo-saxonne, et « sa » en musique indienne — tout comme « arbre », « tree » et « Baum » désignent le même concept. Le parallèle avec la linguistique est ici plus fort qu’on ne le croit souvent, et une étude approfondie du contenu informatif des structures musicales révélerait probablement davantage de similitudes que de différences avec le langage.
Ce que ces différences impliquent pour les grammaires musicales
Ces deux décalages — compositionnalité perceptive et catégories contextuelles — n’invalident pas l’approche grammaticale. Ils expliquent pourquoi les grammaires musicales ont besoin d’adaptations par rapport aux grammaires linguistiques :
| Décalage | Adaptation nécessaire | Exemples |
|---|---|---|
| Compositionnalité perceptive | Sémantique de tension/résolution plutôt que de vérité | GTTM : réduction prolongationnelle ; BP3 : PCFG pondérées (B1) |
| Catégories contextuelles | Règles de préférence plutôt que catégories rigides | GTTM : GPR, MPR ; BP3 : flags contextuels (B4) |
C’est exactement ce que GTTM (1983) et BP3 ont fait — et c’est pourquoi ils fonctionnent.
Les pionniers : de 1957 à 1983
Les premières tentatives (années 1960-70)
Avant GTTM, plusieurs chercheurs ont tenté d’appliquer les idées de Chomsky à la musique. Ces tentatives ont connu des succès mitigés, mais ont ouvert la voie.
Leonard Meyer (musicologue américain, 1918-2007), dans Emotion and Meaning in Music (1956, avant même Chomsky !), avait déjà proposé que notre perception musicale repose sur des attentes et leur résolution. Quand une mélodie crée une tension sur la dominante (le 5e degré de la gamme, par exemple Sol en do majeur), nous « attendons » une résolution sur la tonique (le 1er degré, Do). Cette intuition sera formalisée plus tard.
Sundberg et Lindblom (1976) ont créé une des premières grammaires musicales formelles pour générer des chansons enfantines suédoises. Leur grammaire ressemblait à ceci :
Chanson → Vers Vers
Vers → Ligne Ligne
Ligne → Motif Motif | Motif Variante
Motif → Note Note Note Note
Le résultat était fonctionnel mais rigide : les mélodies générées étaient grammaticalement correctes mais manquaient de « vie ».
Heinrich Schenker, bien avant l’ère informatique (années 1920-30), avait développé une théorie de la réduction musicale. Pour Schenker, toute pièce tonale pouvait se réduire à une structure fondamentale (Ursatz, littéralement « structure originelle » en allemand — le squelette harmonique et mélodique sous-jacent). Cette idée d’analyse par niveaux hiérarchiques influencera directement GTTM.
Pourquoi ces premiers efforts ont échoué
Les grammaires purement chomskiennes appliquées à la musique avaient un problème : elles ne capturaient pas la gradation. En linguistique, une phrase est grammaticale ou non — « Le chat dort » est correct, « Chat le dort » ne l’est pas.
En musique, les choses sont plus nuancées. Une séquence mélodique peut être :
- Parfaitement idiomatique (très « musicale »)
- Acceptable mais inhabituelle
- Techniquement possible mais étrange
- Impossible à jouer
Cette gradation demandait un nouveau type de règles : les règles de préférence, innovation majeure de GTTM.
GTTM : la synthèse de 1983
Lerdahl et Jackendoff
En 1983, Fred Lerdahl (compositeur et théoricien américain, né en 1943) et Ray Jackendoff (linguiste américain, né en 1945, ancien élève de Chomsky) publient A Generative Theory of Tonal Music, abrégé GTTM. Leur objectif : formaliser l’intuition musicale d’un auditeur compétent de musique tonale occidentale.
GTTM en une phrase
GTTM est une théorie qui décrit comment notre cerveau structure automatiquement la musique tonale en groupes, niveaux métriques, et relations de tension/résolution.
Les quatre composantes
GTTM propose que notre perception musicale construit quatre structures en parallèle :
- Structure de groupement : Comment les notes se regroupent en motifs, phrases, sections
- Structure métrique : L’alternance de temps forts et faibles
- Réduction des intervalles temporels : Quelles notes sont plus importantes que d’autres
- Réduction prolongationnelle : Les relations de tension et détente
Les règles de préférence
L’innovation majeure de GTTM est le concept de règles de préférence (preference rules). Contrairement aux règles strictes de Chomsky (une phrase est grammaticale ou non), les règles de GTTM indiquent des tendances :
- GPR 2a : Un groupe tend à se terminer quand il y a un silence
- GPR 3a : Un groupe tend à se terminer quand il y a un grand intervalle
Que signifient ces sigles ?
- GPR = Grouping Preference Rule (règle de préférence pour le groupement)
- MPR = Metrical Preference Rule (règle de préférence pour la métrique)
- TSRPR = Time-Span Reduction Preference Rule (règle pour la réduction temporelle)
- PRPR = Prolongational Reduction Preference Rule (règle pour la réduction prolongationnelle)
Chaque règle est numérotée : GPR 2a est la sous-règle « a » de la 2e règle de groupement.
Ces règles peuvent entrer en conflit. L’interprétation finale résulte de leur pondération, ce qui explique pourquoi différents auditeurs peuvent percevoir la même pièce différemment.
Un exemple concret : « Frère Jacques »
Appliquons GTTM à une mélodie que tout le monde connaît. Chantez-la mentalement :
Frè - re Jac - ques, Frè - re Jac - ques,
Do Ré Mi Do Do Ré Mi Do
Dor - mez vous? Dor - mez vous?
Mi Fa Sol Mi Fa Sol
Structure de groupement : Notre perception segmente naturellement en 4 groupes de 2 mesures. Pourquoi ?
- GPR 2a : silences implicites entre phrases (on reprend son souffle après « Jacques »)
- GPR 3 (similarité) : la répétition du motif « Frère Jacques » crée un groupe
Structure métrique : Temps forts sur « Frè », « Jac », « Dor », « vous ». La mélodie coïncide avec les temps forts (MPR 5 : les notes importantes tombent sur les temps forts).
Réduction temporelle : Les notes Do-Mi-Sol forment l’ossature harmonique (l’accord de do majeur). Les autres notes (Ré, Fa) sont des « passages » ornementaux — si on ne gardait que Do-Mi-Sol, la mélodie resterait reconnaissable.
Cette analyse formelle correspond à notre intuition d’auditeur — c’est exactement l’objectif de GTTM.
Un autre exemple : « Au clair de la lune »
Au clair de la lu - ne, mon a - mi Pier - rot Do Do Do Ré Mi Ré Do Mi Ré Ré Do
Groupement : deux groupes (pause après « lune » = GPR 2a)
Réduction : Do-Mi-Do = ossature (accord de do majeur brisé)
BP3 : héritier de cette tradition
Bernard Bel a développé BP3 (Bol Processor 3) pour représenter les structures musicales indiennes, notamment les compositions de tabla. Sa contribution est d’avoir créé un formalisme qui :
- Utilise des grammaires génératives pour décrire les patterns rythmiques
- Gère la polymétrie (superposition de plusieurs métriques simultanées, voir M5 (à venir))
- Permet des règles contextuelles (proches des grammaires context-sensitive — sensibles au contexte — de Chomsky, voir L1)
Exemple de grammaire BP3 pour un pattern de tabla :
S → Theka Theka Tihai
Theka → dha dhin dhin dha | dha dhin dhin dha dha tin tin ta
Tihai → X X X
X → dha ti dha ge na dha ti dha ge na dha
Cette grammaire capture la structure récursive du répertoire : un tihai (cadence finale) répète trois fois un motif, qui lui-même peut contenir des sous-patterns.
Pourquoi BP3 va plus loin que GTTM
| Aspect | GTTM | BP3 |
|---|---|---|
| Direction | Analyse (comprendre une pièce) | Génération (créer une pièce) |
| Tradition | Musique tonale occidentale | Toute musique (indien, africain…) |
| Règles | Préférence (tendances) | Production + pondération |
| Temps | Un seul tempo | Polymétrie native (voir M5) |
| Output | Arbres structurels | Musique jouable (MIDI — Musical Instrument Digital Interface, voir M1 — son) |
BP3 ne cherche pas à modéliser la perception humaine (comme GTTM), mais à fournir un outil de composition flexible. Cette différence d’objectif explique des choix de conception différents.
La chronologie résumée
Pour situer les idées dans le temps :
| Année | Événement | Contribution |
|---|---|---|
| 1920-30 | Schenker, Der freie Satz (publié post-mortem) | Analyse par réduction hiérarchique |
| 1956 | Meyer, Emotion and Meaning in Music | Attente et résolution |
| 1957 | Chomsky, Syntactic Structures | Grammaires génératives |
| 1976 | Sundberg & Lindblom | Première grammaire musicale formelle |
| 1983 | Lerdahl & Jackendoff, GTTM | Règles de préférence |
| 1990s | Bel, Bol Processor 3 | Grammaires pour la génération |
| 2000s | Implémentations computationnelles | GTTM automatisé |
Cette lignée intellectuelle montre comment une idée née en linguistique a été progressivement adaptée, critiquée, et enrichie pour s’appliquer à la musique.
Ce qu’il faut retenir
- Chomsky (1957) a montré que le langage obéit à des règles génératives finies produisant une créativité infinie.
- Ce qui transfère à la musique : la hiérarchie (notes → motifs → phrases → sections), la récursion, les règles de production.
- Ce qui doit être adapté : la compositionnalité est perceptive (tension/résolution) plutôt que propositionnelle (vrai/faux), les catégories fonctionnelles sont contextuelles plutôt que fixes. Ces différences sont de degré, pas de nature — et le parallèle signifiant-signifié entre langue et musique est plus fort qu’on ne le croit.
- GTTM (1983) adapte l’approche générative à la musique avec des « règles de préférence » qui modélisent nos intuitions d’auditeur.
- BP3 applique ces principes à la génération musicale concrète, notamment pour les musiques indiennes.
Pour aller plus loin
- Chomsky, N. (1957). Syntactic Structures. Mouton. — L’ouvrage fondateur.
- Lerdahl, F. & Jackendoff, R. (1983). A Generative Theory of Tonal Music. MIT Press. — La référence en grammaire musicale.
- Bel, B. (1998). « Migrating Musical Concepts: An Overview of the Bol Processor ». Computer Music Journal, 22(2). — Sur BP3.
- Patel, A. D. (2008). Music, Language, and the Brain. Oxford University Press. — Les neurosciences du parallèle musique/langage.
Glossaire
- Behaviorisme : Courant de psychologie (début XXe siècle) qui explique l’apprentissage uniquement par stimulus-réponse, sans référence à des structures mentales innées.
- BP3 (Bol Processor 3) : Logiciel de grammaires musicales développé par Bernard Bel (années 1990), conçu pour les musiques indiennes et africaines.
- Chomsky, Noam : Linguiste américain (né en 1928), fondateur de la théorie des grammaires génératives.
- Broderie : Note ornementale voisine d’une note principale, qui s’en éloigne d’un degré puis y revient (ex : do-ré-do).
- Cadence : Enchaînement d’accords qui ponctue la fin d’une phrase musicale (ex : V → I = dominante → tonique).
- Compositionnalité sémantique : Principe (attribué à Frege) selon lequel le sens d’une expression se construit à partir du sens de ses parties (« gros chat » = sens(gros) + sens(chat)).
- Dominante : Le 5e degré de la gamme (ex : Sol en do majeur), qui crée une tension appelant la résolution vers la tonique.
- Frege, Gottlob : Logicien allemand (1848-1925), fondateur de la logique moderne, à qui on attribue le principe de compositionnalité.
- GPR (Grouping Preference Rule) : Dans GTTM, règle de préférence pour le groupement des notes en phrases.
- Grammaire générative : Ensemble de règles formelles capables de produire toutes les structures valides d’un langage.
- Grammaire universelle : Hypothèse de Chomsky selon laquelle tous les humains naissent avec des principes linguistiques innés.
- GTTM (A Generative Theory of Tonal Music) : Théorie de Lerdahl et Jackendoff (1983) formalisant la perception de la musique tonale.
- Hiérarchie : Organisation en niveaux emboîtés (arbre), où chaque élément appartient à un élément de niveau supérieur.
- MPR (Metrical Preference Rule) : Dans GTTM, règle de préférence pour la structure métrique (temps forts/faibles).
- Note de passage : Note qui relie deux notes structurelles par mouvement conjoint (ex : le Ré entre Do et Mi).
- Récursion : Propriété d’une règle qui peut s’appliquer à son propre résultat, permettant des structures imbriquées.
- Règle de production : Règle de la forme $A \to B$ indiquant comment réécrire un symbole.
- Règle de préférence : Dans GTTM, règle qui indique une tendance plutôt qu’une obligation stricte.
- Saussure, Ferdinand de : Linguiste suisse (1857-1913), fondateur de la linguistique structurale, connu pour la notion d’arbitraire du signe.
- Sémantique référentielle : Capacité du langage à parler de choses dans le monde (le mot « chat » réfère à un animal).
- Structure de groupement : Organisation hiérarchique des événements musicaux en unités (motifs, phrases, sections).
- Tihai : En musique indienne, cadence finale où un motif est répété trois fois, menant au sam (le premier temps du cycle rythmique, point de convergence).
- Tonique : Note ou accord de repos d’une tonalité (ex: Do dans Do majeur), point de résolution des tensions.
- Ursatz : Terme de Schenker (allemand, « structure originelle ») désignant le squelette harmonique et mélodique fondamental d’une pièce tonale.
Liens
- L1 — Hiérarchie de Chomsky — le cadre formel des grammaires
- M3 — Les trois paradigmes de représentation musicale
- M5 — Polymétrie — superposition de métriques
- M6 — Structure hiérarchique en musique : GTTM approfondi
- I2 — Bol Processor — présentation de BP3
- M1 — MIDI sous le microscope formel
- B1 — Grammaires probabilistes BP3 — première entrée dans la série B
Prérequis : L1 — La hiérarchie de Chomsky, M3 — Les trois paradigmes
Temps de lecture : 12 min
Tags : #chomsky #gttm #grammaires #linguistique #musicologie #bp3
Prochain article : M5 — Polymétrie