M6) Structure hiérarchique en musique

GTTM démystifié

Quand vous écoutez une symphonie, comment savez-vous qu’un passage est une « conclusion » ? Comment percevez-vous qu’un thème « revient » ? GTTM tente de formaliser ces intuitions que nous avons tous.

Où se situe cet article ?

Cet article approfondit les idées de M4 en détaillant GTTM — la théorie la plus aboutie pour formaliser la perception musicale. C’est aussi un fondement théorique pour bp2sc, le transpileur (traducteur de code source à source) reliant BP3 (Bol Processor, version 3) à SuperCollider (voir B7).


Encart : Qu’est-ce que GTTM ?

GTTM signifie Generative Theory of Tonal Music (Théorie Générative de la Musique Tonale). C’est une théorie développée par Fred Lerdahl et Ray Jackendoff en 1983 qui tente de décrire formellement comment un auditeur perçoit et organise mentalement la musique tonale occidentale. Le terme « générative » fait référence à la linguistique générative de Chomsky : tout comme une grammaire peut « générer » toutes les phrases possibles d’une langue, GTTM propose un ensemble de règles qui peuvent « générer » toutes les structures perceptuelles valides d’une pièce musicale.


Pourquoi c’est important ?

Imaginez que vous deviez programmer un logiciel capable d’analyser automatiquement une pièce musicale : identifier les phrases, les thèmes, les moments de tension et de résolution. Par où commencer ?

En 1983, Fred Lerdahl (compositeur) et Ray Jackendoff (linguiste) ont publié A Generative Theory of Tonal Music (GTTM), une tentative ambitieuse de formaliser comment nous percevons la structure musicale. Leur théorie a profondément influencé la musicologie computationnelle, l’analyse musicale automatique, et même la composition assistée par ordinateur.

Comprendre GTTM, c’est comprendre pourquoi la musique nous semble avoir un « sens », même sans paroles.

L’idée en une phrase

GTTM modélise notre perception de la musique tonale à travers quatre structures hiérarchiques parallèles : groupement, mètre, réduction temporelle, et réduction prolongationnelle.


Expliquons pas à pas

Exemple 1 : Lire une phrase

Avant d’aborder la musique, considérons la lecture. Quand vous lisez :

« Le petit chat gris dort sur le canapé rouge. »

Votre cerveau ne traite pas cette phrase mot par mot. Il construit automatiquement une structure :

 

                    Phrase
                      |
        ┌─────────────┼─────────────┐
     Sujet          Verbe       Complément
        |             |             |
  "Le petit        "dort"     "sur le canapé
   chat gris"                     rouge"

 

Vous savez que « petit » modifie « chat », pas « dort ». Vous savez que « rouge » décrit le « canapé », pas le « chat ». Cette structure hiérarchique est implicite — vous ne la calculez pas consciemment.

Exemple 2 : Entendre une mélodie

La même chose se produit en musique. Prenez « Au clair de la lune » :

 

Au clair de la lu-ne, mon a-mi Pier-rot
|__________________|  |_______________|
    Phrase A              Phrase B

Prê-te-moi ta plu-me pour é-crire un mot
|__________________|  |_______________|
    Phrase C              Phrase D

 

Vous percevez naturellement ces quatre phrases, même si personne ne vous l’a dit. Et vous percevez que A+B forment une unité plus grande (la « question ») qui s’oppose à C+D (la « réponse »).

C’est cette structure hiérarchique que GTTM tente de formaliser.


Les quatre composantes de GTTM

1. Structure de groupement (Grouping Structure)

Question fondamentale : Comment les notes se regroupent-elles en motifs, phrases, sections ?

La structure de groupement est la composante la plus intuitive de GTTM. Elle répond à une question simple : quand vous écoutez de la musique, comment savez-vous où une « phrase » commence et où elle finit ?

Pensez à la ponctuation dans un texte. Sans virgules ni points, une longue suite de mots serait difficile à comprendre. En musique, il n’y a pas de ponctuation visible, mais notre cerveau « entend » naturellement des séparations. La structure de groupement modélise ces frontières perçues.

Elle organise la musique en unités imbriquées, comme des poupées russes :

 

Pièce complète
├── Section A
│   ├── Phrase 1
│   │   ├── Motif a
│   │   └── Motif b
│   └── Phrase 2
│       ├── Motif a'
│       └── Motif c
└── Section B
    └── ...

 

Règles de préférence pour le groupement (GPR – Grouping Preference Rules) :

GTTM propose des règles qui décrivent nos tendances perceptives. Ces règles ne sont pas des lois absolues mais des préférences : elles indiquent ce que nous avons tendance à percevoir, pas ce que nous percevons obligatoirement.

Encart : Pourquoi des « règles de préférence » ?

Contrairement aux règles de grammaire strictes (« une phrase doit avoir un verbe »), les règles de préférence sont des tendances statistiques. Elles peuvent se contredire entre elles ! Par exemple, GPR 2a peut suggérer une frontière à un endroit, tandis que GPR 3a en suggère une autre. Dans ce cas, GTTM propose que les règles se « combinent » et que la frontière perçue soit celle avec le plus d’indices convergents. C’est exactement comme dans la perception visuelle : plusieurs indices peuvent s’additionner ou se contredire.

Les principales GPR :

  • GPR 2a (Proximité temporelle) : Un silence ou allongement entre deux notes suggère une frontière de groupe. Exemple : dans « Frère Jacques », la pause après « dor-mez-vous » crée une séparation nette.
  • GPR 2b (Changement d’attaque) : Un changement brusque dans le mode d’attaque (de lié à détaché) suggère une frontière.
  • GPR 3a (Registre) : Un grand intervalle mélodique (typiquement plus de 7 demi-tons, soit une quinte, l’intervalle entre do et sol) suggère une frontière. Exemple : si une mélodie monte do-ré-mi puis saute à do aigu, ce saut crée une rupture perceptive.
  • GPR 3c (Dynamique) : Un changement soudain de volume (piano, doux, à forte, fort, ou vice-versa) suggère une frontière. Exemple : l’entrée du tutti (ensemble de l’orchestre) après un passage solo.
  • GPR 3d (Articulation) : Un changement d’articulation (legato, c’est-à-dire jeu lié, à staccato, c’est-à-dire notes détachées) suggère une frontière. Exemple : une phrase chantée suivie de notes piquées.

Exemple avec « Au clair de la lune » :

Au clair de la lu- | ne      (pause = GPR 2a)
Mi mi mi ré mi    | do      (note longue + changement de direction)

 

Le silence après « lu- » et la note longue sur « ne » créent une frontière de groupe.

2. Structure métrique (Metrical Structure)

Question fondamentale : Quels temps sont « forts » et lesquels sont « faibles » ?

La structure métrique modélise notre perception du « battement » de la musique. Attention : ce n’est pas la signature rythmique écrite sur la partition (4/4, 3/4…), mais la hiérarchie d’accents que nous percevons mentalement.

Imaginez que vous tapez du pied en écoutant de la musique. Vous ne tapez pas sur chaque note, mais sur certains points réguliers. Et parmi ces points, certains vous semblent plus « importants » que d’autres (le « un » de chaque mesure, par exemple). C’est cette hiérarchie que la structure métrique capture.

 

Niveau 1 (mesure)    : .           .           .           .
Niveau 2 (demi)      : .     .     .     .     .     .     .
Niveau 3 (temps)     : .  .  .  .  .  .  .  .  .  .  .  .  .
Niveau 4 (croches)   : ................

Notes               : Au clair de la lu- ne, mon a- mi Pier- rot

 

Un temps « fort » est un temps présent à plusieurs niveaux de la hiérarchie. Le premier temps de chaque mesure est le plus fort car il apparaît à tous les niveaux.

Règles de préférence métriques (MPR – Metrical Preference Rules) :

Ces règles décrivent comment nous inférons la structure métrique à partir des événements musicaux :

  • MPR 1 (Coïncidence) : Les événements musicaux (attaques de notes) doivent coïncider avec des temps de la grille métrique. Si vous entendez une note, votre cerveau suppose qu’elle tombe sur un temps.
  • MPR 5 (Longueur) : Les notes longues tendent à tomber sur des temps forts. Exemple : dans « Joyeux anniversaire », le « an- » de « anniversaire » est long ET sur un temps fort.
  • MPR 6 (Harmonie) : Les changements d’accords importants (notamment les cadences, formules harmoniques qui concluent une phrase musicale) préfèrent les temps forts. Exemple : l’accord final d’une cadence parfaite (enchaînement dominante-tonique, V-I) tombe presque toujours sur un temps fort.

3. Réduction des intervalles temporels (Time-Span Reduction)

Question fondamentale : Parmi les notes d’un groupe, laquelle est la plus « importante » ?

La réduction des intervalles temporels (ou time-span reduction) répond à une question musicologique classique : si vous deviez « résumer » une mélodie, quelles notes garderiez-vous ?

Cette composante construit un arbre de réduction : chaque groupe a une « tête » (note structurellement importante), et les autres notes sont des élaborations de cette tête. Une élaboration est une note qui « décore » ou « orne » la tête sans changer le sens structurel.

Encart : Qu’est-ce qu’un arbre de réduction ?

Un arbre de réduction est une structure hiérarchique où :

  • Au niveau le plus bas, vous avez toutes les notes de la pièce
  • À chaque niveau supérieur, on « élimine » les notes les moins importantes
  • Au sommet, il ne reste que la ou les notes les plus structurelles (souvent la tonique ou la dominante)

C’est l’équivalent musical d’un résumé de texte : on garde l’essentiel, on élimine les détails.

Exemple simplifié :

Notes :     do   ré   mi   ré   do
             \   /    |    \   /
              do     mi      do
                \     |     /
                   do (finale)

 

Dans cet exemple :

  1. Les deux sont des notes de passage (broderies) — on les élimine. do est la tête de chaque groupe extrême
  2. mi est le sommet mélodique, mais harmoniquement moins stable que do
  3. Le do final l’emporte : c’est la tonique (note de repos), en position cadentielle (fin de phrase). Il domine l’ensemble — mi est une élaboration (voisin supérieur) de do

Règles de préférence pour la réduction temporelle (TSRPR – Time-Span Reduction Preference Rules) :

  • TSRPR 1 (Position métrique) : La tête d’un groupe doit être sur un temps métriquement fort. Exemple : entre une croche sur le temps et une croche sur le contretemps, celle sur le temps sera préférée comme tête.
  • TSRPR 2 (Stabilité harmonique) : La tête d’un groupe doit être harmoniquement stable (consonante, c’est-à-dire perçue comme stable et « en accord » avec l’harmonie). Exemple : si un arpège de Do majeur contient do-mi-sol, le do (fondamentale) sera préféré comme tête.
  • TSRPR 3 (Connexion mélodique) : Les notes proches mélodiquement (petits intervalles, mouvements conjoints, c’est-à-dire par tons ou demi-tons successifs) tendent à être regroupées, et la note « cadre » (début ou fin du mouvement conjoint) est la tête. Exemple : dans do-ré-mi-ré-do, le mi (point culminant) peut être la tête, ou les do (encadrants) selon le contexte.

4. Réduction prolongationnelle (Prolongational Reduction)

Question fondamentale : Quelles sont les relations de tension et de détente entre les événements ?

La réduction prolongationnelle est la composante la plus abstraite de GTTM, mais aussi la plus musicalement significative. Elle capture notre sensation que la musique « va quelque part » puis « arrive » — ce que les musiciens appellent la tension et la résolution.

Imaginez une histoire avec un début, un développement qui crée du suspense, et une résolution finale. La musique fonctionne de manière similaire : certains passages créent de l’attente, d’autres la résolvent. La réduction prolongationnelle modélise ces relations.

Encart : Prolongation vs Progression

La distinction clé est entre prolonger (rester dans le même état harmonique) et progresser (changer d’état harmonique) :

  • Prolongation : Do majeur → quelques notes de passage → Do majeur. On reste « dans » Do du début à la fin — l’harmonie ne bouge pas vraiment.
  • Progression : Sol7 → Do majeur. On change d’harmonie : Sol7 (dominante, instable) crée une tension qui se résout en arrivant sur Do majeur (tonique, stable). C’est un mouvement, pas un maintien.

Trois types de connexions :

  • Prolongation forte : Un événement prolonge directement un autre (même harmonie). Exemple : Do majeur — quelques notes de mélodie — Do majeur. Le second Do majeur est une prolongation du premier.
  • Prolongation faible : Un événement est une « broderie » ou « voisin » d’un autre. Exemple : Do majeur — Ré mineur — Do majeur. Le Ré mineur est une broderie qui décore le Do sans vraiment le quitter.
  • Progression : Un événement crée une tension vers un autre. Exemple : Sol7 vers Do majeur. Le Sol7 n’est pas une prolongation de Do, il progresse vers lui, créant un mouvement harmonique.

 

Exemple : Cadence parfaite V → I

     I (stable)
    / \
   V   I
   |   |
(tension) → (résolution)

 

L’accord de V (dominante) crée une tension qui se résout sur I (tonique). Cette relation est représentée dans l’arbre prolongationnel.


Pourquoi des arbres ?

La puissance de la représentation arborescente

Encart : Qu’est-ce qu’un arbre en informatique ?

Un arbre (en informatique et mathématiques) est une structure de données qui représente une hiérarchie. Visuellement, c’est comme un arbre généalogique inversé :

  • La racine est en haut (l’ancêtre commun)
  • Les nœuds sont les éléments intermédiaires
  • Les feuilles sont les éléments finaux, sans descendants
  • Chaque nœud (sauf la racine) a exactement un parent
  • Chaque nœud peut avoir zéro, un ou plusieurs enfants

Dans un arbre musical GTTM, la racine représente la pièce entière, les feuilles sont les notes individuelles, et les nœuds intermédiaires sont les groupes, phrases et sections.

Un arbre capture naturellement :

  1. La hiérarchie : Un nœud parent domine ses enfants
  2. L’inclusion : Les enfants sont « contenus » dans le parent
  3. Les relations : On peut remonter de n’importe quel nœud à la racine

Pour la musique, cela permet de répondre à des questions comme :

  • « Cette note appartient à quelle phrase ? » → Remonter l’arbre de groupement
  • « Ce passage est-il stable ou tendu ? » → Consulter l’arbre prolongationnel
  • « Quelle est la note structurelle de cette section ? » → Trouver la tête dans la réduction

Comparaison avec une liste plate

Sans structure arborescente, une pièce musicale serait juste une séquence de notes :

 

Liste : do, ré, mi, fa, sol, la, si, do

 

Avec un arbre :

                  Phrase
                 /      \
           Montée      Descente
          /  |  \      /  |  \
        do  ré  mi    fa sol la  si  do

 

L’arbre capture le fait que do-ré-mi forme une unité, que cette unité s’oppose à la descente, etc.


Analyse vs Génération

GTTM pour l’analyse

GTTM a été conçu pour analyser — prendre une pièce et en déduire sa structure. Les règles de préférence guident cette analyse :

 

Entrée : partition de "Au clair de la lune"
Processus : appliquer les règles GPR, MPR, TSRPR, PRPR
Sortie : quatre arbres représentant la structure perçue

 

(Note : PRPR = Prolongational Reduction Preference Rules, les règles de préférence pour la réduction prolongationnelle.)

GTTM pour la génération

Peut-on inverser le processus ? Partir d’une structure abstraite et générer une pièce ?

C’est plus difficile, car les règles de préférence sont descriptives (elles décrivent ce qu’on perçoit) et non prescriptives (elles ne disent pas quoi composer).

Cependant, plusieurs chercheurs ont adapté GTTM pour la génération :

  • Hamanaka et al. ont créé un système génératif basé sur GTTM
  • Lerdahl lui-même a proposé des extensions dans Tonal Pitch Space (2001) qui se prêtent mieux à la génération

GTTM et BP3 : deux directions opposées

GTTM et BP3 (Bol Processor) partagent le principe de structure hiérarchique en musique, mais leurs origines théoriques et leurs directions sont indépendantes :

  • GTTM vient de la linguistique cognitive (Jackendoff) appliquée à la perception musicale
  • BP3 vient de la théorie des langages formels (Chomsky, Panini) appliquée à la génération musicale

Ils sont complémentaires, pas dérivés l’un de l’autre :

Aspect GTTM BP3
Direction ↑ Ascendante (analyse) ↓ Descendante (génération)
Filiation théorique Linguistique cognitive (Jackendoff) Langages formels (Chomsky, Panini)
Entrée Surface musicale (notes) Grammaire (règles de production)
Sortie Arbres structurels Séquences musicales
Règles Préférence (tendances perceptives) Production (déterministes ou pondérées)
Application Musique tonale occidentale Toute musique (indien, occidental…)

En termes de niveaux d’abstraction : GTTM remonte des événements vers la structure, BP3 descend de la grammaire vers les événements. Un système qui combinerait les deux réaliserait un cycle complet : analyser une pièce (GTTM ↑), en extraire une structure, puis en générer des variations (BP3 ↓).


Limites de GTTM

Centré sur la musique tonale occidentale

GTTM a été développé pour la musique tonale (Bach, Mozart, Beethoven…). Ses règles ne s’appliquent pas directement à :

  • La musique atonale (musique sans centre tonal, comme Schoenberg, Webern)
  • Les musiques non-occidentales (ragas indiens, gamelan indonésien)
  • La musique électronique (pas de « notes » discrètes)

La formalisation reste incomplète

Les règles de préférence sont souvent formulées de manière qualitative (« un grand intervalle suggère une frontière »). Mais combien de demi-tons font un « grand » intervalle ? GTTM ne le précise pas toujours.

Un seul auditeur idéalisé

GTTM modélise la perception d’un « auditeur compétent idéalisé ». Mais différents auditeurs peuvent percevoir différemment la même pièce. Cette variabilité n’est pas bien capturée.


Ce qu’il faut retenir

  • GTTM propose quatre structures parallèles pour modéliser notre perception musicale :

1. Groupement (segmentation en unités)
2. Mètre (hiérarchie des temps forts/faibles)
3. Réduction temporelle (notes importantes vs ornements)
4. Réduction prolongationnelle (tension et détente)

  • Les règles de préférence décrivent nos tendances perceptives (silences = frontières, notes longues = temps forts…).
  • La représentation arborescente capture naturellement la hiérarchie et les relations musicales.
  • GTTM est conçu pour l’analyse, mais ses principes peuvent être adaptés à la génération.
  • Les limites : centré sur la musique tonale occidentale, formalisation parfois vague, un seul type d’auditeur.

Pour aller plus loin

  • Lerdahl, F. & Jackendoff, R. (1983). A Generative Theory of Tonal Music. MIT Press. — L’ouvrage original, dense mais fondateur.
  • Temperley, D. (2001). The Cognition of Basic Musical Structures. MIT Press. — Une reformulation plus formelle et computationnelle de GTTM.
  • Hamanaka, M., Hirata, K., & Tojo, S. (2006). « Implementing ‘A Generative Theory of Tonal Music' ». Journal of New Music Research. — Sur l’implémentation informatique.
  • Marsden, A. (2010). « Schenkerian Analysis by Computer ». Journal of New Music Research. — Sur les liens entre GTTM et l’analyse schenkerienne.

Glossaire

  • Arbre (informatique) : Structure de données hiérarchique avec une racine, des nœuds intermédiaires et des feuilles. Chaque nœud (sauf la racine) a un unique parent.
  • Arbre de réduction : Structure hiérarchique où chaque niveau simplifie le niveau inférieur en ne gardant que les éléments structurellement importants.
  • Broderie (voisin) : Note ornementale qui quitte une note structurelle par mouvement conjoint et y revient. Exemple : do-ré-do.
  • Cadence : Formule harmonique qui conclut une phrase musicale. La cadence parfaite (V-I) est la plus conclusive.
  • Consonance/Dissonance : La consonance est la qualité d’un son stable et « agréable » (octave, quinte, tierce majeure). La dissonance est instable et appelle une résolution.
  • Dominante (V) : Cinquième degré de la gamme, accord de tension qui appelle la tonique.
  • Élaboration : Note ou passage qui « décore » une note structurelle sans en changer le sens.
  • GPR (Grouping Preference Rules) : Règles de préférence pour le groupement. Décrivent comment nous percevons les frontières entre groupes musicaux.
  • GTTM (Generative Theory of Tonal Music) : Théorie générative de la musique tonale, développée par Lerdahl et Jackendoff (1983).
  • Métrique : Organisation hiérarchique des temps forts et faibles, distincte du rythme (durées des notes).
  • Mouvement conjoint : Déplacement mélodique par tons ou demi-tons successifs (do-ré-mi), par opposition au mouvement disjoint (sauts, comme do-sol).
  • MPR (Metrical Preference Rules) : Règles de préférence pour la structure métrique. Décrivent comment nous inférons la grille des temps.
  • PRPR (Prolongational Reduction Preference Rules) : Règles de préférence pour la réduction prolongationnelle. Décrivent comment nous percevons les relations de tension/résolution.
  • Progression (harmonique) : Mouvement d’un accord vers un autre qui crée une tension et un sens de direction.
  • Prolongation : Relation où un événement musical étend ou élabore un autre sans créer de nouvelle direction harmonique.
  • Règle de préférence : Règle qui indique une tendance perceptive, pas une obligation. Peut entrer en conflit avec d’autres règles.
  • Tête (head) : Note structurellement la plus importante d’un groupe. Les autres notes du groupe sont des élaborations de la tête.
  • Tonique (I) : Premier degré de la gamme, point de repos et de stabilité harmonique.
  • TSRPR (Time-Span Reduction Preference Rules) : Règles pour identifier les têtes de groupes dans la réduction temporelle.

Prérequis : M4 — Grammaires et musique
Temps de lecture : 11 min
Tags : #gttm #analyse-musicale #hiérarchie #lerdahl #jackendoff #cognition


Prochain article : B1 — PCFG : quand les grammaires jouent aux dés