I4) Introduction au MIDI

Le protocole qui fait parler les instruments

Quand vous appuyez sur une touche de synthétiseur, que se passe-t-il vraiment ? Et pourquoi MIDI, après 40 ans, reste-t-il aussi incontournable que limité ?

Où se situe cet article ?

Cet article clôt la série Introduction (I). Après avoir présenté le projet (I1), le Bol Processor (I2) et SuperCollider (I3), nous explorons ici le protocole qui sous-tend toute la musique numérique. MIDI est l’un des formats de référence de la représentation musicale informatique — comprendre ses principes et ses limites est un préalable pour apprécier les choix de représentation alternatifs que nous verrons dans la série Musique (M).

Pour une analyse formelle de MIDI — sa position dans la hiérarchie de Chomsky (langage régulier, L1), les tentatives de formalisation existantes, et le contraste avec BP3 — voir M1 (à venir).


Pourquoi c’est important ?

MIDI (Musical Instrument Digital Interface, soit « Interface Numérique pour Instruments de Musique ») est partout. Votre clavier USB, votre DAW, vos plugins VST — tous parlent MIDI. Créé en 1983 pour connecter des synthétiseurs entre eux, ce protocole est devenu la lingua franca de la musique électronique.

Termes à connaître :

  • DAW (Digital Audio Workstation) : logiciel de production musicale comme Ableton Live, Logic Pro, FL Studio ou Reaper. C’est votre « studio virtuel » pour enregistrer, éditer et mixer.
  • Plugin VST (Virtual Studio Technology) : extension logicielle ajoutant des instruments virtuels ou des effets à votre DAW. Un plugin de piano, par exemple, reçoit des messages MIDI et génère le son correspondant.
  • Protocole : ensemble de règles définissant comment deux systèmes communiquent. MIDI est un protocole de communication entre instruments.

Mais MIDI a été conçu pour des contraintes matérielles d’il y a 40 ans. Comprendre ses forces et ses limites est essentiel pour quiconque travaille avec la musique numérique — que ce soit pour produire, programmer, ou évaluer les choix de représentation d’autres systèmes.

L’idée en une phrase

MIDI ne transmet pas du son, mais des instructions : « joue cette note, à cette force, maintenant ».


Comment fonctionne MIDI ?

Le principe fondamental : des messages, pas du son

Contrairement à un fichier audio (WAV, MP3) qui contient la forme d’onde du son, un fichier MIDI ne contient que des instructions. C’est comme la différence entre :

  • Une partition (instructions) → MIDI
  • Un enregistrement audio (son réel) → WAV/MP3

Un synthétiseur reçoit les messages MIDI et génère le son correspondant. Le même fichier MIDI peut sonner complètement différent selon l’instrument qui le joue.

Les messages essentiels

Note On / Note Off

Le coeur de MIDI : quand jouer et quand arrêter une note.

 

Note On  : canal=1, note=60 (do central), vélocité=100
Note Off : canal=1, note=60, vélocité=0

 

Analogie avec un pianiste :

  • Note On = le doigt appuie sur la touche (la note commence)
  • Note Off = le doigt relâche la touche (la note s’arrête)
  • Vélocité = la force avec laquelle le doigt frappe (pianissimo à fortissimo)

Sans le message Note Off, la note continuerait indéfiniment (comme si vous teniez la touche enfoncée).

Anatomie d’un message Note On :

  • Canal (1-16) : identifiant logique permettant de contrôler 16 instruments différents sur un même câble. Comme 16 « lignes téléphoniques » indépendantes.
  • Note (0-127) : le numéro MIDI de la note. 60 = do central (C4 en notation anglo-saxonne). Chaque demi-ton ajoute 1 : 61 = do#, 62 = ré, etc.
  • Vélocité (0-127) : l’intensité de la frappe. 0 = silence (équivalent à Note Off), 64 = mezzo-forte, 127 = fortissimo.

Pourquoi « vélocité » et pas « volume » ?

Sur un vrai piano, c’est la vitesse (velocity) du marteau qui détermine le volume ET le timbre. Une frappe rapide produit un son plus fort et plus brillant. Les synthétiseurs reproduisent ce comportement : la vélocité peut affecter le volume, le timbre, ou les deux.

Control Change (CC)

Tous les autres contrôles : volume, panoramique, sustain, modulation…

 

CC : canal=1, contrôleur=7 (volume), valeur=100
CC : canal=1, contrôleur=64 (pédale sustain), valeur=127 (enfoncée)

 

Qu’est-ce qu’un Control Change ?

Un message CC modifie un paramètre continu de l’instrument, distinct des notes elles-mêmes. Imaginez les boutons et pédales d’un synthétiseur : chacun contrôle un aspect du son (volume, brillance, réverbération…).

Chaque contrôleur a un numéro (0-127) et une valeur (0-127). Le numéro identifie QUEL paramètre, la valeur définit sa position.

Quelques CC courants :

CC# Fonction Explication
1 Molette de modulation Ajoute du vibrato ou d’autres effets expressifs
7 Volume Niveau sonore général du canal
10 Panoramique Position gauche (0) / centre (64) / droite (127)
64 Pédale de sustain Comme la pédale forte du piano (0-63 = relevée, 64-127 = enfoncée)
91 Réverbération Quantité d’effet de réverbération

Program Change

Change l’instrument (le « programme » ou « patch »).

 

Program Change : canal=1, programme=25 (guitare acoustique en General MIDI)

 

Vocabulaire :

  • Programme / Patch / Preset : ces termes sont synonymes et désignent un son d’instrument prédéfini (piano, guitare, cordes…).
  • General MIDI (GM) : standard définissant 128 sons numérotés de manière identique sur tous les appareils compatibles. Programme 1 = piano acoustique, 25 = guitare acoustique, 41 = violon, etc. Cela garantit qu’un fichier MIDI sonne « à peu près pareil » sur différents appareils.

Pitch Bend

Fait varier la hauteur de la note (effet de vibrato, glissando — glissement continu d’une note à une autre).

 

Pitch Bend : canal=1, valeur=8192 (neutre), plage=-8192 à +8191

 

Qu’est-ce que le Pitch Bend ?

C’est l’équivalent de la « roulette de pitch » sur un synthétiseur, ou du bend sur une guitare : on tire la note vers le haut ou le bas pour créer un effet expressif.

  • Valeur neutre (8192) : pas de modification de hauteur
  • Valeurs < 8192 : note plus basse (jusqu’à 0 = maximum vers le bas)
  • Valeurs > 8192 : note plus haute (jusqu’à 16383 = maximum vers le haut)

La plage de pitch bend (combien de demi-tons au maximum) est configurable sur l’instrument, typiquement +/- 2 demi-tons.


La résolution : le problème des 7 bits

MIDI a été conçu quand les processeurs étaient lents et la mémoire rare. Résultat : presque toutes les valeurs sont codées sur 7 bits (0-127).

Qu’est-ce qu’un bit ?

Un bit (binary digit) est la plus petite unité d’information : 0 ou 1.

  • 7 bits permettent de représenter 2^7 = 128 valeurs différentes (0 à 127)
  • 8 bits (1 octet) permettent 2^8 = 256 valeurs
  • 14 bits permettent 2^14 = 16384 valeurs (utilisé pour le Pitch Bend)

Plus on a de bits, plus on a de précision. 128 niveaux de vélocité semblent beaucoup, mais pour un fader de volume qu’on déplace lentement, ce n’est pas très fluide.

Conséquences pratiques

Paramètre Plage MIDI Limitation
Vélocité 0-127 128 niveaux de nuance
Contrôleurs 0-127 128 positions par CC
Notes 0-127 ~10.5 octaves (suffisant)

128 niveaux, c’est beaucoup ou peu ?

Pour la vélocité : souvent suffisant. La différence entre 100 et 101 est imperceptible.

Pour un fader de volume : problématique. Quand vous montez lentement un fader, vous entendez des « marches d’escalier » au lieu d’une courbe fluide. C’est pourquoi les contrôleurs modernes utilisent souvent des CC 14 bits (CC 0-31 combinés avec CC 32-63).


Timing et synchronisation

Le problème du timing dans les fichiers MIDI

Un fichier MIDI Standard (SMF, Standard MIDI File) stocke les événements avec des timestamps en « ticks ». Mais combien de ticks par noire ?

Qu’est-ce qu’un tick ?

Un tick est la plus petite unité de temps dans un fichier MIDI. C’est comme une « impulsion d’horloge » qui découpe le temps musical. Plus il y a de ticks par noire, plus le timing est précis.

  • PPQ (Pulses Per Quarter note) : nombre de ticks par noire. Résolution temporelle, typiquement 96, 480, ou 960. « Pulses » = impulsions, « Quarter note » = noire (1/4 de ronde).
  • Tempo : méta-événement qui définit la durée d’une noire en microsecondes.

 

PPQ = 480
Tempo = 500000 µs/noire = 120 BPM (Beats Per Minute, battements par minute)

Une noire = 480 ticks
Une croche = 240 ticks
Une double-croche = 120 ticks

 

D’où vient le calcul 500000 µs = 120 BPM ?

  • BPM = battements (noires) par minute
  • À 120 BPM, il y a 120 noires en 60 secondes
  • Donc 1 noire = 60/120 = 0.5 seconde = 500000 microsecondes
  • Formule : Tempo (µs/noire) = 60000000 / BPM

Le timing en temps réel

En connexion directe (clavier vers synthé), MIDI transmet à 31.25 kbit/s (kilobits par seconde). Un message Note On prend 3 octets = 960 microsecondes, soit environ 1 milliseconde.

D’où vient ce calcul ?

  • 1 octet MIDI = 10 bits transmis (8 bits de données + 1 bit de start + 1 bit de stop)
  • 3 octets = 30 bits
  • À 31250 bits/seconde : 30 bits / 31250 = 0.00096 seconde = 960 µs

Conséquence : Si vous jouez un accord de 4 notes simultanément, elles arrivent en fait décalées d’environ 1ms chacune (total : 3-4 ms de décalage entre la première et la dernière note). En pratique, c’est imperceptible pour l’oreille humaine (qui distingue des écarts à partir d’environ 20-30 ms), mais théoriquement, MIDI ne peut pas représenter de vraie simultanéité.


Les 16 canaux : force et limite

L’architecture originale

Un câble MIDI = 16 canaux = 16 instruments maximum.

C’était révolutionnaire en 1983 pour connecter plusieurs synthés. Mais aujourd’hui :

  • Un orchestre symphonique a bien plus de 16 parties
  • Chaque canal ne peut avoir qu’un seul pitch bend actif (problème pour les instruments polyphoniques — capables de jouer plusieurs notes simultanément, comme un piano — qui nécessitent une expression individuelle par note)

Contournement moderne : MPE

Le MPE (MIDI Polyphonic Expression, « Expression Polyphonique MIDI ») utilise un canal par note pour permettre un pitch bend et une pression individuels. Un accord de 4 notes utilise 4 canaux — ce qui consomme rapidement les 16 canaux disponibles.

Pourquoi MPE est-il révolutionnaire ?

En MIDI classique, le pitch bend s’applique à TOUTES les notes d’un canal. Impossible de « tirer » une seule note d’un accord vers le haut pendant que les autres restent stables.

Avec MPE, chaque note vit sur son propre canal. Des contrôleurs comme l’Osmose d’Expressive E ou le Linnstrument utilisent MPE pour capturer les gestes expressifs note par note : glissements, vibrato, pression… C’est ce qui se rapproche le plus du jeu d’un violoniste ou d’un chanteur.

Le coût : MPE monopolise la quasi-totalité des 16 canaux (1 canal global + jusqu’à 15 canaux de notes). Il ne reste donc aucun canal libre pour d’autres instruments sur le même port MIDI.


Ce que MIDI ne peut PAS faire

1. Pas de structure musicale

MIDI ne sait pas ce qu’est une « phrase », un « motif », un « thème ». Il ne voit que des notes individuelles.

 

MIDI voit : Note 60, Note 64, Note 67
Humain voit : Accord de do majeur, premier degré, fonction tonique

 

2. Pas de microtonalité native (intervalles plus petits que le demi-ton)

Les 128 notes MIDI correspondent au tempérament égal à 12 demi-tons. Pour jouer une gamme arabe ou indienne avec des intervalles de quart de ton, il faut :

  • Utiliser le pitch bend (mais par canal, pas par note)
  • Utiliser des synthétiseurs compatibles avec les accordages alternatifs (tunings)

Qu’est-ce que le tempérament égal ?

C’est le système d’accordage standard de la musique occidentale moderne : l’octave est divisée en 12 demi-tons égaux. Chaque demi-ton a un rapport de fréquence de 2^(1/12) (environ 1.059).

Mais beaucoup de traditions musicales utilisent d’autres systèmes :

  • Musique arabe : quarts de tons (24 divisions par octave)
  • Musique indienne : shruti (22 divisions)
  • Musique baroque : tempéraments inégaux (Werckmeister, etc.)

MIDI ne peut pas représenter nativement ces micro-intervalles car ses 128 notes sont « fixées » sur le tempérament égal.

3. Pas de nuances continues

La vélocité est définie au moment de l’attaque. Impossible de faire un crescendo sur une note tenue (il faut utiliser CC 11 Expression ou l’aftertouch).

Qu’est-ce que l’aftertouch ?

C’est la pression exercée sur une touche après l’attaque initiale. Certains claviers détectent cette pression et envoient des messages MIDI correspondants.

  • Channel Aftertouch : une valeur de pression pour tout le canal
  • Polyphonic Aftertouch : une valeur par note (plus expressif, mais rare)

L’aftertouch peut moduler le volume, le vibrato, ou d’autres paramètres pour ajouter de l’expression aux notes tenues.

4. Pas de notation

MIDI ne sait pas si vous jouez un do dièse ou un ré♭. Pas de clé, pas de mesure, pas d’armure. C’est pourquoi la conversion MIDI vers partition donne souvent des résultats bizarres.

Le problème de l’enharmonie

En MIDI, do# et ré♭ sont la même note (numéro 61). Mais sur une partition, ce n’est pas pareil :

  • En ré majeur, on écrit do#
  • En mi♭ majeur, on écrit ré♭

Un logiciel de transcription MIDI vers partition doit « deviner » l’orthographe correcte, ce qui mène souvent à des aberrations comme des ré# dans une tonalité de fa majeur.


Ce qu’il faut retenir

  1. MIDI = instructions, pas audio : C’est une partition numérique, pas un enregistrement.
  2. Messages fondamentaux : Note On/Off, Control Change, Program Change, Pitch Bend.
  3. Résolution 7 bits (0-127) : Suffisante pour les notes, limitée pour les contrôleurs fins.
  4. 16 canaux : Suffisant pour beaucoup d’usages, mais contraint pour la musique complexe.
  5. Ce qui manque : Structure musicale, microtonalité native, notation, nuances continues.
  6. Toujours pertinent : Après 40 ans, MIDI reste le standard de facto grâce à sa simplicité et son universalité.

Pour aller plus loin


Glossaire

  • Aftertouch : pression exercée sur une touche après l’attaque initiale. Permet d’ajouter de l’expression aux notes tenues (vibrato, crescendo…).
  • Bit : unité élémentaire d’information (0 ou 1). 7 bits = 128 valeurs possibles (0-127).
  • BPM : Beats Per Minute (battements par minute). Mesure du tempo. 120 BPM = 120 noires par minute.
  • Canal MIDI : subdivision logique (1-16) permettant d’adresser différents instruments sur un même câble. Comme 16 lignes téléphoniques indépendantes.
  • Control Change (CC) : message pour modifier des paramètres continus (volume, panoramique, sustain…). Identifié par un numéro (0-127) et une valeur (0-127).
  • DAW : Digital Audio Workstation (station de travail audio numérique). Logiciel de production musicale (Ableton, Logic, FL Studio…).
  • Enharmonie : en musique, deux notes de même hauteur mais d’orthographe différente (do# = ré♭). MIDI ne distingue pas les enharmoniques.
  • General MIDI (GM) : standard définissant 128 sons numérotés identiquement sur tous les appareils compatibles.
  • MPE : MIDI Polyphonic Expression. Extension permettant un canal par note pour l’expression individuelle.
  • Note On/Off : messages indiquant le début (Note On) et la fin (Note Off) d’une note.
  • Patch / Programme / Preset : son d’instrument prédéfini. Programme 1 = piano en General MIDI.
  • Pitch Bend : message faisant varier la hauteur d’une note de manière continue (glissando, vibrato).
  • PPQ : Pulses Per Quarter note (impulsions par noire). Résolution temporelle d’un fichier MIDI. 480 PPQ = 480 ticks par noire.
  • Protocole : ensemble de règles définissant comment deux systèmes communiquent.
  • SMF : Standard MIDI File. Format de fichier MIDI (.mid).
  • Tempérament égal : système d’accordage divisant l’octave en 12 demi-tons égaux. Standard de la musique occidentale moderne.
  • Tick : plus petite unité de temps dans un fichier MIDI. Le nombre de ticks par noire est défini par le PPQ.
  • Vélocité : intensité d’une note (0-127), correspondant à la « force de frappe ». Affecte généralement le volume et/ou le timbre.
  • VST : Virtual Studio Technology. Format de plugin audio permettant d’ajouter des instruments virtuels et effets à une DAW.

Liens

  • I1 — Pourquoi ce pont entre informatique et musique
  • I2 — Bol Processor — un système génératif dont les grammaires dépassent les limites de MIDI
  • I3 — SuperCollider — un environnement de synthèse et composition algorithmique
  • M1 (à venir) — MIDI sous le microscope formel — l’analyse formelle que cet article ne couvre pas
  • M2 — MusicXML — le format notationnel qui complète le panorama
  • M5 — Polymétrie — une des limites fondamentales de MIDI
  • Glossaire — Glossaire général de la série

Prérequis : I1, I2, I3
Temps de lecture : 12 min
Tags : #midi #protocole #audio #representation-musicale


Prochain article : M1 — MIDI sous le microscope formel : un protocole au pied de la hiérarchie de Chomsky