Ce document est une introduction interactive au traitement du son, avec une application particulière à l'accélération/ralentissement d'un son à l'aide d'un vocodeur. [décrire de façon succinte le fonctionnement de l'applet]
De nombreux objets de notre quotidien sont liés au son. Ils peuvent avoir plusieurs fonctions.
- l'émission ou la réception : radio, lecteur de cd,instruments de musique, téléphone ...
- l'enregistrement : micro.
- le stockage : cd, DVD ...
- la synthèse du son : synthétiseur.
La plupart d'entre eux utilisent des éléments de traitement du signal dont nous donnons les bases dans la suite.
Un son est la propagation d'une vibration dans un milieu (air, solide ...). Par exemple, le pincement d'une corde de guitare fait vibrer celle-ci qui à son tour crée des variations de pression de l'air environnant. C'est la vibration correspondant aux variations de pression de l'air que perçoit notre oreille. Notez bien que la vibration a besoin d'un milieu dand lequel se propager : dans le vide, par exemple dans l'Espace, il n'y a pas de sons !
Cette vibration peut etre mesurée et donne lieu à une première façon de représenter le son. On peut ainsi représenter les variations de pression de l'air ou d'amplitude d'une membrane en fonction du temps. Ce type de représentation est appelé représentation en amplitude. Voici un exemple de son de flute et d'oiseau:
Son de flute Son d'oiseau Zoom sur la partie rouge Zoom sur la partie rouge
Le type de son le plus simple est le suivant, correspondant à la variation périodique et régulière d'une membrane :
Sinusoide On peut alors compter le nombre de pics ('bosses') du signal par seconde, on obtient ce qu'on appelle la fréquence du son. L'unité de mesure de la fréquence est le Hertz, noté Hz.
Cette notion de fréquence s'étend pour des signaux plus compliqués que le précédent, par exemple ceux de l'instrument et de la voix montrés juste avant. Ceux-ci sont composés de différentes fréquences et ces fréquences peuvent varier en fonction du temps.
Toutes les fréquences ne peuvent etre perçues par l'oreille humaine. Celle-ci ne perçoit que les fréquences comprises entre 15 Hz et 15000 Hz environ. Il faut également savoir que les sons graves correspondent aux basses fréquences et les sons aigus aux hautes fréquences.
Un exemple : un instrument de musique joue un La pendant une seconde puis un Mi pendant une seconde. La première seconde comportera alors un contenu en fréquences composé de : la fréquence du La (440 Hz), quelques harmoniques (des multiples entiers de 440 Hz) ainsi que d'autres fréquences d''intensités' moins importantes et caractéristiques de l'instrument. La notion d'intensité associée à une fréquence correspond physiquement à l'énergie de cette fréquence dans le signal. De meme, les fréquences correspondant à la deuxième seconde sont : celle du Mi (330 Hz), des harmoniques et quelques autres fréquences d'intensités plus faibles.
Cette représentation en termes de fréquences se généralise à un signal sonore quelconque pour obtenir la notion de spectrogramme. Etant donné un signal sonore donné sous forme de variation d'amplitude, on le découpe en petits intervalles réguliers de durée Delta_t (dans l'exemple précédent, Delta_t vaut une seconde), et sur chaque intervalle, on décrit chaque fréquence presenté par son intensité.
Une propriété importante de cette représentation en fréquences est que l'on peut revenir à la représentation en amplitude initiale en 'inversant' la transformation.
son de flute (en bas)
et spectrogramme associé (en haut)son d'oiseau (en bas)
et spectrogramme associé (en haut)
Pour stocker un son sur un ordinateur, on 'code' celui-ci à partir de sa représentation en amplitude. Pour cela, on relève l'amplitude de vibration à des intervalles de temps précis. Le nombre d'intervalles de temps par seconde est la fréquence d'échantillonnage. Cette quantité est déterminante pour la qualité du son obtenue. Ainsi, la musique de CD correspond a une fréquence d'échantillonnage de 44100 Hz, celle d'une radio est de 22000 Hz et celle d'un téléphone de 8000 Hz.
L'amplitude en un point est alors codée sur un certain nombre de bits (correspondant chacun à un nombre de 0 et de 1).
Le concept de spectrogramme, qui donne une représentation du son en fréquences, va nous permettre de résoudre un certain nombre de problèmes de traitement du son. Le problème que l'on considèrera ici est celui de l'accéleration ou du ralentissement d'un enregistrement (avec le moins possible d'altérations).
On part d'un enregistrement sonore, comment produire un enregistrement quatre fois plus court ? Une idée simple est de jouer l'enregistrement quatre fois plus vite. Mais le signal correspondant est alors quatre fois plus rapide, donc sa fréquence est quatre fois plus élevée, ce qui fait que l'on perçoit un son quatre fois plus aigu !
Sinusoide
(basse fréquence, son grave)La même sinusoide accélérée 4 fois. Et comment faire pour obtenir un enregistrement quatre fois plus long ?
Pour résoudre ce problème, on utilise un vocodeur. Un vocodeur n'est rien d'autre qu'un programme calculant le spectrogramme associé à l'enregistrement et effectuant des opérations sur ce spectrogramme.
La première étape est de découper l'enregistrement en intervalles -appelées fenetres- de durée Delta_t.
Ensuite, sur chaque intervalle, on réalise une analyse en fréquences du signal.
Pour accélérer de quatre fois le son, on supprime trois fenetres sur quatre puis on réalise l'opération inverse de celle faite pour obtenir le spectrogramme pour revenir à une représentation en amplitude et pouvoir écouter le nouveau son obtenu.
Pour ralentir de quatre fois le son, c'est le meme principe, mais il fois cette fois créer de nouvelles fenetres. Entre quatre fenetres adjacentes, on en crée une nouvelle dont le contenu en fréquences est une interpolation (une sorte de moyenne) des contenus en fréquences des quatre fenetres utilisées. On revient enfin à une représentation en amplitude par le meme principe que pour l'accélération (en effectuant l'opération 'inverse').
Voici un exemple d'utilisation du vocodeur. A gauche on peut voir le son original, et à droite le son modifié : la première partie du son est prononcée plus lentement, et la deuxième est accélérée.
son original (en bas)
et spectrogramme associé (en haut)son modifié (en bas)
et spectrogramme associé (en haut)