Tu ouvres Pro Tools, Reaper ou Logic, et la première fenêtre te demande de choisir ta fréquence d'échantillonnage. 44 100 ? 48 000 ? 96 000 ? La plupart des gens cochent par habitude, par mimétisme, ou parce qu'un forum leur a dit que « plus c'est haut, mieux c'est ». C'est rarement le bon raisonnement.

La fréquence d'échantillonnage n'est pas un simple curseur de qualité. C'est le paramètre fondamental qui détermine quelles fréquences audio seront correctement numérisées, lesquelles seront coupées, et — dans les mauvais cas — lesquelles vont créer des artefacts que tu ne maîtriseras plus du tout. Voilà ce que tu dois comprendre, avec les équations et les valeurs concrètes derrière.

01 / Fondamentaux

Découper le signal : ce que ça veut dire vraiment

Un signal audio analogique est une onde continue — une variation de tension qui évolue sans interruption dans le temps. Pour le stocker numériquement, le convertisseur analogique-numérique (AN) ne peut pas capturer cette continuité. Il doit prendre des instantanés réguliers de la tension à intervalles fixes. C'est exactement ça, l'échantillonnage : une série de mesures discrètes d'un signal continu.

La fréquence d'échantillonnage, exprimée en Hertz (Hz), indique combien d'échantillons de signal sont pris chaque seconde. À 44 100 Hz, le convertisseur mesure la tension de ton signal 44 100 fois par seconde. À 96 000 Hz, il en prend 96 000. Chaque mesure constitue un échantillon — un sample.

Schéma montrant les points d'échantillonnage sur une onde sonore analogique
Chaque point représente un instantané de tension. La courbe entre ces points est reconstituée par le convertisseur numérique-analogique (NA) à la lecture.

La reconstitution à la lecture

À la relecture, le convertisseur numérique-analogique (NA) reconstruit le signal continu à partir de ces points discrets. Plus les points sont nombreux par seconde, plus la reconstitution est précise — mais uniquement jusqu'à un certain seuil, défini par les lois physiques de la conversion. Au-delà, multiplier les échantillons n'apporte plus rien à l'oreille humaine.

Les fréquences d'échantillonnage courantes forment deux familles distinctes : 44 100 / 88 200 / 176 400 Hz d'un côté, et 48 000 / 96 000 / 192 000 Hz de l'autre. Cette séparation n'est pas arbitraire — elle a des implications directes dès que tu dois convertir d'une valeur à l'autre.

Valeurs de référence 44 100 Hz → standard musique, CD, streaming. 48 000 Hz → standard broadcast, post-production, vidéo. 88 200 / 96 000 Hz → enregistrement haute résolution. 176 400 / 192 000 Hz → mastering audiophile et archivage. Dolby Atmos Music : 48 000 ou 96 000 Hz obligatoire, même pour la musique.
02 / Théorie

Le théorème de Nyquist-Shannon et le filtre passe-bas

Avant même que le convertisseur ne prenne ses mesures, il effectue une opération essentielle : il filtre le signal entrant. Ce filtre s'appelle le filtre de Nyquist-Shannon — ou filtre anti-repliement. C'est un filtre passe-bas qui coupe toutes les fréquences au-dessus d'un certain seuil avant l'échantillonnage. Pourquoi ? Parce que le théorème de Shannon-Nyquist l'exige.

Pour qu'une fréquence soit correctement numérisée, la fréquence d'échantillonnage doit être au minimum deux fois supérieure à cette fréquence.

Concrètement : si tu veux numériser un signal à 10 000 Hz, ta fréquence d'échantillonnage doit être d'au moins 20 000 Hz. Pour un signal à 20 000 Hz — la limite haute théorique de l'audition humaine — il te faut au minimum 40 000 Hz. C'est précisément pourquoi le standard CD a été fixé à 44 100 Hz : il couvre l'intégralité du spectre audible avec une marge de 2 050 Hz au-dessus de la limite de Nyquist à 22 050 Hz.

La fréquence de Nyquist : la limite haute exacte

Pour chaque fréquence d'échantillonnage, la fréquence de Nyquist est exactement la moitié de sa valeur. C'est la fréquence maximale que le système peut représenter fidèlement :

Fréquence d'échantillonnage Fréquence de Nyquist Spectre couvert
44 100 Hz 22 050 Hz Spectre audible complet + 2 050 Hz de marge
48 000 Hz 24 000 Hz Spectre audible complet + 4 000 Hz de marge
96 000 Hz 48 000 Hz Très large marge ultrasonique
192 000 Hz 96 000 Hz Archivage et mastering haute résolution

Le filtre de Shannon coupe tout ce qui dépasse la fréquence de Nyquist avant l'échantillonnage. Ce n'est pas une perte : les fréquences ultrasoniques au-dessus de 20 000 Hz ne sont pas perçues par l'oreille humaine. En revanche, si elles ne sont pas filtrées, elles génèrent un phénomène bien réel et problématique.

Pourquoi 44 100 Hz et pas 40 000 Hz ? 40 000 Hz couvrirait théoriquement l'audition humaine (20 Hz–20 000 Hz). Mais les filtres réels ne coupent pas de manière instantanée — ils ont une pente. La marge de 4 100 Hz entre 40 000 et 44 100 Hz permet au filtre d'atteindre son atténuation maximale avant la fréquence de Nyquist, sans toucher aux 20 000 Hz audibles. C'est un compromis ingénierie, pas un chiffre choisi au hasard.
03 / Phénomènes

L'effet de repliement : le danger invisible

Voilà le phénomène que la plupart des articles sur le sujet mentionnent sans vraiment l'expliquer. L'aliasing — ou effet de repliement spectral — c'est ce qui se produit quand une fréquence supérieure à la fréquence de Nyquist échappe au filtre et entre quand même dans le processus d'échantillonnage.

⚠ Ce n'est pas juste une fréquence hors-spectre Une fréquence qui dépasse la limite de Nyquist ne disparaît pas silencieusement. Elle se "replie" et réapparaît dans le spectre audible à une fréquence différente, avec une amplitude et une phase que tu ne contrôles pas. Elle vient s'additionner à ton signal utile.

L'équation du repliement, avec un exemple concret

La fréquence de repliement se calcule simplement :

Fréquence de repliement = Fréquence d'erreur − Fréquence d'échantillonnage

Prenons un exemple précis. Tu travailles à 48 000 Hz. La fréquence de Nyquist est donc à 24 000 Hz. Suppose qu'une fréquence à 30 000 Hz échappe au filtre anti-repliement — un ultrasons généré par un instrument ou un effet. Tu pourrais te dire : "30 000 Hz, je n'entends pas ça, pas de problème."

Faux. Cette fréquence va se replier dans le spectre audible à :

Calcul de repliement 30 000 Hz (fréquence d'erreur) − 48 000 Hz (fréquence d'échantillonnage) = −18 000 Hz → soit 18 000 Hz dans le spectre audible. Cette fréquence parasite va s'additionner à ton signal à 18 kHz — une zone cruciale pour l'air et la brillance dans un mix.

Le problème ne s'arrête pas là. Cette fréquence de repliement à 18 000 Hz n'est pas un signal ordinaire. Tu en connais la hauteur — 18 kHz — mais tu n'as aucune maîtrise sur son amplitude ni sur sa rotation de phase. Elle s'ajoute à ton signal utile de manière totalement imprévisible, colore ton spectre dans les hautes fréquences, et tu ne peux pas l'égaliser sans toucher à ce que tu veux garder.

Les convertisseurs modernes et la réalité pratique

La bonne nouvelle : la quasi-totalité des convertisseurs contemporains intègrent des filtres anti-aliasing de haute qualité, conçus pour atténuer drastiquement tout ce qui dépasse la fréquence de Nyquist avant l'échantillonnage. Dans une chaîne correctement configurée, avec un convertisseur fiable et une fréquence d'échantillonnage d'au moins 44 100 Hz, le repliement spectral ne devrait pas être un problème audible.

Là où ça devient critique : lors des conversions de fréquence en cours de projet — notamment quand tu mélanges des fichiers à des taux différents, ou quand tu dois downsampler une session. C'est le sujet de la section suivante.

04 / Pratique

Choisir sa fréquence selon le projet

La question n'est pas "quelle fréquence donne le meilleur son ?" mais "quelle fréquence est adaptée à mon projet et à mon système ?". Deux critères commandent ce choix : la destination finale du contenu, et les ressources de ta machine.

Les trois familles de projets

Musique 44 100 / 88 200 Hz

Standard CD, streaming (Spotify, Apple Music, Tidal). Enregistrement en 88 200 Hz pour avoir de la marge au mixage, puis export final à 44 100 Hz via un ratio entier ÷2.

Post-production 48 000 / 96 000 Hz

Standard broadcast, cinéma, YouTube, jeux vidéo. Le 48 000 Hz est la norme mondiale de la vidéo. Passer en 96 000 Hz pour du dialogue haut de gamme ou du sound design avec beaucoup de traitement.

Dolby Atmos 48 000 / 96 000 Hz

Même pour le Dolby Atmos Music, la spec impose 48 000 Hz (ou 96 000 Hz). Travailler en 44 100 Hz sur un projet Atmos est une erreur de départ — prévoir la conversion dès la session d'enregistrement.

Le poids fichier et la charge CPU : le revers de la médaille

Doubler la fréquence d'échantillonnage double le poids des fichiers audio et la quantité de données que le processeur doit traiter en temps réel. En 96 000 Hz, chaque piste audio consomme deux fois plus de ressources qu'en 48 000 Hz. Sur une session avec 40 pistes et une vingtaine de plug-ins, cette différence peut rendre le projet injouable sur une machine modeste.

⚠ L'erreur classique du débutant Démarrer une session en 192 000 Hz parce que "plus c'est haut, mieux c'est". Si ton système ne peut pas maintenir cette fréquence de A à Z — enregistrement, mixage, mastering — tu seras forcé de convertir en cours de route. Et cette conversion, selon les fréquences en jeu, peut introduire des artefacts bien plus gênants que de travailler directement à 44 100 Hz.
Graphe sinusoïdale illustrant la résolution d'échantillonnage et les niveaux de quantification
La précision verticale (amplitude) dépend de la profondeur de bit — 16 ou 24 bits. La précision horizontale (temporelle) dépend de la fréquence d'échantillonnage. Les deux paramètres sont indépendants mais complémentaires.
05 / Technique avancée

Downsampling : le piège des conversions de ratio

Tu as enregistré en 96 000 Hz et tu dois livrer en 44 100 Hz. Simple ? Pas vraiment. Tout dépend du rapport mathématique entre les deux fréquences. C'est là que la conversion de sample rate peut dégrader ton signal — ou pas — selon que le ratio est entier ou non.

  1. Ratio entier : la conversion propre (ex. 96 000 → 48 000 Hz) Le rapport est exactement 2:1. Le système supprime simplement 1 point d'échantillonnage sur 2. Chaque point conservé correspond directement à un point original — aucune donnée n'est inventée, aucun calcul intermédiaire nécessaire. C'est la conversion la plus propre possible. La règle s'applique de la même façon pour 88 200 → 44 100 Hz (÷2), ou 192 000 → 96 000 Hz (÷2).
  2. Ratio non entier : l'interpolation (ex. 96 000 → 44 100 Hz) 96 000 n'est pas un multiple entier de 44 100. Le système ne peut pas simplement supprimer des points — il doit en recréer. Ce processus s'appelle l'interpolation : le convertisseur calcule de nouveaux points d'échantillonnage entre les points existants pour satisfaire la nouvelle densité temporelle. Ces points sont des estimations mathématiques, pas des mesures réelles du signal original. La qualité de l'algorithme de sample rate conversion (SRC) détermine l'impact sur le son.
  3. La règle pratique : restez dans la même famille tout au long du projet Si ton projet est destiné à un format 44 100 Hz (musique, streaming), commence en 44 100 ou 88 200 Hz. Si c'est pour de la vidéo ou du broadcast, commence en 48 000 ou 96 000 Hz. Tu évites ainsi toute conversion inter-sample et tu gardes des ratios entiers à chaque étape — de l'enregistrement jusqu'à l'export final.
Quel algorithme de SRC utiliser ? Quand la conversion inter-sample est inévitable, utilise un algorithme de haute qualité : r8brain, iZotope RX, ou le SRC interne de ton DAW en mode "best quality". Ces algorithmes minimisent l'impact de l'interpolation sur le spectre. Une conversion rapide en mode "fast" introduit des artefacts mesurables dans les hautes fréquences.
06 / Profondeur

Clock audio et jitter : là où se joue la vraie qualité

Jusqu'ici, on a parlé de la fréquence d'échantillonnage comme d'un paramètre théoriquement parfait : 44 100 instantanés par seconde, espacés de manière rigoureusement équidistante, soit un intervalle de 22,67 microsecondes entre chaque point. La réalité des convertisseurs est différente.

Dans la théorie, les points d'échantillonnage sont espacés d'un même intervalle de temps. Dans la pratique, ce n'est jamais exactement le cas.

Le jitter : la variation temporelle des échantillons

Le jitter désigne la variation de l'espacement temporel entre les points d'échantillonnage. Au lieu d'être parfaitement réguliers, les instants de mesure fluctuent légèrement autour de leur position théorique. Ces fluctuations sont mesurées en picosecondes (10⁻¹² secondes) ou en nanosecondes (10⁻⁹ secondes) sur les bons convertisseurs.

Pourquoi ça pose problème ? Parce que si le moment de la mesure n'est pas parfaitement régulier, la valeur mesurée ne correspond pas exactement à la valeur du signal au moment théorique prévu. À la reconstitution, ces petites erreurs temporelles se traduisent par des distorsions de basse amplitude dans le signal audio — souvent décrites comme une perte de "précision spatiale" ou une légère opacité dans les transitoires.

Logo CD Digital Audio — standard 44 100 Hz 16 bits
Le standard CDDA à 44 100 Hz / 16 bits reste une référence de stabilité de clock — à condition que le convertisseur soit de qualité.

Ce qui justifie la différence de prix entre convertisseurs

Un convertisseur à 150 € et un convertisseur à 3 000 € ne se différencient pas seulement par leur électronique analogique ou leurs préamplis. La qualité de l'oscillateur interne — le circuit qui génère le signal d'horloge régulant les instants d'échantillonnage — est un facteur majeur. Les meilleurs oscillateurs sont des quartz oven-controlled (OCXO) ou des oscillateurs au rubidium, capables de maintenir un jitter inférieur à 1 nanoseconde.

C'est aussi pour ça que les horloges audio externes (Big Ben d'Apogee, 10M d'Antelope, Master Clock de Mutec) existent : elles fournissent un signal de clock ultra-stable à l'ensemble de ta chaîne numérique, réduisant le jitter de chaque convertisseur à leur signal de référence.

Worldclock et synchronisation Dans un studio avec plusieurs convertisseurs numériques (convertisseur principal, interface secondaire, effets en insert numérique), tous doivent être synchronisés sur la même horloge. Un manque de synchronisation — deux appareils qui comptent leurs propres 48 000 Hz légèrement différemment — génère des clics, des artefacts et dans les cas graves, des désynchros de timing. Le worldclock BNC 75 Ω est le format de référence pour cette synchronisation.
— / Questions fréquentes

FAQ — Fréquence d'échantillonnage

Quelle est la différence concrète entre 44 100 Hz et 48 000 Hz ?

Les deux couvrent largement le spectre audible humain (20 Hz – 20 000 Hz). La différence n'est pas qualitative mais fonctionnelle : 44 100 Hz est le standard de la musique (CD, streaming), 48 000 Hz est le standard de la vidéo et du broadcast. Choisir la mauvaise pour ton projet t'expose à une conversion inter-familles à l'export, avec interpolation et dégradation potentielle. En termes de fréquence de Nyquist : 22 050 Hz contre 24 000 Hz — un écart imperceptible à l'oreille dans les conditions normales d'utilisation.

Travailler à 96 000 Hz donne-t-il vraiment un meilleur son ?

Pas directement sur le signal audio en lui-même. L'argument le plus solide pour les hautes fréquences d'échantillonnage n'est pas la captation d'ultrasons (que l'oreille n'entend pas) mais le comportement des filtres anti-aliasing : à 96 000 Hz, la fréquence de Nyquist est à 48 kHz, ce qui permet au filtre d'agir très loin du spectre audible, avec une pente plus douce et moins d'impact de phase dans les 15 000 – 20 000 Hz. Certains ingénieurs notent une légère transparence supplémentaire dans les hautes fréquences. L'impact est marginal, mais il existe. À peser contre le coût en ressources système.

Peut-on mélanger des fichiers à des fréquences différentes dans une même session ?

Non sans conversion. Ton DAW va automatiquement convertir tout fichier importé dont la fréquence d'échantillonnage ne correspond pas à celle de la session — souvent en mode "fast" par défaut, ce qui peut introduire des artefacts. La règle est simple : définir la fréquence de ta session en premier, enregistrer et importer tous tes fichiers dans cette fréquence dès le départ. Si tu reçois des fichiers en fréquence différente, convertis-les manuellement avec un outil de qualité (iZotope RX, r8brain) avant de les importer.

Qu'est-ce que l'aliasing exactement et est-ce que ça m'affecte vraiment ?

L'aliasing est la réinjection dans le spectre audible d'une fréquence qui dépasse la limite de Nyquist. La formule est : fréquence de repliement = fréquence hors-Nyquist − fréquence d'échantillonnage. Avec une fréquence d'échantillonnage de 48 000 Hz, un signal à 30 000 Hz se replie à 18 000 Hz dans ton mix — avec une phase et une amplitude que tu ne contrôles pas. Dans la pratique, les convertisseurs modernes de qualité correcte filtrent efficacement avant l'échantillonnage. Là où l'aliasing devient un vrai problème : certains plug-ins bas de gamme ou en mode "ECO" qui synthétisent des harmoniques au-dessus de la fréquence de Nyquist sans les filtrer.

À quelle fréquence travailler pour un projet Dolby Atmos ?

La spécification Dolby Atmos impose 48 000 Hz ou 96 000 Hz, que ce soit pour du Dolby Atmos Cinema ou du Dolby Atmos Music. Même si tu produis de la musique — donc normalement dans la famille 44 100 Hz — un projet Atmos doit être mené en 48 000 Hz de bout en bout. Commencer en 44 100 Hz et convertir à l'export génère une conversion inter-familles (ratio non entier) et est une source d'erreur fréquente. Configure ta session d'enregistrement en 48 000 Hz (ou 96 000 Hz pour du Atmos haute résolution) dès le premier jour.

Partager cet article

Aller plus loin sur la conversion numérique

La fréquence d'échantillonnage est indissociable de la profondeur de bit. Comprendre les deux ensemble, c'est comprendre ce que fait vraiment ton convertisseur.

Lire : Résolution en bits