On peut dire que je suis (relativement) fainéant, ou que vous êtes (relativement) patients, car cette seconde partie se sera faite attendre !
Suite et fin (mais là aussi, la fin est toute relative) de cette mini-série sur La Compression.
La compression, sujet tellement trivial en 2023… Existe-t-elle encore ?
En dehors du fait qu’elle ajuste les sons de la vie quotidienne à la dynamique du malentendant, ce qui n’est déjà pas mal, est-elle sans effets corollaires ?
Afin de donner une idée des forces en présence dans une aide auditive :
- La récente norme IEC sur le futur des mesures au caisson ou en champ libre des aides auditives estime qu’un traitement mathématique du signal (réduction du bruit, amélioration de la parole, etc.) est probable lorsque une amélioration d’au moins 1dB (!!) du rapport signal/bruit peut être mesurée (bruit et voix à 0°) –> je casse un mythe là !
- Un bon système de directivité microphonique va améliorer de 3 à… 6dB le RSB
- L’amélioration totale du RSB avec tous ces systèmes peut atteindre en théorie de 3 à 9dB, et quelquefois un peu plus
- La compression, par les choix des constantes de temps et son type d’action peut TOTALEMENT détruire ce subtil château de cartes qu’est l’empilement de ces divers algorithmes
- Mais certains types de compression peuvent avoir un effet quasi neutre sur les performances finales des aides auditives, laissant alors “s’exprimer” tous les algorithmes en présence
Question : quels fabricants communiquent aujourd’hui sur leurs compressions ? Quasiment aucun ! Et c’est bien dommage, le point clé de la performance d’une aide auditive est pourtant là !
Voici détaillées 3 types de compressions, de la plus ancienne (WDRC) aux plus récentes (sensible au RSB et statistique) et leurs effets sur le RSB de sortie :
La compression WDRC
WD pour “Wide Dynamic”, elle agit de 30dB SPL (environ) à plus ou moins 80dB SPL d’entrée. Elle permet l’amplification relativement rapide des sons faibles et comprime les sons forts, rapidement.
Il existe des variantes ces dernières années avec des dynamiques d’action élargies; on pourrait parler de compressions de type EDRC (E pour Extended).
Elle s’active rapidement, en 10ms (syllabique) ou moins (5ms, phonémique) et revient à son état initial plus lentement, de 50 à plus de 200ms selon les fabricants.
Le problème étant que si l’on veut rapidement retrouver un gain suffisant pour la syllabe et le phonème suivant, il faut que le temps de retour soit assez court. Et si ce temps de retour est trop court… il peut s’ensuivre un “effet de pompage” dans certaines situations bruitées.
Egalement, le temps d’attaque, court, peut induire une dégradation spectrale de certains phonèmes.
Pour rapidement résumer, si la compression WDRC est connue pour améliorer l’audibilité des indices vocaux de faible intensité, elle est également connue depuis plus de 20 ans pour ses effets assez délétères (pardon Brice pour ce mot !) sur la parole et les performances dans le bruit.
Par exemple, elle peut, en lissant les crêtes de la parole dans des RSB très positifs, détériorer le RSB de sortie de plusieurs dB (en bleu foncé, les pics de la parole à l’entrée de l’aide auditive, en rouge foncé, le lissage des pics de la parole à la sortie pour RSB +10dB ici) :

Le billet précédent détaillait également l’impact de ce type de compression, non seulement sur le RSB à la sortie de l’aide auditive, mais également sur la qualité de la parole après traitement du signal.
Une compression sensible au RSB
En 2018 était présentée une compression dite “sensible au RSB” (SNR Aware Dynamic Range Compression), et plus récemment, une compression capable de détecter une scène acoustique.
Ce type de compression consiste à adapter le temps de retour en fonction du RSB calculé sur un intervalle de temps très court, pour ainsi échapper en partie à la dégradation du RSB de sortie aux RSB très positifs en entrée.
Le temps d’attaque est toujours court (5ms) afin d’amplifier rapidement une syllabe ou un phonème (je cite les auteurs). Mais lorsque la parole domine (RSB positifs) le temps de retour est de 40ms, et lorsque le bruit domine (RSB négatifs), le temps de retour varie de 500 à 2000ms.
Un temps de retour long permet de maintenir en état compressif quasi permanent le bruit.
Un temps de retour rapide permet de revenir relativement rapidement à une amplification de la parole.
Je vous engage à lire le premier article (en téléchargement libre) et de regarder la figure 2 comparant ce système SNR-Aware comparé à une compression WDRC rapide ou lente.
Si la dégradation aux RSB positifs inhérente à un temps d’attaque rapide est bien présente (mais moins que la WDRC selon les auteurs), aux RSB négatifs ou proches de zéro, l’amélioration est importante.
Mais qui utilise cette compression aujourd’hui ?? Mystère… Mais regardez quand même qui a financé cette étude de 2018…
La compression dite “Statistique”
Bien que ce mot de “Statistique” n’apparaisse pas clairement dans la littérature, je l’emploie ici pour décrire ce type de compression qui se base sur une analyse centile (statistique) du signal afin d’en évaluer la dynamique.
Qui dit “dynamique” dit en théorie “parole” le plus souvent (ou musique). Car la parole moyenne a une amplitude (une dynamique) de 30dB au moins :

Le bruit présente une dynamique beaucoup plus faible :

L’analyse statistique ou centile consiste à mesurer la dynamique d’un signal par une analyse certainement plus complexe que je la décris ici, mais qui a pour but de rechercher l’écart entre les crêtes (centile 99) et les vallées (centile 30) par exemple, d’un signal :

Evidemment, lorsque vous connaissez cette information, vous pouvez établir une règle de compression assez subtile, et variable en fonction de ce que vous mesurez :
- Dynamique importante = probabilité de parole : temps d’attaque lent (vous comprimez rarement) et temps de retour rapide (vous revenez rapidement à un gain satisfaisant). Le taux de compression effectif est proche de 1.
- Dynamique faible = probabilité de bruit : vous comprimez rapidement (vous protégez) et temps de retour long (vous maintenez comprimé). Le taux de compression est nominal (celui affiché par le logiciel)
- La subtilité étant de faire les deux, sinon en même temps, mais très rapidement.
L’analyse statistique du signal consistant à différencier la parole du bruit n’est pas nouvelle, comme le prouve ce document Widex de … 1997 ! (avant-dernière page).
La compression basée sur l’analyse statistique du signal n’est pas nouvelle non plus, puisqu’elle se nommait à l’origine ADRO (Adaptative Dynamic Range Output) et présentait en 2005 une stratégie très novatrice (et malheureusement un peu incomprise à l’époque).
Mais elle perdure certainement et se retrouve aujourd’hui, aidée par les capacités extraordinaires des circuits actuels, dans certaines aides auditives, sous des noms différents.
Il n’est pas impossible cependant que des fabricants utilisent des constantes des temps longues lorsque de la parole est détectée par un autre moyen qu’un “fenêtrage dynamique” tel qu’il est décrit plus haut.
Si tel est le cas (constantes d’attaques longues, donc gain linéaire pour la parole), le meilleur moyen indirect de s’en apercevoir est d’afficher le taux de compression de dynamique vocale, qui est alors proche de 1, alors même que le taux effectif (affiché par le logiciel) peut être très supérieur.
Mais qui ?? Là aussi, je vous laisse juges d’un manque assez cruels d’informations, ou alors nous ne sommes pas assez curieux (ce qui n’est pas impossible) !
Divers types de compressions actuelles
Ces trois compressions, même si la WDRC pure se retrouve très rarement aujourd’hui dans des aides auditives (et heureusement !) se retrouvent chez les fabricants des aides auditives. Mais qui utilise quoi ?
Bien difficile à dire, mais des mesures “à nu”, c’est à dire en désactivant tous les algorithmes, donnent une idée des forces en présence.
Sans détailler tous les modèles actuels, on va en effet retrouver une comportement assez typique de chaque technologie compressive employée :

Voilà pourquoi vous trouvez aujourd’hui des fabricants avec une très bonne amélioration du RSB théorique, mais totalement pénalisés par leur système compressif. Les algorithmes ne serviront alors en grande partie qu’à “gommer” les effets négatifs de leur compression :

Ne boudons pas notre plaisir cependant, car il est aujourd’hui possible de faire ce qui n’était pas envisageable il y a même 5 ans : protéger (comprimer) mais rester performant dans le bruit :

La variation du taux de compression (CR) sur ces trois modèles, de 1 à 3, n’affecte pas l’intelligibilité prédite des mots dans le bruit (type Framatrix). Bravo ! Ce que décrivait encore Kates dans l’article de 2018 cité plus haut (dégradation de la performance avec le taux de compression), est en passe de disparaître.
Une petite douche froide par ces temps de canicule mondiale ?
Je vais relativiser tous ces beaux résultats par analyse de l’intervention de l’audioprothésiste, qui peut peut être encore plus délétère (encore !) que la compression elle même. L’enfer est pavé de bonnes intentions : la bonne intention de l’audioprothésiste serait de rendre l’aide auditive confortable pour son patient, et qui pourrait l’en blâmer ? Et qui dit “confortable” dirait “ouvert”, par exemple sur cette perte auditive :

Mais qui aurait fermé ici ?
Comparons les résultats d’intelligibilité prédite (indice HASPIv2) dans le bruit (test type HINT) en couplage ouvert ou fermé :

Et la qualité du signal dans les mêmes conditions de couplage (indice HASQI v2) :

L’aide auditive a beau avoir de très bonnes performances dans le bruit, un système compressif qui va bien, l’effet du couplage est sans appel.
Conclusion
La compression aujourd’hui n’a pas disparu, et elle est même au centre de la bataille contre le bruit extérieur, et l’intelligibilité dans le bruit.
Plus que tous les algorithmes réunis, elle est responsable de la performance finale d’une aide auditive dans le bruit. Qui l’eut crû en 2023 ?
Qui en parle aujourd’hui chez les fabricants ? Savions-nous qu’elle avait autant évolué ces dernières décennies ? C’est un peu le néant…
Qui est responsable d’un manque de curiosité ou d’une lacune d’informations ? Un peu tout le monde…
Voici donc le petit tour d’horizon d’un système que nous avons tendance à croire inamovible et invariant dans les aides auditives, mais qui s’avère toujours le point central de leurs performances, même plus de 20 ans après son invention finalement (pour la WDRC).
PS : ce billet est le résumé d’une présentation au sein du réseau Dyapason en juin dernier. Toutes les mesures ont été faites en conditions réalistes : en pièces de vie relativement réverbérantes. Cela a son importance car les mesures réalisées en chambre anéchoïque sont toujours plus “belles” (trop ?).
Bon été à toutes et tous !
Merci Xavier, une nouvelle fois, pour ce bel article.
L’attitude délétère des fabricants à ne pas expliquer leurs algorithmes existe depuis que j’exerce. J’en viens à me demander si ce n’est pas inhérent à notre profession. En tous cas grâce à toi on sort de temps en temps du discours nominal et je trouve la démarche salvatrice.
Outre l’implant cochléaire, il me semble qu’ADRO avait aussi été implémentée sur les aides auditives françaises de l’entreprise Intrason en 2003, laquelle faisait ainsi son chant du cygne.
Et Sonic Innovation également
Ça ne leur a pas porté chance d’être en avance !