Les aventuriers de la cible perdue

Le professeur Indiana Tones, à la recherche de la cible perdue, se posait la question :

« Comment les fabricants font-ils pour préserver d’une surchauffe ces cerveaux si soumis à ces sons qui ne cessent (souvent, subrepticement) de surgir ? »

Vous noterez au passage la magnifique allitération dans la question du Pr Tones, allitération malheureusement inaccessible aux naufragés du 6kHz !

Partons donc sur les traces d’un grand méconnu de l’audioprothèse, qui gagnerait cependant à être connu, tant il est à la base de réelles différences* entre fabricants.

*différences : je vous laisse juges de ce terme flou. On dira de façon diplomatique : « maintient de l’effort cognitif le plus bas possible en présence de bruit, par tous moyens qui sembleraient les mieux appropriés, la compression ou tout le reste ».

Bref la question se résume ainsi : comprimer ou faire émerger ? Protéger ou amplifier ? Dilemme quantique, dilemme audio-prothétique !

Le sujet du jour qui justifie ce titre vaseux est le « Target Loss », ou, vaguement traduit, « la perte de cible ». Il s’agit d’un phénomène le plus souvent corollaire à la compression ou aux traitements du signal, non-recherché (on l’espère), et qui a pour conséquence une diminution du gain du signal « utile » (la parole) au fur et à mesure que le signal « inutile » (le bruit) augmente autour du sujet.

On recherche en effet plusieurs choses qui peuvent paraître contradictoires dans la réhabilitation prothétique de l’audition :

  • atteindre une cible, une émergence de la parole qui permette, quelle que soit l’ambiance autour du malentendant, de maintenir constante l’intelligibilité,
  • mais en même temps et quel que soit le niveau de bruit, contenir ou même diminuer ce dernier,
  • et soyons fous : en milieu bruyant (RSB négatif), d’amplifier plus la parole qu’en milieux calmes (RSB positif). Une promesse folle ?

Ce phénomène de « target loss » ou perte de gain du signal utile est d’abord (et espérons-le, uniquement) dû à la compression, ou plutôt, au type de compression utilisée.

La compression

En effet, avec une compression très répandue aujourd’hui, la compression WDRC (Wide Dynamic Range Compression), en fonction du taux de compression (CR) et des temps d’attaque et de retour (AT/RT) :

  • lorsque le RSB d’entrée est positif, les crêtes de la parole émergent au-dessus du bruit, la compression lisse les crêtes du signal utile, dégradant le RSB de sortie
  • lorsque le RSB d’entrée est négatif, le bruit émerge au-dessus de la parole, la compression fait l’inverse (lisse le bruit), améliorant (un peu) le RSB de sortie.

On obtient cela (Naylor & Johannesson, 2009) :

Donc une compression, plus elle est rapide, plus elle protège mais plus elle dégrade le RSB. Mais qui serait assez fou aujourd’hui pour ne pas comprimer ? Ce qui veut dire quand même, en regardant ce graphique, que la perte de RSB est de 2 à 3dB au minimum, que le fabricant devra rattraper afin de « juste » revenir à zéro dB de perte de RSB.

Une compression lente (AT et/ou RT) dégrade peut-être moins, mais sera moins efficace sur des impulsions rapides. Dilemme…

Si on met « à nu » quelques fabricants, ne maintenant actives que leurs compressions et en désactivant tous les autres systèmes de traitement du signal, on obtient des différentes relativement importantes, trahissant leurs stratégies respectives dans ce domaine :

Ces graphiques ne présagent en rien des performances finales dans le bruit de ces appareils, mais donnent tout de même le « La », c’est à dire le point de départ du système à nu, à partir de quoi il va falloir :

  • que les algorithmes corrigent d’abord les effets plus ou moins délétères de leurs compressions,
  • et ensuite qu’ils améliorent autant que possible le rapport signal/bruit au delà de la limite de conservation du RSB.

Faire et défaire, c’est travailler…

Ces trois fabricants proposent des taux de compression supérieurs à 1.5/1.7, que ce soit entre les signaux faibles et moyens ou moyens et forts. Bien sûr, on reconnaitra les taux de compression souvent plus élevés chez Phonak, très certainement associés à des temps d’attaque très courts. Certains patients aiment ce qui peut être associé à un certain confort. Bernafon et Widex proposent des CR de 1.7 à 2.0 sur ces mêmes plages dynamiques avec des conséquences plus faibles, voire nulles sur le RSB de sortie.

La compression semble donc ne pas avoir le même effet chez tous les fabricants, c’est un début de piste sur la façon dont elle fonctionne.

Une analyse rapide ou une analyse lente ?

Il s’agit de la boîte noire des fabricants d’aides auditives. Je ne peux que conjecturer sur ce point.

Admettons qu’une aide auditive puisse transmettre un signal de 11kHz de bande passante environ. La fréquence d’échantillonnage du signal nécessaire, si l’aide auditive fonctionne de la sorte, serait de 22050Hz.

Comme avec tout système d’analyse du signal, à partir de cette fréquence d’échantillonnage, le fabricant doit/devait choisir quelle résolution temporelle il souhaite/souhaitait obtenir pour essayer de calibrer son circuit physique. En effet :

  • s’il souhaite analyser des phénomènes rapides ou phonémiques de l’ordre de 5ms, comme la parole, le circuit doit stocker 128 échantillons temporels avant d’effectuer une FFT (128/22050 = 5ms)
  • s’il souhaite analyser des phénomènes plus lents ou plus stationnaires, comme le bruit, un stockage de 1024 échantillons temporels permet une analyse d’événements de 1024/22050 = 46ms environ
  • Est-il possible de faire travailler en parallèle ces deux types d’analyse ?

Dans le premier cas, la résolution fréquentielle sera de 172Hz (22050/128), dans le second de 21Hz (22050/1024). Dans les deux cas, la résolution fréquentielle est largement inférieure à la largeur d’un canal.

En analyse du signal, on ne travaille pas en fréquentiel ou en temporel : on travaille en temporel et en fréquentiel. Mais en fonction du nombre d’échantillons stockés avant d’effectuer une FFT, le fabricant cherchera à privilégier une meilleure résolution temporelle ou fréquentielle, selon les besoins.

Il n’est pas impossible que certaines aides auditives effectuent une FFT dans chaque canal indépendamment, et en fonction de la largeur du canal concerné, mais avec les mêmes contraintes temporelles décrites plus haut.

Le matériel dicte sa loi et il est certainement étudié en amont de la conception en fonction de ce que le fabricant souhaite faire avec son appareil, quels phénomènes temporels il veut « voir » dans le signal.

Mais on le voit bien, plus la compression WDRC est rapide, plus elle est potentiellement capable d’amplifier des zones faibles et très fugaces de la parole, comme certains phonèmes. Mais plus elle est susceptible de dégrader le RSB dans des ambiances plutôt peu bruitées.

Plus on pédale moins fort et moins on avance plus vite.

Pierre DAC

Alors, compression ou pas compression ? Lente ou rapide ? Analyse temporelle tournée vers la parole ou vers le bruit ?

Sera t-il possible de ne pas choisir ?

Tout d’abord, retour au « target loss »…

La perte de gain du signal de parole dans le bruit

En réussissant à séparer bruit et signal mélangés au sein d’une mixture signal+bruit (Hagerman & Olofsson, 2004), on peut calculer le gain apporté au signal et celui au bruit, au fur et à mesure que le RSB se dégrade. On peut donc visualiser un éventuel « target loss ». Ce « target loss » pourrait être dû, lors de l’augmentation du niveau du bruit, à une activation plus importante des compressions.

Si une aide auditive fait bien son devoir, c’est à dire qu’elle réussit par les effets conjugués de ses algorithmes à faire émerger la parole au-dessus du bruit, la compression peut potentiellement écrêter le signal utile, diminuant son gain.

C’est la boucle théorique du « target loss ».

Forts taux de compression et temps d’attaque rapides, le target loss peut se manifester par une perte de gain de la parole dans le bruit :

En linéarisant (CR 1.0) entre les intensités faibles et moyennes, donc dans la zone de la parole, ce phénomène peut être estompé :

Le rapport signal/bruit s’en retrouve alors légèrement amélioré (1 à 2dB) :

La compression importante proposée en général sur ce modèle est souvent associée à un certain confort. L’apport d’un second TK sur le Paradise permet, en linéarisant la zone de la parole, de contourner un risque de target loss, et donc d’améliorer dans une certaine mesure le RSB, par une meilleure émergence des indices vocaux.

Une autre approche est tentée depuis quelques années : malgré des taux de compression, certes pas aussi importants que ceux de Phonak, mais tout de même de l’ordre de 1.4 à 2.0, Bernafon ne présente pas un target loss aussi important :

S’affranchir de la compression tout en comprimant ?

L’usage de technologies, pas si récentes mais raffinées ces dernières années, comme le gain linéaire flottant entre autres, permet d’éviter ce phénomène de target loss.

Cela consiste à utiliser des temps d’attaques et de retours variables en fonction du type de signal. On a bien un système compressif, mais couplé à divers estimateurs du signal :

  • le signal évolue t-il rapidement ? (des phonèmes, de la parole)
  • y a t-il des indices de parole comme la co-modulation ?
  • le signal a t-il peu de dynamique (du bruit ?) ou au moins 15dB de dynamique dans le temps (de la parole ?) ?

Tous ces estimateurs et certainement d’autres, entrent en considération dans la prise de décision des aides auditives modernes.

On peut alors avoir à la fois un système compressif pour des bruits jugés « inutiles » sans avoir à subir un target loss inhérent à la compression pure.

Divers systèmes existent donc, et j’en reviens au début de ce loooooonnnnng post : « Analyse rapide ou analyse lente ? » pour évoquer une avancée qui semble intéressante, avec un nouveau réglage accessible aux audioprothésistes (encore faut-il savoir ce qu’il gère…).

Si on considère que le mieux est un target loss nul (0dB de perte de gain du signal utile en milieu bruyant), on peut constater sur un appareil récent (BERNAFON Alpha 9), le phénomène inverse du target loss :

Pour des RSB inférieurs à 0dB, le gain du signal va augmenter par rapport à celui des RSB positifs. Il y a dissociation nette du bruit et de la parole. Il est très possible (euphémisme) que cela soit dû à ce que le fabricant décrit comme un traitement « hybride » du signal. Le circuit permet donc une analyse temporelle rapide favorisant les indices faibles de la parole, mais en parallèle une analyse lente est effectuée pour des signaux fluctuant moins rapidement (le bruit).

Cela se traduit, outre l’amélioration apportée par la directivité et la réduction du bruit, par une émergence renforcée du signal dans le bruit :

Nous avons donc maintenant accès à de nouvelles fonctionnalités qui nous étaient non seulement inconnues (de moi en tout cas) avec un impact important pour les patients : il semble possible de comprimer tout en conservant une émergence satisfaisante, voire renforcée.

Chez Bernafon, le réglage du target loss, à partir de Alpha 7 s’appelle… « Sound balance ». Encore faut-il savoir ce que ça recouvre comme comportement de l’appareil, et ce que ça règle.

Est-il possible pour l’audioprothésiste de visualiser le target loss sans matériel de rat de laboratoire ?

Oui.

  • Certaines chaînes de mesure (Audioscan Verifit 2) permettent de visualiser le niveau de la parole et du bruit par une mesure de directivité multibandes en temps réel :
  • les courbes vertes pour un RSB de 0dB : en gras micro avant, en fin micro arrière
  • les courbes violette et orange à RSB +6dB et +12dB

On retrouve bien sur ce Bernafon Alpha l’effet d’augmentation du gain de la parole à RSB 0dB par rapport à +6/+12dB. En tous cas, pas de target loss.

  • Sur la Freefit de Natus, l’activation des taux de compression de dynamique du signal donne un bon aperçu de la compression appliqué à la parole et/ou du travail d’algorithmes tels que le gain linéaire flottant :
Un taux de compression de 1.0 dans chaque bande de 1/3 d’octave montre un respect de la dynamique +12/-18dB. Un bon départ pour éviter trop de Target Loss.
  • Avec Affinity/Affinity Compact d’Interacoustics, le même paramétrage du taux de compression de dynamique vocale est possible (CR = 1 = dynamique préservée) :

Conclusion

  • Tout d’abord : ce billet, bien long, est dans mes tiroirs depuis bientôt deux ans ! Je visualisais le phénomène, sans savoir tout d’abord ce qu’il représentait. Il était pour moi jusqu’alors un critère de qualité. L’arrivée d’une nouvelle technologie d’analyse du signal a déclenché ma rédaction bien longtemps reportée.
  • MAIS : je pense réellement que ce n’est pas parce qu’un appareil présente un target loss que cet appareil est « mauvais ». Certains des appareils présentés ici présentent un target loss plus ou moins important et donnent des résultats excellents, dont ni mes patients ni moi ne voudrions nous passer.
  • Il a toujours été possible, dans une certaine mesure, de maîtriser le target loss, des fois plus facilement chez certains fabricants que d’autres. Widex très tôt, en proposant des multiples TK a toujours permis inconsciemment (sans connaître le phénomène) de linéariser la zone de la voix « moyenne », maximisant ainsi ses chances d’émergence; Phonak, jusqu’à Marvel n’avait qu’un (!) seul point d’enclenchement, chose désormais modifiée avec Paradise, permettant maintenant de limiter le phénomène sur la voix « moyenne »; Bernafon (et peut-être d’autres) ont choisi la voie exposée ici.
  • Il est possible de prédire ce phénomène en lisant des mesures in vivo comme on le voit sur les illustrations précédentes
  • Il est très intéressant de constater que la technologie, au-delà du discours marketing, fonctionne, et qu’il est toujours possible d’en démontrer (ou pas) les apports.
  • Il était important à mes yeux de montrer que les aides auditives de Classe II permettent l’introduction de technologies réellement avancées et différenciantes par rapport à celles utilisées en Classe I, avec des conséquences pour les patients qui peuvent être perceptibles (pour les patients qui en auraient potentiellement besoin)
  • Il est important d’avoir ces notions d’analyse du signal à l’esprit, culture scientifique de base.
  • Régler du gain, régler de la compression en fait, régler tout ce que l’on veut, c’est bien. Régler le « target loss », c’est pas mal non plus, ne boudons pas notre plaisir. Que ce soit pas le biais indirect de la compression ou par un réglage spécifique.
  • Je n’ai AUCUN INTERET chez les fabricants cités plus haut. Je constate, j’en discute, beaucoup (merci Christophe L. entre autres), je partage.

Indiana Tones peut repartir serein vers de nouvelles aventures !

4 commentaires sur “Les aventuriers de la cible perdue

  1. Bravo xavier pour tes petits billets toujours pertinents. Je veux t’apporter un peu de polémique dans cette analyse pour te donner mon point de vue et ma maniéré de gérer la situation.
    En effet c’est souvent un autre phénomène qui génère la perte d’intelligibilité dans le bruit de nos chers patients appareillées avec des embouts ouverts et des compressions centrées sur les Hautres Fréquences.
    Si tu considères que la compression doit toujours être en route pour compenser le recrutement d.un patient ceci avec un Ta très court, par exemple 5 et un Tr très long par exemple 1550 ms avec un point de déclenchement très bas 30 – 40 dB tu n’as plus ce phénomène d’augmentation de la dégradation du rapport/bruit avec son niveau. En effet cette dégradation est constante, puisque les signaux de la parole et du bruit sont tous les deux dégradés de la valeur du facteur de compression.
    Si tu veux améliorer ce rapport signal/ bruit tu peux alors choisir de travailler sur un modelage de ta courbe de réponse afin d.éviter qu’elle bascule avec tes aiguës qui baissent avec la compression alors que t’es graves restent constant à travers ton gros évent.
    Il faut alors choisir de fermer presque complètement ton oreille ( évent d’equi-pression 1mm ) et mettre en place une compression sur les BF avec un facteur de compression au moins égal à celui que tu as mis en place sur les HF ( même si tu n.as pas de recrutement sur ces fréquences)
    En effet dans la majorité des cas nos chers confrères mettent en place une compression sur les HF avec des embouts très ouverts et le déclenchement de la compression entraine une basse de gain sur les HF sans baisse équivalente du signal perçu sur les BF et générant ainsi un effet de masque des BF sur les HF dans une configuration où les troubles de sélectivité frequencielle sont souvent présents.

    Amitiés
    François LE HER

    1. Merci François pour ton apport. Loin d’apporter de la polémique, tu apportes un autre point de vue tout aussi intéressant.
      Concernant la perte de RSB en fonction du couplage acoustique, c’est un (gros) chantier sur lequel, sans dévoiler de secret, je prépare quelque chose. On est là des fois dans une certaine inconscience de ce qui peut se passer.
      Merci en tous cas.

Répondre à LE HER François Annuler la réponse.