Incertitude en audiométrie vocale – Partie 2

Pour faire suite à la première partie, cette seconde partie promise depuis (trop) longtemps, et qui aura été bien longue à venir du papier à l’écran. Merci de votre patience…

Je souhaitais, en toute modestie (car je ne suis pas mathématicien de métier), rappeler quelques bases de statistique et de probabilités dans le but d’interpréter les résultats des tests vocaux. Cette seconde partie va aborder l’audiométrie vocale dans le silence (AVS), avant d’aller un peu plus loin pour une troisième et dernière partie, plus complexe, de l’audiométrie vocale dans le bruit (AVB).

Le but n’est pas de décortiquer des équations, mais d’avoir conscience de quelques chiffres et notions de base pour pouvoir dire « mieux » ou « moins bon », et très souvent… « ne se prononce pas » !

En effet, on peut être surpris par ce fait, mais la sensibilité d’un test d’audiométrie n’est pas forcément ou uniquement liée à la qualité de sa composition phonétique, mais elle est liée surtout à la quantité d’items de test.

Mais attention : je distingue là les tests de type « quantitatifs » et de type « qualitatifs ». Les premiers va chercher une « quantité » répétée (pourcentages), là où les seconds s’intéressent plus à l’aspect d’un trait non-perçu, d’une zone fréquentielle non détectée, etc.

L’analyse statistique s’applique aux tests vocaux de type « quantitatifs », mais les seconds n’y échapperaient pas s’il fallait comparer deux conditions (avant/après, avec/sans, condition1/condition2).

Audiométrie vocale : des gens bons en paris* ?

On peut considérer une audiométrie vocale comme un pari : face, je répète correctement, pile, je ne répète pas correctement. Et donc, pour chaque intensité de test, j’ai une chance sur deux de réussir/me tromper, donc une probabilité de 50% pour chaque événement (p=0.5 et q=0.5). Evidemment, avec une intensité confortable, j’ai certainement plus de chance de répéter juste que de ne pas… On peut matérialiser cela par la « distribution » (répartition des probabilités de répétition) suivante, si on répète un certain nombre de fois ces tests :

J’ai modélisé ici un patient à qui on fait répéter des disyllabiques de J.E. FOURNIER. Sans appareil, ce patient, 40% du temps en moyenne va répéter 2 mots/10, alors qu’avec appareil, 70% du temps il répétera 8mots/10. On peut aussi le prendre dans l’autre sens (le verre à moitié vide), et dire que ce patient a respectivement 60% de malchance ou 30% de malchance de ne pas répéter 2 et 8 mots/10 avant et après son appareillage. Sonnez trompettes, résonnez musettes : le job est fait, puisque l’amélioration est de 60% !

On… parie ?


Pascal : « Je parie que Dieu existe ! Au mieux, je gagne ! »


Krishnamurti : « Croire en Dieu est une folie. Ne pas croire en Dieu est la même folie. »


Avec ça, donc, on est bien… Heureusement que le diable (certainement lui) a inventé les probas et les stats ! Et comme c’est très certainement le diable à l’origine de tout ça, il en a obtenu l’enseignement dès le lycée !!

Dans l’exemple précédent, on avait donc l’expérience simulée d’une répétition de mots de FOURNIER, mais simulée plusieurs fois (car c’est un patient TRES patient…). Comme le nombre de répétitions du même test est grand, il y a toutes les chances que la probabilité de répétitions avant/après appareillage suive une loi binomiale. C’est la loi qui va régir les événements « discrets » (par opposition aux événements « continus »), c’est à dire du type oui/non, répété/pas répété, etc. Car ici, on ne peut pas répéter un demi-mot.

En statistique, on estime cependant qu’un événement « discret » (de 1 mot en 1 mot comme ici, dans le cas des listes dissyllabiques de J.E. FOURNIER) peut être considéré comme un événement « continu » (par exemple, une infinité de répétitions possibles entre 1 et 2 mots) dès lors que n x p = 5 ou n x q = 5. Ici, n est le nombre de mots et p et q sont probabilités de répéter chaque mot (50% chaque = 0.5). Donc pour les dissyllabiques, np = nq = 10×0.5 = 5. C’est limite bon, on peut passer d’une loi discrète (binomiale) à une loi continue (normale).

Pourquoi s’évertuer à passer d’une loi discrète à une loi continue ?

Parce qu’avec une loi « continue » ou « normale », on peut commencer à faire des calculs (ah ! des calculs !!) nous permettant enfin de savoir s’il est vraiment mieux de répéter 80% des mots après appareillage, que 20% des mots avant appareillage. Ou toute autre liste, tout autre matériel vocal, voire même (grands fous !) de comparer des tests phonétiques entre eux ! Le bonheur, quoi !

Et puis, une loi « normale » ou « continue », c’est beau :

N’est-ce pas beau ?

En fait, on a juste changé l’échelle (on dit : « centrage-réduction » dans le langage des matheux…) : le « 0.00 » correspond par exemple à la probabilité (moyenne) de répéter 2 mots sur 10 avant appareillage, et en gros, 95% des probabilités de répétitions sont situées entre -1.96 et 1.96 « écarts types » de cette moyenne. Pourquoi +/-1.96 écart-type ? car souvent en statistique, on veut être sûr à 95% (voire plus) que tel résultat est bien différent de tel autre. Et justement, avec la loi dite « normale », 95% des valeurs sont situées à +/-1.96 écart type de la moyenne. On accepte donc ici de prendre un risque d’erreur « alpha » de +/-2.5%, soit 5% au total :

Ce qui veut dire en clair que si avant/après appareillage, les deux distributions de probabilité de répétitions se chevauchent trop (de plus de 2.5% d’un côté ou de l’autre), on ne pourra pas conclure entre « amélioration » et « fruit du hasard », au risque de 5%, ou avec une certitude de 95%. Voilà (enfin !!!!) où je veux en arriver : significatif ou pas ?

Des calculs !

Si on reprend notre liste de FOURNIER, de 10 mots donc, les maths nous disent que l’on peut calculer l’écart type d’un pourcentage par la formule :

es = √((p×q)/(n−1))

Ici, la probabilité de répéter ou de ne pas répéter un mot sont de p = q = 0.5 et n = 10 mots, donc :

es = √(0.5×0.5)/9 = 16.66% ou 0.1666

Et une fois que l’on a cet « écart type », si on considère que ces répétitions suivent une loi « normale » on peut trouver la borne inférieure de l’intervalle de confiance à 95% :

IC95inf = 0.5-(1.96×0.1666) = 0.1734 = 17,34% donc en arrondissant au multiple de 10% supérieur ≈ 20%

Et l’intervalle supérieur de confiance :

IC95sup = 0.5+(1.96×0.1666) = 0.8265 = 82,65% donc en arrondissant au multiple de 10% inférieur ≈ 80%

Qu’est-ce que cela veut dire ?

Et bien que, indépendamment de ses capacités d’intelligibilité, quand un patient répète des mots dissyllabiques de FOURNIER, et que l’on obtient un score de répétition, il existe une « incertitude » de 60% (80—20) autour de ce score. Ce n’est pas lié au patient, à ses capacités, son état de fatigue, sa surdité ou son appareillage, MAIS AU NOMBRE D’ITEMS TESTES.

Ce qui donne graphiquement :

Là, c’est bien plus clair : les intervalles de confiance se chevauchent (zone grise foncée) = il est impossible d’affirmer avec une certitude de 95% qu’un score de 80% est meilleur qu’un score de 20% !

Donc, il y a plusieurs solutions :

  • élever des biques dans la Drôme et en autarcie, le challenge est beau et respectable…
  • faire comme le faisait FOURNIER = faire plusieurs listes pour chaque niveau de test, donc augmenter n
  • faire d’autres listes, avec plus d’items testés…

Augmenter le nombre d’items testés

Par exemple, avec des listes cochléaires de LAFON, donc n = 50, et en adaptant le calcul précédent, on obtiendrait :

10 phonèmes/50 = 20% et 40 phonèmes/50 = 80%. Nous sommes strictement dans les mêmes scores que précédemment, mais vous voyez que les intervalles de confiance sont TRES différents, c’est un euphémisme ! L’intervalle de confiance avec 50 items est ici de +/- 13% ≅ 26% environ autour du score de répétition, et non pas 60%…

Pour résumer

Donc on le voit :

  • plus on utilise d’items, plus on va avoir un test sensible, c’est à dire capable de différencier finement deux conditions de test, ou deux résultats
  • l’exploitation des résultats d’un test ne dépend pas (uniquement, loin de là) des capacités du patient, ni de la construction phonétique du test, mais d’abord du nombre d’items testés
  • il est très hasardeux de se lancer dans une « expertise » (cf CERFA Médical des MDPH du premier post), ou de poser un diagnostique (type IC) sur la base de listes à peu d’items de test
  • les stats ont toujours raison à la fin…

En pratique quotidienne pour l’audio

Il est bien sûr très « sport » de sortir sa calculette pour effectuer des calculs d’intervalles de confiance de pourcentage, mais vous et moi, je pense qu’on a autre chose à faire de nos journées.

Heureusement Carney & Sclauch ont pensé à nous en 2007 et ont sorti une belle table d’intervalles de confiance toute prête à l’emploi, en fonction du nombre d’items de test. A imprimer et garder en cabine quand on se demande quoi penser du résultat d’un test.

Vous la trouverez dans ce post. C’est le second tableau.

Pour résumer, quelques intervalles de confiance

On peut donner quelques intervalles de confiance à 95% (IC95) pour des listes courantes en français, issues du calcul manuel, mais plutôt des simulations informatiques (loi binomiale ou normale, selon le corpus) du paragraphe suivant :

  • listes disyllabiques de FOURNIER, 10 mots : IC95 env. 60% (+/-30% autour du score)
  • listes cochléaires de LAFON, 51 phonèmes : IC95 env. 28% (+/-14% autour du score)
  • listes du DUPRET, 33 phonèmes : IC95 env. 36% (+/-18% autour du score)
  • phrases du HINT, 20 phrases : IC95 env. 45% (+/-23% autour du score)
  • phrases du FRAMATRIX, 100 mots : IC95 env. 20% (+/-10% autour du score)
  • listes syllabiques de F. LEFEVRE (version 2008), 40 phonèmes : IC95 env. 30% (+/-15% autour du score)
  • etc.

Vous êtes joueurs (ou curieux) ?

Et bien, avec le logiciel de statistique R, vous pouvez approcher facilement les valeurs de la table évoquée ci-dessus, mais en introduisant tout n que vous voulez, et même pouvoir comparer entre eux, par exemple, les résultats d’un test HINT de 20 phrases avec les résultats d’un FRAMATRIX de 100 mots !

Exemple dans R, avec la fonction prop.test() et que êtes sûrs que votre échantillon suit une loi normale, vous voulez savoir si 35 mots reconnus parmi 50 (70%) est significativement supérieur à 60 parmi 100, tapez :

prop.test(x=c(35,60),n=c(50,100),alternative="greater")

Ou alors vous voulez comparer le résultat d’une liste cochléaire de LAFON, de 24 phonèmes répétés en condition 1 et 38 phonèmes répétés en condition 2, tapez :

prop.test(x=c(24, 38), n=c(50, 50))

… et vous saurez que ces résultats sont différents au risque de 0,7% seulement.

Si vous avez un doute sur la taille de votre échantillon (votre nombre d’items est faible et vous doutez que la loi « normale » s’applique), vous pouvez alors utiliser la loi binomiale, avec la fonction binom.test().

Exemple de ci-dessus, avec notre patient à 20 et 80% d’intelligibilité :

binom.test(x=c(2, 8), n=c(10, 10))

… et R vous dira que les résultats sont différents, mais au risque de presque 11% (au lieu de 5% admis), donc on ne peut pas conclure entre une réelle amélioration et l’effet du hasard…

En règle générale, la fonction binom.test() approxime plutôt bien le tableau de Carney & Sclauch vu ci-dessus. Mais pour des listes à plus de 10 items, la fonction prop.test() fonctionne très bien.

Conlusion

Voilà, c’est la fin de ce second billet. En espérant que ces histoires d’intervalles de confiance ne soient pas trop rébarbatives, mais je crois que ça vaut le coup de se pencher sur cette question, par pure honnêteté intellectuelle. D’autant plus que ces notions sont indispensables lorsque l’on veut prendre une décision, et encore plus en milieu bruyant. Car on le verra, les tests dans le bruit avec ou sans appareils ne sont pas intéressants dans l’absolu (l’amélioration du RSB éventuelle), mais surtout en comparant deux conditions de test (avant/après, avec/sans, etc.).

Donc prochain billet : la même chose en pire pour les tests dans le bruit 😉

 

 

*jeu de mots d’intervalle de confiance très très large !

4 commentaires sur “Incertitude en audiométrie vocale – Partie 2

  1. Bonjour,

    Merci pour ces précisions toujours très instructives ! 🙂 Par contre, cette probabilité d’avoir une chance sur deux de bien répéter le mot s’applique uniquement pour des mots ayant un sens pour le patient (qui joue un peu à la devinette et en effet, à certains moments, il peut « gagner »). Selon vous, qu’en est-il des logatomes, qui ne sont pas cités dans l’article ?

  2. Je pense qu’avec les logatomes de Dodelé, cette « chance sur deux » s’applique, et donc que le calcul d’intervalle de confiance peut s’effectuer.

    Par contre, je suis très très dubitatif avec les listes de Lefèvre, car la même paire Consonne-Voyelle est répétée trois fois, laissant donc trois fois plus de chance au patient de comprendre… Donc nous ne somme plus du tout dans la même situation de probabilités.

    1. Merci pour votre retour. En effet, on peut légitimement se poser des questions sur l’utilisation des listes de Lefevre CV CV CV, d’autant plus qu’en audiométrie adaptative, on peut être tenté de faire un premier test sans AA puis un second avec AA afin de mesurer la différence. Suite à votre article, que mesure t-on vraiment ? En tout cas, merci et bravo pour la qualité de votre blog, c’est un article très intéressant, éventuellement à présenter lors d’un prochain EPU, afin d’en donner une portée plus importante ? 🙂

Répondre à EdwinAnnuler la réponse.