La confiance règne… par intervalles*

“Après appareillage, et à intensité de 60dB SPL, l’intelligibilité de mon patient passe à 70% contre 30% avant appareillage à la même intensité !”

 

Question: est-ce significatif ?

Indice: je teste en listes de Fournier disyllabiques.

Réponse: à vous de chercher dans le tableau joint plus loin…

Tout d’abord, rendons à César l’idée de ce post:

Suite à l’atelier du congrès 2014 de Xavier BASCLE et Jean-Yves MICHEL (page 21), ils ont eu l’amabilité de m’envoyer leur présentation en pdf dans laquelle j’ai retrouvé un document mis à jour en 2007: une table de “significativité” (ce mot…) de test, puis re-test (conditions différentes) en audiométrie vocale.

L’article originel date de 1978: il s’agit d’une table permettant savoir pour un même patient testé dans deux conditions différentes (ex: avant/après appareillage), en fonction des scores obtenus, si la différence entre les deux scores est “significative” ou “non-significative”.

Tout d’abord, qu’est-ce que la notion de différence significative ? En statistique, on retrouve souvent la notion de p-value, ou en quelque sorte la robustesse des résultats des tests statistiques. Elle est souvent fixée à 0.05, ce qui veut dire qu’entre deux conditions de tests, il y a moins de 5% de risque que la différence observée (ex: intelligibilité avant appareillage et après) soit le fruit du hasard uniquement. Si P<0.05, le résultat est alors considéré comme le fruit d’une amélioration réelle par le traitement ou l’appareillage dans ce qui nous concerne.

Tout aussi intéressante, voire plus, est la notion statistique d’intervalle de confiance d’une valeur. Par exemple en ce qui nous concerne, le score d’intelligibilité avant puis après appareillage.

Pour cela, les statisticiens considèrent les résultats d’une l’audiométrie vocale comme une variable aléatoire discrète (…) obéissant donc à une loi de probabilité binomiale (re-…). En gros, comme des lancés de dé, à dix faces (dissyllabiques de Fournier), 50 faces (l’arrondi de 51 pour les cochléaires de Lafon), 20 faces (phrases du HINT), etc.

Mais si l’audiométrie vocale obéit à une loi de probabilités, celà n’empêche pas son résultat de fluctuer de manière très importante alors que les conditions de réalisation peuvent être les mêmes (appareillé ou non et réglage identique pour chaque condition). Selon l’état de fatigue ou la concentration, l’effet placebo, la chemise ou le décolleté de l’audioprothésiste, etc., ce ne sera pas 40% ou rien ! Ce sera certains jours 60% et d’autres 30% dans les mêmes conditions, avec quand même un “pic” de probabilité d’intelligibilité. Autour de ce maximum de probabilité d’intelligibilité existe un intervalle de fluctuation souvent important: le fameux intervalle de confiance. En statistique, il est souvent calculé à 95%, c’est à dire que la moyenne (le pic de probabilité) a 95% de chances de se trouver dans cet intervalle.

Cela donne, par exemple, les probabilités suivantes de répétitions de mots avant et après appareillage:

Proba binom fournier

 

Pas besoin d’être un expert statisticien pour comprendre deux choses:

  • les “courbes” se superposent, et entre 40 et 70% de répétition il est difficile de démêler ce qui serait de l’ordre d’un “coup de chance” sans appareil ou d’une “contre performance” avec appareil.
  • Les intervalles de confiance de la moyenne “sans” et “avec” se chevauchent beaucoup lorsque les échantillons (la grandeur des listes ici) sont faibles. 10 mots ça semble un peu court pour être sûr de départager les performances des deux conditions avec 95% de certitude, puisque 1 mot de travers, c’est 10% d’erreur d’un coup. On voit aisément que 20 phrases, voire 50 phonèmes, ce serait tout de suite mieux.

Afin de répondre à la question posée au début de ce billet: en 1978, Thornton & Raffin on publié une table de “Intervalles critiques à 95%” permettant par une lecture facile de savoir si les résultats d’une audiométrie vocale sont significativement différents (à risque de 5% d’erreur maximum).

Voici un tableau extrait de la page 515 de l’article de Thornton et Raffin, et tiré également de Essentials of Audiology de Gelfand (2011):

IC95_vocale_1978

Comment lire (et interpréter) ce tableau: dans l’exemple du début, le score sans appareil est de  30% d’intelligibilité, à lire dans la première colonne nommée “% score“. En recherchant dans la colonne “n=10” (parce que ce sont des listes de 10 mots) on s’aperçoit que l’intervalle critique à 95% est compris entre 10 et 70%. Ce qui veut dire que tout résultat avec appareillage se situant dans cet intervalle n’est pas significativement différent du premier (30%).

Donc dans notre cas: amélioration non significative. De justesse, certes…

Ces tables ont été récemment mises à jour, et je remercie encore Xavier BASCLE et Jean-Yves MICHEL d’en avoir fait part à la communauté lors de leur atelier; une mise à jour de ces intervalles critiques à été faite par Carney et Sclauch en 2007 et diffère dans 23% des entrées de celle de 1978. A privilégier donc (toujours repris de Essentials of Audiology):

IC95_vocale_2007

En reprenant notre exemple, c’est toujours non-significatif: 70% après appareillage est une valeur se trouvant encore dans la zone critique 10% <—> 70%.

Mais regardez-bien: si on avait eu toujours 30% de score avant appareillage, mais avec des listes cochléaires de Lafon (50 phonèmes) cette fois ci. Vous constaterez que l’intervalle critique passe à 16% <—> 48%. Un score après appareillage de 70% serait donc hors de la zone d’incertitude des deux distributions. Les tests diffèreraient significativement (meilleur après appareillage, avec 5% ou moins de risque de se tromper).

Conclusions de tout ceci:

  • Les résultats en audiométrie vocale sont des variables… très variables, y compris pour un même individu et dans les mêmes conditions
  • Les listes courtes sont quasiment inexploitables pour mettre en évidence une quelconque différence statistique, à éviter donc si on cherche à prouver quelque chose (mémoires, recherches, preuve, …) ou alors utiliser 2 listes de 10 mots pour faire une moyenne
  • Par honnêteté intellectuelle, il est peut être bon d’avoir ce second tableau à porté de main et d’audiomètre…

 

* citation reprise de Denis POINSOT et de son ouvrage “Statistiques pour Statophobes“, un régal de clarté, et de l’humour…

 

Laisser un commentaire