

Cette action est destinée à améliorer l'utilisation des prothèses auditives, tant du point de vue du diagnostic que de celui des transformations du signal de parole afin de le rendre plus intelligible pour les malentendants. Elle fait coopérer le projet SYCO et l'Équipe d'audiologie du Prof. Frachet à l'Hôpital Avicenne.
Responsable: Yves Laprie
Participants:
La prothèse auditive est prescrite chez 180000 personnes tous les ans en France. Un pourcentage non négligeable ne fonctionne pas ou du moins ne donne pas les résultats attendus car les corrections fréquentielles découlant de l'analyse de l'audiogramme ne garantissent pas une meilleure intelligibilité de la parole. Les problèmes commencent dès le diagnostic car la nature précise du déficit auditif est difficile à établir et peut couvrir les aspects fréquentiel, énergétique mais aussi temporel de la perception. Dans le dernier cas le patient n'a pas le temps d'intégrer les informations phonétiques contenues dans signal de parole.
Une prothèse auditive doit donc transformer le signal à l'entrée de l'oreille de manière à le rendre intelligible pour le patient. Étant donnée la variété des pathologies, les transformations du signal s'étendent du simple filtrage à un recodage complet, et peuvent donc nécessiter un certain réapprentissage de la compréhension de la parole.
À l'heure actuelle les prothèses auditives ne réalisent souvent que du filtrage et leur réglage est délicat car le filtrage seul ne permet pas de corriger tous les troubles auditifs. Le but de ce projet est de développer de nouvelles transformations du signal de parole qui permettent de mieux corriger les troubles auditifs et contribuent à établir le diagnostic grâce à un ensemble de phrases test préalablement transformées.
Ce projet comporte donc une partie importante de traitement du signal appliqué à la parole. Mais, s'il est possible d'envisager un très grand nombre de transformations, il faut aussi tenir compte des caractéristiques de la parole, en particulier des informations temporelles ou spectrales qui permettent à l'oreille humaine de distinguer les sons. Grâce aux connaissances phonétiques actuelles on connaît les caractéristiques spectrales des sons de la parole, même si leur influence exacte au niveau perceptif n'est pas encore bien établie. Ces connaissances doivent servir à piloter les techniques de traitement du signal pour obtenir la transformation de la parole la plus appropriée.
Ce travail pluridisciplinaire (traitement du signal, phonétique, médecine) fait intervenir des informaticiens, des phonéticiens et des médecins.
Notre démarche concerne les aspects du disgnostic et des tranformations de parole :
Il existe plusieurs types de méthodes pour réaliser ces transformations.
La technique PSOLA (Pitch Synchronous Overlap and Add) est aujourd'hui la plus utilisée en synthèse car elle conduit à de la parole de bonne qualité et nécessite peu de calculs. Le principe est de décomposer le signal temporel en fenêtres recouvrantes synchronisées avec la fréquence fondamentale. Toutes les manipulations portant sur le tempo ou la fréquence fondamentale consistent simplement à dupliquer ou supprimer des fenêtres ou à jouer sur l'écartement entre fenêtres. Il faut noter que le succès de cette méthode repose sur la précision de la décomposition en fenêtres recouvrantes synchronisées sur les périodes de F0. Pour une application de synthèse il est en général nécessaire de corriger à la main certains marqueurs de période. Bien sûr cela n'est pas possible dans le cadre d'une application de prothèse auditive et la qualité de la parole transformée dépend donc directement de l'extraction de F0 uilisé lors du marquage des périodes. L'algorithme de marquage automatique des périodes que nous avons développé utilise un détecteur de fondamental par peigne fréquentiel. Les signaux analysés par cet algorithme et transformés avec PSOLA sont de très bonne qualité. Vous pouvez écouter ici quelques exemples de signaux transformés avec PSOLA. Les transformations sont très simples mais préservent la bien qualité de la parole.
Il existe d'autres techniques pour transformer la parole, en particulier la synthèse harmonique dont l'un des avantages est de ne pas nécessiter de calcul préalable du fondamental et d'être très simple à utiliser pour transformer la parole. Il faut en revanche disposer d'un algorithme suivant et chaînant les pics spectraux. Nous avons aussi utilisé l'algorithme de Portnoff qui permet d'accélérer et de ralentir les signaux de parole sans aucun calcul préalable (écouter ici quelques exemples). La faiblesse de cet algorithme est d'être très lent mais la qualité des phrases produites est très bonne (sans effet de chorusing en particulier) et nous avons déjà transmis un certain nombre de phrases test à l'équipe d'audiologie du Professeur Frachet.
Nos premiers travaux, présentés dans les paragraphes précédents, ont porté sur les techniques de préparation des stimuli de diagnostic et les outils destinés à transformer la parole. Ces travaux vont se poursuivre notamment en développant des outils facilement accessibles au monde médical. Cela concerne la préparation des stimuli de diagnostic et consiste à porter les outils de synthèse par copie avec une interface très simple. Les transformations du signal de parole modifie la perception des sons car elle affecte les caractéristiques spectrales des sons. Dans le cas des prothèses ces tranformations doivent renforcer la perception des oppositions phonétiques de manière à améliorer l'intelligibilité de la parole. C'est ici que les connaissances phonétiques deviennent nécessaires pour définir de bonnes stratégies de transformation.
Dans les cas les plus simples ces connaissances doivent permettent de retenir la transformation qui respecte mieux que les autres certains indices acoustiques importants pour la compréhension. Ces connaissances peuvent aussi contribuer au diagnostic en permettant d'associer certaines erreurs de perception à l'existence d'une déficience auditive précise.
Lorsque les troubles de l'audition sont très importants il devient difficile de proposer une transformation qui préserve les oppositions phonétiques. Dans ce cas, comme la transformation du signal est beaucoup plus profonde, et donc que le signal produit risque de ne plus ressembler du tout à de la parole naturelle il faut plutôt parler de recodage.
On peut aborder ce problème d'un point de vue empirique en recherchant le meilleur recodage par manipulation directe de la parole. La méthode de synthèse développée par Klatt est dans ce cas la plus appropriée car elle permet de contrôler très facilement les indices acoustiques. En effet, la parole est définie par un jeu de paramètres concernant les caractéristiques de la source (bruit ou voisement, F0, souffle...) et celles du spectre de parole (les formants c'est-à-dire les renforcements spectraux qui correspondent aux fréquences de résonance du conduit vocal, et qui sont donnés par leur fréquence, leur intensité et leur largeur de bande). Les connaissances phonétiques servent à guider les aller-retour entre la construction de stimuli correspondant au recodage et leur évaluation perceptive par le patient.
L'élaboration du recodage correspond donc dans une large mesure à une stratégie d'essais erreurs qui peut être laborieuse car il faut soumettre au patient un grand nombre de stimuli. Nous envisageons donc à plus long terme d'étudier l'impact d'une technique de recodage sur l'intelligibilité des sons de la parole d'un point de vue théorique. Cela consiste à prévoir automatiquement les conséquences du recodage sur les oppositions phonétiques. Afin d'étudier la faisabilité d'une telle approche nous considérerons d'abord un ensemble réduit de phonèmes (par exemple les 3 occlusives /p,t,k/ et les 3 voyelles /i,a,u/) pour lesquels on peut recenser facilement les indices acoustiques. Ensuite il faudra rechercher un algorithme qui permette de prédire la résistance du treillis d'indices sous l'effet du recodage de la parole.