LOGOPEDIA


Artículo: Exploración perceptual de la disfonía
2 Diciembre 2010, 17:38
Filed under: Disfonía

 

 

 

EVALUACIÓN PERCEPTUAL DE LA DISFONÍA:

CORRELACIÓN CON LOS PARÁMETROS ACÚSTICOS

Y FIABILIDAD

 

F. Núñez Batalla, P. Corte Santos, G. Sequeiros Santiago B. Señaris González

C. Suárez Nieto

 

 

El análisis de la calidad vocal mediante la escala perceptual

GRBAS tiene importancia clínica para las voces que no

pueden ser estudiadas mediante la determinación de sus

parámetros acústicos tales como las vocalizaciones con fuertes subarmónicos

y modulaciones y las voces caóticas o aperiódicas. En

el presente estudio se realizaron dos experimentos: Primero, se investigó

la correlación entre los parámetros acústicos y la escala

GRBAS en 107 voces patológicas. Segundo, la coincidencia intra e

interobservador del GRBAS. La severidad de la disfonía se correlacionó

con parámetros relacionados con la voz aérea y con frecuencias

fundamentales bajas. La presencia de subarmónicos en el espectrograma

no mostró una relación significativa con el grado de

aspereza. La fiabilidad intra e interobservador del sistema GRBAS

es alta.

 

INTRODUCCIÓN

La evaluación perceptual es fundamental para

valorar la calidad de la voz, la gravedad global de

los defectos y su impacto en la comunicación del

sujeto. No obstante, es uno de los temas más controvertidos

de la evaluación vocal porque existe

una pobre correlación entre los evaluadores. En la

literatura existen una variedad de escalas y los datos

de fiabilidad varían de estudio a estudio. Existen

múltiples factores que contribuyen a este fenómeno1-

4: Primero, no existe una adecuada

terminología aceptada internacionalmente para la

descripción de la calidad vocal5. El método que en

la actualidad se está empleando de forma generalizada

es el de la Sociedad Japonesa de Logopedas

y Foniatras gracias a su publicación por Hirano

en su libro Clinical Examination of the Voice6.

Segundo, la diferencia en las estrategias perceptuales

entre observadores7. La mayoría de las tareas

de percepción incluye la comparación de la

voz con estándares internos que tienen la desventaja

de ser inestables y fluctuar con lo que causan

variablidad en la calificación. Tercero, la fiabilidad

interobservador se influencia por aspectos metodológicos

como los tipos de escala, tipos de muestra

y observador.

Actualmente, la investigación en este tema da

importancia al entrenamiento y experiencia. Respecto

a los efectos del entrenamiento y lengua en

la percepción de la disfonía, se encontraron pequeñas

diferencias no significativas a favor de los

observadores entrenados y no encontraron influencia

de la segunda8. Otro estudio9 demostró que los

observadores experimentados juzgan de forma

más consistente que los inexpertos y usan diferentes

estrategias perceptuales9: los expertos consiguen

menos coincidencias con otros respecto a la

importancia relativa de varios aspectos de la calidad

vocal. Se ha determinado que 8 horas de entrenamiento

de observadores previamente inexpertos

son suficientes para obtener un 80% de

fiabilidad interobservador usando un sistema de

calificación perceptual de 13 dimensiones4.

Con respecto a la escala GRBAS se ha demostrado

que su reproductividad es alta si se seleccionan

los observadores mostrando una baja variabilidad

intra e interobservador y una alta variabilidad

intermuestra10,11.

Los parámetros acústicos que han sido correlacionados

con los perceptuales del sistema GRBAS

utilizando el Multidimensional Voice Program12 son

el Jitter con el parámetro R, el Shimmer con el parámetro

B y HNR (relación armónico-ruido) con el

parámetro G, hacen también mención a otros parámetros

relacionados como los subarmónicos con

la dipofonía y el parámetro R, el temblor y las perturbaciones

a largo plazo de la F0 y la amplitud para

introducir un nuevo parámetro en la escala que

describe la inestabilidad (I) de la voz.

En el presente trabajo se correlacionaron los

parámetros del sistema GRBAS con parámetros

de perturbación a corto plazo, medidas del ruido

glótico, parámetros espectrográficos y se analizó

su reproductividad comparando las puntuaciones

de dos observadores.

MATERIAL Y MÉTODOS

Se estudiaron de forma retrospectiva un total

de 107 muestras de voz correspondientes a otros

tantos pacientes, 29 hombres y 78 mujeres, diagnosticados

mediante videoestroboscopia de edema

de Reinke. Dichas muestras de voz están digitalizadas

y se encuentran recogidas en soporte magnético.

Análisis Perceptivo de la Voz (GRBAS)

Mediante la reproducción sonora de cada

muestra vocal se calificó conjuntamente por dos

profesionales con experiencia en patología vocal

utilizando el método GRBAS calificando cada uno

de los siguientes ítems de 0 a 3 (0 = normal, 1 =

leve , 2 = moderado, 3: severo): G (Grado), el grado

global de afectación vocal. R (Roughness, Aspereza),

la calidad de la voz relacionada con la impresión

de pulsos glóticos irregulares, de un

componente de ruido de baja frecuencia, de aspereza

o vocal fry. B (Breathiness, voz aérea), la voz

relacionada con el ruido originado por las turbulencias

creadas por una glotis insuficiente. A (Astenia),

la impresión auditiva de debilidad en la fonación

espontánea. Voz hipocinética o hipofuncional.

S (Strain, tensión vocal), la impresión auditiva de

excesivo esfuerzo, de tensión asociada con la fonación

espontánea. Este análisis se repitió de forma

independiente por los dos observadores 6 meses

después de la primera valoración con el fin de

comparar la conjunta inicial con las dos valoraciones

independientes posteriores.

Análisis Acústico y Espectrográfico

La señal acústica se registró mediante el uso

de la aplicación Voice Assessment del programa

Dr Speech 3.0 para Windows 95. El ordenador utilizado

fue un PC compatible Pentium-100 con una

memoria RAM de 16 Mb. Para la digitalización de

F. NÚÑEZ BATALLA ET AL. EVALUACIÓN PERCEPTUAL DE LA DISFONÍA

284 Acta Otorrinolaringol Esp 2004; 55: 282-287

la señal vocal se instaló una tarjeta de sonido

compatible con Windows de 16-bit de resolución y

frecuencias de registro de 44100 (Sound Blaster

16). El micrófono es unidireccional dinámico. La

frecuencia de muestreo fue de 44.100 Hz y se utilizó

un micrófono de alta resolución frecuencial

que se colocó a 10 cm de la boca del paciente

mientras realizaba la fonación de una vocal /e/ a

intensidad y tonos cómodos en una cámara sonoamortiguada.

De la emisión el ordenador capta 3

segundos. Se siguieron las recomendaciones del

National Center for Voice and Speech13.

Los parámetros analizados en esta fase son:

La frecuencia fundamental (F0). Jitter o perturbación

en la frecuencia. Shimmer o perturbación en

la amplitud. NNE o energía de ruido normalizado5.

HNR, Harmonic-to-Noise Ratio, relación armónicoruido.

La aplicación para realizar espectrogramas se

denomina Speech Analysis y dentro de ella hay

que configurar en el “Spectrogram Setting” el ancho

de banda adecuado para la espectrografía de

banda estrecha, que es de 45 Hz, ya que por defecto

configura el de 300 Hz (banda ancha). Analizamos

la vocal /ae/ sostenida a un tono e intensidad

confortables para el sujeto durante un período

de 3 segundos teniendo en cuenta la clasificación

de Yanagihara, la presencia de subarmónicos y la

desaparición de armónicos en el espectro.

Análisis Estadístico de los Resultados

Con el conjunto de los resultados se construyó

una base de datos con la aplicación Microsoft Access

del paquete Microsoft Office 2000 que posteriormente

se importó al programa SPSS 9.0 para

Windows.

Dado que se están analizando por una parte

variables dependientes y un conjunto de una o

más variables independientes cuantitativas o cualitativas,

el método estadístico elegido fue la regresión

logística, que consiste en obtener una función

lineal de las variables independientes que permita

clasificar a los individuos en una de las dos subpoblaciones

o grupos establecidos por los valores de

la variable independiente (Jitter, Shimmer, HNR,

NNE, Clasificación de Yanagihara, Subarmónicos,

Falta de Armónicos).

La comparación de las puntuaciones GRBAS

conjunta con las dos independientes se efectuó

usando las tablas de contingencia y las siguientes

medidas de asociación: La prueba Ji-cuadrado de

Pearson en tablas de contingencia. Razón de verosimilitud

Ji-cuadrado. El coeficiente Phi. Coeficiente

de contingencia y la V de Cramer.

RESULTADOS

Clasificación GRBAS: En la tabla 1 se resumen

los porcentajes de pacientes que fueron clasificados

en los distintos grados de severidad de las variables.

Espectrografía de banda estrecha: El 43% de

los pacientes fueron clasificados como grado 1 de

Yanagihara, el 25,2% como grado 2, el 24,3% como

grado 3 y el 7,5% como grado 4. El 39,3%

presentó subarmónicos y el 37,4% falta de armónicos

en las frecuencias altas del espectro.

Regresión logística: La significación estadística

alcanzada en cada variable dependiente se resume

en la tabla 2.

1. Variable dependiente G (Grado):

Variables independientes: Jitter, Shimmer, HNR,

NNE, Yanagihara, Subarm, Falta de Armónicos.

El cálculo de la función G a partir de las variables

seleccionadas será:

G=0,1537NNE-0,1070HNR-0,0133FO+6,1055

Tabla 1: Porcentaje de pacientes clasificado en cada

grado de severidad de los parámetros perceptuales del

sistema GRBAS

0 1 2 3

G 0,9% 32,7% 54,2% 12,1%

R 4,7% 47,7% 35,5% 12,1%

B 9,3% 44,9% 34,6% 11,2%

A 48,6% 25,2% 23,4% 2,8%

S 41,1% 38,3% 16,8% 3,7%

Tabla 2: Significación estadística (p) alcanzada por cada

parámetro acústico que entra en la ecuación que predice

el valor de las variables del sistema GRBAS

Jitt Shim HNR NNE F0 Yana Subar Falta

G 0,049 0,04 0,013

R 0,011 0,026

B 0,058 0,000

A 0,004 0,004 0,000

S 0,002 0,000

ACTA OTORRINOLARINGOLÓGICA ESPAÑOLA

Acta Otorrinolaringol Esp 2004; 55: 282-287 285

2. Variable dependiente R (Aspereza):

Variables independientes: Jitter, Shimmer, HNR,

NNE, Yanagihara, Subarm, Falta de Armónicos.

El cálculo de la función R a partir de las variables

seleccionadas será:

R=-0,0992HNR+0,6073Yanagihara+0,7039

3. Variable dependiente B (Voz aérea):

Variables independientes: Jitter, Shimmer, HNR,

NNE, Yanagihara, Subarm, Falta de Armónicos.

El cálculo de la función B a partir de las variables

seleccionadas será:

B=-0,4016Jitter+0,3554NNE+1,7471

4. Variable dependiente A (Astenia):

Variables independientes: Jitter, Shimmer, HNR,

NNE, Yanagihara, Subarm, Falta de Armónicos.

El cálculo de la función A a partir de las variables

seleccionadas será:

A=0,36FaltaArm+0,21Yanahihara-0,24Jitter-2,47

5. Variable dependiente S (Tensión):

Variables independientes: Jitter, Shimmer, HNR,

NNE, Yanagihara, Subarm, Falta de Armónicos.

El cálculo de la función S a partir de las variables

seleccionadas será:

S=-0,31FaltadeArm-4,00E-03FO+1,94

Tablas de Contingencia (Comparación entre

las puntuaciones GRBAS): Se comparan las puntuaciones

GRBAS obtenidas de forma conjunta

por los dos observadores con las puntuaciones

GRBAS obtenidas de forma independiente por

cada observador 6 meses después. Se alcanza

significación estadística (p<0,05) en las pruebas

de Ji-cuadrado de Pearson, Razón de verosimilitud,

Coeficiente Phi, V de Cramer y Coeficiente

de Contingencia en todas las comparaciones. En

la tabla 3 se resumen los valores de p de Ji-cuadrado.

DISCUSIÓN

El National Center for Voice and Speech

(www.ncvs.org) recomendó que la evaluación de la

voz patológica debe comenzar con la realización

de un análisis espectrográfico para clasificarla con

el fin de determinar los métodos de estudio más

idóneos para ese caso en particular. Así, una voz

con el suficiente grado de periodicidad (tipo 1) debería

ser analizada por medio de los parámetros

de perturbación a corto plazo (jitter, shimmer, NNE

y HNR). Si la voz presenta aperiodicidad, subarmónicos

y roturas de voz (tipo 2) no puede ser

analizada de forma fiable con los parámetros antes

mencionados, una perturbación mayor del 5%

nos indica que estamos ante una voz de este tipo,

que debe ser estudiada por un método de clasificación

perceptual (GRBAS) y por un método visual

como el espectrograma. Las voces caóticas (tipo

3) sólo pueden ser estudiadas por el momento

mediante métodos perceptuales, en tanto no se

apliquen de forma práctica las dimensiones que

estudian los fenómenos caóticos (dimensión fractal,

exponente de Lyapunov, etc). Por tanto, la clasificación

GRBAS es un método imprescindible para

la valoración de la voz patológica, dado que es

necesario aplicarla en un importante número de

pacientes en los cuales las medidas de la perturbación

a corto plazo no son fiables o no se pueden

calcular.

Nuestro estudio se centró en averiguar las variables

que determinan que un observador clasifique

una voz en los distintos grados de severidad

de la clasificación GRBAS y su fiabilidad inter e intraobservador.

La regresión logística empleada

permite crear una ecuación en la que se representan

las variables que influyen en cada parámetro.

El parámetro G está definido por la ecuación:

G=0,1537NNE-0,1070HNR-0,133FO+6,1055

Las medidas acústicas de la disfonía basadas

en la importancia o severidad de la sustitución de

la estructura armónica por componentes de ruido

típicamente se han correlacionado muy bien con

las graduaciones perceptuales. El grado de severidad

de la disfonía se ha correlacionado con la re-

Tabla 3: Valores de p (Ji-cuadrado de Pearson) en el estudio

que compara las puntuaciones de ambos observadores

de forma conjunta con las puntuaciones de los observadores

de forma individual seis meses después

Observador 1 Observador 2

G conjunto vs G individual 0,000 0,000

R conjunto vs R individual 0,000 0,000

B conjunto vs B individual 0,000 0,000

A conjunto vs A individual 0,000 0,000

S conjunto vs S individual 0,002 0,003

F. NÚÑEZ BATALLA ET AL. EVALUACIÓN PERCEPTUAL DE LA DISFONÍA

286 Acta Otorrinolaringol Esp 2004; 55: 282-287

lación señal-ruido (HNR) por varios estudios14,15.

Sin embargo, para otros autores16 la severidad percibida

de una disfonía se correlaciona con el shimmer,

hallazgo que no encontramos en nuestro estudio.

Dado que los géneros masculino y femenino

presentan un solapamiento de las frecuencias fundamentales

(FO) y dado que la FO se correlaciona

con la percepción de la calidad de la voz17 se decidió

incluir en la serie tanto hombres como mujeres.

Kojima y Yumoto14,15 estudiando los parámetros

acústicos que se correlacionan con la escala GRBAS

observaron en una serie de pacientes, en los

que los masculinos doblaban en número a los femeninos,

que la HNR se correlaciona bien con la

severidad de la disfonía en voces con FO bajas, y

que dicha correlación podría contener un sesgo a

favor de calificar en grados más severos aquellas

voces más graves en frecuencia. En la presente

serie se observa una relación de masculino:femenino

de 1:3 por lo que esta afirmación puede descartarse,

al menos en nuestro estudio.

El parámetro R (Voz áspera) se define por la

ecuación:

Z=0,6073Yanagihara-0,0992HNR+0,7039

Se ha relacionado el jitter con la aspereza18. En

el estudio de Martin21, para las voces ásperas el

HNR es el responsable del 73% de la variación

perceptual. Eskenazi et al19 han encontrado que la

HNR junto con la SFR (spectral flatness of the residue

signal) predicen con éxito la aspereza, en

contraste con otras medidas más específicas de

perturbación como el % jitter, el PPQ (pitch perturbation

quotient) y el APQ (amplitude perturbation

quotient). La SFR, representa los mismos fenómenos

en el espectrograma LTAS (Long term average

spectrum) en el dominio amplitud vs frecuencia

que la clasificación de Yanagihara en el espectrograma

de banda estrecha o sonograma frecuencia

versus tiempo. En este punto hay que resaltar la

nula influencia estadística de los subarmónicos en

la percepción de aspereza en la voz. La explicación

de este hallazgo es interesante: la energía relativa

de los trazados subarmónicos determina la

percepción acústica de los mismos, mientras no se

alcance una intensidad cercana a los trazados armónicos

se percibirá aspereza. Si la intensidad de

los mismos alcanza valores cercanos a los armónicos

se deja de percibir la aspereza para cambiar

el tono o intensidad de la voz. Este hallazgo puede

tener relación con otras observaciones20 que se

han hecho acerca de la posible independencia de

la presencia de subarmónicos y la percepción de

diplofonía o voz áspera.

El parámetro B (Voz aérea) se define por la

fórmula

B=0,3554NNE-0,4016Jitter+1,7471

Lo que es consistente con las observaciones

de otros autores que correlacionan la calidad aérea

de la voz con los bajos HNR combinados con

menor Jitter y mayor Shimmer, quienes ya advirtieron

la paradoja de encontrar, cuando se asocia a

HNR un jitter bajo correlacionándose con grados

mayores de severidad21. Otros autores relacionan

el jitter con la severidad de la B22.

La variable A (Voz asténica) se define por la

ecuación

A=0,36FaltaArm+0,21Yanagihara-0,24Jitter-2,47

Donde se observa la relación de la percepción

de la voz asténica con la mayor puntuación en la

clasificación espectrográfica de “falta de armónicos”.

El parámetro S (Voz tensa) se define por la

ecuación:

S=-0,31FaltadeArm-4,00E-03FO+1,94

Es decir, la variable “Falta de armónicos” es inversamente

proporcional a la percepción de tensión

vocal, propia de los comportamientos vocales

de hiperfunción.

Con respecto a la escala GRBAS se ha demostrado

que su reproductividad es alta si se seleccionan

los observadores mostrando una baja variabilidad

intra e interobservador y una alta variabilidad

intermuestra10,11. El parámetro más consistente es la

G y los menos son la A y la S, pero todavía muestran

una correlación significativa. El parámetro G

parece estar determinado principalmente por el

componente aéreo de la voz. La aspereza y la calidad

aérea se correlacionan negativamente entre

ellas11. Los resultados del presente trabajo son

compatibles con las observaciones ya descritas en

la literatura que hacen referencia a la alta fiabilidad

del sistema de calificación de la disfonía GRBAS

que mejora sustancialmente con el entrenamiento.

CONCLUSIONES

1. La disfonía que acompaña al edema de

Reinke presenta señales sin una estructura periódica

aparente (tipo 3) en el 7,5% de los casos. La

ACTA OTORRINOLARINGOLÓGICA ESPAÑOLA

Acta Otorrinolaringol Esp 2004; 55: 282-287 287



Presentación
1 Diciembre 2010, 19:51
Filed under: Presentación

HOLA SOY ANA CRISTINA, ESTUDIANTE DE LOGOPEDIA DE LA UNIVERSIDAD DE VALENCIA