Filed under: Disfonía
EVALUACIÓN PERCEPTUAL DE LA DISFONÍA:
CORRELACIÓN CON LOS PARÁMETROS ACÚSTICOS
Y FIABILIDAD
F. Núñez Batalla, P. Corte Santos, G. Sequeiros Santiago B. Señaris González
C. Suárez Nieto
El análisis de la calidad vocal mediante la escala perceptual
GRBAS tiene importancia clínica para las voces que no
pueden ser estudiadas mediante la determinación de sus
parámetros acústicos tales como las vocalizaciones con fuertes subarmónicos
y modulaciones y las voces caóticas o aperiódicas. En
el presente estudio se realizaron dos experimentos: Primero, se investigó
la correlación entre los parámetros acústicos y la escala
GRBAS en 107 voces patológicas. Segundo, la coincidencia intra e
interobservador del GRBAS. La severidad de la disfonía se correlacionó
con parámetros relacionados con la voz aérea y con frecuencias
fundamentales bajas. La presencia de subarmónicos en el espectrograma
no mostró una relación significativa con el grado de
aspereza. La fiabilidad intra e interobservador del sistema GRBAS
es alta.
INTRODUCCIÓN
La evaluación perceptual es fundamental para
valorar la calidad de la voz, la gravedad global de
los defectos y su impacto en la comunicación del
sujeto. No obstante, es uno de los temas más controvertidos
de la evaluación vocal porque existe
una pobre correlación entre los evaluadores. En la
literatura existen una variedad de escalas y los datos
de fiabilidad varían de estudio a estudio. Existen
múltiples factores que contribuyen a este fenómeno1-
4: Primero, no existe una adecuada
terminología aceptada internacionalmente para la
descripción de la calidad vocal5. El método que en
la actualidad se está empleando de forma generalizada
es el de la Sociedad Japonesa de Logopedas
y Foniatras gracias a su publicación por Hirano
en su libro Clinical Examination of the Voice6.
Segundo, la diferencia en las estrategias perceptuales
entre observadores7. La mayoría de las tareas
de percepción incluye la comparación de la
voz con estándares internos que tienen la desventaja
de ser inestables y fluctuar con lo que causan
variablidad en la calificación. Tercero, la fiabilidad
interobservador se influencia por aspectos metodológicos
como los tipos de escala, tipos de muestra
y observador.
Actualmente, la investigación en este tema da
importancia al entrenamiento y experiencia. Respecto
a los efectos del entrenamiento y lengua en
la percepción de la disfonía, se encontraron pequeñas
diferencias no significativas a favor de los
observadores entrenados y no encontraron influencia
de la segunda8. Otro estudio9 demostró que los
observadores experimentados juzgan de forma
más consistente que los inexpertos y usan diferentes
estrategias perceptuales9: los expertos consiguen
menos coincidencias con otros respecto a la
importancia relativa de varios aspectos de la calidad
vocal. Se ha determinado que 8 horas de entrenamiento
de observadores previamente inexpertos
son suficientes para obtener un 80% de
fiabilidad interobservador usando un sistema de
calificación perceptual de 13 dimensiones4.
Con respecto a la escala GRBAS se ha demostrado
que su reproductividad es alta si se seleccionan
los observadores mostrando una baja variabilidad
intra e interobservador y una alta variabilidad
intermuestra10,11.
Los parámetros acústicos que han sido correlacionados
con los perceptuales del sistema GRBAS
utilizando el Multidimensional Voice Program12 son
el Jitter con el parámetro R, el Shimmer con el parámetro
B y HNR (relación armónico-ruido) con el
parámetro G, hacen también mención a otros parámetros
relacionados como los subarmónicos con
la dipofonía y el parámetro R, el temblor y las perturbaciones
a largo plazo de la F0 y la amplitud para
introducir un nuevo parámetro en la escala que
describe la inestabilidad (I) de la voz.
En el presente trabajo se correlacionaron los
parámetros del sistema GRBAS con parámetros
de perturbación a corto plazo, medidas del ruido
glótico, parámetros espectrográficos y se analizó
su reproductividad comparando las puntuaciones
de dos observadores.
MATERIAL Y MÉTODOS
Se estudiaron de forma retrospectiva un total
de 107 muestras de voz correspondientes a otros
tantos pacientes, 29 hombres y 78 mujeres, diagnosticados
mediante videoestroboscopia de edema
de Reinke. Dichas muestras de voz están digitalizadas
y se encuentran recogidas en soporte magnético.
Análisis Perceptivo de la Voz (GRBAS)
Mediante la reproducción sonora de cada
muestra vocal se calificó conjuntamente por dos
profesionales con experiencia en patología vocal
utilizando el método GRBAS calificando cada uno
de los siguientes ítems de 0 a 3 (0 = normal, 1 =
leve , 2 = moderado, 3: severo): G (Grado), el grado
global de afectación vocal. R (Roughness, Aspereza),
la calidad de la voz relacionada con la impresión
de pulsos glóticos irregulares, de un
componente de ruido de baja frecuencia, de aspereza
o vocal fry. B (Breathiness, voz aérea), la voz
relacionada con el ruido originado por las turbulencias
creadas por una glotis insuficiente. A (Astenia),
la impresión auditiva de debilidad en la fonación
espontánea. Voz hipocinética o hipofuncional.
S (Strain, tensión vocal), la impresión auditiva de
excesivo esfuerzo, de tensión asociada con la fonación
espontánea. Este análisis se repitió de forma
independiente por los dos observadores 6 meses
después de la primera valoración con el fin de
comparar la conjunta inicial con las dos valoraciones
independientes posteriores.
Análisis Acústico y Espectrográfico
La señal acústica se registró mediante el uso
de la aplicación Voice Assessment del programa
Dr Speech 3.0 para Windows 95. El ordenador utilizado
fue un PC compatible Pentium-100 con una
memoria RAM de 16 Mb. Para la digitalización de
F. NÚÑEZ BATALLA ET AL. EVALUACIÓN PERCEPTUAL DE LA DISFONÍA
284 Acta Otorrinolaringol Esp 2004; 55: 282-287
la señal vocal se instaló una tarjeta de sonido
compatible con Windows de 16-bit de resolución y
frecuencias de registro de 44100 (Sound Blaster
16). El micrófono es unidireccional dinámico. La
frecuencia de muestreo fue de 44.100 Hz y se utilizó
un micrófono de alta resolución frecuencial
que se colocó a 10 cm de la boca del paciente
mientras realizaba la fonación de una vocal /e/ a
intensidad y tonos cómodos en una cámara sonoamortiguada.
De la emisión el ordenador capta 3
segundos. Se siguieron las recomendaciones del
National Center for Voice and Speech13.
Los parámetros analizados en esta fase son:
La frecuencia fundamental (F0). Jitter o perturbación
en la frecuencia. Shimmer o perturbación en
la amplitud. NNE o energía de ruido normalizado5.
HNR, Harmonic-to-Noise Ratio, relación armónicoruido.
La aplicación para realizar espectrogramas se
denomina Speech Analysis y dentro de ella hay
que configurar en el «Spectrogram Setting» el ancho
de banda adecuado para la espectrografía de
banda estrecha, que es de 45 Hz, ya que por defecto
configura el de 300 Hz (banda ancha). Analizamos
la vocal /ae/ sostenida a un tono e intensidad
confortables para el sujeto durante un período
de 3 segundos teniendo en cuenta la clasificación
de Yanagihara, la presencia de subarmónicos y la
desaparición de armónicos en el espectro.
Análisis Estadístico de los Resultados
Con el conjunto de los resultados se construyó
una base de datos con la aplicación Microsoft Access
del paquete Microsoft Office 2000 que posteriormente
se importó al programa SPSS 9.0 para
Windows.
Dado que se están analizando por una parte
variables dependientes y un conjunto de una o
más variables independientes cuantitativas o cualitativas,
el método estadístico elegido fue la regresión
logística, que consiste en obtener una función
lineal de las variables independientes que permita
clasificar a los individuos en una de las dos subpoblaciones
o grupos establecidos por los valores de
la variable independiente (Jitter, Shimmer, HNR,
NNE, Clasificación de Yanagihara, Subarmónicos,
Falta de Armónicos).
La comparación de las puntuaciones GRBAS
conjunta con las dos independientes se efectuó
usando las tablas de contingencia y las siguientes
medidas de asociación: La prueba Ji-cuadrado de
Pearson en tablas de contingencia. Razón de verosimilitud
Ji-cuadrado. El coeficiente Phi. Coeficiente
de contingencia y la V de Cramer.
RESULTADOS
Clasificación GRBAS: En la tabla 1 se resumen
los porcentajes de pacientes que fueron clasificados
en los distintos grados de severidad de las variables.
Espectrografía de banda estrecha: El 43% de
los pacientes fueron clasificados como grado 1 de
Yanagihara, el 25,2% como grado 2, el 24,3% como
grado 3 y el 7,5% como grado 4. El 39,3%
presentó subarmónicos y el 37,4% falta de armónicos
en las frecuencias altas del espectro.
Regresión logística: La significación estadística
alcanzada en cada variable dependiente se resume
en la tabla 2.
1. Variable dependiente G (Grado):
Variables independientes: Jitter, Shimmer, HNR,
NNE, Yanagihara, Subarm, Falta de Armónicos.
El cálculo de la función G a partir de las variables
seleccionadas será:
G=0,1537NNE-0,1070HNR-0,0133FO+6,1055
Tabla 1: Porcentaje de pacientes clasificado en cada
grado de severidad de los parámetros perceptuales del
sistema GRBAS
0 1 2 3
G 0,9% 32,7% 54,2% 12,1%
R 4,7% 47,7% 35,5% 12,1%
B 9,3% 44,9% 34,6% 11,2%
A 48,6% 25,2% 23,4% 2,8%
S 41,1% 38,3% 16,8% 3,7%
Tabla 2: Significación estadística (p) alcanzada por cada
parámetro acústico que entra en la ecuación que predice
el valor de las variables del sistema GRBAS
Jitt Shim HNR NNE F0 Yana Subar Falta
G 0,049 0,04 0,013
R 0,011 0,026
B 0,058 0,000
A 0,004 0,004 0,000
S 0,002 0,000
ACTA OTORRINOLARINGOLÓGICA ESPAÑOLA
Acta Otorrinolaringol Esp 2004; 55: 282-287 285
2. Variable dependiente R (Aspereza):
Variables independientes: Jitter, Shimmer, HNR,
NNE, Yanagihara, Subarm, Falta de Armónicos.
El cálculo de la función R a partir de las variables
seleccionadas será:
R=-0,0992HNR+0,6073Yanagihara+0,7039
3. Variable dependiente B (Voz aérea):
Variables independientes: Jitter, Shimmer, HNR,
NNE, Yanagihara, Subarm, Falta de Armónicos.
El cálculo de la función B a partir de las variables
seleccionadas será:
B=-0,4016Jitter+0,3554NNE+1,7471
4. Variable dependiente A (Astenia):
Variables independientes: Jitter, Shimmer, HNR,
NNE, Yanagihara, Subarm, Falta de Armónicos.
El cálculo de la función A a partir de las variables
seleccionadas será:
A=0,36FaltaArm+0,21Yanahihara-0,24Jitter-2,47
5. Variable dependiente S (Tensión):
Variables independientes: Jitter, Shimmer, HNR,
NNE, Yanagihara, Subarm, Falta de Armónicos.
El cálculo de la función S a partir de las variables
seleccionadas será:
S=-0,31FaltadeArm-4,00E-03FO+1,94
Tablas de Contingencia (Comparación entre
las puntuaciones GRBAS): Se comparan las puntuaciones
GRBAS obtenidas de forma conjunta
por los dos observadores con las puntuaciones
GRBAS obtenidas de forma independiente por
cada observador 6 meses después. Se alcanza
significación estadística (p<0,05) en las pruebas
de Ji-cuadrado de Pearson, Razón de verosimilitud,
Coeficiente Phi, V de Cramer y Coeficiente
de Contingencia en todas las comparaciones. En
la tabla 3 se resumen los valores de p de Ji-cuadrado.
DISCUSIÓN
El National Center for Voice and Speech
(www.ncvs.org) recomendó que la evaluación de la
voz patológica debe comenzar con la realización
de un análisis espectrográfico para clasificarla con
el fin de determinar los métodos de estudio más
idóneos para ese caso en particular. Así, una voz
con el suficiente grado de periodicidad (tipo 1) debería
ser analizada por medio de los parámetros
de perturbación a corto plazo (jitter, shimmer, NNE
y HNR). Si la voz presenta aperiodicidad, subarmónicos
y roturas de voz (tipo 2) no puede ser
analizada de forma fiable con los parámetros antes
mencionados, una perturbación mayor del 5%
nos indica que estamos ante una voz de este tipo,
que debe ser estudiada por un método de clasificación
perceptual (GRBAS) y por un método visual
como el espectrograma. Las voces caóticas (tipo
3) sólo pueden ser estudiadas por el momento
mediante métodos perceptuales, en tanto no se
apliquen de forma práctica las dimensiones que
estudian los fenómenos caóticos (dimensión fractal,
exponente de Lyapunov, etc). Por tanto, la clasificación
GRBAS es un método imprescindible para
la valoración de la voz patológica, dado que es
necesario aplicarla en un importante número de
pacientes en los cuales las medidas de la perturbación
a corto plazo no son fiables o no se pueden
calcular.
Nuestro estudio se centró en averiguar las variables
que determinan que un observador clasifique
una voz en los distintos grados de severidad
de la clasificación GRBAS y su fiabilidad inter e intraobservador.
La regresión logística empleada
permite crear una ecuación en la que se representan
las variables que influyen en cada parámetro.
El parámetro G está definido por la ecuación:
G=0,1537NNE-0,1070HNR-0,133FO+6,1055
Las medidas acústicas de la disfonía basadas
en la importancia o severidad de la sustitución de
la estructura armónica por componentes de ruido
típicamente se han correlacionado muy bien con
las graduaciones perceptuales. El grado de severidad
de la disfonía se ha correlacionado con la re-
Tabla 3: Valores de p (Ji-cuadrado de Pearson) en el estudio
que compara las puntuaciones de ambos observadores
de forma conjunta con las puntuaciones de los observadores
de forma individual seis meses después
Observador 1 Observador 2
G conjunto vs G individual 0,000 0,000
R conjunto vs R individual 0,000 0,000
B conjunto vs B individual 0,000 0,000
A conjunto vs A individual 0,000 0,000
S conjunto vs S individual 0,002 0,003
F. NÚÑEZ BATALLA ET AL. EVALUACIÓN PERCEPTUAL DE LA DISFONÍA
286 Acta Otorrinolaringol Esp 2004; 55: 282-287
lación señal-ruido (HNR) por varios estudios14,15.
Sin embargo, para otros autores16 la severidad percibida
de una disfonía se correlaciona con el shimmer,
hallazgo que no encontramos en nuestro estudio.
Dado que los géneros masculino y femenino
presentan un solapamiento de las frecuencias fundamentales
(FO) y dado que la FO se correlaciona
con la percepción de la calidad de la voz17 se decidió
incluir en la serie tanto hombres como mujeres.
Kojima y Yumoto14,15 estudiando los parámetros
acústicos que se correlacionan con la escala GRBAS
observaron en una serie de pacientes, en los
que los masculinos doblaban en número a los femeninos,
que la HNR se correlaciona bien con la
severidad de la disfonía en voces con FO bajas, y
que dicha correlación podría contener un sesgo a
favor de calificar en grados más severos aquellas
voces más graves en frecuencia. En la presente
serie se observa una relación de masculino:femenino
de 1:3 por lo que esta afirmación puede descartarse,
al menos en nuestro estudio.
El parámetro R (Voz áspera) se define por la
ecuación:
Z=0,6073Yanagihara-0,0992HNR+0,7039
Se ha relacionado el jitter con la aspereza18. En
el estudio de Martin21, para las voces ásperas el
HNR es el responsable del 73% de la variación
perceptual. Eskenazi et al19 han encontrado que la
HNR junto con la SFR (spectral flatness of the residue
signal) predicen con éxito la aspereza, en
contraste con otras medidas más específicas de
perturbación como el % jitter, el PPQ (pitch perturbation
quotient) y el APQ (amplitude perturbation
quotient). La SFR, representa los mismos fenómenos
en el espectrograma LTAS (Long term average
spectrum) en el dominio amplitud vs frecuencia
que la clasificación de Yanagihara en el espectrograma
de banda estrecha o sonograma frecuencia
versus tiempo. En este punto hay que resaltar la
nula influencia estadística de los subarmónicos en
la percepción de aspereza en la voz. La explicación
de este hallazgo es interesante: la energía relativa
de los trazados subarmónicos determina la
percepción acústica de los mismos, mientras no se
alcance una intensidad cercana a los trazados armónicos
se percibirá aspereza. Si la intensidad de
los mismos alcanza valores cercanos a los armónicos
se deja de percibir la aspereza para cambiar
el tono o intensidad de la voz. Este hallazgo puede
tener relación con otras observaciones20 que se
han hecho acerca de la posible independencia de
la presencia de subarmónicos y la percepción de
diplofonía o voz áspera.
El parámetro B (Voz aérea) se define por la
fórmula
B=0,3554NNE-0,4016Jitter+1,7471
Lo que es consistente con las observaciones
de otros autores que correlacionan la calidad aérea
de la voz con los bajos HNR combinados con
menor Jitter y mayor Shimmer, quienes ya advirtieron
la paradoja de encontrar, cuando se asocia a
HNR un jitter bajo correlacionándose con grados
mayores de severidad21. Otros autores relacionan
el jitter con la severidad de la B22.
La variable A (Voz asténica) se define por la
ecuación
A=0,36FaltaArm+0,21Yanagihara-0,24Jitter-2,47
Donde se observa la relación de la percepción
de la voz asténica con la mayor puntuación en la
clasificación espectrográfica de «falta de armónicos».
El parámetro S (Voz tensa) se define por la
ecuación:
S=-0,31FaltadeArm-4,00E-03FO+1,94
Es decir, la variable «Falta de armónicos» es inversamente
proporcional a la percepción de tensión
vocal, propia de los comportamientos vocales
de hiperfunción.
Con respecto a la escala GRBAS se ha demostrado
que su reproductividad es alta si se seleccionan
los observadores mostrando una baja variabilidad
intra e interobservador y una alta variabilidad
intermuestra10,11. El parámetro más consistente es la
G y los menos son la A y la S, pero todavía muestran
una correlación significativa. El parámetro G
parece estar determinado principalmente por el
componente aéreo de la voz. La aspereza y la calidad
aérea se correlacionan negativamente entre
ellas11. Los resultados del presente trabajo son
compatibles con las observaciones ya descritas en
la literatura que hacen referencia a la alta fiabilidad
del sistema de calificación de la disfonía GRBAS
que mejora sustancialmente con el entrenamiento.
CONCLUSIONES
1. La disfonía que acompaña al edema de
Reinke presenta señales sin una estructura periódica
aparente (tipo 3) en el 7,5% de los casos. La
ACTA OTORRINOLARINGOLÓGICA ESPAÑOLA
Acta Otorrinolaringol Esp 2004; 55: 282-287 287