Revisión de Técnicas de Estimación de Pulso Glotal basadas en Filtrado Inverso *

Revisión de Técnicas de Estimación de Pulso Glotal basadas en Filtrado Inverso* Helenca Duxans y Antonio Bonafonte Departamento de Teoría de la Señal y Comunicaciones Centro de Investigación TALP Universitat Politècnica de Catalunya, Barcelona http://www.talp.upc.es {hduxans/antonio}@gps.tsc.upc.es

Resumen Este artículo analiza diversos métodos de estimación del pulso glotal basados en filtrado inverso. En concreto, se detallan dos métodos que calculan el filtro que modela el tracto vocal en la fase cerrada de la glotis, y otros dos métodos que estiman de forma iterativa el filtro que modela el pulso glotal y el filtro que modela el tracto vocal. El objetivo es presentar estas técnicas y compararlas en función de sus resultados en el dominio del tiempo y la frecuencia, así como en función del material necesario para la realización de cada una y su robustez.

1. Introducción El análisis de la señal de voz es el pilar en el que se sustentan todas las tecnologías del habla. Aunque se han alcanzado grandes logros en estas tecnologías con métodos de análisis que ya son clásicos, como análisis LPC o MFCC, es necesario continuar estudiando nuevos métodos de análisis y representación de la señal de voz. A modo de ejemplo, los sintetizadores de formantes han sido relegados a favor de sintetizadores basados en concatenación, pero una de las principales causas es la falta de métodos de análisis robustos y fiables para la estimación de sus parámetros. Este artículo se centra en la estimación del pulso glotal, una magnitud física relacionada con la producción de la voz. El pulso glotal es el flujo de aire que atraviesa la abertura superior de la laringe (glotis) durante la producción de sonidos sonoros. Es por lo tanto la excitación física al sistema de producción de la voz. Sus características dependen del locutor y del tipo de voz producida (normal, ronca). Existe un número elevado de campos en los cuales es útil la aplicación de técnicas de estimación de pulso glotal. En síntesis por formantes se utilizan modelos de este pulso ya que mejoran la naturalidad de la voz sintética [1], y también se han utilizado en codificación de voz a baja velocidad para mejorar la calidad [2]. Otro tipo de aplicación es la variación de las

*

características de la voz sintetizada [3]. Además, las técnicas de estimación de pulso glotal aumentan la información aportada por el tracto vocal, por lo tanto también se utilizan para identificación del locutor [4], del dialecto [5] y reconocimiento del habla. El estudio del pulso glotal también es importante para la determinación de patologías de la voz [6]. En este artículo se muestran los dos planteamientos más utilizados en la estimación de pulso glotal, comparando cuatro métodos basados en filtrado inverso.

2. Modelo de producción de la voz En el proceso de producción de la voz intervienen principalmente tres componentes: el tracto glotal, el tracto vocal y el efecto de radiación de los labios. Estos componentes se pueden modelar mediante tres filtros desacoplados y linealmente separables (figura 1).

Ruido Blanco

Tracto Glotal

Tracto Vocal

Pulso Glotal

Radiación Voz

Figura 1: Diagrama de bloques del modelo de producción de la voz Un posible modelo del tracto glotal para sonidos sonoros es un filtro de 2 o 4 polos con un tren de impulsos, de periodicidad el tono de la voz, a su entrada. La respuesta del filtro corresponde al pulso glotal. En el apartado 3 se encuentra una explicación más detallada de este pulso. Para los sonidos sordos se considera que la excitación del filtro que modela el tracto vocal es ruido blanco. El tracto vocal normalmente se estima mediante un filtro de fase mínima todo polos, que modela los formantes y sus

Este trabajo ha sido financiado por la CICYT, a través del proyecto TEHAM: Tecnologías del Habla Multilingüe, TIC2000-1005C03-01

anchos de banda, y está totalmente relacionado con el sonido que se produce:

H ( z) =

G p

1− ∑ ak z

−k

(2)

1

0.8

0.6

k =1

0.4

Este tipo de filtro es una simplificación de un modelo más ajustado a la realidad, que estaría formado tanto por polos como por ceros y sin la restricción de fase mínima. La onda de presión de la señal de voz está relacionada con la onda volumen-velocidad presente en los labios a través de una impedancia de radiación R(z). Se considera que esta impedancia no varía según el sonido que se produce, por lo que el efecto de los labios se modela como un diferenciador fijo simple, R (z ) = 1 − α z − 1

1.2

0.2

Fase de Retorno

0

Fase Abierta -0.2

0

10

20

Fase Cerrada

te 30

40

50

60

70

0.8

0.6

0.4

0.2

Fase de Retorno 0

Fase Cerrada -0.2

(1)

con el parámetro α igual o muy próximo a 1. En las técnicas clásicas de estimación LPC se supone que el tracto glotal está formado por dos polos de los que, aproximadamente, uno se compensa con el efecto de radiación de los labios y el otro mediante un pre-énfasis que se aplica a la señal de voz antes del análisis. De esta forma, se asume que el pulso glotal es igual para todos los locutores, todos los tipos de voz y en todos los tramos de señal. Esta suposición da como resultado estimaciones de los filtros que modelan al tracto vocal con contribuciones del tracto glotal. Los métodos de estimación de pulso glotal por filtrado inverso no sólo estiman el pulso, sino que además proporcionan un filtro para el tracto vocal sin interacciones.

3. Estudio del pulso glotal 3.1. Características principales El modelo presentado de producción de la voz (figura 1) está formado por tres filtros linealmente separables y sin interacción entre ellos, pudiéndolos cambiar de orden sin que esto afecte a la salida del sistema. Por esta razón, muchas veces se toma como excitación del filtro de tracto vocal el pulso glotal derivado, uniendo el tracto glotal y el efecto de radiación de los labios. El pulso glotal (o su derivada) presenta tres fases diferenciadas: fase abierta (las cuerdas vocales se abren para dejar pasar aire), fase cerrada (no hay flujo de aire) y fase de retorno (entre el instante de cierre de las cuerdas vocales y el instante en que ya no circula aire). Ver figura 2.

-0.4

-0.6

-0.8

-1

Fase Abierta 0

10

20

te 30

40

50

60

70

Figura 2: Forma de onda volumen-velocidad del pulso glotal y abajo su derivada. En el instante te, cuando las cuerdas vocales se unen, es cuando la excitación al filtro de tracto vocal tiene mayor amplitud. La duración de la fase de retorno determina la cantidad de energía de alta frecuencia presente en el pulso y , a su vez, en la voz. A mayor velocidad de cierre de las cuerdas vocales, menor duración de la fase de retorno, por lo tanto, más energía en altas frecuencias. Como se observa en la derivada del pulso glotal, el instante de cierre de las cuerdas vocales provoca una variación mucho más abrupta que la abertura, por lo que es más fácil de detectar. La forma del pulso glotal depende del locutor y del tipo de voz producida. Por ejemplo, la duración de la fase cerrada, importante para un grupo de los métodos basados en filtrado inverso, depende del locutor, pudiendo ser casi inexistente para voces femeninas que se caracterizan por tener una frecuencia de tono elevada. Según el tipo de voz la forma del pulso glotal también varía. Para voces aspiradas, en las cuales se produce una inversión en el sentido del aire al pasar por la glotis, el pulso aparece invertido. Para voces roncas se puede apreciar ruido de aspiración en la fase cerrada, donde teóricamente no debería existir ningún tipo de flujo. 3.2. Interacción tracto glotal-tracto vocal Hasta este punto se ha supuesto que no existe ningún tipo de interacción entre el pulso glotal y el tracto vocal. Realmente, durante la fase abierta de la glotis, el tracto vocal influye en la producción del pulso, ya que actúa como una carga para el tracto glotal. Esta influencia tiene varios efectos, de los cuales se presentan a continuación los dos más importantes [7]:

• Desviación (skewness): desplazamiento del área del pulso glotal hacia la derecha. Su efecto acústico es un incremento uniforme del nivel de potencia de los formantes. • Rizado: se puede detectar un rizado en la fase abierta del pulso debido a la disipación de energía del primer formante por parte de la glotis. Esto puede provocar un desplazamiento en las frecuencias de los formantes y un incremento de su ancho de banda durante la fase abierta del ciclo glotal. Acústicamente su efecto es una reducción en el nivel del primer formante. Debido a esta interacción, la forma del pulso glotal varía ligeramente cuando hay un cambio en el tracto vocal. Es decir, el pulso glotal presenta cierta dependencia respecto al contenido fonético del habla producida. Por lo tanto, la estimación del pulso debe realizarse para cada período de pitch, o como máximo para cada tramo de la señal con propiedades fonéticas estables.

4. Estimación del pulso glotal Los métodos publicados de estimación del pulso glotal se pueden dividir en dos categorías: • Métodos de filtrado inverso. • Métodos de optimización conjunta Pulso Glotal + Tracto Vocal. Los métodos de filtrado inverso cancelan el efecto de los formantes en la voz para recuperar la excitación. El procedimiento consiste en calcular, para cada período de pitch, un filtro que modele el tracto vocal y luego filtrar la señal de voz por su inverso para calcular la excitación (o pulso glotal derivado). Integrando la excitación se anula el efecto de radiación de los labios y se halla el pulso glotal. Los métodos de filtrado inverso pueden clasificarse en dos grupos: los métodos de estimación del filtro en fase cerrada y los métodos iterativos. Con el fin de evitar influencias del pulso glotal en la estimación de los formantes los métodos de filtrado en fase cerrada realizan la estimación del filtro de tracto vocal cuando no hay excitación, es decir, en la fase cerrada del ciclo glotal. Dado que el intervalo para hacer el análisis LPC es menor que un periodo de pitch se utiliza el método de covarianza. La mayor dificultad en este tipo de análisis reside en encontrar la fase cerrada del pulso glotal, ya que ésta puede ser casi inexistente o haber ruido de aspiración. Los métodos iterativos no utilizan técnicas de fase cerrada, sino que realizan una estimación de un filtro para modelar el tracto glotal seguidamente de otro para modelar el tracto vocal. Así, filtrando inversamente, se obtiene una aproximación del pulso glotal, que permite realizar una nueva estimación más aproximada de los dos filtros. En este artículo se comparan dos técnicas de filtrado inverso mediante la localización de la fase cerrada de la glotis

con dos técnicas iterativas. En los apartados 4.1, 4.1, 4.3 y 4.4 se detallan cada una de ellas. Otro método publicado de estimación de pulso glotal basado en filtrado inverso es [4]. Este método presenta una solución para la estimación del filtro de tracto vocal de voces femeninas con un tono elevado, y por lo tanto con la fase cerrada de la glotis de poca longitud. Para ello, se utiliza en el análisis LPC por el método de covarianza dos ventanas de análisis, de modo que se utilizan las muestras de dos fases cerradas continuas con el fin de tener suficientes datos para estimar el filtro de tracto vocal. La segunda categoría de métodos de estimación de pulso glotal realizan una búsqueda paramétrica en el espacio de funciones de Trato Vocal + Pulso Glotal imponiendo un modelo paramétrico del pulso glotal a priori. De esta forma, el problema de hallar el pulso glotal se transforma es hallar los parámetros óptimos del modelo y los ak del filtro del tracto vocal de forma conjunta. Esta búsqueda se realiza con el criterio de minimizar un error de síntesis predefinido. Algunos trabajos realizados mediante este tipo de métodos de estimación del pulso glotal son [8], [9], [10]. Estos métodos suelen utilizar modelos de pulso glotal simples, ya que utilizan sus parámetros en la optimización. Por lo tanto, parecen adecuados para aplicaciones de síntesis o codificación del habla, pero no tanto para estudios de patologías de la voz. Un requisito esencial para realizar la estimación del pulso glotal con cualquiera de los métodos presentados es una gran calidad de las grabaciones utilizadas. Se debe asegurar la no introducción de distorsiones de fase, no introducir ningún cambio de polaridad, y se debe tener precaución con posibles ruidos o interferencias que puedan aparecer a bajas frecuencias. 4.1. Filtrado inverso con criterio de potencia de error mínima Esta técnica fue propuesta por Wong et al. [11]. Utiliza la señal de voz y un criterio de error normalizado mínimo para la determinación de los límites de la fase cerrada. En la figura 3 se puede observar un diagrama de bloques de este método.

Voz

1. Análisis Secuencial Covarianza

2. Criterio Error Normalizado 3. Estabilizar Filtro

4. Filtro Inverso

5. Integrador

Pulso Glotal

Figura 3: Diagrama de bloques del método de filtrado inverso con criterio de error de mínimos cuadrados

•

•

Análisis de covarianza secuencial (bloque 1): en cada muestra del tramo de la señal correspondiente a la fase cerrada se realiza un análisis LPC con la técnica de covarianza, con una longitud N de ventana prefijada y utilizando M (orden del filtro) muestras anteriores como condiciones iniciales. De esta forma se asocia un filtro de tracto vocal a cada muestra. Criterio de error normalizado (bloque 2): el objetivo es seleccionar el filtro calculado con muestras de la señal de voz correspondientes a la fase cerrada del pulso glotal. Para ello se elige el filtro cuyo error de predicción es mínimo.

El método de covarianza para el cálculo de filtros AR no asegura estabilidad, por lo que en caso de que el filtro sea inestable se reflejan aquellos polos que estén fuera del círculo unidad a su interior (bloque 3). Una vez se ha determinado el filtro que modela el tracto vocal para hallar la excitación del sistema se aplica el filtrado inverso sobre el tramo de señal. Finalmente, se elimina el efecto de radiación integrando la señal para obtener el pulso. 4.2. Filtrado inverso con criterio de variación mínima Este método de estimación del pulso glotal utiliza la información adicional aportada por el laringógrafo para estimar los límites de la fase cerrada, tal y como se propuso en [6]. Este dispositivo mide la impedancia eléctrica a través del cuello a la altura de la laringe, registrando las variaciones del contacto entre las cuerdas vocales. El inicio de la fase cerrada viene marcado por un cambio brusco de la señal del laringógrafo. Se toma como una estimación para el inicio de la fase abierta el punto en que la amplitud de la señal del laringógrafo pasa a ser menor que la mitad del valor pico a pico. Una vez estimado el intervalo correspondiente a la fase cerrada, se realiza un análisis de covarianza secuencial como en el método anterior. El criterio para elegir el filtro tiene en cuenta que la imposición de pulso glotal igual a cero para la fase cerrada no siempre es real. Por ejemplo, hay locutores que siempre tienen una obertura en la glotis, y por lo tanto flujo glotal. Así, no utiliza el criterio de error mínimo para escoger el filtro óptimo, si no que aplica un criterio de variación mínima. La fase cerrada del pulso glotal se caracteriza por un comportamiento plano, idealmente cero, de forma que para cada filtro obtenido se calcula el error de predicción para la fase cerrada estimada, y se escoge aquél que presente una respuesta más plana. Por último, como en el método anterior, se realiza el filtrado inverso y la integración para calcular el pulso glotal. Veeneman et al. [6] propusieron el criterio de variación mínima como indicador para seleccionar un filtro que modele el tracto vocal. Su trabajo se centra en el análisis de patologías de la voz y se asume que el tracto vocal no varia durante la realización de un fonema. Por esta razón, se calcula un filtro en la fase cerrada para cada período de pitch, entre los que se

escoge uno para filtrar toda la señal de voz correspondiente al mismo fonema con el criterio de variación mínima. En el presente artículo se considera importante estimar un tracto vocal para cada período de pitch, para poder hacer un buen seguimiento de los formantes en las transiciones entre fonemas. Por este motivo, el criterio de variación mínima se ha aplicado después de una análisis de covarianza secuencial, para seleccionar un filtro por tramo.. 4.3. IAIF (filtrado inverso adaptado iterativo) El método IAIF [12] utiliza una estructura iterativa para estimar la contribución glotal al espectro de la voz. Es un método de filtrado inverso que no utiliza fase cerrada. El diagrama de bloques de este análisis se puede ver en la figura 4. Los bloques 1 y 6 estiman la contribución del tracto glotal a la señal de voz, y los bloques 3 y 8 la contribución del tracto vocal. Para eliminar el efecto de los labios se utilizan los bloques integradores 5 y 10. Los análisis LPC se realizan de forma asíncrona con el pitch, con una longitud de tramo prefijada. Voz

1. Análisis LPC orden 1

2. Filtrado Inverso

3. Análisis LPC orden 8

4. Filtrado Inverso

5.

6. Análisis LPC orden 4

7. Filtrado Inverso

8. Análisis LPC orden 8

9. Filtrado Inverso

10.

Pulso Glotal

Figura 4: Diagrama de bloques del método IAIF La idea de este método es estimar en primer lugar la aportación más clara del tracto glotal: la atenuación en las altas frecuencias (spectral tilt), con un filtro de orden 1. Se puede ver como un pre-énfasis adaptado a la señal. A continuación se elimina esta aportación de la señal de voz, de forma que se estimará el filtro que modela el tracto vocal con menos influencia del pulso glotal que si se estimase directamente a partir de la señal de voz. Filtrando inversamente e integrando se obtiene una primera estimación del pulso glotal. A partir de

esta señal puede realizarse una nueva estimación mejor del tracto glotal, y repitiendo el procedimiento anterior, una nueva estimación del tracto vocal y del pulso glotal. Las ventajas que se pueden destacar de este método son: sólo se utiliza la señal de voz para el análisis; requiere mucha menos carga computacional que en los métodos anteriores, y de forma adicional al pulso glotal y filtro de tracto vocal aporta un filtro para modelar el tracto glotal. 4.4. PIAIF (filtrado inverso adaptado iterativo síncrono con el pitch) Este método [12] es una extensión del IAIF para incluir las ventajas de los análisis síncronos con el pitch. En una primera etapa se realiza una estimación del pulso glotal mediante IAIF. A partir de esta señal se estima el periodo de pitch. Seguidamente, se realiza otra estimación IAIF, pero imponiendo la longitud del tramo igual al período hallado en cada instante y realizando análisis LPC con el método de la covarianza. En el método anterior, al utilizar una longitud de tramo prefijado, la estimación LPC se puede ver afectada por la estructura armónica del espectro de la voz. Al limitar el análisis a una longitud igual al periodo de pitch se asegura estacionaridad de los formantes y se evita la influencia de la estructura armónica de la excitación.

5. Resultados Las grabaciones utilizadas para los experimentos pertenecen a un locutor varón, de edad media y sin ninguna patología detectada en la voz. Se realizaron en una sala aislada acústicamente, grabando de forma simultánea la señal de voz (32Khz, 16 bits por muestra) y la señal del laringógrafo. Aunque se han analizado varios sonidos, los resultados que se presentan corresponden a la vocal /i/ de la frase: “la adquisición de carteras vencidas se reflejó en el forum”. La duración de la vocal es de 64 milisegundos. Previamente al estudio realizado se analizó la señal del laringógrafo para determinar los instantes de cierre de la glotis (puntos de cambio abrupto de la señal), y se ajustó el retardo de la señal de voz respecto a la salida del laringógrafo. La señal de voz fue diezmada a 8Khz. Para todos los métodos se ha tomado el orden del filtro de tracto vocal igual a 8 (debido al ancho de banda de la señal), y longitud de ventana para el análisis LPC con covarianza de 18 muestras. En los métodos iterativos el orden de la primera estimación del tracto glotal es 1 y la segunda 4, y la longitud de ventana en los bloques asíncronos de 160 muestras. En la figura 5 se muestran los pulsos glotales estimados con los cuatro métodos presentados para la vocal /i/. El eje horizontal representa muestras, y el eje vertical es arbitrario. La estimación obtenida con el método de filtrado inverso con criterio de error de mínimos cuadrados tiene como principal inconveniente que requiere supervisión manual para determinar los límites de la fase cerrada del ciclo glotal, por lo

tanto tiene limitada su utilidad. Además, en períodos de pitch en los que la glotis no está cerrada del todo, y por lo tanto no hay una fase cerrada clara, la elección de los puntos de inicio y fin pueden ser erróneos, dando lugar a elección de filtros con peor comportamiento. 4

3

2

1

0

-1

-2

-3

-4 0

100

200

300

400

500

600

Figura 5: Pulso glotal estimado para la vocal /i/. Métodos: a) Filtrado inverso con criterio de error de mínimos cuadrados, b) Filtrado inverso con criterio de alisado, c) IAIF, d) PIAIF Con el segundo método presentado, el filtrado inverso con criterio de variación mínima, se ha obtenido una buena estimación. La incorporación de un segundo canal con la señal obtenida a partir de un laringógrafo ha permitido seleccionar unos límites para el análisis de covarianza secuencial más apropiados. Para comprobar la importancia de esta localización de los instantes de análisis se ha analizado el primer método incorporando la información del laringógrafo, constatando una mejora en sus resultados. El segundo método también se diferencia en el criterio de selección del filtro de tracto vocal, más acorde con la realidad, ya que no impone un error de predicción mínimo sino un error plano. Aplicando este criterio se obtienen mejores resultados que con el criterio de error normalizado. Sin embargo, en algunos periodos de pitch se ha detectado que las últimas muestras de la fase de retorno se consideran al calcular el error. Para locutores con fase de retorno larga sería recomendable tomar el inicio de la fase cerrada unas muestras después del valor estimado. El método IAIF sólo utiliza la señal de voz y tiene muy poca carga computacional, pero es el método que presenta peores resultados y muy poca robustez. En el análisis no se tiene ningún tipo de control sobre los tramos de señal con la que se realizan las estimaciones LPC, de forma que se pueden utilizar dos periodos de pitch con características distintas para calcular el pulso glotal. Por lo tanto, la separación entre la contribución del tracto vocal y la contribución del tracto glotal no será total. En la figura 5 se puede apreciar el fenómeno de rizado en la fase abierta explicado en el apartado de interacción vocal-glotal. Otro inconveniente de este método es su poca robustez. Se obtienen estimaciones de pulso glotal bastante distintas variando la posición o longitud de los tramos de señal.

El método PIAIF, al incorporar una sincronización con el pitch, presenta mejores resultados y más robustez. Para complementar los resultados temporales obtenidos, en la figura 6 se muestra el espectro LPC del tracto vocal correspondiente a un periodo de pitch de la zona central del fonema /i/. Los resultados del método de filtrado inverso con criterio de alisado y del PIAIF se comparan con un análisis LPC de covarianza utilizando todas las muestras del periodo. 40

30

20

10

0

-10

-20 0

0.5

1

1.5

2

2.5

3

3.5

Figura 6: Espectro LPC estimado para la vocal /i/. Métodos: Línea continua) LPC covarianza, Línea discontinua) Filtrado inverso con criterio de alisado, Puntos) PIAIF . Se debe destacar que los resultados presentados corresponden a una voz masculina con una fase cerrada de la glotis de suficiente duración como para realizar estimaciones con el método de la covarianza. Estimaciones a partir de otras vocales del mismo locutor, pero con una fase cerrada menos definida, presentan una degradación en los resultados. También se ha observado que para algunos fonemas fricativos el pulso glotal obtenido tiene muy poca potencia.

6. Conclusiones En este artículo se han revisado cuatro técnicas de estimación de pulso glotal basadas en filtrado inverso. Dos de estas técnicas calculan el filtro que modela en tracto vocal en la fase cerrada de la glotis. Se ha comprobado como una buena determinación de los límites de la fase cerrada mejora el resultado de la estimación. Para aplicaciones de síntesis o estudio del habla, en las cuales se puede permitir la utilización de un laringógrafo, es recomendable utilizar esta información adicional. Los métodos iterativos de estimación del pulso glotal por filtrado inverso son interesantes desde el punto de vista que no necesitan ninguna información adicional a la señal de voz, por lo tanto se podrían utilizar en aplicaciones de reconocimiento o codificación del habla. Se ha comprobado que es importante tener un control sobre los límites de la señal utilizada para calcular los filtros de tracto vocal, por lo que se han obtenido mejores resultados con el método síncrono con el pitch.

7. Referencias [1] Childers, D.G., Hu, H.T., “Speech Synthesis by glottal excited linear prediction” J. Acoust. Soc. Am., 96(4), October 1994. [2] Alku, P., “Low bit rate speech coding with glottal linear prediction” IEEE International Symposium on Circuits and Systems, p.2149 -2152 vol.3, 1990. [3] Childers, D.G., “Glottal source modeling for voice conversion” Speech Communication 16, p.127-138, 1995 [4] Plumpe, M.D., Quatieri, T.F., Reynolds, D.A., “Modeling of the glottal flow derivative waveform with application to speaker identification” IEEE Trans. Speech and Audio Processing, vol. 7, nº 5, September 1999. [5] Yanguas, L.R., Quatieri, T.F., Goodman, F., “Implications of glottal source for speaker and dialect identification” ICASSP vol. 2 p. 813 –816, 1999. [6] Veeneman, D.E., BeMent, S.L., “Automatic Glottal Inverse Filtering from Speech and Electroglottographic Signals” IEEE Trans. Acoustics, Speech and Signal Processing, vol. ASSP-33, nº 2, April 1985. [7] Childers, D.G., Wong, C., “Measuring and Modeling Vocal Source-Tract Interaction” IEEE Trans. Biomedical Engineering, vol. 41, nº 7, July 1994 [8] Cohen, G., Malah, D., “Speech analysis and synthesis using a glottal excited AR model with DTW-based glottal determination” IEEE 18th Conv. of EE in Israel, Tel-Aviv, p. 3.2.3-1--3.2.3-5, March 1995. [9] Lu, H., Smith, J.O., “Joint estimation of vocal tract filter and glottal source waveform via convex optimization” IEEE Workshop Applications of Signal Processing to Audio ans Acoustics, Oct. 1999. [10] Ding, W., Kasuya, H., “A novel approach to the estimation of voice source and vocal tract parameters from speech signals” ICSLP 1996. [11] Wong, D.Y., Markel, J.D., Gray, A.H. Jr., “Least Squares Glottal Inverse Filtering from the Acoustic Speech Waveform” IEEE Trans. Acoustics, Speech and Signal Processing, vol. ASSP-27, nº 4, August 1979. [12] Alku, P., “Glottal wave analysis with Pitch Synchronous Iterative Adaptive Inverse Filtering” Speech Communication 11, 1992.

Revisión de Técnicas de Estimación de Pulso Glotal basadas en Filtrado Inverso *

Recommend Stories

Story Transcript

Get in touch

Social