Cómo se ve la voz? Recibido: 19 de julio de 2007 Aceptado: 26 de julio de 2007

¿C´omo se ve la voz? Fabiola M. Mart´ınez Licona, John Goddard Close, Alma E. Mart´ınez Licona Inteligencia Artificial Aplicada, Depto. Ingenier´ıa El

Author: Alfonso Lara Acosta

0 downloads 108 Views 238KB Size

Report

DOWNLOAD PDF

Recommend Stories

CONDICIONES DE APRENDIZAJE ORGANIZACIONAL. Recibido: abril 10 de 2007 Revisado: junio 15 de 2007 Aceptado: julio 27 de 2007

2007 de 2 de julio)

2007, de 2 de julio)

2007, de 4 de julio)

Recibido: Aceptado: Biblid [ (2007-2); 41: ]

Rating final. Julio 2007

2007, de 3 de julio, de Inv

Agosto Julio 2007

(Resolución 6 de julio de 2007)

ANEXO I LISTA DEFINITIVA DE ADMITIDOS A LAS PRUEBAS SELECTIVAS DE LA ESCALA DE AUXILIARES ADMINISTRATIVOS DE LA UNIVERSIDAD POLITÉCNICA DE MADRID SIST

ANALISIS CLIMATOLOGICO de julio de 2007

Story Transcript

¿C´omo se ve la voz? Fabiola M. Mart´ınez Licona, John Goddard Close, Alma E. Mart´ınez Licona Inteligencia Artificial Aplicada, Depto. Ingenier´ıa El´ectrica, UAM-I. [email protected] Recibido: 19 de julio de 2007 Aceptado: 26 de julio de 2007 Uno de los medios de comunicaci´ on entre los humanos m´as importantes es el habla; mediante la emisi´on de palabras se pueden expresar las ideas y sentimientos de manera directa y efectiva. Por esa raz´ on la producci´on de la voz humana es un ´ area de intenso estudio para diversas comunidades cient´ıficas y profesionales como la f´ısica, la ling¨ u´ıstica y las ciencias de la computaci´ on. La producci´on del habla se puede analizar desde diversos puntos de vista como el ac´ ustico, el fisiol´ogico o el psicol´ ogico, siendo el ac´ ustico de los m´as utilizados para el an´alisis y desarrollo de aplicaciones en reconocimiento y s´ıntesis. Ac´ usticamente la voz se modela como una fuente de sonido con ciertas propiedades que est´ an determinadas a partir de un filtro selectivo. El filtro representa al tracto vocal, conducto donde se producen los sonidos articulados que resultan en las palabras emitidas. Cuando una persona habla, las propiedades del filtro van cambiando con el tiempo debido a los cambios en la geometr´ıa del tracto vocal, mismos que quedan determinados por los cambios en la posici´on de los ´organos localizados en su interior. El fonema es la m´ınima unidad sonora de que se componen las palabras [1]. La emisi´on de fonemas se genera a partir del movimiento de los articuladores del habla, que incluyen cuerdas vocales, paladar, lengua, dientes, labios, u ´vula y quijada. La fig. 1 muestra la localizaci´on de algunos de dichos ´ organos dentro del tracto vocal.

Figura 1. Esquema del tacto vocal

ticulaci´ on. La coarticulaci´ on se relaciona con la velocidad y la coordinaci´ on de los movimientos de los elementos dentro del tracto vocal y su efecto se observa en la gama de variaciones que se presentan en la pronunciaci´ on. Es por esta raz´ on que una misma palabra o enunciado puede sonar diferente si es pronunciado por una persona de nacionalidad mexicana o argentina, por una persona de la costa o la ciudad, o incluso por un ni˜ no o un adulto ya sea hombre o mujer. Es materia de estudio la caracterizaci´on de estas diferencias ya que se puede obtener conocimiento acerca de los problemas en la emisi´on de sonidos o en la articulaci´on de palabras con la finalidad de desarrollar procedimientos de rehabilitaci´on en pacientes con estos problemas.

En el campo de las tecnolog´ıas del habla es bien sabido que los sonidos no se producen de manera aislada; cada sonido tiene un efecto en los dem´ as y a la vez es afectado por el resto de componentes sonoros, en particular por los sonidos vecinos dentro de la palabra. Este efecto dentro de la concatenaci´on de unidades fon´eticas recibe el nombre de coar-

A manera de ejemplo, una vocal producida entre dos consonantes, digamos una /m/, presenta modificaciones en su representaci´ on debido al efecto de las consonantes adyacentes. La consonante /m/ se pue56

¿C´omo se ve la voz? F. M. Mart´ınez Licona, J. Goddard Close, A. E. Mart´ınez Licona.

de caracterizar por el lugar donde se produce dentro del tracto vocal; en este sentido, se dice que es una nasal debido a la participaci´ on de las fosas nasales en su producci´on. Este fonema se contrasta con los llamados oclusivos como la /p/ o la /t/ cuya caracter´ıstica principal es la retenci´ on moment´ anea del flujo de aire y su posterior liberaci´ on de manera s´ ubita. Una adecuada representaci´ on de estos comportamientos resulta necesaria para su estudio. Dada la velocidad con la que estos eventos ocurren y la variedad de cambios que se pueden presentar dentro de una misma emisi´on, se requiere de una representaci´ on que los detecte y los represente con la claridad suficiente para caracterizarlos y, por ejemplo predecirlos si pensamos en una aplicaci´ on basada en reconocimiento. La representaci´ on gr´ afica de los eventos ac´ usticos que se producen en el habla en algunas ocasiones carece de claridad cuando se trata de analizar estos cambios, ya sea dentro del mismo hablante o en situaciones mutihablantes, por lo que se requiere de diferentes tipos de representaciones y an´alisis para su mejor comprensi´on. Los cambios que se mencionan se refieren a las modificaciones de los coarticuladores en el tracto vocal cuando pasan de la producci´on de un sonido a otro como por ejemplo en un diptongo, la concatenaci´on de una vocal fuerte con una d´ebil, o en una s´ılaba de estructura compleja como en /trans/ donde una vocal se hace acompa˜ nar de cuatro consonantes de las cuales una es oclusiva (de muy corta duraci´ on), otra es una nasal (producida a nivel de fosas nasales) y la otras dos son del tipo fricativo y vibrante (con un comportamiento de tipo ruidoso). Para una emisi´on de habla, la representaci´ on m´as sencilla y directa es la que relaciona la amplitud de la se˜ nal con el tiempo en que ´esta se presenta; a este tipo se le denomina representaci´ on en tiempo. Dado que una se˜ nal puede caracterizarse respecto a sus componentes en frecuencia, se puede obtener la representaci´ on en frecuencia, o el espectro de esa misma se˜ nal, aplicando la transformada r´ apida de Fourier (FFT); sin embargo se requiere de una adecuaci´on a la representaci´ on gr´ afica para detectar la manera en que se presentan los cambios. Una caracter´ıstica del habla como se˜ nal es que pertenece al grupo de se˜ nales no estacionarias, es decir, es del tipo de se˜ nales que presentan cambios en su morfolog´ıa sin seguir un patr´ on determinado o alguna periodicidad. Para detectar las caracter´ısticas cambiantes se requiere de un “ventaneo” de la se˜ nal, el cual consiste en aplicar el algoritmo de la FFT a un seg-

57

mento de la misma; dicho segmento queda determinado por la multiplicaci´ on de la se˜ nal por una funci´on definida y finita denominada ventana. La representaci´ on final maneja tres dimensiones, el tiempo, la frecuencia y la energ´ıa de la se˜ nal dada por el espectro de potencia obtenido a partir de la FFT. Esta representaci´ on recibe le nombre de espectrograma y el algoritmo correspondiente se obtiene de

Γy (ω) = 2π

∞ X

k=−∞

2π , |Ck |2 δ ω − k N

donde Γy (ω) es la densidad de potencia o espectro de potencia de una se˜ nal peri´ odica y(n), y Ck son los coeficientes asociados [2]. La fig. 2, p´ag. 58 presenta dos ejemplos de representaci´ on en tiempo y frecuencia de fonemas, una vocal y una consonante. N´ otese la caracter´ıstica cuasi peri´ odica de la vocal /a/, misma que queda reflejada en la formante, la l´ınea en una banda de frecuencias fija a lo largo del tiempo de emisi´on. En contraste, la consonante /b/ presenta una forma dif´ıcil de caracterizar, su espectrograma no parece representar los comportamientos vistos en el tiempo. Para la obtenci´ on del espectrograma se utilizaron los siguientes par´ ametros: frecuencia de muestreo de 16 KHz, n´ umero de datos por segmento o ventana de 256 utilizando una funci´on hamming sin traslape. El espectrograma tiene ciertas limitaciones, la m´as importante es que la resoluci´ on en frecuencia queda fija. Para se˜ nales cambiantes en el tiempo lo ideal ser´ıa tener una representaci´ on que pudiera identificar aquellos componentes a baja frecuencia que suceden en todo el tiempo y a los de alta frecuencia que se presentan en per´ıodos muy cortos de tiempo. Desde hace algunos a˜ nos se han desarrollado representaciones tiempo-frecuencia que pueden resolver estas situaciones. En particular, la representaci´on basada en funciones limitadas en tiempo con caracter´ısticas definidas, ondillas, onditas o wavelets, utiliza ventanas de ancho variable de acuerdo a la frecuencia; en este sentido su comportamiento se asemeja al del o´ıdo que filtra de manera selectiva aquellos componentes que le permiten identificar los sonidos y su articulaci´on. La descomposici´on de la se˜ nal utilizando la transformada wavelet se desarrolla en forma jer´arquica por lo que se puede obtener una representaci´ on en diferentes escalas; entonces se puede hablar de una descomposici´on multiresoluci´on que permite observar diver-

58

ContactoS 65, 56–60 (2007)

Figura 2. Representaci´ on en tiempo y frecuencia (espectrograma) de la vocal /a/ y la consonante /b/.

sos componentes definidos en tiempo y en frecuencia. La transformada wavelet se obtiene de

CW Tx (τ, a) =

Z

∗ x(t) · ψa,τ (t) · dt

donde ψ ∗ es la funci´on u ondilla base, la cual se descompone en versiones dilatadas en tiempo, dado por τ , y en escalas, dado por a [3]. En la fig. 3, p´ag. 59, se observan los tres tipos de representaciones descritas, se trata de una s´ılaba que consta de una consonante fricativa y una vocal. En la parte inferior se muestra la representaci´ on temporal de la se˜ nal donde se puede observar la diferencia morfol´ ogica entre cada fonema. En la parte superior se presenta el espectrograma correspondiente, donde se identifica la frontera entre ambos sonidos y se puede apreciar la diferencia entre el comportamiento espectral entre ellos, donde la vocal presenta su formante y la consonante su comportamiento ruidoso. En la parte central de la misma figura se puede observar una representaci´ on tiempo-escala de la s´ılaba. En este tipo de representaci´ on cada escala puede verse como un acercamiento a la descomposici´on de la se˜ nal; en este sentido la vocal se descompone en paquetes temporales a lo largo de tres escalas mientras que la consonante presenta componentes de mediana energ´ıa a lo largo de cinco escalas. Si bien es posible obtener una representaci´ on adecuada, se deben cuidar aspectos como la resoluci´on en tiempo y escala, y la funci´on base para desarrollar la descomposici´on en ondillas ya que para algunos casos es preferible para la descomposici´on uti-

lizar funci´on base que tenga caracter´ısticas similares a las de la se˜ nal bajo estudio. A partir de la representaci´ on tiempo-frecuencia se ha desarrollado una serie de descomposiciones que presentan variantes en la manera de obtener las familias de funciones. En una de ellas se desarroll´ o un algoritmo que busca la base que mejor se ajusta a la se˜ nal, este tipo de descomposici´on recibe el nombre de b´ usqueda ajustada o matching pursuit. De manera general el algoritmo es del tipo iterativo y descompone la se˜ nal en diccionarios de vectores. Un diccionario es una familia de vectores incluida en un espacio de Hilbert con norma unitaria. La manera en que se obtiene la descomposici´on es la siguiente. Sea R0 f = f ; sup´ongase que se ha calculado el residuo de orden n-´esimo Rn f , para n ≥ 0. Entonces se elige un elemento que pertenece al diccionario, gγn ∈ D, el cual se acerque al residuo Rn f de tal forma que |C (Rn f, gγn )| = supγ∈Γ |C (Rn f, gγ )| donde C(f, gγ ) es una funci´on de correlaci´on que mide la similitud entre f y gγ . El residuo Rn f se vuelve a descomponer ahora en Rn f = (Rn f, gγn )gγn + Rn+1 f que define el residuo del orden n + 1. En el algoritmo de Matching Pursuit (MP) introducido inicialmente por Mallat y Zhang [4], la funci´on de correlaci´on utilizada es el producto interno C(f, gγ ) = hf, gγ i. Para cualquiera de las funciones de correlaci´on utilizadas se ha probado que la energ´ıa del error ||Rn f ||2

¿C´omo se ve la voz? F. M. Mart´ınez Licona, J. Goddard Close, A. E. Mart´ınez Licona.

59

Figura 4. Representaciones gr´ aficas del fonema /b/. En orden descendente: representaci´ on mediante la descomposici´ on MP, representaci´ on temporal y coeficientes de la descomposici´ on MP.

Figura 3. Representaciones gr´ aficas de una s´ılaba. En orden descendente: espectrograma, representaci´ on tiempoescala mediante la transformada wavelet y representaci´ on temporal.

decae a cero. Entonces iterando la ecuaci´ on anterior se obtiene la descomposici´on at´ omica de la se˜ nal

f=

+∞ X

C (Rn f, gγn ) gγn

n=0

La fig. 4 se presenta la representaci´ on gr´ afica del fonema /b/ en el tiempo, parte media, y su descomposici´on mediante matching pursuit, parte superior. En la parte inferior se muestran los coeficientes de la descomposici´on. Se puede observar que la morfolog´ıa del fonema presenta un comportamiento muy irregular, n´otese la diferencia con respecto al otro fonema /b/ de la fig. 2. La descomposici´on mediante MP parece que sigue los cambios abruptos

presentados en el tiempo, adem´ as se puede observar que en el dominio del tiempo-frecuencia el n´ umero de elementos diferentes de cero es menor comparado con el espectrograma o la representaci´ on tiempoescala. Analizando la sucesi´ on de elementos a lo largo del tiempo y su localizaci´ on en el plano de fase, un tipo de representaci´ on tiempo-frecuencia, se puede pensar en que unos cuantos componentes pueden representar el comportamiento del fonema y de ellos hay algunos cuyo contenido de energ´ıa, representado por el nivel de gris, es mucho mayor al resto de elementos. Se han presentado diferentes maneras de representar la se˜ nal del habla. Algunas de ellas se han utilizado frecuentemente para estudiar efectos en la pronunciaci´ on de palabras como la coarticulaci´ on, mencionada anteriormente [5]. El efecto de coarticulaci´on se puede observar en la Fig. 5, (p´ag. 60) donde se presenta la frase “B´elgica dispuesta” (tomada de un enunciado del Latino40) le´ıda por una hablante guatemalteca y otra argentina [6]. La morfolog´ıa de los espectros de potencia para las emisiones de la palabras dispuesta muestran diferencias apreciables sobre todo en la primera parte, la s´ılaba /dis/. La primera hablante hace una pausa larga entre la pronunciaci´ on de la primera y segunda palabras, el espectro muestra la diferenciaci´on de las s´ılabas pero el fonema /d/ pr´acticamente no se ve mientras que la /i/

60

ContactoS 65, 56–60 (2007)

sis para el desarrollo de interfaces hombre-m´ aquina. En el Departamento de Ingenier´ıa El´ectrica el grupo de profesores investigadores del campo de la inteligencia artificial se ha encargado de desarrollar estudios tendientes al an´alisis y caracterizaci´ on del habla mediante m´etodos convencionales y no convencionales con la finalidad de proponer formas alternativas para su caraterizaci´on. Bibliograf´ıa 1. Morgan N., Boulard H., “Continuous Speech Recognition”, IEEE Signal Processing Magazine, pp.25-41, Mayo 1995. 2. J. R. Deller, J. H. Hansen and J. G. Proakis, “Discrete-time Processing of Speech Signals”, IEEE Press, 2000. Figura 5. Representaciones espectrogr´ afica de la frase “B´elgica dispuesta” pronunciada por una hablante de Guatemala (parte superior) y de Argentina (parte inferior).

aparece con muy poca energ´ıa y la /s/ aparece con por un tiempo corto y compacta. En el segundo caso la pronunciaci´ on se realiza de manera m´as continua y las s´ılabas y fonemas se pueden distinguir, incluyendo el fonema /d/; la /i/ se ve con m´as claridad y la /s/ muestra su caracter´ıstica fricativa de manera diferente al primer caso. Otro aspecto considerable para determinar las diferencias en la coarticulaci´on de la frase es la pausa entre palabras, donde para la primera hablante ´esta se alarga m´as que para la segunda. En este caso se puede obtener informaci´on acerca de la fluidez del hablante, la diferencia en la pronunciaci´ on de sonidos e incluso la velocidad en el habla. El habla como se˜ nal es una de las m´as interesantes desde el punto de vista del an´alisis dadas sus caracter´ısticas y variaciones. Con las t´ecnicas descritas es posible ver el habla y estudiar los efectos que diferentes condiciones tienen sobre la emisi´on de sonidos articulados. Algunas de estas t´ecnicas parecen m´as adecuadas para el an´alisis que otras en algunos casos; sin embargo la posibilidad de visualizar el comportamiento de los sonidos, en el tiempo, en la frecuencia o en ambos dominios a la vez, y de num´ericamente representarlos permite el desarrollo de herramientas para su aplicaci´ on a diferentes campos como lo es el reconocimiento del habla para activar sistemas de seguridad o de s´ınte-

3. S. Mallat, A Wavelet Tour of signal Processing, 2nd Edition, Academic Press, 1999. 4. S. Mallat, Z. Zhang, “Matching Pursuit with Time-Frequency Dictionaries”, IEEE Trans. Signal Process., Vol. 41(12):3397-3415, 1993. 5. Mart´ınez Licona A. E., Mart´ınez Licona F. M., Vidal Cabrera O. O., Goddard Close J.C., “Estudio del Efecto Coarticulatorio en el Habla”, Revista Mexicana de Ingenier´ıa Biom´edica, marzo 2004, vol. XXV, n´ umero I. pp. 67-77. 6. Bernstein, Jared, et al. “The Latino40 Speech Database”. Entropic Research Laboratory, Washington, DC. 1994. cs