Story Transcript
Desarrollo de un segmentador fonético automático para habla expresiva basado en modelos ocultos de Markov
Juan Carmona Mariscal
3. EL HABLA CON EMOCIONES Como se ha comentado en la introducción, las emociones alteran las principales características de la voz, por lo que pueden tener una cierta influencia en el proceso de segmentación del habla expresiva. En este capítulo se estudiará el concepto de emoción, cuáles son los efectos que las emociones pueden tener sobre las características de la voz, y los rasgos distintivos de las distintas emociones, prestando especial atención a aquellas que están presentes en las muestras de locuciones de las bases de datos con las que trabajaremos.
3.1 El concepto de emoción y sus funciones Existen numerosas maneras de definir y explicar el concepto de emoción según los diferentes estudios que se han realizado sobre este tema, pero en general la definición más ampliamente aceptada es la que considera la emoción como un estado complejo del organismo que se origina como respuesta a las informaciones que se reciben del entorno y que predispone a una respuesta organizada. Esta primera definición podría hacernos confundir el concepto de emoción con el de estado de ánimo; no obstante, la diferencia entre ambos es que mientras que las emociones surgen de forma repentina
3. El habla con emociones
27
Desarrollo de un segmentador fonético automático para habla expresiva basado en modelos ocultos de Markov
Juan Carmona Mariscal
en respuesta a un determinado estímulo y duran unos segundos o minutos, los estados de ánimo son más ambiguos en su naturaleza, perdurando durante horas o días. Por otro lado, más allá de emociones y estados de ánimo, está el rasgo a largo plazo de la personalidad, que puede definirse como el tono emocional característico de una persona a lo largo del tiempo. La emoción no es un fenómeno simple ya que depende de múltiples factores. Según Izard una definición completa de emoción debe tener en cuenta el sentimiento consciente de la emoción, los procesos que ocurren en el sistema nervioso y en el cerebro y los modelos expresivos observables de la emoción [Izard 1971]. Scherer afirma [Scherer 2001] que la emoción puede describirse también como la interfaz del organismo con el mundo exterior, señalando tres funciones principales de las emociones:
Reflejan la evaluación de la importancia de un estímulo en particular en términos de las necesidades del organismo, preferencias, intenciones…
Preparan fisiológica y físicamente al organismo para la acción apropiada.
Comunican el estado del organismo y sus intenciones de comportamiento a otros organismos que lo rodean.
Reeve por su parte le da a estas tres funciones los nombres de adaptativa, social y motivacional [Reeve 1994]:
Función adaptativa: La emoción se encarga de preparar al organismo para la acción, facilitando la conducta apropiada a
3. El habla con emociones
28
Desarrollo de un segmentador fonético automático para habla expresiva basado en modelos ocultos de Markov
Juan Carmona Mariscal
cada situación. Por tanto, las emociones desarrollan un papel fundamental en lo que a la adaptación del organismo al entorno se refiere.
Función social: Las emociones sirven para comunicar el estado de ánimo de la persona. La expresión de las emociones permite a los que nos rodean predecir el comportamiento asociado con las mismas, de aquí el enorme valor que la emoción ostenta en los procesos de relación interpersonal. Así, emociones como la felicidad
favorecen
los
vínculos
sociales
y
las
relaciones
interpersonales, mientras que otras como el enfado pueden generar situaciones de confrontación. Por otro lado, la propia represión de las emociones también tiene en ocasiones una evidente función social, por cuanto que es socialmente necesaria la inhibición de ciertas reacciones emocionales que podrían alterar las relaciones sociales y afectar incluso a la propia estructura y funcionamiento de grupos u otros sistemas de organización social.
Función motivacional: La emoción dota de energía a la conducta motivada. Una conducta "cargada" emocionalmente se realiza de forma más vigorosa.
3. El habla con emociones
29
Desarrollo de un segmentador fonético automático para habla expresiva basado en modelos ocultos de Markov
Juan Carmona Mariscal
3.2 Componentes de la emoción Como ya hemos comentado, la emoción es un fenómeno complejo, y esto implica que haya que tener en cuenta un gran número de factores a la hora de su caracterización. Los principales componentes que debe incorporar el estudio de una emoción son los siguientes [Fernández 2003]:
El componente fisiológico
Está relacionado con las respuestas psico-fisiológicas que tienen lugar como resultado del fenómeno emocional. Son respuestas involuntarias. Algunas de ellas pueden ser taquicardia, rubor, sudoración, sequedad en la boca, variación en el tono muscular, etc.
El componente conductual-expresivo
Mediante la observación del comportamiento de un individuo se puede deducir qué tipo de emociones está experimentando. Esto es debido a que toda emoción lleva implícito un lenguaje no verbal que aporta señales bastante precisas y que facilitan su identificación. Este lenguaje no verbal viene dado en gran parte por las expresiones del rostro y el tono de voz empleado. Esta componente de la emoción es en cierta medida controlable y está muy influida por factores socioculturales.
3. El habla con emociones
30
Desarrollo de un segmentador fonético automático para habla expresiva basado en modelos ocultos de Markov
Juan Carmona Mariscal
El componente experiencial - cognitivo
Este componente está relacionado con la vivencia afectiva, con el hecho de sentir y de experimentar propiamente la emoción. Así, la experiencia emocional puede variar en intensidad dependiendo de diversos factores, como pueden ser la importancia que se le dé a la situación que genera la emoción o su proximidad temporal.
3.3 La emoción y su efecto en el habla Más allá de las componentes de la emoción, lo cierto es, como afirmábamos al principio, que las emociones afectan al habla, como apuntó por primera vez Darwin a finales del siglo XIX en su libro “La Expresión de las emociones en el hombre y en los animales”, donde describe las primeras investigaciones sobre cómo afectaban las emociones al comportamiento y al lenguaje de los animales. A lo largo de los años se ha avanzado en el estudio de los efectos de las emociones en el habla, que han sido estudiados por investigadores acústicos que han analizado la señal de voz, por lingüístas que han estudiado los efectos léxicos y prosódicos, y por psicólogos. Gracias a estos esfuerzos se ha conseguido identificar muchos de los componentes del habla que se utilizan para expresar emociones, entre los que destacan el pitch o frecuencia fundamental, la duración y la calidad de voz [Scherer 1979].
3. El habla con emociones
31
Desarrollo de un segmentador fonético automático para habla expresiva basado en modelos ocultos de Markov
Juan Carmona Mariscal
3.3.1 El Pitch El pitch o frecuencia fundamental (f0) es la frecuencia fundamental a la que las cuerdas vocales vibran. Las características de la frecuencia fundamental están consideradas una de las principales portadoras de la información sobre las emociones:
El valor medio del pitch refleja el nivel de excitación del locutor. Una media elevada de f0 indica un mayor grado de excitación.
El rango del pitch es la distancia entre el valor máximo y mínimo de la frecuencia fundamental. Indica también el grado de exaltación del locutor. Un rango más extenso que el normal refleja una excitación emocional o psicológica.
Las fluctuaciones en el pitch descritas como la velocidad de las fluctuaciones entre valores altos y bajos y si son abruptas o suaves son producidas psicológicamente. En general, la curva de tono es discontinua para las emociones consideradas como negativas (miedo, enfado) y es suave para las emociones positivas (como la alegría).
3.3.2 La duración La duración es la componente prosódica descrita por la velocidad del habla y la situación de los acentos, y cuyos efectos son el ritmo y la velocidad. El ritmo en el habla deriva de la situación de los acentos y de la combinación de las duraciones de las pausas y de los fonemas. Las
3. El habla con emociones
32
Desarrollo de un segmentador fonético automático para habla expresiva basado en modelos ocultos de Markov
Juan Carmona Mariscal
emociones pueden distinguirse por una serie de parámetros que conciernen a la duración, como son:
Velocidad de locución: generalmente un locutor en estado de excitación acortará la duración de las sílabas, con lo que la velocidad de locución medida en sílabas por segundo o en palabras por minuto se incrementará.
Número de pausas y su duración: un locutor exaltado tenderá a hablar rápidamente con menos pausas y más cortas, mientras que un locutor deprimido hablará más lentamente, introduciendo pausas más largas.
Cociente entre el tiempo de locución y el de pausas, como medida que relaciona las dos variables anteriores.
3.3.3 La calidad de voz La intensidad, las irregularidades en la voz, el cociente entre energías a baja y alta frecuencia, el breathiness y la laringerización son algunas de las características que diferencian la calidad de la voz.
Intensidad: Está relacionada con la percepción del volumen y se refleja en la amplitud de la forma de onda.
Irregularidades
vocales:
Abarcan
un
gran
rango
de
características vocales. El jitter vocal refleja las fluctuaciones de un pulso glotal al siguiente (como se observa en el enfado) o la
3. El habla con emociones
33
Desarrollo de un segmentador fonético automático para habla expresiva basado en modelos ocultos de Markov
Juan Carmona Mariscal
desaparición de voz en algunas emociones como la pena, en la que el habla se convierte en un simple susurro.
El cociente entre energía de alta y baja frecuencia: Gran cantidad de energía en las frecuencias altas se asocia con agitación (enfado), mientras que baja concentración de energía en las frecuencias altas se relaciona con depresión o calma (pena).
Breathiness y laringerización: reflejan las características del tracto vocal y están más relacionados con la personalización de cada voz. El Breathiness describe la generación de ruido respiratorio de forma que la componente fundamental tiende a ser más fuerte, mientras que las frecuencias altas son reemplazadas por ruido aspiratorio. La laringerización se caracteriza por una vibración aperiódica de las cuerdas vocales, con un pulso glotal estrecho y pitch bajo, lo que se traduce en una voz chirriante.
3.4 La clasificación de las emociones Según los autores Larsen, McGraw y Cacioppo, la clasificación de las distintas emociones existentes se puede realizar en base a dos enfoques diferentes, el que considera las emociones de forma individual, y el que las considera de forma dimensional:
Estudio discreto o específico de las emociones
3. El habla con emociones
34
Desarrollo de un segmentador fonético automático para habla expresiva basado en modelos ocultos de Markov
Juan Carmona Mariscal
Este enfoque se basa en el hecho de que algunas emociones poseen unas características que las hace únicas y diferenciables del resto. Siguiendo este criterio muchos analistas de las emociones han distinguido entre emociones primarias y emociones secundarias. Las emociones primarias vendrían determinadas por una expresión facial característica y por una disposición típica de afrontamiento de las situaciones. La mayoría de los analistas consideran sólo 6 emociones primarias: alegría, tristeza, enfado (ira), sorpresa, miedo y asco. Por su parte, las emociones secundarias no presentarían rasgos faciales distintivos ni una tendencia específica a la acción, y derivarían de las primarias, obteniéndose a veces como combinación de las mismas. Al contrario que en el caso de las primarias, puede encontrarse un amplio abanico
de
emociones
secundarias
como
el
aburrimiento,
la
impaciencia, la ternura, la ironía, la queja, el anhelo, la satisfacción, el ensueño, la coquetería…
Estudio dimensional de las emociones
Frente al enfoque anterior, este modo de clasificación tiene su fundamento en la existencia de importantes diferencias individuales en el modo en el que las personas pueden desarrollar una emoción, por lo que se considera que el empleo de categorías discretas no es la mejor forma de describir la realidad. En su lugar se utilizan unas dimensiones generales que definen un mapa donde se sitúan todas las posibles emociones que pueden tener lugar, incluidas las definidas en el método anterior como primarias y secundarias.
3. El habla con emociones
35
Desarrollo de un segmentador fonético automático para habla expresiva basado en modelos ocultos de Markov
Juan Carmona Mariscal
Entre las técnicas empleadas para la clasificación de las emociones mediante este enfoque, la más utilizada es la desarrollada por Russell [Russell 1980],
que sugiere que todas las emociones pueden ser
ubicadas en el interior de un círculo definido en un espacio bidimensional, siendo estas dimensiones: La valencia afectiva: Permite diferenciar las emociones en función de lo placenteras o agradables que sean (positivas versus negativas). Así, un suceso desencadenará una emoción positiva cuando favorezca el logro de determinados objetivos, mientras que si el suceso aleja esos objetivos, la emoción que se desencadenará tendrá valencia negativa. Así, podemos encontrar la alegría y el enfado en los dos extremos del eje que representa la valencia. La actividad: Permite diferenciar las emociones por la presencia o ausencia de energía y tensión.
Según este enfoque, la representación de las distintas emociones en este plano bidimensional sería la siguiente:
3. El habla con emociones
36
Desarrollo de un segmentador fonético automático para habla expresiva basado en modelos ocultos de Markov
Juan Carmona Mariscal
Figura 3.1: Representación bidimensional de las emociones [Alcázar 2007] En distintos estudios se ha demostrado que se confunden más entre sí las emociones con un nivel similar de actividad (como por ejemplo alegría y enfado) que las que presentan similitudes en el nivel de valencia. Esto lleva a la conclusión de que la actividad como dimensión está más correlacionada con las variables auditivas relativamente más simples de la voz, como pueden ser el tono y la intensidad, mientras que la valencia está probablemente relacionada con factores más sutiles y complejos.
3. El habla con emociones
37
Desarrollo de un segmentador fonético automático para habla expresiva basado en modelos ocultos de Markov
3.5
Las
emociones
Juan Carmona Mariscal
estudiadas
con
nuestro
segmentador fonético automático Para el desarrollo de nuestro segmentador fonético automático se han empleado dos bases de datos (se estudiarán en los capítulos La base de datos SES y La base de datos SEV), que contienen locuciones con voz neutra y con seis emociones primarias: alegría, tristeza, enfado, sorpresa, asco y miedo. Las principales características de estas seis emociones se enuncian a continuación.
El habla neutra suele caracterizarse por un tono con un rango de variación estrecho y unas transiciones de f0 suaves, además de una velocidad de locución alta.
La alegría se manifiesta en un incremento en el tono medio y en su rango, así como un incremento en la velocidad de locución y en la intensidad.
El habla triste exhibe un tono medio más bajo que el normal, un estrecho rango y una velocidad de locución lenta.
El enfado se caracteriza por un tono medio alto (229 Hz), un amplio rango de tono y una velocidad de locución rápida (190 palabras por minuto), con un 32% de pausas.
La sorpresa se caracteriza por un tono medio mayor que la voz normal, una velocidad igual a la normal y un rango amplio.
3. El habla con emociones
38
Desarrollo de un segmentador fonético automático para habla expresiva basado en modelos ocultos de Markov
Juan Carmona Mariscal
El miedo se caracteriza por un tono medio más elevado que la voz neutral (254 Hz), un rango mayor, un gran número de cambios en la curva de tono y una velocidad de locución rápida (202 palabras por minuto).
El asco es la emoción que más difícilmente se puede caracterizar, según los estudios realizados al respecto, aunque en la mayoría de los casos suele presentar un tono medio más alto que la voz neutral y una velocidad de locución más lenta.
3. El habla con emociones
39