6. DESCRIPCIÓN DE LA BASE DE DATOS SES

Desarrollo de un segmentador fonético automático para habla expresiva basado en modelos ocultos de Markov Juan Carmona Mariscal 6. DESCRIPCIÓN DE LA

Author: Benito Soler Montoya

2 downloads 93 Views 133KB Size

Report

DOWNLOAD PDF

Recommend Stories

~ GERENCIAR LA BASE DE DATOS

BASE DE DATOS. Qué es una base de datos?

1 BASE DE DATOS ¿Qué es una base de datos? Una base de datos es una herramienta para recopilar y organizar información. En las bases de datos, se pue

Base de Datos Aranzadi

Base de datos distribuida

BASE DE DATOS - PROVEEDORES

BASE DE DATOS GEOGRÁFICOS

BASE DE DATOS GEOGRÁFICOS Cabo Catoche P. Progreso P. Juárez Sisal MERIDA Cancún Celestún MunáValladolid Nitán Cobá CalkiniYUCATAN Ticul Chichen-itza

BASE DE DATOS GEOGRÁFICOS

BASE DE DATOS GEOGRÁFICOS Cabo Catoche P. Progreso P. Juárez Sisal MERIDA Cancún Celestún MunáValladolid Nitán Cobá CalkiniYUCATAN Ticul Chichen-itza

BASE DE DATOS GEOGRÁFICOS

BASE DE DATOS GEOGRÁFICOS Cabo Catoche P. Progreso P. Juárez Sisal MERIDA Cancún Celestún MunáValladolid Nitán YUCATAN Cobá Calkini Ticul Chichen-itz

BASE DE DATOS GEOGRÁFICOS

BASE DE DATOS GEOGRÁFICOS Cabo Catoche P. Progreso P. Juárez Sisal MERIDA Cancún Celestún MunáValladolid Nitán Cobá CalkiniYUCATAN Ticul Chichen-itza

Base de Datos

Story Transcript

Desarrollo de un segmentador fonético automático para habla expresiva basado en modelos ocultos de Markov

Juan Carmona Mariscal

6. DESCRIPCIÓN DE LA BASE DE DATOS SES Como vimos en la introducción, en este proyecto trataremos de establecer en qué condiciones el segmentador realiza mejor su función dependiendo de la parametrización concreta que se configure, de las distintas combinaciones de locuciones cortas (frases) y largas (párrafos) que se utilicen para el entrenamiento y para la evaluación, así como de las combinaciones de emociones del locutor (neutro, alegría, sorpresa, tristeza, enfado...) que se empleen para dichas etapas del proceso. Para todo ello realizaremos experimentos de evaluación con las bases de datos SES y SEV de habla expresiva en castellano, que contienen una parte segmentada manualmente. En este capítulo describiremos la primera de ellas.

6.1 La base de datos SES La base de datos SES (Spanish Emotional Speech) está formada por tres sesiones de grabación de habla con emociones interpretada por un único actor masculino. Cada sesión de grabación incluye 30 palabras (2 minutos en total), 15 frases cortas (7 minutos) y 4 párrafos (39 minutos), aunque en nuestro proyecto sólo haremos uso de las frases y

6. Descripción de la base de datos SES

145

Desarrollo de un segmentador fonético automático para habla expresiva basado en modelos ocultos de Markov

Juan Carmona Mariscal

los párrafos. Estas sesiones incluyen cuatro emociones primarias (alegría, enfado en frío, sorpresa y tristeza) y voz interpretada según el estado neutro. Una muy amplia descripción de esta base de datos se encuentra en [Montero 2003]. El propósito de la creación de la base de datos SES era poder disponer de una base de datos de voz que simulara estados emotivos, de manera que sobre ella se pudieran realizar análisis que ayudaran a producir síntesis de voz con emociones. Aunque la base de datos que se pretendía grabar era necesariamente pequeña, un requisito era que contuviera suficiente diversidad de fenómenos fonéticos y prosódicos para permitir cubrir un buen análisis y modelado del habla emotiva. Con el fin de minimizar el efecto que un posible contenido semántico emotivo pudiera tener sobre el habla, se emplearon textos preferiblemente neutros desde un punto de vista del contenido. Se agruparon estos textos en 3 categorías (frases cortas, palabras y párrafos)

interrelacionadas

entre

ellas,

si

bien

en

nuestros

experimentos, como dijimos antes, sólo emplearemos frases y párrafos.

6.1.1 Las frases cortas Como se ha dicho, se pretendía, en primer lugar, que fueran frases de carácter neutro, es decir, que no estuvieran preferentemente marcadas por ningún tipo de emotividad. Se evitaron, pues, verbos con un significado emotivo, así como las funciones conativas y la segunda persona. Mayoritariamente, las frases son en tercera persona; se incorporaron, sin embargo, algunas frases de primera persona que, sin embargo, son plenamente declarativas. De esta manera era de esperar

6. Descripción de la base de datos SES

146

Desarrollo de un segmentador fonético automático para habla expresiva basado en modelos ocultos de Markov

Juan Carmona Mariscal

que si a los significados meramente denotativos (de contenido semántico no emotivo) se les incorporaban otros valores expresivos (una voz que simula segmental y suprasegmentalmente una emoción), la identificación de la emoción transmitida habría que achacársela a los parámetros segmentales y suprasegmentales de la voz. Se confeccionaron quince frases entre las que aparecen todos los fonemas del español, así como sus alófonos más representativos. El texto completo de las mismas puede consultarse en el Anexo 3. La longitud de las quince frases cortas oscila entre las ocho y trece sílabas, con un mínimo de tres sílabas tónicas y un máximo de cuatro. Las

palabras

mayoritariamente

finales

son,

paroxítonas,

como aunque

es se

habitual

en

español,

incluyen

también

dos

terminaciones oxítonas. Aunque se incluyeron cinco estructuras de carácter interrogativo, la base de datos se centra en las declarativas, por lo que no se consideró incorporar el modelo entonativo de todas las posibles interrogativas del español, y se evitó, además, el uso de los pronombres interrogativos.

6.1.2 Los párrafos A la base de datos SES se decidió incorporar la lectura de párrafos cortos, ya que podía aportar alguna luz a la hora de establecer diferencias entre los distintos modelos entonativos, en especial, en las diferentes estructuras sintácticas [Montero 2003]. De ahí que se consideraron tres párrafos de entre cuatro y ocho líneas, de carácter

6. Descripción de la base de datos SES

147

Desarrollo de un segmentador fonético automático para habla expresiva basado en modelos ocultos de Markov

Juan Carmona Mariscal

neutro y donde, como en el caso de las frases cortas, se evitó el uso de verbos y estructuras de marcada emotividad. Además, se incorporó un cuarto párrafo, en el que se incluían, en el marco de una breve estructura narrativa, doce de las quince frases cortas. Esto facilitaba información en cuanto a las diferencias que podían observarse, no sólo en función de los diferentes modelos emocionales entonativos, sino comparar un mismo modelo en tres contextos diferentes. El texto completo de los párrafos también puede consultarse en el Anexo 3.

6.2 La grabación de la base de datos Como se describe en [Montero 2003] los textos que se acaban de describir fueron grabados en una sala acústicamente aislada y la frecuencia de muestreo fue de 16 Khz. Los textos fueron interpretados en 3 ocasiones cada uno (por lo que disponemos de 3 sesiones para cada voz, excepto para la neutra, de la que disponemos de 2 sesiones) por un actor profesional de 38 años, con acento castellano y con más diez años de experiencia. La múltiple grabación posibilitó, que el actor interpretase una misma frase de distintas maneras conscientes, empleando patrones entonativos y rítmicos diferentes. Todo ello fue realizado por el actor sin someterse a ningún esquema o modelo prefijado, siendo libre de decidir cómo debía simular los estados emocionales que se le encomendaron.

6. Descripción de la base de datos SES

148

Desarrollo de un segmentador fonético automático para habla expresiva basado en modelos ocultos de Markov

Juan Carmona Mariscal

6.3 Etiquetado y marcado de SES Los dos mil fonemas por emoción fueron etiquetados fonéticamente de manera completamente manual con la ayuda de la herramienta de edición de voz PCV desarrollada en el proyecto VAESS [Montero 2003]. El marcado de F0 se llevó a cabo semiautomáticamente, con el marcador de periodos de la frecuencia fundamental, empleado en síntesis por difonemas, adaptado para procesar elocuciones más largas. Los resultados obtenidos de esta manera fueron visualmente revisados usando

el

mismo

programa.

Finalmente

se

resintetizaron

las

grabaciones por medio de concatenación de difonemas, linealizando la curva de F0 en el nivel de sílaba y cuantificando las duraciones a un número entero de periodos de F0. Por ello fue necesario emplear un algoritmo de concatenación con modificaciones prosódicas menores durante la resíntesis. Esta segunda revisión por resíntesis se tradujo en nuevas correcciones, especialmente de la curva de F0.

6.4 La base de datos SES en nuestro sistema Para realizar la evaluación de nuestro sistema disponemos de las 15 frases cortas de SES, los 4 párrafos completos y además un conjunto de frases obtenidas dividiendo los 4 párrafos. Los párrafos completos están sin etiquetar, por lo que no podremos emplearlos como grupo de control de nuestros experimentos, pero sí los usaremos para entrenar los

6. Descripción de la base de datos SES

149

Desarrollo de un segmentador fonético automático para habla expresiva basado en modelos ocultos de Markov

Juan Carmona Mariscal

modelos. Por contra, las frases y los párrafos divididos sí están segmentados manualmente. Los ficheros de estos tres grupos los tenemos colocados en la carpeta parrafosDividos_Completos de nuestro sistema

(véase el capítulo

dedicado a la estructura del segmentador), y son de dos tipos:  Los archivos de audio en crudo (sin cabeceras), con extensión .PCM y  las etiquetas de cada uno de esos ficheros, con extensión .lab El nombre de todos los ficheros sigue el mismo patrón, tanto para los ficheros de audio como para sus correspondientes etiquetas:  Las frases: F_X_ffss.{pcm,lab} , donde - X es un carácter que indica el tipo de emoción (A=alegría, E=enfado, S=sorpresa, T=tristeza, N=voz neutra) - ff son dos dígitos que indican el número de frase, desde 01 hasta 15 - ss son dos dígitos que indican la sesión de grabación (01 y 02 son las sesiones de grabación con voz neutra; 03, 04 y 05 las tres sesiones con voz alegre; 06, 07 y 08 las sesiones con voz triste; 09, 10 y 11 las sesiones con voz enfadada; y 12, 13 y 14 las sesiones con voz sorprendida.  Los párrafos completos: R_x_ppss.{pcm,lab} , donde - x es un carácter que indica el tipo de emoción (a=alegría, e=enfado, s=sorpresa, t=tristeza, n=voz neutra) - pp son dos dígitos que indican el número de párrafo, desde 01 hasta 04

6. Descripción de la base de datos SES

150

Desarrollo de un segmentador fonético automático para habla expresiva basado en modelos ocultos de Markov

Juan Carmona Mariscal

- ss son dos dígitos que indican la sesión de grabación (01 y 02 son las sesiones de grabación con voz neutra; 03, 04 y 05 las tres sesiones con voz alegre; 06, 07 y 08 las sesiones con voz triste; 09, 10 y 11 las sesiones con voz enfadada; y 12, 13 y 14 las sesiones con voz sorprendida.  Los párrafos divididos: RXffppss.{pcm,lab} , donde - X es un carácter que indica el tipo de emoción (A=alegría, S=sorpresa, T=tristeza, N=voz neutra). No contamos con los párrafos con voz de enfado divididos - ff son dos dígitos que indican el número que ocupa la frase de esta división dentro del párrafo correspondiente, desde 01 hasta el número máximo de frases que tenga el párrafo - pp son dos dígitos que indican el número de párrafo, desde 01 hasta 03. No contamos con el cuarto párrafo dividido - ss son dos dígitos que indican la sesión de grabación. Sólo se dividieron los párrafos de la primera sesión con cada emoción (excepto la de enfado), con lo que estos dos dígitos serán 01 para la sesión de grabación con voz neutra; 03 para la sesión con voz alegre; 06 para la sesión con voz triste; y 12 para la sesión con voz sorprendida.

6. Descripción de la base de datos SES

151