Story Transcript
Modelo de producción de la voz
Fonética y fonémica
Fonema: Unidad teórica básica para describir cómo la voz transporta un significado lingüístico. Sonido: Realización práctica de un fonema Fonémica: Estudio de las unidades abstractas (fonemas) y sus relaciones en una lengua
1
Fonética y fonémica
Fonética: Estudio de los sonidos reales:
Fonética articulatoria Fonética acústica Fonética auditiva
Alófonos: Representan pequeñas variaciones sobre cada fonema, permitidas en cada lenguaje.
Sistema de producción de la voz
Órganos del sistema de producción de la voz:
Pulmones: Fuente Laringe: Contiene las cuerdas vocales Cavidad faríngea y cavidad oral, agrupadas en el tracto vocal Cavidad nasal (tracto nasal)
2
Anatomía de la laringe
Las cuerdas vocales
3
Sistema de producción de la voz Órganos:
Función:
Clasificación del sonido
Según el tipo de excitación:
Sonoros: cuando las cuerdas vocales vibran.
Sordos: Cuando las cuerdas vocales no vibran.
Ejemplos: /s/
Oclusivos: Cuando se interpone un obstáculo al flujo del aire, que desaparece de pronto.
Ejemplos: /a/, /e/, etc.
Ejemplos: /b/, /p/, /t/
Combinaciones de los anteriores
Ejemplos: /z/ en “cebras”
4
Formantes
Son resonancias producidas en las cavidades de los órganos de producción Las frecuencias a las que se producen los formantes dependen de:
Longitud total del tracto faríngeo-oral Posición de los estrechamientos o constricciones en el tracto Grado de estos estrechamientos
Ejemplo: vocales /i/ /a/ /o/ /a/ cerrada /u/ /e/
5
Formantes
Reglas que relacionan las frecuencias de los formantes y las características del tracto vocal:
La frecuencia de F1 es proporcional al estrechamiento en la mitad frontal del tracto vocal La frecuencia de F1 se eleva al estrechar la faringe La frecuencia de F2 disminuye con las constricciones producidas por la lengua La frecuencia de todos los formantes disminuye con la constricción formada por los labios.
Clasificación de vocales
Modo de articulación (formante 1)
Cerradas (i, u) Medias (e, o) Abiertas (a)
Lugar de articulación (formante 2)
Anteriores (i, e) Centrales (a) Posteriores (o, u)
6
Triángulo vocálico 3000
freq. 2o formante (Hz)
2500 2000
/i/
/e/
/u/
/o/
1500 1000 500
/a/
200 300 400 500 600 700 800 9001000
freq. 1er formante (Hz)
Pronunciación de vocales
7
Semivocales y consonantes
Semivocales:
Constituido por el grupo /w/, /l/, /r/, /y/
Consonantes:
Representan sonidos producidos con un mayor grado de constricción que las vocales. Pueden producirse con cualquier tipo de excitación: sorda, sonora, etc. Se clasifican en: Oclusivas Fricativas Nasales
Clasificación de las consonantes
Según el modo de articulación:
Oclusivas: (b, d, g, p, t, k) Fricativas: (s, f, z, x, y,) Africadas: (ch) Nasales: (m, n, ñ) Líquidas: Laterales (l, ll) Vibrantes (r, R)
Según el lugar de articulación:
Bilabiales (b, p, m) Labiodentales (f) Linguodentales (t, d) Linguointerdentales (z) Linguoalveolares (s, n, l, r, R) Linguopalatares (y, ch, ñ, ll) Linguovelares (k, g, x)
8
Ejemplo: consonantes sonoras /m/ /l/ /n/ /y/ /ñ/ /R/
Ejemplo: consonantes fricativas
9
Fonemas del español
Algunas curiosdades (I)
10
Algunas curiosidades (II)
La señal de voz
La señal de voz se puede ver como un proceso estocástico no estacionario. Características básicas:
Ancho de banda principal: 4 kHz Pronunciación de fonemas: 4 a 20 por segundo Tiempo mínimo de duración de un fonema: 50 ms Tiempo de consideración de señal estacionaria (por convenio): 20ms
11
La señal de voz
La señal de voz
12
Modelo del tracto vocal
Suponemos:
Que el sonido se propaga en el tracto en una sola dirección. Los tejidos blandos evitan la propagación radial. Que las ondas sonoras son ondas planas que se propagan desde la glotis a los labios. Que el tracto vocal se puede modelar por una serie de tubos acústicos de paredes duras y sin pérdidas.
Modelo del tracto vocal
13
Modelo del tracto vocal
La función de transferencia glotal se puede modelar como un filtro todo polos: H(z) =
G p
1+ # ak z"k k=1
Podemos modelar por tanto la señal de voz como: p
!
s[n] = G x[n] " # ak s[n " k] k=1
%Ruido blanco y gaussiano Voz sonora ' 1 x[n] = & Voz sorda $" [ n # r N 0 ] N0 r ('
! !
Modelo del tracto vocal
Con todo lo anterior, podemos elegir el conjunto de coeficientes ak que minimicen: p $ ' E = # & s[n] + # ak s[n " k]) ( n="* % k=1 *
2
Derivando e igualando a cero, obtenemos un sistema ! de ecuaciones con el que es posible obtener los parámetros ak.
14
Modelo de producción
Voz:
Aire producido en los pulmones Si el sonido es sonoro, es modulado por las cuerdas vocales, que vibran a la frecuencia fundamental (pitch) Modificado por el tracto vocal En sonidos nasales una parte del aire fluye por orificios nasales
Modelo de pulso glotal
15
Codificador LPC-10 Codificador
Análisis: • Decisión sonoro/sordo • Pitch (sólo sonoro) • Potencia de señal (Ganancia) • Parámetros del filtro
Voz Original
Decodificador
Pitch Tren de impulsos
Potencia de señal V/U G
Modelo del tracto
Voz sintética Ruido aleatorio
Codificador LPC-10
Utiliza tramas de 180 muestras (44.44 tramas/segundo para fs=8.000 Hz y 16 bits por muestra) El régimen binario final es de 2,4 kbps (54 bits por trama): El pitch se codifica con 7 bits.
La decisión sordo-sonoro se realiza con la tasa de cruces por cero y se codifica con un solo bit. La ganancia del modelo se codifica con 5 bits Se calculan y transmiten 10 coeficientes de reflexión para una trama catalogada como sonora Los dos primeros se codifican como parámetros LAR’s con cinco bits cada uno. El resto se codifican linealmente
Descrito en: “Federal Standard 1015, Telecommunications: Analog to Digital Copnversion of Radio Voice By 2400 Bit/Second Linear Predictive Coding, National Communication System, Office Technology and Standards, Nov. 1984
16