Modelo de producción de la voz

Modelo de producción de la voz Fonética y fonémica    Fonema: Unidad teórica básica para describir cómo la voz transporta un significado lingüís

2 downloads 161 Views 5MB Size

Story Transcript

Modelo de producción de la voz

Fonética y fonémica 

 

Fonema: Unidad teórica básica para describir cómo la voz transporta un significado lingüístico. Sonido: Realización práctica de un fonema Fonémica: Estudio de las unidades abstractas (fonemas) y sus relaciones en una lengua

1

Fonética y fonémica 

Fonética: Estudio de los sonidos reales:   



Fonética articulatoria Fonética acústica Fonética auditiva

Alófonos: Representan pequeñas variaciones sobre cada fonema, permitidas en cada lenguaje.

Sistema de producción de la voz 

Órganos del sistema de producción de la voz:  





Pulmones: Fuente Laringe: Contiene las cuerdas vocales Cavidad faríngea y cavidad oral, agrupadas en el tracto vocal Cavidad nasal (tracto nasal)

2

Anatomía de la laringe

Las cuerdas vocales

3

Sistema de producción de la voz Órganos:

Función:

Clasificación del sonido 

Según el tipo de excitación: 

Sonoros: cuando las cuerdas vocales vibran. 



Sordos: Cuando las cuerdas vocales no vibran. 



Ejemplos: /s/

Oclusivos: Cuando se interpone un obstáculo al flujo del aire, que desaparece de pronto. 



Ejemplos: /a/, /e/, etc.

Ejemplos: /b/, /p/, /t/

Combinaciones de los anteriores 

Ejemplos: /z/ en “cebras”

4

Formantes 



Son resonancias producidas en las cavidades de los órganos de producción Las frecuencias a las que se producen los formantes dependen de:  



Longitud total del tracto faríngeo-oral Posición de los estrechamientos o constricciones en el tracto Grado de estos estrechamientos

Ejemplo: vocales /i/ /a/ /o/ /a/ cerrada /u/ /e/

5

Formantes 

Reglas que relacionan las frecuencias de los formantes y las características del tracto vocal: 







La frecuencia de F1 es proporcional al estrechamiento en la mitad frontal del tracto vocal La frecuencia de F1 se eleva al estrechar la faringe La frecuencia de F2 disminuye con las constricciones producidas por la lengua La frecuencia de todos los formantes disminuye con la constricción formada por los labios.

Clasificación de vocales 

Modo de articulación (formante 1)   



Cerradas (i, u) Medias (e, o) Abiertas (a)

Lugar de articulación (formante 2)   

Anteriores (i, e) Centrales (a) Posteriores (o, u)

6

Triángulo vocálico 3000

freq. 2o formante (Hz)

2500 2000

/i/

/e/

/u/

/o/

1500 1000 500

/a/

200 300 400 500 600 700 800 9001000

freq. 1er formante (Hz)

Pronunciación de vocales

7

Semivocales y consonantes 

Semivocales: 



Constituido por el grupo /w/, /l/, /r/, /y/

Consonantes: 





Representan sonidos producidos con un mayor grado de constricción que las vocales. Pueden producirse con cualquier tipo de excitación: sorda, sonora, etc. Se clasifican en:  Oclusivas  Fricativas  Nasales

Clasificación de las consonantes 

Según el modo de articulación:     

Oclusivas: (b, d, g, p, t, k) Fricativas: (s, f, z, x, y,) Africadas: (ch) Nasales: (m, n, ñ) Líquidas:  Laterales (l, ll)  Vibrantes (r, R)



Según el lugar de articulación:       

Bilabiales (b, p, m) Labiodentales (f) Linguodentales (t, d) Linguointerdentales (z) Linguoalveolares (s, n, l, r, R) Linguopalatares (y, ch, ñ, ll) Linguovelares (k, g, x)

8

Ejemplo: consonantes sonoras /m/ /l/ /n/ /y/ /ñ/ /R/

Ejemplo: consonantes fricativas

9

Fonemas del español

Algunas curiosdades (I)

10

Algunas curiosidades (II)

La señal de voz 



La señal de voz se puede ver como un proceso estocástico no estacionario. Características básicas:    

Ancho de banda principal: 4 kHz Pronunciación de fonemas: 4 a 20 por segundo Tiempo mínimo de duración de un fonema: 50 ms Tiempo de consideración de señal estacionaria (por convenio): 20ms

11

La señal de voz

La señal de voz

12

Modelo del tracto vocal 

Suponemos: 





Que el sonido se propaga en el tracto en una sola dirección. Los tejidos blandos evitan la propagación radial. Que las ondas sonoras son ondas planas que se propagan desde la glotis a los labios. Que el tracto vocal se puede modelar por una serie de tubos acústicos de paredes duras y sin pérdidas.

Modelo del tracto vocal

13

Modelo del tracto vocal 

La función de transferencia glotal se puede modelar como un filtro todo polos: H(z) =

G p

1+ # ak z"k k=1



Podemos modelar por tanto la señal de voz como: p

!

s[n] = G x[n] " # ak s[n " k] k=1

%Ruido blanco y gaussiano Voz sonora ' 1 x[n] = & Voz sorda $" [ n # r N 0 ] N0 r ('

! !

Modelo del tracto vocal 

Con todo lo anterior, podemos elegir el conjunto de coeficientes ak que minimicen: p $ ' E = # & s[n] + # ak s[n " k]) ( n="* % k=1 *



2

Derivando e igualando a cero, obtenemos un sistema ! de ecuaciones con el que es posible obtener los parámetros ak.

14

Modelo de producción 

Voz:  

 

Aire producido en los pulmones Si el sonido es sonoro, es modulado por las cuerdas vocales, que vibran a la frecuencia fundamental (pitch) Modificado por el tracto vocal En sonidos nasales una parte del aire fluye por orificios nasales

Modelo de pulso glotal

15

Codificador LPC-10 Codificador

Análisis: • Decisión sonoro/sordo • Pitch (sólo sonoro) • Potencia de señal (Ganancia) • Parámetros del filtro

Voz Original

Decodificador

Pitch Tren de impulsos

Potencia de señal V/U G

Modelo del tracto

Voz sintética Ruido aleatorio

Codificador LPC-10 

 

Utiliza tramas de 180 muestras (44.44 tramas/segundo para fs=8.000 Hz y 16 bits por muestra) El régimen binario final es de 2,4 kbps (54 bits por trama): El pitch se codifica con 7 bits. 

 







La decisión sordo-sonoro se realiza con la tasa de cruces por cero y se codifica con un solo bit. La ganancia del modelo se codifica con 5 bits Se calculan y transmiten 10 coeficientes de reflexión para una trama catalogada como sonora Los dos primeros se codifican como parámetros LAR’s con cinco bits cada uno. El resto se codifican linealmente

Descrito en: “Federal Standard 1015, Telecommunications: Analog to Digital Copnversion of Radio Voice By 2400 Bit/Second Linear Predictive Coding, National Communication System, Office Technology and Standards, Nov. 1984

16

Get in touch

Social

© Copyright 2013 - 2025 MYDOKUMENT.COM - All rights reserved.