Story Transcript
UNIVERSIDAD NACIONAL DEL CALLAO
Facultad de Ingeniería Eléctrica y Electrónica
Informe Final del Proyecto de Investigación “TRANSFORMADA DE FOURIER Y LOS MP3”
Docente: Lic. RAÚL PEDRO CASTRO VIDAL
(Resolución Rectoral Nº 1109-05-R) Cronograma de ejecución: 01 de octubre del 2005 al 30 de setiembre del 2006.
Bellavista Agosto del 2012
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
2012 Págs.
I ÍNDICE
2
II RESUMEN
5
III INTRODUCCIÓN
6
IV PARTE TEÓRICA O MARCO TEÓRICO
11
4.1 CONCEPTOS PREVIOS 4.1.1
SONIDO
4.1.2 SONIDO DIGITAL
13
4.1.3
15
DIGITALIZACIÓN DE LA SEÑAL DE AUDIO
4.1.4
TASA DE MUESTREO DE NYSQUIST
4.2
EVOLUCIÓN DE LOS FORMATOS DE MÚSICA
17
4.3
HISTORIA DEL FORMATO MP3
22
4.3.1
UTILIDAD DEL FORMATO PM3
24
4.3.2
ESTRUCTURA DE UN FICHERO MP3
4.3.3
TRANSFORMADA DE FOURIER EN MP3
25
4.4 SERIES DE FOURIER Y LA TRANSFORMADA DE FOURIER PARA SEÑALES CONTINUAS 4.4.1
DEFINICIÓN FORMAL
4.4.2TEOREMA DE EXISTENCIA DE LA TRANSFORMADA DE FOURIER Y PROPIEDADES 4.4.3
26
TRANSFORMADA DE COSENO
32
4.4.4 TRANSFORMADA DE SENO
33
4.4.5
INTERPRETACIÓN DE LA TRANSFORMADA DE FOURIER
34
4.4.6
PROPIEDADES DE LA TRANSFORMADA DE FOURIER
36
4.4.7
CONVOLUCIÓN
39
4.4.8 INTERPRETACIÓN DE LA CONVOLUCIÓN 4.4.9 TEOREMA DE LA CONVOLUCIÓN DE DOS FUNCIONES
42
4.4.10
PROPIEDADES DE LA CONVOLUCIÓN
44
4.4.11
TEOREMA DE LA CONVOLUCIÓN EN EL TIEMPO
45
4.4.12
TEOREMA DE LA CONVOLUCIÓN EN LA FRECUENCIA
4.4.13
PROPIEDADES DE LA CONVOLACIÓN Y MODULACIÓN
2
48
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
2012
Págs. 4.4.14
CONVOLUCIÓN NO PERIÓDICA
49
4.4.15
MODULACIÓN
50
V MATERIALES Y MÉTODOS
52
VI RESULTADOS
53
6.1. TRANSFORMADA DE SEÑALES DISCRETAS Y ALGORITMO FFT 6.1.1
ALGORITMO FFT PARA MP3
54
6.1.2
DIFERENCIAS CON OTROS FORMATOS
55
6.1.3
CONVERSIÓN ANALÓGICO DIGITAL
56
6.1.4
MUESTREO DE LA SEÑAL ANALÓGICA
6.1.5
CONDICIÓN DE NYSQUIST
6.1.6
MULTIRESOLUCIÓN Y FIRTROS
6.1.7
PROPIEDAD DE LA FUNCIÓN SCALING
58
6.1.8
CUANTIFICACIÓN DE LA SEÑAL ANALÓGICA
6.1.9
CODIFICACIÓN DE LA SEÑAL EN CÓDIGO BINARIO
6.1.10 COMPRESIÓN DE VOZ 6.1.11
6.2
60
61 63
COMPRESIÓN DE AUDIO GENÉRICO
6.1.12 DETALLES TÉCNICOS
64
6.1.13 BANCO DE FILTROS
65
EL MODELO PSICOACÚSTICO
66
6.2.1
CODIFICACIÓN Y CUANTIFICACIÓN
67
6.2.2
CICLO INTERNO
6.2.3
CICLO EXTERNO
6.2.4
EMPAQUETADO FORMATEADOR DE BITSTREAM
6.2.5
ESTRUCTURA DE FICHERO MP3
6.2.6
TRANSFORMADA DE FOURIER DISCRETA Y FICHERO
68
69
MP3 6.2.7 6.2.8
CODEC DE AUDIO Y TIPO DE CODEC
CODEC DE AUDIO CON PÉRDIDAS 6.2.9
CODEC DE AUDIO SIN PÉRDIDAS
3
70
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
2012 Págs. 71
6.3
ESPECTROS SONOROS 6.3.1 TRANSFORMADA RAPIDA DE FOURIER Y COMPRESIÓN DE AUDIO
74
6.3.2 EJEMPLO DE COMPRESIÓN DE VOZ POR MEDIO TRANSFORMADA DE FOURIER EN MATLAB
76
VII. DISCUSIÓN 7.1. CONCLUSIONES 7.2. RECOMENDACIONES
77
VIII REFERENCIAS APÉNDICE
79
ANEXO
88
4
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
2012
II RESUMEN El presente trabajo de investigación consiste en plasmar la utilidad de
la
Transformada de Fourier en la compresión de audio y los MP3, para lo cual es fundamental la teoría de señales y las herramientas matemáticas que se disponen a fin de comprimir una señal de audio usando la Transformada de Fourier, la señal sonora no necesariamente es periódica, por lo que es necesario
presentar
un enfoque teórico de la Transformada de Fourier para señales analógicas y digitales , se hace un enfoque intuitivo e histórico de la compresión de audio,se plasma la Transformada de Fourier Discreta en la compresión de audio mediante algoritmos de la Transformada Rápida de Fourier, para la cual se muestra un ejemplo de comprensión de voz mediante la Transformada de Fourier y se utiliza un software elaborado en MATLAB.
5
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
2012
III INTRODUCCIÓN
El principio de la transformada de Fourier, desarrollada por primera vez en el siglo XIX, es que cualquier señal, como por ejemplo una grabación de sonido, se puede representar como la suma de una serie de sinusoides o cosinusoides con distintas frecuencias y amplitudes. Así, esta serie de ondas se puede manipular con relativa facilidad. Esto permite, por ejemplo, que una grabación de audio se comprima o se pueda eliminar el ‘ruido’. A mediados de la década de 1960 se creó un algoritmo para la computación denominado ‘Transformada Rápida de Fourier’ (FFT: Fast Fourier Transform). Cualquiera que se haya quedado maravillado ante el diminuto tamaño de un archivo MP3 en comparación con la misma grabación en su estado sin comprimir conoce la potencia de la FFT en acción. 14 Gracias al nuevo algoritmo, denominado ¨Transformada Dispersa de Fourier (SFT: Sparse Fourier Transform), los flujos de datos se pueden procesar de 10 a 100 veces más rápido que lo que permitía la FFT. Esta velocidad es posible porque la información que más nos importa es muy estructurada: la música no es un ruido aleatorio. Las señales con sentido suelen tener solo una fracción de los posibles valores que podría tener una señal. El término técnico para esto es que la información es “dispersa”. Puesto que el algoritmo SFT no está diseñado para funcionar con cualquier flujo de datos, puede tomar determinados atajos que de otra forma no estarían disponibles. En teoría, un algoritmo capaz de manejar solo señales dispersas es mucho más limitado que la FFT. Pero “la dispersión está en todas partes”, señala el coinventorKatabi, profesor de ingeniería eléctrica e
6
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
2012
informática. “Está en la naturaleza, en las señales de vídeo, en las señales de audio”, afirma Katabi. 5 Una transformada más rápida implica que se necesita menos potencia computacional para procesar una cantidad dada de información, una bendición para los aparatos multimedia que miden el gasto energético al milímetro, como los teléfonos inteligentes. O, con la misma potencia computacional, los ingenieros pueden contemplar la posibilidad de hacer cosas que debido a las necesidades computacionales de la FFT no eran prácticas. Por ejemplo, las conexiones troncales de Internet y los routers actuales solo son capaces de leer o procesar una ínfima parte del río de datos que se pasan entre ellos. La SFT podría permitir a los investigadores estudiar el flujo de este tráfico con mucho más detalle mientras los bits pasan a una velocidad de miles de millones por segundo [4]. Desde que Batis Joseph Fourier en el año 1807 introdujo que una señal periódica se podía representar como una serie de senos y cosenos, a partir de Fourier realmente muchos investigadores han formalizado y desarrollado la teoría de las Series de Fourier y la Transformada de Fourier. Las señales que provienen del mundo físico son continuas o analógicas por lo que los grandes investigadores encontraron que la herramienta perfecta para el tratamiento de señales continuas y discretas eran las series de Fourier y la Transformada de Fourier. 3 Las señales de audio, producto de trasduccionesacustoeléctricas son en la gran mayoría de los casos de tipo analógicas. Es decir, una señal eléctrica de magnitud finita y continua en el tiempo, con niveles variables de acuerdo a los valores de la información original, acotados entre dos límites. Esta simple representación ha permitido la transmisión, a través de métodos de modulación adecuados, y el almacenamiento de la información. Sin embargo, la eficiencia y eficacia de estos procedimientos no son perfectas. La aparición de ruidos, de origen natural o 7
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
2012
creados por el hombre, y de distorsiones lineales y alinéales propias del canal de transmisión deterioran la señal analógica en forma más o menos severa, según los casos. El desarrollo de la tecnología digital ha posibilitado la incorporación de nuevas formas de tratamiento de la información, que permiten disminuir los efectos de tales disturbios e imperfecciones. Pero la digitalización trae como consecuencias un aumento sustancial del ancho de banda necesario para la transmisión y un aumento de la capacidad necesaria para el almacenamiento. En consecuencia, uno de los desarrollos más recientes y prometedores es la compresión de datos que intenta disminuir algunos de los efectos no deseados de la digitalización [7] y [11]. La reducción de la velocidad de transmisión o tasa de bits (directamente relacionada con el ancho de banda de transmisión) es necesaria porque los costos de transmisión aumentan con dicha velocidad. Por lo tanto es imperativo el uso de técnicas de compresión para conseguir la más baja velocidad posible que proporcione una aceptable calidad de audio en una determinada aplicación. La digitalización de las redes de telecomunicaciones ha traído también un cambio en las características y calidad de las señales transportadas, y puede afirmarse que las señales digitales son transportadas con una facilidad cada vez mayor. En especial, las señales de televisión, tanto normales como de alta calidad, si bien eran aptas para su transporte digital, debían enfrentarse a la necesidad de un transporte de información en cantidades cada vez mayores. La compresión digital de audio es un campo cada vez más importante y activo. El progreso en los algoritmos de compresión, la tecnología VLSI (VLSI: VeryLargeScaleIntegration), y las normas de codificación han hecho del audio digital una tecnología practicable para muchas aplicaciones. Ante todo, se han desarrollado muchos nuevos algoritmos de compresión, que permiten la
8
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
2012
transmisión o el almacenamiento de audio digital con excelente calidad a tasa de datos razonables. Además, el avance en la tecnología VLSI hace posible implementar algoritmos sofisticados de compresión para aplicaciones en tiempo real de una manera eficaz en función de los costos. Finalmente, surgieron rápidamente las normas para la compresión de audio que facilitan las plataformas comunes de comunicación. Como resultado de todo esto, se están formando nuevas alianzas, comercializándose nuevos productos, efectuándose nuevos ensayos, y se están suministrando nuevos servicios, con lo cual la compresión digital de audio está adquiriendo cada vez una importancia mayor [11]. A fin de normalizar todo lo referente al tema compresión, la Organización Internacional de Normas (ISO: International StandardsOrganization) creó un subcomité en conjunto con la Comisión Internacional Electrotecnia (IEC: International ElectrotechnicalCommission) denominado “Grupo de Expertos en Imágenes en Movimiento” MPEG (MovingPicturesExpertsGroup). Este grupo de trabajo ha desarrollado dos normas, una para el vídeo y audio digital de computadoras identificada por la sigla MPEG-1 (publicada en noviembre de 1992) y otra para el vídeo y audio digitales empleados en la radiodifusión y en la distribución filoguiada de tales señales, bautizada con la denominación MPEG-2. En marzo de 1993 el MPEG publicó una propuesta de la norma MPEG-2, en la que se definió que el objetivo de calidad buscado era el nivel establecido en la Recomendación 601 de la UIT-R (ex CCIR: Comité Consultivo Internacional de Radiocomunicaciones). En julio de 1993 se publicaron los requisitos establecidos por la Norma MPEG-2. La ISO está trabajando en una nueva iniciativa para lacodificación a tasa muy baja de bits de información de audio y de vídeo (MPEG-4) que se presentó en 1999 [11].
9
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
2012
El desarrollo de MPEG-1 (en lo que a audio se refiere) se orientó hacia las técnicas para reducir la tasa de bits a 1.5 Mbps como límite superior. El MPEG no especifica una técnica única de compresión, sino un conjunto de las herramientas de compresión que pueden usarse en conformidad con reglas exactas de una sintaxis de compresión. Estas reglas exactas facilitan el intercambio de flujo de bits entre aplicaciones diferentes [7]. Desde la reproducción de la música en los formatos en disco vinílico desde la vitrolas, tocadiscos con sus agujas de diamante, siempre dispuestos a captar cualquier frecuencia deseada o no que pudieran salir del surco del vinílico, los formatos compresión
de música y reproducción ha evolucionado de forma
exponencial, sobre todo el almacenamiento de archivos de música han mejorado haciendo posible portar música en unidades de almacenamiento masivo, esto gracias al proceso de digitalización del sonido. El estándar digital para CD donde se podía guardar 80 minutos de música fue un paso decisivo aprovechando la incapacidad en la audición de algunas frecuencias. El MP3 es formato de compresión de audio que ha revolucionado el mundo de la música y su vigencia muestra lo potencia de este formato de compresión de audio [7].
10
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
2012
IV PARTE TEÓRICA O MARCO TEÓRICO
4.1 CONCEPTOS PREVIOS 4.1.1 SONIDO Agente físico que se manifiesta en forma de energía vibratoria y que es causa de la sensación auditiva siempre que las vibraciones se mantengan dentro de ciertos límites. Las ondas acústicas son vibraciones mecánicas de puntos materiales, que, por propagación en un medio elástico, llegan al oído y perturban su equilibrio. En general, se acostumbra a distinguir entre sonido y ruido, calificando al primero como una perturbación periódica, de carácter musical. El sonido se propaga en el aire, a 0°C y a la presión de 1 atm, a la velocidad de 331,4 m/s. Para que las vibraciones emitidas por la fuente acústica sean apreciadas por el oído humano es necesario que pasen de los 16 períodos por segundo (16 Hz) y que sean inferiores a los 20.000 Hz.[7]. Los caracteres distintivos de un sonido son: la intensidad, que depende de la amplitud de las vibraciones; la altura, que está relacionada con la frecuencia de las vibraciones de la onda sonora, y el timbre, que depende del número e intensidad de los armónicos. El sonido está formado por una serie de ondas de compresión y enrarecimiento que transmiten energía cinética por el interior de medios materiales. En el vacío el sonido no se puede propagar, ya que necesita de un medio que le haga de soporte. Los sonidos se generan todos en elementos que se encuentran en vibración, vibración que se transmite al medio y que a través de él llegan hasta el tímpano. En el oído son transformados en impulsos eléctricos que se transmiten
11
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
2012
hasta el cerebro donde son interpretados. Las ondas sonoras son de tipo longitudinal y consisten en una serie de compresiones y enrarecimientos sucesivos. Para poner esto de manifiesto podemos considerar el caso de un diapasón que vibra. Cada uno de los golpes de sus varillas produce al golpear hacia afuera una compresión, para acto seguido dar lugar a un enrarecimiento al batir hacia dentro, seguido de nuevo por una compresión, etc. De este modo se dice que un ciclo está compuesto en esta oscilación por una compresión y un enrarecimiento y la longitud de onda de dicha perturbación es la distancia que separa dos compresiones, o dos enrarecimientos sucesivos [7]. Para caracterizar el sonido se emplean dos nociones que, si bien no son propiamente científicas, permiten describirlo con una cierta aproximación. Dichas nociones son las de altura, relacionada con la frecuencia y la de volumen que está vinculada con la intensidad. Sin embargo, una descripción precisa de las ondas sonoras debe basarse en los conceptos de frecuencia e intensidad de la perturbación. La frecuencia de las ondas sonoras se define como el número de oscilaciones que se producen en un segundo y se mide mediante la unidad llamada que equivale a un ciclo por segundo. La intensidad, por su parte, es la potencia que atraviesa en un segundo una superficie unidad perpendicular a la dirección de propagación de la perturbación sonora. La unidad en la que se expresa es el decibelio (dB), si bien no existe una escala absoluta de medida, ya que la escala existente toma como nivel o la intensidad mínima audible, que es un concepto relativo. Existe asimismo una relación entre la intensidad del sonido, la amplitud y la frecuencia de la perturbación y el medio que le sirve de soporte, siendo así que cuanto mayor es la densidad del medio tanto menor es la intensidad sonora y cuanto mayor es la amplitud menor es la frecuencia[7].
12
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
2012
La pérdida de la audición varia conforme al sexo y a la edad, tal como se puede apreciar en la Fig. Nº 1, donde se muestra la pérdida de la audición según sexo y edad.
FIG. N° 1 Pérdida de audición humana. 4.1.2 SONIDO DIGITAL Registro sonoro digitalizado para poder ser procesado por un ordenador. El sonido, al ser una sensación producida en el órgano del oído por una señal analógica que representa los cambios de densidad y presión en los medios materiales, debe digitalizarse para poder ser tratado en un ordenador. Según el método que se emplee para hacer esta digitalización, se obtendrán diversos formatos de sonido digital. Los formatos de sonido sirven para almacenar música y pueden ser de muy diferentes tipos: MOD(Es un formato de archivo de computadora usado para música, es el primer formato de música en
13
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
2012
computadora)MID (MID: Musical Instrument Digital), WAV (WAV: Waveform Audio File Format), y CMF (CMF: CreativeMusic File), que corresponden a las extensiones de los ficheros almacenados en el ordenador. Dentro de este grupo se puede realizar cualquier conversión de formato, con mayor o menor calidad, según cuál sea el origen y destino. La mayor calidad (los sonidos creados por el ordenador parecen totalmente auténticos) se obtiene con ficheros VOC o WAV, aunque tienen el inconveniente de la cantidad de espacio en disco que ocupan y el alto tiempo de la unidad central de proceso (CPU), que requiere su posterior reproducción. Los ficheros de tipo MOD ocupan menos espacio, pero consumen más tiempo de unidad central de proceso (CPU) dando una calidad ligeramente inferior.En todos estos formatos se requiere digitalizar el sonido.En la Fig. Nº2 se muestra el proceso de digitalización de una señal continua [14].
FIG. N° 2 Procesado Digital
14
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
2012
4.1.3 DIGITALIZACIÓN DE LA SEÑAL DE AUDIO Al tener una señal analógica, en este caso el sonido, y le aplicamos un tren de pulso, se obtiene una señal digital, el cual se le conoce como señal muestreada o simplemente muestreo, tal como se muestra en la Fig.Nº3.
FIG. N°3 Proceso de muestreo. 4.1.4 TASA DE MUESTREO DE NYQUIST La señal muestreada es una repetición infinita del espectro de la señal digital. La señal original se recupera si la frecuencia de los pulsos de muestreo es el doble de la frecuencia máxima de la señal original. Esta se designa como Frecuencia de Nyquist, como se muestra en la Fig. Nº 4.
FIG. N° 4 Frecuencia de Nyquist. 15
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
2012
A una frecuencia de muestreo diferente que la de Nyquist (Fig. 5 y Fig.6), el espectro resultante es una sucesión de espectros solapados y la señal original no puede recuperarse.
FIG. N°5 Frecuencia de muestreo espectros solapados
FIG. N°6 Frecuencia de muestreo de espectros solapados
16
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
2012
En la tabla Nº 1 se aprecia las frecuencias de muestreo de algunas aplicaciones típicas: Frecuencia de muestreo 8
Aplicación Telefonía digital
22.05
Computadoras personales
32
Audio digital y televisión
44.10 48
Discos compactos Cintas de audio digital y HDTV
TABLA. N° 1 Frecuencia de muestreo[14]. 4.3 LA EVOLUCIÓN DE LOS FORMATOS DE MUSICA Puede decirse que la música es el arte que consiste en dotar a lossonidos y los silencios de una cierta organización. El resultado de este orden resulta lógico, coherente y agradable al oído.La música en la historia humana es un registro continuo y se ha desarrollado gracias al ingenio de la mente creadora del hombre. Los primeros formatos de música fueron llevados a discos vinílicos y reproducidos mediante las famosas vitrolas. Hace medio siglo, una empresa americana sacó la primera radio portátil. Partió así una nueva forma de ver la música. La cosa es que desde esa primera radio, este campo ha evolucionado de forma escandalosa, ésta es la evolución de la reproducción de la música [9]. VITROLAS La vitrola es un antiguo reproductor de música (Fig. 7) que funcionaba a cuerda sin electricidad, para su época fue una revolución en el campo del sonido musical y fue el instrumento más popular en la reproducción musical hasta mediados del siglo 19.Sin embargo el invento del radio y otros medios con electricidad en 1925 permitiendo así el desarrollo de una nueva tecnología que fue reemplazando a la antigua vitrola. 17
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
2012
Fig. Nº 7Vitrola a cuerda. RADIO PORTÁTIL Fue inventada por Texas Instruments en 1952 Regency, lanzó al mercado la TR-1 en noviembre de 1954, como se aprecia en la Fig. Nº 8. Contexto: En aquellos años, la radio era el principal y más moderno medio de comunicación. La llegada de la portátil supuso un cambio gigantesco.
FIG. N°8 Modelo de radio TR-1 EL RADIOCASETE Las primeras aparecieron a fines de los 70. Su momento de gloria vino con los ochenta, de la mano del hip hop y el breakdance. Qué hacía: Venía con un sintonizador y un reproductor de casetes (a veces tenía espacio para dos casetes, y desde los 90 también se fabricaron algunas con reproductor de CD), se muestra en la Fig. Nº 9.
18
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
2012
FIG. N°9RadioCaset. EL WALKMAN El primero en su tipo fue un aparato llamado Stereobelt, y fue inventado en 1972 por un brasileño-alemán llamado Andreas Pavel. Era un reproductor portátil de casetes, con audífonos que emitían sonido estéreo. El gran agregado aquí son los cascos, que “privatizan” la experiencia musical y le ponen banda sonora a lo que sea que uno esté haciendo, como se aprecia en la Fig.Nº 10.
FIG. N°10 Walkman EL DISCMAN Aparece en 1984, El primer aparato, bien poco práctico, salió a la calle con el nombre de D50. El que vemos en esta foto (FIG.11) es un desarrollo posterior y algo más sofisticado, el D121(Fig. Nº 11). Reproducía discos compactos en un aparato pequeño. Al principio, no convenció mucho ya que el disco se saltaba si uno se movía mucho. Pero cuando mejoró la tecnología, sustituyo con creces a los casetes.
19
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
2012
FIG. N° 11 Discman modelo D121 EL MINIDISC Sony lanzó las primeras unidades en enero de 1992( Fig.Nº 12). Lo que hacía era reproducir discos algo más pequeños que los CD, pero con calidad de audio similar. Podías grabar tus propios discos, y acceder a su contenido de manera muy rápida. Fue un gran fracaso.
FIG. N° 12Minidisc REPRODUCTOR MP3 Apareció
en
1998,
y
fue
una
idea
de
la
empresa
surcoreana
SaeHanInformationSystems. Almacena y reproduce música en formato digital (Fig. Nº 13). Sus primeras versiones sólo disponían de una memoria de 32MB. O sea, sólo cabían unas 8 canciones. Pero su capacidad de almacenaje ha crecido rápidamente. Hoy lo habitual es tener uno de 2GB, con espacio para 500 canciones. Lo importante es que con este aparato nace una época en la cual los
20
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
2012
CD van en baja y la descarga de música por Internet es gratis y disponible para todos.
FIG. N° 13 Reproductor MP3
IPOD CLÁSICO La primera versión se lanzó en septiembre de 2001. Funciona como un MP3, pero con mayor capacidad de almacenaje y un diseño más sofisticado (Fig. Nº 14) Apple saca al mercado este reproductor de música consciente del boom de los MP3 y el declive de los CD, pero sumando un cuidadísimo diseño. Y además, nuevas versiones, como Mini, Nano, Shuffle y el increíble Touch. Son más caros que un MP3 convencional, pero vale la pena.
FIG. N° 14 IPOD Clásico 21
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
2012
MÓVILES CON MP3 Aparecen en 2005, con el Sony Ericsson Walkman (Fig. Nº 15). Desde 2004, existían móviles capaces de reproducir ringtones en MP3, pero sin la memoria suficiente para canciones. Además de ser un teléfono móvil, es un reproductor MP3. La mayoría de ellos tiene memoria externa y el espacio suficiente para almacenar hasta 500 canciones.
FIG. N° 15 Móvil con MP3 4.3HISTORIA DEL FORMATO MP3 Este formato fue desarrollado principalmente por KarlheinzBrandenburg, director de tecnologías de medios electrónicos del Instituto Fraunhofer IIS, perteneciente al Fraunhofer-Gesellschaft - red de centros de investigación alemanes - que junto con Thompson Multimedia controla el grueso de las patentes relacionadas con el MP3. La primera de ellas fue registrada en 1986 y varias más en 1991. Pero no fue hasta julio de 1995 cuando Brandenburg usó por primera vez la extensión .mp3 para los archivos relacionados con el MP3 que guardaba en su ordenador. Un año después su instituto ingresaba en concepto de patentes 1,2 millones de euros. Diez años más tarde esta cantidad ha alcanzado los 26,1 millones. Tras el desarrollo de reproductores autónomos, portátiles o integrados en cadenas musicales (estéreos), el formato MP3 llega más allá del mundo de la informática [6].
22
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
2012
El formato MP3 se convirtió en el estándar utilizado para streaming de audio y compresión de audio con pérdida de mediana fidelidad gracias a la posibilidad de ajustar la calidad de la compresión, proporcional al tamaño por segundo (bitrate), y por tanto el tamaño final del archivo, que podía llegar a ocupar 12 e incluso 15 veces menos que el archivo original sin comprimir. Fue el primer formato de compresión de audio popularizado gracias a Internet, ya que hizo posible el intercambio de ficheros musicales. Los procesos judiciales contra empresas como Napster y AudioGalaxy son resultado de la facilidad con que se comparten este tipo de ficheros. A principios de 2002 otros formatos de audio comprimido como Windows Media Audio y OggVorbis empiezan a ser masivamente incluidos en programas, sistemas operativos y reproductores autónomos, lo que hizo prever que el MP3 fuera paulatinamente cayendo en desuso, en favor de otros formatos, como los mencionados, de mucha mejor calidad. Uno de los factores que influye en el declive del MP3 es que tiene patente. Técnicamente, el tener una patente no significa que su calidad sea inferior ni superior, pero impide que la comunidad pueda seguir mejorándolo y puede obligar a pagar por la utilización de algún códec. Esto es lo que ocurre con los reproductores de MP3. Aun así, a finales de 2009, el formato mp3 continúa siendo el más usado y el que goza de más éxito, sacando nuevas versiones [7] DEFINICIÓN MPEG-1 Audio Layer III o MPEG-2 Audio Layer III, más comúnmente conocido como MP3, es un formato de compresión de audio digital patentado que usa un algoritmo con pérdida para conseguir un menor tamaño de archivo. Es un formato de audio común usado para música tanto en ordenadores como en reproductores de audio portátil.
23
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
2012
MP3 fue desarrollado por el Moving Picture ExpertsGroup (MPEG) para formar parte del estándar MPEG-1 y del posterior y más extendido MPEG-2. Un MP3 creado
usando
una
compresión
de
128kbit/s
tendrá
un
tamaño
de
aproximadamente unas 11 veces menor que su homónimo en CD. Un MP3 también puede comprimirse usando una mayor o menor tasa de bits por segundo, resultando directamente en su mayor o menor calidad de audio final, así como en el tamaño del archivo resultante. 4.3.1UTILIDAD DEL FORMATO MP3 El formato de audio usado en los discos compactos (CD) usa 44.1 Khz y 16 bit, es decir, que graba 44.100 muestras de 16 bit (2 bytes) cada segundo. Esta ingente cantidad de datos es la que permite obtener un sonido de muy alta fidelidad. Si multiplicamos 2 bytes * 44.100 obtenemos que se necesitan 88.200 bytes por segundo en cada canal del estéreo. Así pues, necesitamos 176.400 bytes por segundo en una grabación estereofónica. Multiplicando por 60, veremos que un sólo minuto de grabación en calidad CD ocupa la friolera de 10.584.000 bytes, es decir, 10.09 Mb por minuto. Una pieza de 4 minutos ocuparía, por lo tanto, unos 40 Mb. Y comprimido al formato MP3 a razón de 10 a 1 serían 4Mb por canción. 4.3.2ESTRUCTURA DE UN FICHERO MP3 Un fichero Mp3 se constituye de diferentes framesMP3 que a su vez se componen de una cabecera Mp3 y los datos MP3. Esta secuencia de datos es la denominada "stream elemental". Cada uno de los Frames son independientes, es decir, una persona puede cortar los frames de un fichero MP3 y después reproducirlos en cualquier reproductor MP3 del Mercado. La cabecera consta de una palabra de sincronismo que es utilizada para indicar el principio de un frame válido. A continuación siguen una serie de bits que indican que el fichero analizado es un
24
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
2012
fichero Standard MPEG y si usa o no la capa 3. Después de todo esto, los valores difieren dependiendo del tipo de archivo MP3. Los rangos de valores quedan definidos en la ISO/IEC 11172-3. 11 4.3.3 TRANSFORMADA DE FOURIER EN EL MP3 En matemáticas, la transformada de Fourier discreta, designada con frecuencia por la abreviatura DFT (DFT: Discrete Fourier Transform), y a la que en ocasiones se denomina Transformada de Fourier Finita, es una transformada de Fourier ampliamente empleada en tratamiento de señales y en campos afines para analizar las frecuencias presentes en una señal muestreada, resolver ecuaciones diferenciales parciales y realizar otras operaciones, como convoluciones. Es utilizada en el proceso de elaboración de un fichero MP3 [12]. La transformada de Fourier discreta puede calcularse de modo muy eficiente mediante el algoritmo FFT [11].
4.4SERIES DE FOURIER Y TRANSFORMADA DE FOURIER PARA SEÑALES CONTINUAS La transformada de Fourier es básicamente el espectro de frecuencias de una función. Un buen ejemplo de eso es lo que hace el oído humano, ya que recibe una onda auditiva y la transforma en una descomposición en distintas frecuencias (que es lo que finalmente se escucha). El oído humano va percibiendo distintas frecuencias a medida que pasa el tiempo, sin embargo, la transformada de Fourier contiene todas las frecuencias contenidas en todos los tiempos en que existió la señal; es decir, en la transformada de Fourier se obtiene un sólo espectro de frecuencias para toda la función. 4.4.1Definición formal La función ( ) definida por. ( )=
( )
(1) 25
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
2012
Se conoce como la integral de Fourier o transformada de Fourier de ( ), y la operación de integración se simboliza frecuentemente por ℱ: esto es, ( ) = ℱ[ ( )] =
( )
(2)
Análogamente ℱ es el símbolo que se utiliza para indicar la operación inversa o sea, obtener ( ) cuando ( ) está dado; esto es, ( )=ℱ
[ ( )] =
1 2
( )
(3)
Y ( ) se denomina transformada inversa de Fourier de ( ). Las ecuaciones (1) y (2) se conocen a menudo como par de transformadas de Fourier. 4.4.2Teorema de Existencia de la Transformada de Fourier y propiedades Si la función f satisface la ecuación (4) entonces existe ( )
Demostración
| ( )|
4. Si ( ) ∈
−2
=>
∈
∈
5. ∃∅( ), función Scaling, tal que: ∅( − ) Y en general:
1
∅ ( )=
−2 2
∅(
)
base ortonormal de
∈
∈
2 Esta familia de subespacios cumpliendo estas condiciones se le conoce como Multiresolución. Ejemplo de Multiresolucion. V
j
e .d . V V
0
1
f
L
2
f
L
2
.......... V
f
L
2
.......... 1
f
constantes constantes
en
constantes
en
..........
L
2
n2
en
j
n,
,
n
n
2n,
2
1
1
n
j
2
1
..... constantes
en
n 2
,
n
2
1
Cumplen las 4 primeras condiciones de manera bastante obvia y tiene como función scaling:
t
0
,1
FIG. Nº 24 Ejemplo de multiresolución
59
2012
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal 6.1.7 PROPIEDADES DE LA FUNCIÓN SCALING Veamos a continuación 5 importantes propiedades de la función Scaling.
a)
t-n n Z
b ) ˆ w
c)
2
t
ˆ w 2 k
d ) S o p ˆ
w
b a s e o rto n o rm a l d e V
2
ˆ w
1 ˆ w
0
t
1
2 1
2
Cumpliéndose la igualdad, e.d Sop ˆ w 2 t e ) S i ˆ w
e s c o n tin u a
k
t.q. k 2
ˆ 0 1
6.1.8 CUANTIZACIÓN DE LA SEÑAL ANALÓGICA Una vez realizado el muestreo, el siguiente paso es la cuantización (quantization) de la señal analógica. Por tanto, la cuantización representa el componente de muestreo de las variaciones de valores de tensiones o voltajes tomados en diferentes puntos de la onda sinusoidal, que permite medirlos y asignarles sus correspondientes valores en el sistema numérico decimal, antes de convertir esos valores en sistema numérico binario, como se muestra en la Fig.25.
FIG. N°25Cuantización de la Señal analógica. Proceso de cuantización (quantization) de la señal eléctrica analógica para su conversión en señal digital.
60
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
2012
6.1.9 CODIFICACIÓN DE LA SEÑAL EN CÓDIGO BINARIO Después de realizada la cuantización, los valores de las tomas de voltajes se representan numéricamente por medio de códigos y estándares previamente establecidos. Lo más común es codificar la señal digital en código numérico binario, la misma se muestra en la Fig.Nº 26.
FIG. N° 26 Esquema de la codificación binaria La codificación permite asignarle valores numéricos binarios equivalentes a los valores de tensiones o voltajes que conforman la señal eléctrica analógica original. En este ejemplo gráfico de codificación, es posible observar cómo se ha obtenido una señal digital y el código binario correspondiente a los niveles de voltaje que posee la señal analógica. La siguiente tabla muestra los valores numéricos del 0 al 7, pertenecientes al sistema decimal y sus equivalentes en código numérico binario. En la tabla Nº 4( se puede observar que utilizando sólo tres bits por cada número en código binario, se pueden representar ocho niveles o estados de cuantización.
61
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
Valores en volt en Sistema
2012
Conversión a Código Binario
Decimal 0
000
1
001
2
010
3
011
4
100
5
101
6
110
7
111 TABLA. N° 4[7].
En la tabla N°5se puede ver la sustitución que se ha hecho de los valores numéricos correspondientes a los voltajes de las muestras tomadas de la señal analógica utilizada como ejemplo y su correspondiente conversión a valores en código binario.
62
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal Valor de los voltajes de la señal
2012
Conversión a Código Binario
analógica del ejemplo 0
000
2
010
3
011
4
100
6
110
7
111
7
111
5
101
4
100
3
011
0
000 TABLA. N° 5[11].
6.1.10Compresión de voz Se ha realizado desde hace bastantes años, sobre todo para aplicaciones en comunicaciones telefónicas (300-3400 Hz) y el modelo psicoacústico se basó más en las características del tracto vocal humano que en las características perceptuales, es decir, las propiedades del sistema auditivo. 6.1.11Compresión de audio genérico: El objetivo es la compresión de audio de “alta fidelidad”, en principio con un ancho de banda de 20 Hz a 20 kHz. El primer estándar internacional fue MPEG (Motion Picture ExpertsGroup). El modelo psicoacústico se basa principalmente en las características perceptuales del sistema auditivo humano.
63
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
2012
“Debilidades” del oído aprovechables para compresión” • Resolución dependiente de la frecuencia El oído no es capaz de discernir diferencias pequeñas en frecuencia dentro de las bandas críticas. • Enmascaramiento auditivo Cuando dos señales de frecuencias cercanas están ambas presentes, la más intensa enmascara a la menos intensa. Una señal enmascarada debe ser más intensa que cierto umbral de ruido para que pueda percibirse. Esto hace posible introducir ruido de cuantificación inaudible. Los principales estándares de compresión son MPEG y Dolby AC3. En MPEG se define el decodificador, o más bien los parámetros del flujo binario a decodificar. El codificador no se define, pero debe cumplir con producir un flujo
binario
válido
(compliant).
6.1.12 DETALLES TÉCNICOS En esta capa existen varias diferencias respecto a los estándares MPEG-1 y MPEG-2, entre las que se encuentra el llamado banco de filtros híbrido que hace que su diseño tenga mayor complejidad. Esta mejora de la resolución frecuencial empeora la resolución temporal introduciendo problemas de pre-eco que son predichos y corregidos. Además, permite calidad de audio en tasas tan bajas como 64Kbps.
64
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
2012
6.1.13BANCO DE FILTROS El banco de filtros utilizado en esta capa es el llamado banco de filtros híbrido polifase/MDCT. Se encarga de realizar el mapeado del dominio del tiempo al de la frecuencia tanto para el codificador como para los filtros de reconstrucción del decodificador. Las muestras de salida del banco están cuantizadas y proporcionan una resolución en frecuencia variable, 6x32 o 18x32 subbandas, ajustándose mucho mejor a las bandas críticas de las diferentes frecuencias. Usando 18 puntos, el número máximo de componentes frecuencialeses: 32 x 18 = 576. Dando lugar a una resolución frecuencial de: 24000/576 = 41,67 Hz (si fs = 48 Khz.). Si se usan 6 líneas de frecuencia la resolución frecuencial es menor, pero la temporal es mayor, y se aplica en aquellas zonas en las que se espera efectos de preeco (transiciones bruscas de silencio a altos niveles energéticos). Según su respuesta en frecuencia, los filtros se pueden clasificar básicamente en cuatro categorías diferentes: Filtro pasa bajos: Son aquellos que introducen muy poca atenuación a las frecuencias que son menores que una determinada, llamada frecuencia de corte. Las frecuencias que son mayores que la de corte son atenuadas fuertemente. Filtro pasa altos: Este tipo de filtro atenúa levemente las frecuencias que son mayores que la frecuencia de corte e introducen mucha atenuación a las que son menores que dicha frecuencia. Filtro pasa banda: En este filtro existen dos frecuencias de corte, una inferior y otra superior. Este filtro sólo atenúa grandemente las señales cuya frecuencia sea menor que la frecuencia de corte inferior o aquellas de frecuencia superior a la frecuencia de corte superior. Por tanto, sólo permiten el paso de un rango o banda de frecuencias sin atenuar.
65
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
2012
Filtro elimina banda: Este filtro elimina en su salida todas las señales que tengan una frecuencia comprendida entre una frecuencia de corte inferior y otra de corte superior. Por tanto, estos filtros eliminan una banda completa de frecuencias de las introducidas en su entrada, tal como se muestra en la Fig. N° 27.
FIG. N° 27 Esquema de filtros
6.2 EL MODELO PSICOACÚSTICO La compresión se basa en la reducción del margen dinámico irrelevante, es decir, en la incapacidad del sistema auditivo para detectar los errores de cuantificación en condiciones de enmascaramiento. Este estándar divide la señal en bandas de frecuencia que se aproximan a las bandas críticas, y luego cuantifica cada subbanda en función del umbral de detección del ruido dentro de esa banda. El modelo psicoacústico utiliza un método denominado predicción polinómica. 6 Analiza la señal de audio y calcula la cantidad de ruido que se puede introducir en función de la frecuencia, es decir, calcula la “cantidad de enmascaramiento” o umbral de enmascaramiento en función de la frecuencia. El codificador usa esta información para decidir la mejor manera de gastar los bits disponibles. Los estudios demuestran que la distorsión generada es imperceptible para el oído experimentado en un ambiente óptimo desde los 256 kbps y en condiciones normales. Para el oído no experimentado, o común, con 128 kbps o hasta 96 kbps basta para que se oiga "bien" (a menos que se posea un equipo de audio de alta calidad donde se nota excesivamente la falta de graves y se destaca el sonido de "fritura" en los agudos). En personas que escuchan mucha música o 66
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
2012
que tienenexperiencia en la parte auditiva,desde 192 o 256 kbps basta para oír bien. La música que circula por Internet, en su mayoría, está codificada entre 128 y 192 kbps.[6]. 6.2.1 CODIFICACIÓN Y CUANTIFICACIÓN La solución que propone este estándar en cuanto a la repartición de bits o ruido, se hace en un ciclo de iteración que consiste de un ciclo interno y uno externo. Examina tanto las muestras de salida del banco de filtros como el SMR (signalto-mask ratio) proporcionado por el modelo psicoacústico, y ajusta la asignación de bits o ruido, según el esquema utilizado, para satisfacer simultáneamente los requisitos de tasa de bits y de enmascaramiento. Dichos ciclos consisten en: 6.2.2 CICLO INTERNO El ciclo interno realiza la cuantización no-uniforme de acuerdo con el sistema de punto flotante (cada valor espectral MDCT: ModifiedDiscreteCosineTransform se eleva a la potencia 3/4). El ciclo escoge un determinado intervalo de cuantización y, a los datos cuantizados, se les aplica codificación de Huffman en el siguiente bloque. El ciclo termina cuando los valores cuantizados que han sido codificados con Huffman usan menor o igual número de bits que la máxima cantidad de bits permitida [16]. 6.2.3CICLO EXTERNO Ahora el ciclo externo se encarga de verificar si el factor de escala para cada subbanda tiene más distorsión de la permitida (ruido en la señal codificada), comparando cada banda del factor de escala con los datos previamente calculados en el análisis psicoacústico. El ciclo externo termina cuando una de las siguientes condiciones se cumple: * Ninguna de las bandas del factor de escala tiene mucho ruido. * Si la siguiente iteración amplifica una de las bandas más de lo permitido.
67
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
2012
* Todas las bandas han sido amplificadas al menos una vez. 6.2.4EMPAQUETADO O FORMATEADOR DE BITSTREAM Este bloque toma las muestras cuantificadas del banco de filtros, junto a los datos de asignación de bits/ruido y almacena el audio codificado y algunos datos adicionales en las tramas. Cada trama contiene información de 1152 muestras de audio y consiste de un encabezado, de los datos de audio junto con el chequeo de errores mediante CRC y de los datos auxiliares (estos dos últimos opcionales). El encabezado nos describe cuál capa, tasa de bits y frecuencia de muestreo se están usando para el audio codificado. Las tramas empiezan con la misma cabecera desincronización ydiferenciación y su longitud puede variar. Además de tratar con esta información, también incluye la codificación Huffman de longitud variable, un método de codificación entrópica que sin pérdida de información elimina redundancia. Actúa al final de la compresión para codificar la información. Los métodos de longitud variable se caracterizan, en general, por asignar palabras cortas a los eventos más frecuentes, dejando las largas para los más infrecuentes [7]. 6.2.5 ESTRUCTURA DE UN FICHERO MP3 Un fichero MP3 se constituye de diferentes frames MP3 que a su vez se componen de una cabecera MP3 y los datos MP3. Esta secuencia de datos es la denominada "stream elemental". Cada uno de los Frames son independientes, es decir, una persona puede cortar los frames de un fichero MP3 y después reproducirlos en cualquier reproductor MP3 del Mercado. El grafico muestra que la cabecera consta de una palabra de sincronismo que es utilizada para indicar el principio de un frame válido. A continuación siguen una serie de bits que indican que el fichero analizado es un fichero Standard MPEG y si usa o no la capa 3.
68
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
2012
Después de todo esto, los valores difieren dependiendo del tipo de archivo MP3. Los rangos de valores quedan definidos en la ISO/IEC 11172-3 [11]. 6.2.6TRANSFORMADA DE FOURIER DISCRETA Y FICHERO MP3 En matemáticas, la transformada de Fourier discreta, designada con frecuencia por la abreviatura DFT , y a la que en ocasiones se denomina transformada de Fourier finita, es una transformada de Fourier ampliamente empleada en tratamiento de señales y en campos afines para analizar las frecuencias presentes en una señal muestreada, resolver ecuaciones diferenciales parciales y realizar otras operaciones, como convoluciones. Es utilizada en el proceso de elaboración de un fichero MP3. 6.2.7 CÓDEC DE AUDIOY TIPO DE CÓDEC. Un códec de audio es un códec que incluye un conjunto de algoritmos que permiten codificar y decodificar los datos auditivos, lo cual significa reducir la cantidad de bits que ocupa el fichero de audio. Sirve para comprimir señales o ficheros de audio con un flujo de datos (stream) con el objetivo de que ocupan el menor
espacio
posible,
consiguiendo
una
buena
calidad
final,
y
descomprimiéndolos para reproducirlos o manipularlos en un formato más apropiado. Se implementa en software, hardware o una combinación de ambos. Si obviamos las pérdidas producidas por el error de cuantificación, que en muchos casos son inapreciables, los códecs pueden ser, según el tipo de compresión, con pérdidas (lossy) o sin pérdidas (lossless). 6.2.8 CÓDECS DE AUDIO CON PÉRDIDAS En audio se aprovechan las limitaciones del sistema auditivo humano (margen frecuencial, umbral de audición, enmascaramiento temporal y/o enmascaramiento frecuencial para comprimir los datos de audio. Se usan diferentes métodos para eliminar los datos inaudibles:
69
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
2012
Transformada en el dominio frecuencial y eliminación de las frecuencia inaudibles (inferiores a 20Hz y superiores a 20kHz, u enmascaradas por otras frecuencias de mayor potencia).
División del señal en subbandas de frecuencia que se aproximan a las bandas críticas y cuantificar cada subbanda en función de un umbral de detección del ruido dentro de la subbanda. De esta forma se analiza el señal de audio y se calcula la cantidad de ruido (pérdidas inapreciables) que se pueden introducir a cada rango de frecuencias, es decir, el umbral de enmascaramiento.
Predicción de datos.
Caracterización de la voz a partir de una parametrización.
El nivel de compresión se puede controlar y depende de la calidad que se quiera obtener, el tamaño del fichero, el ancho de banda de la red, el tiempo de compresión. Usualmente se utilizan compresiones máximas para transmisiones, especialmente cuando son servicios en directo como telefonía (telefonía IP o celular) o reproducciones en directo como podcasting (radio por internet o programas de audio por internet). 6.2.9 CÓDECS DE AUDIO SIN PÉRDIDAS Estos códecs utilizan una compresión sin pérdidas para minimizar el tamaño del flujo de datos. Para realizar esta codificación se utilizan algoritmos basados en la eliminación de la redundancia de la señal de audio, y por lo tanto en el grado de predicibilidad de la información. Si la señal tiene patrones repetitivos, éste es redundante y por lo tanto fácil de predecir.
70
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
2012
Usualmente los patrones repetitivos de señal son más evidentes en otro dominio (temporal, frecuencial...), es por esto que la transformación de la señal en función de éstos patrones permitirá reducir o eliminar la redundancia. En audio, igual que en vídeo, imagen o datos, la eliminación de la redundancia se implementa:
Transformaciones en otro dominio donde los patrones repetitivos sean más evidentes.
Predicción.
Codificación entrópica: codificación de Huffman, codificación aritmética, RunLengthCoding (RLE).
6.3 ESPECTROS SONOROS La información acerca de qué frecuencias integran un sonido y cuáles son las respectivas amplitudes y fases constituye lo que se denomina espectro del sonido. Se suele representar con un par de gráficos con la frecuencia en las abscisas, y en las ordenadas la amplitud o energía en uno y la fase en el otro. En este artículo se definirán los cuatro tipos de espectros que existen. Existen cuatro tipos de espectros. El primero de ellos (Fig.N° 28) corresponde a los sonidos periódicos. El espectro en este caso está formado por líneas verticales equiespaciadas, siendo la primera la correspondiente a la frecuencia fundamental o primer armónico, la segunda al segundo armónico, y así siguiendo. La altura de cada línea espectral es la amplitud del armónico respectivo. Un caso particular lo constituye un tono puro de frecuencia f0. Los tonos puros se encuentran rara vez en la naturaleza, pero son de extraordinaria importancia como herramienta de análisis, ya que todo sonido puede considerarse como formado por la superposición de tonos puros de diversas frecuencias.
71
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
2012
FIG. N°28 Superposición de diversas frecuencias.
El segundo tipo (Fig. N° 29) de espectro corresponde a los sonidos no periódicos con frecuencias identificables. En este caso el espectro contiene líneas espectrales con separaciones no uniformes. Tanto en este caso como en el anterior, el espectro se denomina discreto.
FIG. N°29 Espectro discreto
El tercer tipo (Fig. N° 30) se trata de los sonidos de espectro continuo, no periódicos, cuyas componentes están demasiado próximas como para poder discriminarse.
72
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
2012
FIG. N° 30 Espectro continuo. Debido a la gran cantidad de líneas que implicaría una representación mediante líneas espectrales, se representa la densidad espectral, que es la energía por unidad de frecuencia (Fig.N° 31).
FIG. N° 31 Densidad espectral.
El cuarto tipo de espectro(Fig. N° 32) es el espectro mixto, que es la superposición de un sonido de espectro continuo y uno o más de espectro discreto. De este tipo son la mayoría de los sonidos que percibimos.
73
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
2012
FIG. N° 32 Superposición de espectro continuo y discreto.
6.3.1 TRANSFORMADA RAPIDA DE FOURIER Y COMPRESION DE AUDIO Efectivamente se demuestra que la Transformada de Fourier es una herramienta que ha dado inicio el camino de la comprensión de Audio y Video, además la tecnología de comprensión de audio mediante la Transformada de Fourier ha originado que los investigadores diseñen algoritmos basados en la transformada de Fourier que permitan comprimir eficientemente archivos grandes en pequeños, para mostrar la potencia de la Transformada de Fourier muestro un ejemplo desarrollado en la que se muestra un programa útil elaborado en MATLAB, la misma que fue presentada como ejemplo en el curso de Matemáticas Avanzadas en la FIEE de la UNAC (Código fuente en Apéndice) el resultado se da en la Fig.Nº 33. 6.3.2 Ejemplo de Comprensión de voz por medio de la transformada de Fourier en MATLAB (Programa fuente en la sección Apéndice) Se muestra en la Fig. N°33.La entrada es un señal analógica o continua (señal original), voz de un alumno Matemática Avanzada del ciclo 2012A, también se muestra la magnitud de la transformada de Fourier y mediante la transformada inversa se tiene la señal comprimida de la voz, si 74
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
2012
se compara la señal original y la que resulta es prácticamente la misma lo cual muestra la eficiencia del algoritmo FFT en la compresión de audio.
Fig.Nº33 Compresión de voz por medio de TFF
75
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
2012
VIIDISCUSION 7.1Conclusiones 1La Transformada de Fourier es una herramienta matemática eficiente para el tratamiento de señales continuas y discretas, siendo el algoritmo FFT que muestra la potencia de compresión de una señal continua en un archivo MP3. 2El formato MP3 es un formato de compresión de audio estándar en el mundo de la música que proporciona un sonido de calidad muy cerca al formato WAV del CD, pero con relaciones de compresiones de tasa más altasque hacen que este formato sea preferido en el mundo de la música. 7.2Recomendaciones Se debe de aplicar otros algoritmos de la TFF a fin de minimizar el tiempo de proceso y mejorar la calidad comprensión de audio. El estudio de la Transformada de Fourier se debe extender a la Transformada de Wavelets que constituye actualmente un campo de investigación muy requerida en tratamiento de señales. En la EAP de Ingeniería Electrónica de la FIEE-UNAC se debe implementar el curso de PDS (PDS: Procesamiento Digital de Señales), que permita implementar aplicaciones a la ingeniería de sonido y video.
76
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
2012
VIII REFERENCIAS
[1]Berkhout,P.J.yEggermontL.D.J."DigitalAudioSystemas",IEEEASSP Magazine,vol.2,Octubre1985,( pgs.45-69)
2 Borrelli Robert y Courney, S. Coleman ECUACIONES DIFERENCIALES CON MODELAMIENTO, primera edición, Editorial Prince Hall, México 2002. (Pgs.243-347) [3]BRACEWELL R., The Fourier Transform and its Applications, McGraw-Hill, New York, 1965.(pgs. 12-45) 4 CATAÑA VILLAR, Antonio. Series de Fourier y Aplicaciones, Madrid: Editorial Pirámide, primera edición ,2002.( Pgs.115-140). [5] CHURCHILL, Complex Variables and Applications, McGraw-Hill, New York, 1960,(Pgs. 9-24) [6] COLEMAR ANTONIO, El sonido formatos,captura,edición,manipulación, conversión y grabación. 2010,(Pgs.3-56) [7] CRESPO JULIO, Guía esencial MP3, Madrid, Prentice Hall, 2009, (Pgs.2- 43).
digital: Madrid,
8 E.KREYSZIG.Matem´aticasAvanzadasparaingenier´ıa,volumenII.LimusaWiley,3 ra edición,2000.(Pgs.86-102). 9 H.F.DAVIS.Fourier SeriesandOrthogonalFunctions.DoverPublications,nc., 1963.(Pgs. 67-129) 10 LINDERD. Introducciónalasseñalesylossistemas. McGrawHill,2002. [11] MARCELO JUAN F., EVA MARTIN, MP3, MADRID, Ed. Anaya Multimedia, 2000.(Pgs. 2-27)
12 M.J. Roberts. SeñalesySistemas. Análisismediante métodos detransformaday MatLab. McGrawHill,2005.(Pgs.23-68) 77
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
2012
13 OOPENHEIM, Alan V. Señales y Sistemas. México: Editorial Prentice Hall, segunda edición ,1994. (Pgs.173-373)
14 Proakis
J.G.and.Manolakis D.G. TratamientoDigitaldeSen˜ales.PrenticeHall, 1998.(Pgs.3, 4,5, 10, 13, 88, 211, 233).
15
SoriaOlivasE.,Mart´ınezSober M ,J.V.Franc´esVillora,andG.CampsValls.TratamientoDigitaldeSen˜ales.Problemasy ejerciciosresueltos. PrenticeHall,Madrid, 2003.( P g s . 1,233) [16]Zwicker,E.yFastl,H.Psychoacoustics:FactsandModels,Springer,Berlín,1990,( Pgs. 5-43)
78
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
2012
APÉNDICE 1 Código fuente de Comprensión de voz por medio de Transformada de Fourier.
79
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
80
2012
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
81
2012
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
82
2012
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
83
2012
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
84
2012
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
85
2012
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
86
2012
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
87
2012
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
2012
2 Resultado de compresión de voz al correr el programa fuente en MATLAB.
88
Transformada de Fourier y los MP3 Lic. Raúl P. Castro Vidal
2012
ANEXO 1 TRANSFORMADA DE FOURIER Y EL ALGORITMO FFT(FCEF Y N UNIVERSIDAD NACIONAL DE CORDOVA )
89