Repaso de conceptos de álgebra lineal

MÉTODOS AVANZADOS EN APRENDIZAJE ARTIFICIAL: TEORÍA Í Y APLICACIONES A PROBLEMAS DE PREDICCIÓN Ó Manuel Sánchez-Montañés Luis Lago Ana González Escuel

1 downloads 77 Views 571KB Size

Recommend Stories


Repaso de los conceptos de producción y coste
Sloan School of Management Massachusetts Institute of Technology 15.010/15.011 CLASE DE REPASO Nº 3 Repaso de los conceptos de producción y coste J

Repaso
28/08/2013 Clase: Pliegos Repaso (y otros A4) – Parte II / 2013-08-21 1. Introducción 2. Los A4 del proyecto 3. El Pliego de Bases y Condiciones (

Ejercicios de repaso
Ejercicios de repaso 1. (2001) Tenemos 250 mL de una disolución de KOH 0’2 M. a) ¿Cuántos moles de KOH hay disueltos? b) ¿Cuántos gramos de KOH hay di

HOJA DE REPASO: FRACCIONES
HOJA DE REPASO: FRACCIONES 1) Simplificar las siguientes fracciones: a) 28/36 b) 84/126 c) 54/96 d) 510/850 e) 980/140 2) Escribir cinco fraccione

Story Transcript

MÉTODOS AVANZADOS EN APRENDIZAJE ARTIFICIAL: TEORÍA Í Y APLICACIONES A PROBLEMAS DE PREDICCIÓN Ó Manuel Sánchez-Montañés Luis Lago Ana González Escuela Politécnica Superior Universidad Autónoma de Madrid

Repaso de conceptos de álgebra lineal •

Notación vectorial y matricial



V t Vectores



Matrices



Espacios de vectores



Transformaciones lineales



Autovalores y autovectores

Notación vectorial y matricial •

Un vector columna x de d dimensiones y su transpuesta se escriben así:

y



Una matriz rectangular de n x d dimensiones y su transpuesta se escriben así:

y



El producto de dos matrices es:

donde

Vectores (1) •

El producto interno de dos vectores (o “producto producto escalar”) escalar ) se define por:



La norma de un vector (o “magnitud” magnitud , “longitud”) longitud ) es:



La proyección ortogonal del vector y sobre el vector x es:

Donde el vector ux tiene norma 1 y la misma dirección que x •

El ángulo entre los vectores x e y está definido por:



Dos vectores x e y son: Ortogonales si xT y = 0 Ortonormales si xT y = 0 y |x| = |y| = 1

Vectores (2) •

Un conjunto de vectores x1, x2, …, xn son linealmente dependientes si existe un conjunto de coeficientes a1, a2, …, an (con al menos uno diferente de cero) tales que

Intuitivamente, esto quiere decir que hay por lo menos un vector “redundante”, que podemos expresar como combinación de los otros. Por ejemplo, si a1 ≠ 0:

x1 = c2 x2 + c3 x3 + … + cn xn con

ck = - ak / a1 •

Alternativamente un conjunto de vectores x1, x2, …, xn son linealmente independientes si Alternativamente,

Matrices •

El determinante de una matriz cuadrada A de d x d dimensiones es:

- donde

Aik es el “menor”, matriz formada cogiendo A y eliminando su fila i y su columna k - El determinante de una matriz es igual al de su transpuesta: |A| = |AT| •

La traza de una matriz cuadrada A de d x d dimensiones es la suma de los elementos de su diagonal:

• •

El rango de una matriz es el número de filas (o columnas) linealmente independientes Se dice de una matriz cuadrada que es no singular si y sólo si su rango es igual al número de filas (o columnas) - El determinante de una matriz no singular es distinto de 0



Se dice de una matriz cuadrada que es ortonormal si AAT = ATA = I

Matrices •

Dado una matriz cuadrada A: - Si xT A x > 0 para todo x ≠ 0, entonces se dice que A es definida positiva (ejemplo: matriz de correlación) - Si xT A x ≥ 0 para todo d x ≠ 0, 0 entonces se dice di que A es semidefinida id fi id positiva





La inversa de una matriz cuadrada A se denomina A-1, y es una matriz tal que A-1 A = A A-1 = I - La inversa de A existe si y sólo si A es no singular (su determinante no es cero) En algunos problemas cuando la inversa de A no existe (porque A no es cuadrada o es singular) cuadrada, singular), se utiliza la pseudoinversa A†, que se define como: A† = [AT A]-1 AT con A† A = I (notad que en general A A† ≠ I )

Espacios de vectores •

El espacio n-dimensional en el cual todos los vectores de n dimensiones residen se denomina un “espacio espacio de vectores” vectores



Se dice que un conjunto de vectores { u1, u2, …, un } es una base de un espacio vectorial si cualquier vector x puede ser expresado como una combinación lineal de los { ui }

- Los coeficientes { a1, a2, …, an } se denominan

componentes del vector x con respecto a la base { ui }

- Para ser una base,, es necesario y suficiente que q los n vectores { ui } sean linealmente independientes • •

Se dice que una base { ui } es ortogonal si Se dice que una base { ui } es ortonormal si

- Por ejemplo la base cartesiana de coordenadas es una base ortonormal

Espacios de vectores •

Dados n vectores {v1, v2, …, vn} linealmente independientes, podemos construir una base ortonormal {w1, w2, …, wn } por el procedimiento de ortonormalización de Gram Gram-Schmidt Schmidt

w1 = v1

j −i

wj = v j − ∑ i =1



v j wi wi

2

wi

La distancia entre dos puntos en un espacio vectorial se define como la norma del vector diferencia entre los dos puntos:

Transformaciones lineales •

Una transformación lineal es un n mapeo del espacio vectorial ectorial XN al espacio vectorial ectorial YM, y se representa por una matriz - Dado un vector x Є XN, el correspondiente vector y de YM se calcula así:

- Notad que la dimensión de los dos espacios no tiene por qué ser la misma - Para problemas de reconocimiento de patrones típicamente tendremos M < N (proyección en un espacio de menor dimensión) •

Se dice que una transformación lineal representada por la matriz cuadrada A es ortonormal cuando AAT = ATA = I - Esto implica que AT = A-1 - Las transformaciones ortonormales preservan la norma de los vectores:

- Las transformaciones ortonormales se pueden ver como rotaciones del sistema de ejes de referencia - Los vectores fila de una transformación ortonormal forman una base de vectores ortonormales

con

Autovectores y autovalores (1) •

Dada una matriz cuadrada A de N x N dimensiones, decimos que v es un autovector si existe un escalar λ tal que Av=λ v Entonces, se dice que λ es autovalor de A



Cál l d Cálculo de llos autovectores t t solución trivial solución no trivial

“ecuación característica”



La matriz formada por los autovectores columna se denomina matriz modal M L matriz La t i Λ es la l forma f canónica ó i de d A: A una matriz t i di diagonall con llos autovalores t l en su diagonal

0 0

Autovectores y autovalores (2) •

Propiedades - Si A es no singular Todos los autovalores son diferentes de cero - Si A es reall y simétrica i é i Todos los autovalores son reales g entre sí Dos autovectores asociados a diferentes autovalores son ortogonales - Si A es definida positiva Todos los autovalores son positivos - Si A es semidefinida positiva Todos los autovalores son mayor o igual que cero

Interpretación de los autovectores y autovalores (1) •

Si consideramos la matriz A como una transformación lineal, lineal entonces un autovector representa una dirección invariante en el espacio vectorial Cualquier punto en la dirección de v es transformado por A en otro punto que está en la misma dirección, dirección y su módulo es multiplicado por el correspondiente autovalor λ



Por ejemplo, la transformación que rota los vectores de 3 dimensiones en torno al eje Z tiene un solo autovector, que es [0 0 1]T, siendo 1 es su autovalor correspondiente

Repaso de conceptos de probabilidad y estadística •

Definición y propiedades de la probabilidad



Variables aleatorias - Definición de variable aleatoria - Función de distribución acumulada - Función de densidad de probabilidad - Caracterización estadística de variables aleatorias



Vectores aleatorios - Vector promedio - Matriz de covarianzas



Distribución de probabilidad gaussiana

Variables aleatorias •

Cuando consideramos un proceso aleatorio, normalmente nos interesa saber alguna medida o atributo numérico que genera una secuencia de valores modelizables.

Ejemplos: •

Cuando muestreamos una población nos puede interesar por ejemplo el peso y la altura



Cuando calculamos el rendimiento de dos ordenadores nos interesa el tiempo de ejecución de un programa de test



Cuando tratamos de reconocer un avión intruso, nos puede interesar medir los parámetros que caracterizan la forma del avión

Variables aleatorias Definimos una variable aleatoria X que puede tomar un conjunto de valores {xi} como una función X( · ) que asigna un número real x a cada resultado ζ en el espacio de muestreo de un experimento aleatorio x= X( ζ ). - Esta función X(·) realiza un mapeo de todos los posibles elementos en el espacio de muestreo a la recta real (números reales). - La función X(·) X( ) que asigna valores a cada resultado es fija y determinista - La aleatoriedad en los valores observados se debe a la aleatoriedad del argumento de la función X(·) , es decir, el resultado ζ del experimento -

Las variables aleatorias pueden ser: -

- Discretas: por ejemplo, el resultado en el lanzamiento de un dado Continuas: por ejemplo, el peso de un individuo escogido al azar

map

Función de distribución acumulada (fda) •

Fx((x)) = P[X [ < x]]



1 lb = 0.454 0 454 Kg

Dada una variable aleatoria X X, se define su función de distribución acumulada Fx(x) como la probabilidad del evento {X < x} para p - ∞ < x < +∞

De manera intuitiva, Fx(b) representa la proporción de veces en la q que X(( ζ ) < b fda del peso de una persona



Propiedades de la función de distribución acumulada

Función acotada y monótonamente creciente

si a ≤ b fd del fda d l resultado lt d de d un dado d d

Función de densidad de probabilidad (fdp) 1 lb = 0.454 Kg

La función de densidad de probabilidad de una variable aleatoria continua X, si existe, se define como la derivada de Fx(x) fdp p



fdp del peso de una persona

El equivalente a la fdp para variables aleatorias discretas es la función de masa de probabilidad ( fmp ):

fmp



f fmp del d l resultado lt d de d un dado d d

Función de densidad de probabilidad (fdp) •

Propiedades de la función de densidad de probabilidad

donde

si

Densidad de probabilidad versus probabilidad •

¿ Cuál es la probabilidad de que alguien pese 200 libras =90.8 Kg ?

- De acuerdo a la fdp fdp, es cerca de 0 0.62 62 - Suena razonable, ¿ no ?

fdp p



Ahora, ¿ cuál es la probabilidad de que alguien pese 124.876 libras = 56.70 Kg? - De D acuerdo d a lla fd fdp, es cerca d de 0 0.43 43 - Pero, intuitivamente, la probabilidad debería ser cero Î Probabilidad en un punto es cero.

fdp del peso de una persona



¿ Cómo explicamos esta paradoja ? - La L fd fdp no d define fi una probabilidad, b bilid d sino i una DENSIDAD de d probabilidad! b bilid d! - Para obtener una verdadera probabilidad, debemos integrar en un intervalo - La pregunta original es incorrecta, nos deberían haber preguntado: ¿ Cuál es la probabilidad de que alguien pese 124.876 libras, más / menos 2 libras ?

Caracterización estadística de variables aleatorias •

La fdp o fmp son SUFICIENTES para caracterizar completamente una variable aleatoria aleatoria. Sin embargo, una variable aleatoria puede ser PARCIALMENTE caracterizada por otras medidas •

Valor esperado (media) •



Varianza •



Representa la dispersión alrededor de la media

Desviación estándar •



Representa el centro de masa de la densidad

Es la raíz cuadrada de la varianza, por lo que tiene las mismas unidades que la variable aleatoria

Momento de orden N

Vectores aleatorios •

La noción de vector aleatorio es una extensión de la noción de variable aleatoria - Una variable vectorial aleatoria X es una función que asigna un número real a cada posible valor ζ del espacio de muestreo S - Consideraremos siempre a un vector aleatorio como un vector columna



Las nociones de fda y fdp se sustituyen por “fda conjunta” y “fdp conjunta” - Dado un vector aleatorio X = [x1 x2 … xN]T definimos - La función de distribución acumulada conjunta como:

- La función de distribución de probabilidad conjunta como:

⎛ x1 ⎞ ⎜ ⎟ ⎜ x2 ⎟ ⎜x ⎟ ⎝ 3⎠

Vectores aleatorios •

El término “fdp fdp marginal marginal” se usa para representar la fdp de un subconjunto de los componentes del vector - Se obtiene integrando la fdp en las componentes que no son de interés - Por ejemplo, si tenemos un vector X = [x1 x2]T , la fdp marginal de x1, dado la fdp conjunta fx1 x2 (x1, x2) es:

Caracterización estadística de vectores aleatorios •

Al igual que en el caso escalar escalar, un vector aleatorio está completamente caracterizado por su fda conjunta o su fdp conjunta



Alternativamente, podemos describir parcialmente un vector aleatorio por medio de medidas para el caso escalar similares a las definidas p •

Vector promedio T



Matriz de covarianza

Matriz de covarianza •

La matriz de covarianza indica la tendencia de cada par de atributos (las componentes del vector aleatorio) de variar juntas, es decir, co-variar



La matriz de covarianza C tiene varias propiedades importantes: - Si

xi y xk tienden a aumentar juntas, entonces cik > 0

- Si xi tiende a disminuir cuando xk aumenta, entonces cik < 0 - Si xi y xk no están correlacionadas, entonces cik = 0 - |cik| ≤ σi σk donde σi es la desviación estándar de xi - cii = σi2 = VAR(xi)

Matriz de covarianza •

Los componentes p de la matriz de covarianza se p pueden escribir como: cii = σi2 y cik = ρik σi σk - donde ρik es el llamado coeficiente de correlación

Correlación versus independencia •

Se dice que dos variables aleatorias xi y xk no están correlacionadas si

E [xi · xk] = E [xi] · E [xk] - En este caso también se dice que estas variables aleatorias son linealmente independientes (no confundir con la noción de independencia lineal de vectores).



Se dice que dos variables aleatorias xi y xk son independientes, independientes su distribución conjunta será el producto de las marginales.

P [x [ i , xk] = P [[xi] · P [x [ k]

La distribución Gaussiana o “Normal” Normal (1) •

La distribución multivariable “Normal” Normal o “Gaussiana” N(μ , Σ) se define como



En una sola dimensión, esta expresión se reduce a

La distribución Gaussiana o “Normal” Normal (2) •

Las distribuciones gaussianas son muy utilizadas ya que: - Los parámetros (μ , Σ) son suficientes para caracterizar completamente la distribución gaussiana - Si llos atributos t ib t no están tá correlacionados l i d ( cik = 0 ), ) entonces t son también t bié independientes Î La matriz de covarianza es entonces diagonal, con las varianzas individuales en la diagonal - Las densidades marginales y condicionadas son también Gaussianas - Cualquier transformación lineal de N variables conjuntamente Gaussianas, nos da un vector t cuya distribución di t ib ió es también t bié Gaussiana G i - Si la distribución del vector X = [X1 X2 … XN]T es Gaussiana, y A es una matriz, entonces la distribución de Y=AX es también Gaussiana. Para el caso particular de que A sea una matriz invertible, entonces:

La distribución Gaussiana o “Normal” Normal (3) •

Dada la matriz de covarianza Σ de una distribución gaussiana - Los autovectores de Σ son las direcciones principales de la distribución - Los autovalores son las varianzas de las correspondientes direcciones principales



La transformación lineal definida por los autovectores de Σ lleva a componentes que están descorrelacionadas, independientemente de la forma de la distribución En el caso particular de que la distribución sea gaussiana, entonces las variables transformadas serán estadísticamente independientes con

y

Estadísticamente Independientes

El Teorema Central del Límite •

El teorema dice q que si y = Σ xk , siendo xk N variables aleatorias independientes p con distribuciones individuales arbitrarias, entonces la distribución de y tiende a ser Gaussiana según se va haciendo mayor N. En el límite N→



p ∞ , termina siendo una Gaussiana perfecta.



En otras palabras, cualquier variable que sea la contribución de muchos factores aleatorios independientes tiende a ser Gaussiana.



Ejemplos: ruido en aparatos medidores, …

Ejemplo numérico: calculamos un histograma a partir de 500 valores de y generados con y = Σ xk

Get in touch

Social

© Copyright 2013 - 2024 MYDOKUMENT.COM - All rights reserved.