Cuestiones de Bioinformática y Reconocimiento de Patrones

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones Jesus ´ P. Mena-Chalco [email protected] ˆ ˜ Departamento de Ciencia da Computac¸ao

0 downloads 85 Views 2MB Size

Recommend Stories


Reconocimiento de patrones de comportamiento en el agua
COMUNICACIÓN ORAL EN CASTELLANO Reconocimiento de patrones de comportamiento en el agua. Irigoyen, S.1 Hernáez, R.1 1Advanced Rescue Trainig Internat

Instrucciones y patrones
Instrucciones y patrones www.mybernette.com Instrucciones "Business" Falda Lo que necesitas:       2 camisas de hombre 0,7 m tejido de traje

Story Transcript

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

Jesus ´ P. Mena-Chalco [email protected] ˆ ˜ Departamento de Ciencia da Computac¸ao ´ Instituto de Matematica e Estat´ıstica ˜ Paulo Universidade de Sao

Escuela Profesional de Ingenier´ıa de Sistemas Universidad Nacional de San Agust´ın

Estructura

´ 1. Fundamentos biologicos. ´ 2. Bioinformatica o Biolog´ıa Computacional ? ´ 3. Bioinformatica y Reconocimiento de Patrones. ´ en la Maestr´ıa. 4. Tema de investigacion ´ del problema. Definicion Trabajos relacionados. ´ Metodo propuesto. Resultados. Conclusiones.

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

Genoma El genoma de un organismo puede ser representado como un modelo para que este pueda auto construirse y mantenerse. En procariotos, el genoma es encontrado como una simple pieza circular. En eucariotos, frecuentemente son muy largos y divididos en cromosomas. Diferentes tipos de eucariotos tienen diferentes numeros de cromosomas: ´ Cafe´ (88), perros (78), Humanos (46), ratones (40), Manzana (34), Drosofila (8). “National Human Genome Research Institute” (NHGRI).

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

ADN ´ Todo organismo vivo almacena su informacion ´ ´ hereditaria en la forma de moleculas doblemente enlazadas de ADN, el cual ´ esta´ formado por 4 tipos de monomeros: A: Adenina C: Citosina G: Guanina T: Timina

Alberts et al, Molecular Biology of the Cell 2002.

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

´ Amino acidos ´ Son agrupamientos de moleculas de ADN que ´ contienen grupos funcionales de amino y acido ˜ carbox´ılico que forman pequenas cadenas de ´ ´ pol´ımeros llamados polipeptidos o peptidos. Las prote´ınas, como estructuras mayores, son ´ formadas a su vez por los amino acidos.

´ Codigo A C D E F G H I K L M N P Q R S T V W Y

Abrev. Ala Cys Asp Glu Phe Gly His Ile Lys Leu Met Asn Pro Gln Arg Ser Thr Val Trp Tyr

Nombre completo Alanine Cysteine Aspartic acid Glutamic acid Phenylalanine Glycine Histidine Isoleucine Lysine Leucine Methionine Asparagine Proline Glutamine Arginine Serine Threonine Valine Tryptophan Tyrosine

´ Amino acidos universalmente “aceptados”.

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

Genes y Prote´ınas Los genes son regiones codificadoras que expresan o controlan una prote´ına o, algunas veces, controlan lo que es expreso por otros genes.

5’

DNA dupla fita

DNA

3’

...ATGCATCTTA...ATGTACATAG...

5’ A-T-C-G-G-A-C-G-T-C 3’

| | | | | | | | | | 3’ T-A-G-C-C-T-G-C-A-G 5’

Genes

Transcrição

Reading Frames 1 2 3

ATC GGA CGT C.. .AT CGG ACG TC. ..A TCG GAC GTC

~ 1 ~ 2 ~ 3

GAC GTC CGA T.. .GA CGT CCG AT. ..G ACG TCC GAT

Milhões de bases A,T,C,G

Inter-génica

Éxons

1

2 3

4

Íntron

5

Sequência de bases A,U,C,G (RNA)

Splicing

mRNA

1

23 4 5

Íntrons removidos

Tradução

Proteína (ACYWEGLPYYKDMWRSNCT) Dogma Central de la Biolog´ıa Molecular: ADN → ARN → Prote´ına (Crick)

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

Convertida pelo tRNA e ribossoma

´ ´ Codigo genetico ´ Conjunto de reglas que usan las celulas vivas para decodificar su genoma, ´ es hecha de cada necesario para la s´ıntesis de prote´ınas. Esta codificacion ´ funcional: los genes. porcion ´ ´ ´ Usualmente, el codigo genetico es escrito como un conjunto de 64 amino aci´ ´ dos conocidos como codons, de los cuales 3 son indicadores de la finalizacion de s´ıntesis. ´ Amino acidos ´ Iniciacion Base 1 Base 2 Base 3

FFLLSSSSYY**CC*WLLLLPPPPHHQQRRRRIIIMTTTTNNKKSSRRVVVVAAAADDEEGGGG ---M---------------M---------------M---------------------------TTTTTTTTTTTTTTTTCCCCCCCCCCCCCCCCAAAAAAAAAAAAAAAAGGGGGGGGGGGGGGGG TTTTCCCCAAAAGGGGTTTTCCCCAAAAGGGGTTTTCCCCAAAAGGGGTTTTCCCCAAAAGGGG TCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAG ´ ´ ´ Codigo genetico estandar.

´ Amino acidos ´ Iniciacion Base 1 Base 2 Base 3

FFLLSSSSYY**CC*WLLLLPPPPHHQQRRRRIIIMTTTTNNKKSSRRVVVVAAAADDEEGGGG ---M---------------M------------MMMM---------------M-----------TTTTTTTTTTTTTTTTCCCCCCCCCCCCCCCCAAAAAAAAAAAAAAAAGGGGGGGGGGGGGGGG TTTTCCCCAAAAGGGGTTTTCCCCAAAAGGGGTTTTCCCCAAAAGGGGTTTTCCCCAAAAGGGG TCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAG ´ ´ ´ Codigo genetico para bacterias y plast´ıdeos de plantas.

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

Genes y Prote´ınas ´ Las celulas en un organismo poseen el mismo ADN: el mismo conjunto de genes. Pero diferentes genes son expresos (funcionalmente) en las diferentes ´ celulas.

´ Celulas foto-receptor: conos

´ Celula neuronal

´ Celula da sangre

´ Cuando un gen es expreso da las instrucciones a la celula para producir una prote´ına particular. Cada gen produce una o mas prote´ınas diferentes (splicing alternativo).

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

Ejemplo de una prote´ına: Mioglobina

´ de la estrutura 3D (135 Amino acidos). ´ Representacion Posiblemente causante de la falla renal aguda.

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

´ Bioinformatica o Biolog´ıa Computacional?

´ ˜ el termino ´ Es una area nueva (hace 10 anos no exist´ıa). ´ Definiciones diferentes y propias de cada investigador. ´ analisis ´ ´ ´ Bioinformatica: Adquisicion, y almacenamiento de informacion ´ ´ ´ biologica (acidos nucleicos y prote´ınas). Biolog´ıa Molecular Computacional: Desarrollo de algoritmos y programas computacionales aplicados a biolog´ıa molecular. ´ ´ genomica. ´ ´ Genomica Computacional: Analisis integral de la informacion

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

´ Bioinformatica

´ y desarrollo de herramientas computacionales, matematicas ´ Investigacion y ´ de problemas de biolog´ıa. estad´ısticas para la ressolucion ´ de Ciencia de la Computacion, ´ Tecnolog´ıa de la InforUna combinacion ´ y Genetica ´ ´ genetica ´ macion pata determinar y analizar informacion (Bits Journal - Bioinformatics: Information Technology & Systems). ´ y procesamiento de Ciencia y tecnolog´ıa sobre aprendizaje, administracion ´ biologica. ´ informacion

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

´ Bioinformatica

´ de metodos ´ Estad´ıstico: “Coleccion estad´ısticos para lidiar con grandes ´ conjuntos de dados biologicos.”

´ Bioinformatica

´ de metodos ´ Estad´ıstico: “Coleccion estad´ısticos para lidiar con grandes ´ conjuntos de dados biologicos.” ´ “ConjunDirector de un departamento de Ciencia de la Computacion: ´ de la Ciencia de la Computacion ´ con Biolog´ıa Molecular.” cion

´ Bioinformatica

´ de metodos ´ Estad´ıstico: “Coleccion estad´ısticos para lidiar con grandes ´ conjuntos de dados biologicos.” ´ “ConjunDirector de un departamento de Ciencia de la Computacion: ´ de la Ciencia de la Computacion ´ con Biolog´ıa Molecular.” cion ´ de tecnicas ´ Investigador en Inteligencia Artificial: “Aplicacion de apren´ ´ dizaje de maquinas para dados biologicos.”

´ Bioinformatica

´ de metodos ´ Estad´ıstico: “Coleccion estad´ısticos para lidiar con grandes ´ conjuntos de dados biologicos.” ´ “ConjunDirector de un departamento de Ciencia de la Computacion: ´ de la Ciencia de la Computacion ´ con Biolog´ıa Molecular.” cion ´ de tecnicas ´ Investigador en Inteligencia Artificial: “Aplicacion de apren´ ´ dizaje de maquinas para dados biologicos.” ´ ´ “Flujo de recursos del proximo Director de una institucion: milenio.”

´ Bioinformatica

´ de metodos ´ Estad´ıstico: “Coleccion estad´ısticos para lidiar con grandes ´ conjuntos de dados biologicos.” ´ “ConjunDirector de un departamento de Ciencia de la Computacion: ´ de la Ciencia de la Computacion ´ con Biolog´ıa Molecular.” cion ´ de tecnicas ´ Investigador en Inteligencia Artificial: “Aplicacion de apren´ ´ dizaje de maquinas para dados biologicos.” ´ ´ “Flujo de recursos del proximo Director de una institucion: milenio.” Mi hermanita: “Curso aburrido que los grandes estudian.”

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

´ Bioinformatica y Reconocimiento de Patrones

´ Uso de tecnicas e metodolog´ıas de reconocimiento de patrones para resolver problemas de biolog´ıa molecular. ´ La habilidad de una maquina reconocer patrones puede ser usada por un ´ el cual actua sistema de clasificacion, ´ en un dom´ınio de elementos, determinando a cual grupo pertenece cada elemento.

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

´ en la Maestr´ıa Tema de Investigacion

´ ´ ´ Un topico importante en el analisis de secuencias biologicas es la busqueda ´ ´ de regiones codificantes de prote´ına). de genes (identificacion Metodolog´ıas computacionales para identificar genes y otras regiones fun˜ cionales fueron desarrolladas en los ultimos 20 anos. ´ ´ ˜ Los metodos de procesamiento digital de senales (DSP) tiene un papel importante en ese contexto. ´ ´ de Los metodos de DSP brindan una base robusta para la identificacion regiones codificantes de prote´ına.

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

´ de Genes El problema: Identificacion ´ Categor´ıas que agrupan abordajes para su solucion:

´ Metodos basados en reconocimiento de patrones: • Busqueda por s´ıtios: se busca la presencia o ausencia de una secuencia ´ ´ o consenso asociado a la expresion ´ genica; ´ espec´ıfica, patron • Busqueda ´ por contenido: se busca segmentos con propiedades espec´ıficas. ´ Metodos basados en comparaciones por homolog´ıa con prote´ınas. ´ Metodos basados en el uso de expressed sequence tags (ESTs).

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

Periodicidad en las Regiones Codificantes

´ periodi´ Las regiones codificantes t´ıpicamente presentan una organizacion ca imperfecta de tres bases, la cual generalmente no esta´ presente en las ´ regiones intergenicas e intrones. ´ Esa caracter´ıstica, independiente de las especies, fue analizada para poder explicar su origen y as´ı poder cuantificarla. En la literatura es comunmente denominada de periodidad de tres bases ´ (TBP, three-base periodicity). Pueden ser encontradas algunas excepciones de esa caracter´ıstica en regiones codificantes de secuencias de virus y mitocondrias.

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

Trabajos Relacionados

Basados en la STFT [Tiwari et al., 1997; Anastassiou, 2001] y filtros digitales [Vaidyanathan & Yoon, 2004]. ˜ de ventana. • Dependencia del tamano ´ automatica ´ • Dificultad en la determinacion de l´ımites entre regiones codificantes.

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

Trabajos Relacionados

Basados en la STFT [Tiwari et al., 1997; Anastassiou, 2001] y filtros digitales [Vaidyanathan & Yoon, 2004]. ˜ de ventana. • Dependencia del tamano ´ automatica ´ • Dificultad en la determinacion de l´ımites entre regiones codificantes. Basados en Wavelets [Chen & Zhang, 2003; Ning et al., 2003]. ´ ´ de • Las frecuencias de las funciones de analisis var´ıan con la alteracion los valores de escala.

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

Transformada Multiescala ˜ u puede ser calculada como: Una transformada multiescala de una senal Z U (b, a) =

ψ a>0 b

u(x)ψ(x, b, a)dx

´ de analisis. ´ funcion ´ parametro de escala. ´ parametro de espacio.

´ Diferentes funciones de analisis pueden ser adoptadas para transformar la ˜ u. senal

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

Transformada de Fourier de Tiempo Reducido ´ de analisis ´ En la STFT es usada una funcion de Gabor (Gaussiana modulada) que es bien localizada en el dom´ınio de las frecuencias: −

ψSTFT(x, b, a) = e

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

(x−b)2 ja(x−b) 2

e

Transformada de Fourier de Tiempo Reducido ´ de analisis ´ En la STFT es usada una funcion de Gabor (Gaussiana modulada) que es bien localizada en el dom´ınio de las frecuencias: −

ψSTFT(x, b, a) = e

La frecuencia de la exponencial compleja es variada, manteniendo constante la ´ estandar ´ desviacion de la Gaussiana.

a=3

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

(x−b)2 ja(x−b) 2

e

Transformada de Fourier de Tiempo Reducido ´ de analisis ´ En la STFT es usada una funcion de Gabor (Gaussiana modulada) que es bien localizada en el dom´ınio de las frecuencias: −

ψSTFT(x, b, a) = e

La frecuencia de la exponencial compleja es variada, manteniendo constante la ´ estandar ´ desviacion de la Gaussiana.

a=6

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

(x−b)2 ja(x−b) 2

e

Transformada de Fourier de Tiempo Reducido ´ de analisis ´ En la STFT es usada una funcion de Gabor (Gaussiana modulada) que es bien localizada en el dom´ınio de las frecuencias: −

ψSTFT(x, b, a) = e

La frecuencia de la exponencial compleja es variada, manteniendo constante la ´ estandar ´ desviacion de la Gaussiana.

a=9

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

(x−b)2 ja(x−b) 2

e

Transformada en Wavelet de Morlet ´ de analisis ´ ˜ La funcion de Morlet es utilizada para analizar senales de forma local y con diferentes frecuencias: −

ψMT(x, b, a) = e

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

2 ( x−b a ) jω0 ( x−b a ) 2

e

Transformada en Wavelet de Morlet ´ de analisis ´ ˜ La funcion de Morlet es utilizada para analizar senales de forma local y con diferentes frecuencias: −

ψMT(x, b, a) = e

´ estandar ´ La desviacion de la Gaussiana es variada as´ı como la frecuencia de la exponencial compleja.

a = 0,5

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

2 ( x−b a ) jω0 ( x−b a ) 2

e

Transformada en Wavelet de Morlet ´ de analisis ´ ˜ La funcion de Morlet es utilizada para analizar senales de forma local y con diferentes frecuencias: −

ψMT(x, b, a) = e

´ estandar ´ La desviacion de la Gaussiana es variada as´ı como la frecuencia de la exponencial compleja.

a=1

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

2 ( x−b a ) jω0 ( x−b a ) 2

e

Transformada en Wavelet de Morlet ´ de analisis ´ ˜ La funcion de Morlet es utilizada para analizar senales de forma local y con diferentes frecuencias: −

ψMT(x, b, a) = e

´ estandar ´ La desviacion de la Gaussiana es variada as´ı como la frecuencia de la exponencial compleja.

a = 1,5

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

2 ( x−b a ) jω0 ( x−b a ) 2

e

Transformada Modificada de Morlet (MMT) ´ de la funcion ´ de Morlet para analizar localmente Definimos una modificacion ˜ senales en una frecuencia espec´ıfica y con escala variable. ´ de analisis ´ ´ En la funcion de Morlet usamos el parametro de escala a para mantener constante la frecuencia de la exponencial compleja, variando la des´ estandar ´ viacion de la Gaussiana. ( x−b )2 a − 2 jω0 ( x−b a )

ψMT(x, b, a) = e

e



ψMMT(x, b, a) = e

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

(x−b)2 jω0 (x−b) 2a2

e

Transformada Modificada de Morlet (MMT)

Z U (b, a) =



u(x)e

´ estandar ´ La desviacion de la Gaussiana es variada, manteniendo constante la frecuencia de la exponencial complexa. a = 0,5

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

(x−b)2 jω0 (x−b) 2a2

e

dx

Transformada Modificada de Morlet (MMT)

Z U (b, a) =



u(x)e

´ estandar ´ La desviacion de la Gaussiana es variada, manteniendo constante la frecuencia de la exponencial complexa. a=1

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

(x−b)2 jω0 (x−b) 2a2

e

dx

Transformada Modificada de Morlet (MMT)

Z U (b, a) =



u(x)e

´ estandar ´ La desviacion de la Gaussiana es variada, manteniendo constante la frecuencia de la exponencial complexa. a = 1,5

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

(x−b)2 jω0 (x−b) 2a2

e

dx

´ Funciones de Analisis

Gabor

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

Morlet

Morlet modificado

´ de Regiones Codificantes Identificacion

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

´ ´ Mapeamiento Numerico de Nucleotidos ´ de secuencias binarias ´ Uso de reglas de mapeamiento para la creacion a par´ tir de secuencias simbolicas. ´ Atribucion C G

Regla A Base A Base C Base G Base T

1 0 0 0

0 1 0 0

0 0 1 0

T 0 0 0 1

Considerando una secuencia de ADN s, denotamos por uA, uC , uG y uT a las ´ secuencias correspondientes a las cuatro reglas asociadas a los nucleotidos A, C, G y T. Secuencia s

A

T

G

C

T

T

G

A

C

T

uA uC uG uT

1 0 0 0

0 0 0 1

0 0 1 0

0 1 0 0

0 0 0 1

0 0 0 1

0 0 1 0

1 0 0 0

0 1 0 0

0 0 0 1

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

´ de la MMT Aplicacion La MMT con diferentes escalas a y frecuencia angular ω0, siendo un multiplo ´ de tres, es calculada para todas las secuencias binarias utilizando ψMMT. Z UA(b, a) =

uA(x)ψMMT(x, b, a)dx Z

UC (b, a) =

uC (x)ψMMT(x, b, a)dx Z

UG(b, a) =

uG(x)ψMMT(x, b, a)dx Z

UT (b, a) =

uT (x)ψMMT(x, b, a)dx

´ Transformadas con diferentes escalas pueden ser aplicadas para el analisis de secuencias de ADN. Los mejores resultados fueron para escalas separadas exponencialmente entre 0,2 y 0,7.

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

Espectros de las Secuencias ´ El espectro de cada secuencia binaria es definido como el modulo al cuadrado ´ de ser aplicada la transformada: de sus coeficientes despues mA(b, a) = |UA(b, a)|2 mC (b, a) = |UC (b, a)|2 mG(b, a) = |UG(b, a)|2 mT (b, a) = |UT (b, a)|2

As´ı, el espectro total, que combina las contribuciones de todas las transformadas, es dada por: M (b, a) = mA(b, a) + mC (b, a) + mG(b, a) + mT (b, a)

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

´ de los Espectros Proyeccion El espectro total de la secuencia analizada es proyectado en el eje de las ˜ N , los coeficientes de proyeccion ´ posiciones. Dada una secuencia de tamano del espectro total sera´ dado por: Mp(b) =

X

M (b, a),

1≤b≤N

a

´ en el eje de las escalas revela cual escala mantiene mas energ´ıa La proyeccion ´ de las posiciones: en la secuencia atraves

Ms(a) =

N X b=1

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

M (b, a)

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

´ Thresholding en los Coeficientes de Proyeccion

Thresholding sobre Mp permite excluir posiciones donde los coeficientes sean ˜ pequenos, i.e., todos los coeficientes menores que un valor dado son substituidos por cero (threshold porcentual).

En general, regiones con poca o ninguna TBP tienen coeficientes de proyec´ pequenos. ˜ ´ aquellos asociacion As´ı, los coeficientes diferentes de cero seran dos a las posibles regiones codificantes de la secuencia.

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

Conjunto de Secuencias Utilizado ´ ´ Enfocamos nuestro estudio en el analisis de secuencias de ADN sinteticas y reales. ´ tratamos unicamente En esta presentacion a un conjunto de 570 secuencias ´ de vertebrados con sus respectivos l´ımites entre exones e intrones [ Burset & ´ 1996]. Guigo,

´ Region

Cantidad

Bases

˜ Tamano ´ ´ Promedio Desviacion

´ Exon ´Intron Inter-genica

2649 2079 1132

444498 (15.4 %) 1310452 (45.3 %) 1137199 (39.3 %)

168 630 1004

222 909 1464

Total

5860

2892149

-

-

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

Resultados: Secuencia F56F11.4

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

Resultados: Secuencia F56F11.4

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

Resultados: Secuencia F56F11.4

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

Resultados: Secuencia F56F11.4

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

Resultados: Secuencia F56F11.4

T

T

2.92

G

G

2.15

C

C

0.91

A

A

1.35

5.40

Unión

Unión

0.2

0.7 928

2528

4114

5465

7255

Posición

Espectrogramas

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

0 928

2528

4114

5465

Posición

Proyecciones

7255

Resultados: Secuencia F56F11.4

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

Resultados: Secuencia F56F11.4

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

˜ Medidas de Desempeno

´ Las medidas de exactitud en el nivel de los nucleotidos, proponen una forma ´ de regiones identificadas con regiones codificantes conocide comparacion das. ´ de regiones identificadas contra regiones codificantes conocidas La medicion ´ es realizada mediante conteo de nucleotidos.

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

˜ Medidas de Desempeno

´ de nucleotidos ´ Sensibilidad (Sn), proporcion codificantes correctamente identificados como codificantes. Sn =

TP T P +F N

´ de nucleotidos ´ Especificidad (Sp), proporcion identificados como codificantes que son actualmente codificantes. Sp =

TP T P +F P

´ aproximada (AC), medida que combina a Sn y Sp. Correlacion 

AC =

1 TP 2 T P +F N



P TN TN + T PT+F + + P T N +F N T N +F P − 1

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

˜ Secuencia F56F11.4 Desempeno: 1

0.9

0.8

Sensibilidad

0.7

0.6

0.5

0.4

0.3

0.2 MMT STFT (200) STFT (300) STFT (400)

0.1

0

0

0.1

0.2

0.3

0.4

0.5

0.6

Especificidad ´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

0.7

0.8

0.9

1

˜ Secuencia F56F11.4 Desempeno: 1

MMT STFT (200) STFT (300) STFT (400)

0.9

Correlacion aproximada

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0

0

0.1

0.2

0.3

0.4

0.5

Threshold ´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

0.6

0.7

0.8

0.9

1

˜ Conjunto de Secuencias Desempeno: 1

1

0.9

0.8

0.8

0.7

0.7

Approximated correlation

0.9

Sensitivity

0.6

0.5

0.4

0.6

0.5

0.4

0.3

0.3

0.2

0.2 MMT STFT (200) STFT (300) STFT (400)

0.1

0

0

0.1

0.2

MMT STFT (200) STFT (300) STFT (400)

0.1

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0

0

Specificity

0.1

0.2

0.3

0.4

0.5

Threshold

570 secuencias

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

0.6

0.7

0.8

0.9

1

˜ Conjunto de Secuencias Desempeno: 1

1

0.9

0.8

0.8

0.7

0.7

Approximated correlation

0.9

Sensitivity

0.6

0.5

0.4

0.6

0.5

0.4

0.3

0.3

0.2

0.2 MMT STFT (200) STFT (300) STFT (400)

0.1

0

0

0.1

0.2

MMT STFT (200) STFT (300) STFT (400)

0.1

0.3

0.4

0.5

0.6

0.7

0.8

0.9

Specificity

1

0

0

0.1

0.2

0.3

0.4

0.5

Threshold

103 secuencias. Subconjunto con exones mayores a 100bp.

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

0.6

0.7

0.8

0.9

1

Software http://www.vision.ime.usp.br/∼jmena/DSPgenomics/

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

Software http://www.vision.ime.usp.br/∼jmena/DSPgenomics/

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

Software http://www.vision.ime.usp.br/∼jmena/DSPgenomics/

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

´ Discucion ˜ obtenidos con un threshold de 85 %. Mejores desempenos

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

´ Discucion ˜ obtenidos con un threshold de 85 %. Mejores desempenos ´ Nivel maximo de exactitud alcanzado de 56 %.

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

´ Discucion ˜ obtenidos con un threshold de 85 %. Mejores desempenos ´ Nivel maximo de exactitud alcanzado de 56 %: 1. Existencia de TBP no uniforme en las regiones codificantes.

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

´ Discucion ˜ obtenidos con un threshold de 85 %. Mejores desempenos ´ Nivel maximo de exactitud alcanzado de 56 %: 1. Existencia de TBP no uniforme en las regiones codificantes.

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

´ Discucion ˜ obtenidos con un threshold de 85 %. Mejores desempenos ´ Nivel maximo de exactitud alcanzado de 56 %: 1. Existencia de TBP no uniforme en las regiones codificantes.

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

´ Discucion ˜ obtenidos con un threshold de 85 %. Mejores desempenos ´ Nivel maximo de exactitud alcanzado de 56 %: 1. Existencia de TBP no uniforme en las regiones codificantes. 2. Existencia de poca o ninguna TBP en las regiones codificantes.

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

´ Discucion ˜ obtenidos con un threshold de 85 %. Mejores desempenos ´ Nivel maximo de exactitud alcanzado de 56 %: 1. Existencia de TBP no uniforme en las regiones codificantes. 2. Existencia de poca o ninguna TBP en las regiones codificantes.

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

´ Discucion ˜ obtenidos con un threshold de 85 %. Mejores desempenos ´ Nivel maximo de exactitud alcanzado de 56 %: 1. Existencia de TBP no uniforme en las regiones codificantes. 2. Existencia de poca o ninguna TBP en las regiones codificantes. 3. Existencia de TBP en las regiones no codificantes.

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

´ Discucion ˜ obtenidos con un threshold de 85 %. Mejores desempenos ´ Nivel maximo de exactitud alcanzado de 56 %: 1. Existencia de TBP no uniforme en las regiones codificantes. 2. Existencia de poca o ninguna TBP en las regiones codificantes. 3. Existencia de TBP en las regiones no codificantes.

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

Conclusiones

´ El metodo se basa unicamente en la TBP existente en las regiones codifi´ ´ adicional. cantes. No es usada ninguna otra informacion ´ El analisis comparativo usando secuencias reales de ADN muestra que el ´ ˜ superior sobre los metodo propuesto usando la MMT tiene un desempeno otros basados en la STFT. ´ ´ El metodo es flexible y robusto a variaciones de escala para el analisis de secuencias de ADN. ´ ´ ´ de la TBP encontrada El metodo brinda una forma grafica de representacion localmente en las regiones codificantes.

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

´ adicional Informacion ´ El texto completo de la tesis de maestr´ıa y um sistema on-line para el analisis ´ ´ disponibles en de secuencias de ADN mediante el metodo propuesto estan http://www.vision.ime.usp.br/∼jmena/DSPgenomics/ E-mail: [email protected]

´ Cuestiones de Bioinformatica y Reconocimiento de Patrones

Get in touch

Social

© Copyright 2013 - 2024 MYDOKUMENT.COM - All rights reserved.