Manual para la caracterización de secuencias adyacentes a genes de interés

Manual para la caracterización de secuencias adyacentes a genes de interés El presente tiene como objetivo servir como manual de referencia para la in

1 downloads 129 Views 2MB Size

Recommend Stories


Transferencia de Genes a Células Animales en Cultivo
Conceptos y Técnicas de Biotecnología I 2011 – 2do cuatrimestre FBMC-FCEN-UBA Transferencia de Genes a Células Animales en Cultivo Unidad de Transfer

Formatos archivos de secuencias
Formatos archivos de secuencias http://www.ebi.ac.uk/help/formats_frame.html http://www.genomatix.de/online_help/help/sequence_formats.html CeCalCUL

Story Transcript

Manual para la caracterización de secuencias adyacentes a genes de interés El presente tiene como objetivo servir como manual de referencia para la inspección de secuencias contiguas a los eventos de Organismos Genéticamente Modificados (OGM) mediante su búsqueda en bases de datos públicas en Internet.

Definiciones Identidad Cualidad de un objeto que lo hace único mediante la cuantificación de un conjunto de características que lo diferencian de cualquier otro objeto. Secuencia de ADN Es el conjunto ordenado de nucleótidos (o los símbolos que lo representan, ACGT) que por sí misma define la identidad de cualquier caracter biológico. Genotipo Conjunto de caracteres biológicos identificados por su secuencia de ADN. Fenotipo Conjunto de caracteres biológicos, químicos y físicos que pueden ser cuantificados sin conocer la secuencia de ADN. OGM Organismo que ha sufrido cambios en su secuencia de ADN a través de procesos derivados de la biotecnología para hacer modificaciones en su fenotipo. Elemento Un OGM posee secuencias de diferente naturaleza (regulatorias, funcionales, estructurales y accesorias) se puede clasificar a cada secuencia como un elemento de la construcción del OGM. Evento Combinación única de elementos que constituyen un evento de inserción de la secuencia modificada en la secuencia original del organismo. Base de datos Compendio de información estructurada en la cual se puede consultar de manera automática alguna información deseada. Navegador Web Programa o aplicación que funcionan como interfaz entre usuarios y páginas web en Internet, ejemplos conocidos son Internet Explorer, Mozilla Firefox, Google Chrome, Safari, Opera, etc. URL (Localizador de Recursos Uniforme) Es un identificador de recursos que pueden cambiar con el tiempo, en este caso se refiere al identificador de una página en Internet. Formato FASTA Es un formato especial de archivos de texto sencillo, este formato es el más usado en bioinformática para leer, escribir, compartir y usar secuencias de ADN. Se caracteriza por estar conformado por una línea de cabecera (comenzada por el carácter „>‟) y líneas con la secuencia nucleotídica.

Un paso útil en la inspección primaria de secuencias es la verificación de las características de la secuencia de ADN. Para ello es necesario recurrir a bases de

datos públicas que contienen información valiosa. Muchas de estas bases de datos se encuentran en páginas web, que son fácilmente accesibles para el público en general, ya que la consulta de las mismas puede hacerse gracias a la interfaz gráfica que nos provee un navegador web. Cada evento de inserción en el genoma de la planta está definido por las secuencias contiguas a la inserción. Estas secuencias definen la identidad de cada evento porque cada inserción en el genoma es independiente y única con respecto a cualquier otra inserción. Debido a esto resulta importante hacer una caracterización adecuada del contexto genómico de cada evento de inserción. Esta caracterización se puede llevar a cabo cuando los promoventes proveen a las agencias regulatorias la información de las secuencias donde está insertado el evento que quieren utilizar. A continuación se describe una forma de caracterizar el contexto genómico de una secuencia conocida. Acceso a BLAST 1. Es necesario abrir un navegador web:

2. Se procede a escribir en la barra de URL la dirección http://blast.ncbi.nlm.nih.gov/Blast.cgi. Esta página es la correspondiente a la herramienta BLAST de la National Library of Medicine (NLM) del National Center for Biotechnology Information (NCBI):

3. Una vez que se ha entrado en la página de BLAST se requiere hacer una búsqueda de nucleótidos, por esta razón se procede a ingresar al link de „nucleotide blast‟, para ello se da click en el link marcado a continuación:

4. Posteriormente se abrirá la siguiente página

Descripción de BLAST

En esta página se pueden hacer búsquedas de cualquier secuencia, a continuación se muestran los campos más importantes de esta página En la primera zona se puede ingresar una secuencia. Este ingreso puede llevarse a cabo desde el teclado o mediante un copiado y pegado de la información en la „zona para ingresar la secuencia‟:

Zona para ingresar la secuencia

En la siguiente imagen se puede apreciar la zona que delimita, en la secuencia ingresada, el intervalo de nucleótidos que se someterán a la búsqueda. El campo „From‟ delimita el inicio de la región tomada en cuenta, el campo „To‟ delimita el final de dicha región, estos son valores numéricos de las posiciones de cada nucleótido con respecto a la secuencia ingresada. Nótese que el tamaño de la secuencia a buscar es igual a restar el valor ingresado en „From‟ del valor ingresado en „To‟. Estos campos solo aceptan números enteros.

Zona para delimitar la búsqueda determinada por el rango de tamaño definido por el usuario

La siguiente imagen se puede apreciar el menú que permite el envío a esta página de una secuencia guardada en el ordenador del usuario. Sí se desea usar este método, se abrirá una ventana donde se seleccionará el archivo en formato FASTA para que BLAST use esa secuencia como la secuencia problema.

Zona para subir una secuencia en formato FASTA

Posteriormente se muestra la zona que sirve para dar nombre a la búsqueda, no es demasiado importante, pero sirve para identificar cada búsqueda cuando se hacen series de búsquedas.

Zona para nombrar el trabajo

En la siguiente sección se ingresa la información de la base de datos en dónde se quiere buscar la secuencia problema. En la siguiente imagen se muestra la zona usada para seleccionar dicha base de datos, adicionalmente existen otra opciones para refinar la búsqueda, como los organismos que se requieren e incluso instrucciones específicas para delimitar de manera precisa cada parámetro de la búsqueda, para usar estas secciones se requiere conocimiento previo del lenguaje de ENTREZ, que es un lenguaje para hacer consultas programáticas en bases de datos del NIH. La selección de base de datos es la única opción que no es opcional, ya que esta delimita a groso modo el universo de secuencias donde se hace la búsqueda.

Zona para seleccionar la base de datos a ser usada

Posteriormente se encuentra la sección de selección de algoritmo, en esta sección se hace la especificación de qué algoritmo debe ser usado. En términos generales se específica qué se busca, por ejemplo, „megablast‟ se usa para encontrar secuencias con similitud muy alta, „discontinuous megablast‟ sirve para encontrar secuencias con similitud no tan alta, „blastn‟ es usado para obtener secuencias de mediana similitud.

Zona para seleccionar el algoritmo a utilizar

Finalmente se encuentra la sección de lanzamiento de la aplicación. En esta sección se encuentra el botón „BLAST‟ que ejecuta el algoritmo seleccionado con la secuencia problema dada en la base de datos seleccionada.

Botón para iniciar la búsqueda

Adicionalmente existe una sección extra para usuarios avanzados en donde se definen otros parámetros usados por BLAST, es importante recalcar que los valores default están optimizados y solo deben ser cambiados cuando se requiera hacer ajustes específicos basados en conocimiento previo. En la siguiente dirección URL se podrá encontrar una guía con los parámetros que usa BLAST y sus fundamentos teóricos para búsquedas avanzadas. http://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDocs&DOC_ TYPE=ProgSelectionGuide

Resultados de BLAST Una vez que se ha ejecutado la aplicación en el servidor la página se actualizará por unos segundos hasta llegar a una pantalla similar a la siguiente:

En esta imagen se puede apreciar en la parte superior un resumen de los parámetros con los que fue ejecutado BLAST. Inmediatamente después aparece la sección de resumen gráfico. En esta sección se aprecia la secuencia problema como una barra roja horizontal en la parte superior del diagrama, con números que representan las posiciones nucleotídicas en escala. Arriba de esta barra se encuentra un código de colores que representa el score asignado para cada secuencia devuelta. A continuación se encuentra la sección de la descripción general de las secuencias devueltas, esta sección se puede apreciar en la siguiente imagen:

Esta sección es una tabla, cuyas columnas representan la descripción general (a manera de liga que apunta a la siguiente sección en los resultados), el score máximo y total obtenido del alineamiento, la cantidad de secuencia problema que fue alineada contra la secuencia blanco, el valor E (E-Value) que representa la probabilidad de haber alineado por azar contra esta secuencia asumiendo que no poseen ancestría común, el porcentaje de identidad y una liga en el campo de acceso que apunta a una descripción de GenBank. A continuación aparece la sección de alineamiento, en esta sección hay una descripción más detallada del alineamiento final para cada secuencia con respecto a la secuencia problema:

En esta sección aparece una subsección por cada alineamiento en la región derecha. En esta columna aparecen una serie de ligas con información relevante de la secuencia en la base de datos que hizo „match‟ con nuestra secuencia problema. Obtención de secuencias adyacentes 1. Primero es necesario acceder a BLAST, con esta herramienta se buscara la región genómica de la secuencia de interés en la base de datos no redundante de NCBI. 2. Se usará el programa blastn, por ser este de la misma naturaleza de nuestros datos. 3. Se ingresa la secuencia de interés, ya sea de manera directa o a través de un archivo fasta (si se cuenta con este). 4. Seleccionar la base de datos no redundante, o bien del organismo del que se tenga información previa al que pertenece dicha secuencia. 5. Usar el algoritmo de megablast para encontrar la secuencia más similar. 6. Ejecutar BLAST. 7. Explorar la sección de alineamientos desde el mejor hit (están en orden de aparición), lo que se busca es información relacionada con la secuencia blanco, particularmente la que pertenece a la categoría de “Gene” que contiene información detallada de cada Gen:

8. En seguida se debe hacer click en la liga de Gene. Se abrirá una página como la siguiente:

En esta página existe un visualizador gráfico de las regiones en la secuencia:

Más abajo en la misma página hay una sección que contiene ligas con información adicional de la secuencia:

9. En la última sección es necesario hacer click en la liga „FASTA‟. Se abrirá una página como la siguiente:

Esta página tiene información de la secuencia nucleotídica en el formato FASTA. Adicionalmente existe una columna a la derecha que contiene más herramientas, en la parte superior hay dos pestañas que despliegan menus „Change región shown‟ y „Customize view‟. 10. Abrir la pestaña „Change región shown‟, en la siguiente imagen se aprecia el menú desplegado:

En este menú se puede ampliar la secuencia mostrada, obteniendo la secuencia contigua, para ello se puede modificar la región seleccionada, en este caso se pueden restar los nucleótidos deseados al valor del campo „from‟ para obtener la región 5‟ y adicionar los nucleótidos deseados al valor del campo „to‟ para obtener la región 3‟. 11. Hacer click en el botón „Update View‟ para actualizar la página con los nuevos valores especificados. 12. Una vez que se obtenga la siguiente página se puede descargar la secuencia en archivo fasta, para ello es necesario utilizar el menú „Send‟:

Cuando se da click a esta liga aparece el siguiente menú:

13. Seleccionar „Complete Record‟, en la sección de selección de destino seleccionar „File‟, el formato debe ser „FASTA‟. 14. Hacer click en „Create File‟. Búsqueda de Marcos Abiertos de Lectura (ORFs) Una vez que se tiene una secuencia se puede buscar los marcos abiertos de lectura, es decir todas las secuencias con codón de inicio y codón de termino que pueden existir en una cadena de nucleótidos, tomando en cuenta los 3 marcos de cada molécula en la doble cadena de ADN. 1. Ingresar el siguiente URL en la barra de direcciones del web browser: http://www.ncbi.nlm.nih.gov/gorf/gorf.html Se desplerá la siguiente página:

En esta página se ingresa una secuencia en formato FASTA de manera directa, es decir, copiando directamente desde el archivo todos los caracteres y pegándolos en la sección de entrada para la secuencia. 2. Ingresar la secuencia de interés.

3. Hacer click en el botón „OrfFind‟. Se desplegará una página como la siguiente:

Esta página muestra cada uno de los marcos de lectura (los 6 rectángulos horizontales con rellenos en color turquesa). Cada marco de lectura abierto está representado con una región en turquesa dentro de alguno de los rectángulos de los marcos de lectura. En la columna derecha se describe su localización dentro de la secuencia original, su longitud y el marco de lectura donde fue encontrado. 4. Hacer click en cualquier ORF para visualizar la secuencia

5. El botón view desplegará una página con la información en formato de genbank:

Get in touch

Social

© Copyright 2013 - 2024 MYDOKUMENT.COM - All rights reserved.