Story Transcript
76 Rev Biomed 1995; 6:76-82.
Desarrollo de un programa de computación para análisis filogenético a través de fragmentos de restricción.
María J. Poot-Ferrera, Jorge E. Zavala-Castro.
Centro de Investigaciones Regionales “Dr. Hideyo Noguchi” de la Universidad Autónoma de Yucatán, Mérida Yucatán, México.
RESUMEN. Introducción. El conocimiento de las relaciones filogenéticas que presentan todos los organismos entre sí desde el inicio de la vida hasta nuestros días, siempre ha ocupado un sitio importante dentro de la comunidad científica en especial y de la humanidad en general. La construcción de árboles filogenéticos ha sido de gran utilidad para entender comportamientos similares a nivel biológico entre diferentes especies. A través de los años se han propuesto varios métodos para realizar estas inferencias filogenéticas, siendo en la actualidad los desarrollados a partir de técnicas de biología molecular de los más utilizados y confiables. En este trabajo reportamos un programa de computación (“software”) para el análisis filogenético a partir de las divergencias
nucleotídicas obtenidas con los fragmentos de restricción, y formación de un dendograma utilizando un método de matriz de distancia UPGMA (unweighted pair-group method with arithmetic mean, por sus siglas en inglés). Material y Métodos. El programa fue desarrollado en Turbo-C V 2.0, bajo un sistema operativo de Microsoft versión 5.0. Las divergencias nucleotídicas se calculan a partir de las distancias de migración de los fragmentos de restricción, y la construcción del dendograma se realiza por el método de matriz de distancia UPGMA. Resultados. El programa puede realizar el análisis filogenético de 100 unidades con un máximo de 20 fragmentos de restricción cada uno. Permite imprimir los resultados de las divergencias nucleotídicas para cada par analizado, visualizar e imprimir el dendograma resultante y permite crear
Solicitud de sobretiros: Dr. Jorge E. Zavala-Castro, Lab. Biologia Celular del Centro de Investigaciones Regionales “Dr Hideyo Noguchi”, Universidad Autónoma de Yucatán. Av. Itzaés No. 490 x 59 C.P. 97000, Mérida Yucatán, México. Recibido el24/Enero/95. Aceptado para publicación el 20/Marzo/95.
Vol. 6/No. 2/Abril-Junio, 1995.
77 MJ Poot-Ferrera, JE Zavala-Castro. archivos con los nombres y valores de los análisis. Discusion. El programa desarrollado permite el análisis filogenético entre organismos y la construcción del dendograma resultante ofreciendo las ventajas de ser rápido, confiable y reproducible. Palabras clave: análisis filogenético, dendograma, fragmentos de restricción, divergencias nucleotídicas.
SUMMARY. DEVELOPMENT OF PHILOGENETIC ANALYSIS SOFTWARE EMPLOYING RESTRICTION FRAGMENTS. Introduction. Like all mankind, the scientific community has always been interested in obtaining knowledge about the origin of organisms and the philogenetic relationship between species. Philogenetic trees are important tools for understanding biological behavioural diversity, and actually molecular biology techniques are the most useful and reliable for taxonomy. In this paper we report a philogenetic analysis software and dendogram construction in terms of restriction endonucleases and a distance matrix method UPGMA. Material and Methods. Software was written in Turbo-C V 2.0, under operative system Microsoft V 5.0. The software uses the Nei method for nucleotidic substitutions, and the distance matrix method UPGMA for dendogram construction. Results. The software performs the philogenetic analysis of 100 units with 20 fragments each, the nucleotidic divergence results for each two units and the dendogram can be printed, and the names and values of the analysis can be preserved in files. Discussion. The software performs the philogenetic analysis between related organisms in a fast, reliable and reproducible manner. Key words: philogenetic analysis, dendogram, Revista Biomédica
restriction fragments, nucleotidic divergences.
INTRODUCCION. El conocimiento de las relaciones filogenéticas que presentan todos los organismos entre sí, desde el inicio de la vida hasta nuestros días, siempre ha ocupado un sitio importante dentro de la comunidad científica en especial y de la humanidad en general. Las divergencias que presentan algunos organismos a través de la evolución han sido útiles para determinar las probables causas de homogeneidad o heterogeneidad en su comportamiento biológico (1-4). A través de los años se han propuesto varios modelos para realizar estas inferencias filogenéticas, siendo en la actualidad las desarrolladas a partir de técnicas de biología molecular de las más utilizadas (5-7). Los datos obtenidos de las secuencias de DNA y/o proteínas son agrupados con diferentes métodos para construir los árboles filogenéticos de los organismos analizados (8,9). En este trabajo reportamos un programa de computación (“software”) para el análisis filogenético, a partir de de las divergencias nucleotídicas obtenidas con los fragmentos de restricción, y formación de un dendograma utilizando un método de matriz de distancia UPGMA (unweighted pair-group method with arithmetic mean, por sus siglas en inglés) (10).
MATERIAL Y METODOS. El programa fue desarrollado utilizando el lenguaje de programación Turbo-C V 2.0, y la programación se realizó bajo el sistema operativo de Microsoft versión 5.0. Se utilizó una computadora AT-386 de 25 MHz con 2 Mb de memoria en RAM. La programación es de modo estructurado en un 100% y se utilizaron procedimientos y funciones
78 Programa para análisis filogenético. para la optimización del código y la memoria de la computadora, lo cual permitió obtener al máximo la rapidez del microprocesador y al mismo tiempo un programa compatible con computadoras AT. Las divergencias nucleotídicas se calcularon a partir de la comparación de las distancias de migración de los fragmentos de restricción con respecto al origen, por medio del modelo matemático para el cálculo de cambios evolutivos en los sitios de restricción del DNA propuesto por Nei (10). Los resultados son agrupados con el método de matriz de distancia UPGMA. El programa se desarrolló con base a los algoritmos matemáticos descritos por Nei (10), en los que se calculan las divergencias nucleotídicas presentes entre dos o más unidades, utilizando los fragmentos de restricción para determinar los cambios en los sitios de restricción de alguna endonucleasa determinada. El programa se encuentra subdividido en tres etapas. La primera se encarga de la captura de las unidades a analizar (nombre, número de fragmentos o bandas, valor de las mismas), y permite el análisis de 100 unidades (organismos) con un máximo de 20 fragmentos de restricción (o bandas) cada uno. En el caso de que alguna unidad no comparta fragmentos con las demás puede ser eliminada del análisis. La segunda etapa permite la obtención de las divergencias nucleotídicas entre las unidades analizadas utilizando las fórmulas descritas por Nei (10). Para obtener el valor de las divergencias, primero calcula la proporción de fragmentos compartidos de acuerdo a la siguiente fórmula: 2 mxy F= mx + my donde F= proporción de fragmentos compartidos entre dos cepas, mx y my son el número total de fragmentos de las unidades X y Y que se comparan, mxy es el número de fragmentos compartidos entre las dos unidades. El resultado de estas operaciones
son valores decimales, para lo cual el programa maneja seis dígitos para una mayor exactitud en los resultados. Los valores de F son utilizados para calcular la probabilidad de que un sitio de restricción ancestral permanezca sin cambios entre dos unidades en la siguiente fórmula: G= [F (3-2G1)]1/4 , donde G= probabilidad de que un sitio permanezca sin cambios, y el valor inicial de G1= F1/4. El cálculo se repite iterativamente tomando los valores obtenidos de G como los nuevos valores de G1 hasta que el valor de G sea igual a G1, entonces se habrá obtenido el valor real de G. Las divergencias nucleotídicas se obtienen con la fórmula: 2 d= - ( )ln G, r donde d = valor de la divergencia, r = número de nucleótidos que reconoce la enzima utilizada. El programa permite introducir el valor de r dependiendo de la enzima que se utilice. La tercera etapa del programa consiste en la agrupación de los valores de las divergencias nucleotídicas en una matriz de distancia, y la formación de un dendograma utilizando el método UPGMA. Este método consiste en la búsqueda de la distancia más pequeña en la matriz y agrupar las unidades que la conforman como una sola unidad taxonómica independiente. Se calculan los promedios de la nueva unidad contra las restantes conformando una nueva matriz, y se repite el proceso hasta que todas las unidades queden conformando un solo elemento. Esta parte la realiza el programa mediante vectores auxiliares para agrupar de manera temporal los valores que se generan con los cálculos al formarse cada nueva unidad. Cuando los valores temporales son utilizados se liberan de la memoria de la PC para Vol. 6/No. 2/Abril-Junio, 1995.
79 MJ Poot-Ferrera, JE Zavala-Castro. que se ocupe el espacio por nuevos valores temporales, optimizando de ésta manera la memoria disponible y utilizando un menor tiempo en el análisis. Para iniciar la tercera etapa se reciben como parámetros de entrada los valores de las divergencias nucleotídicas, y se realiza un proceso iterativo con los arreglos de los vectores hasta que la matriz resultante se conforme de un solo elemento. Terminado el análisis el programa ofrece la opción de presentar e imprimir el dendograma resultante con el nombre de las unidades, su origen y el valor para cada ramificación.
RESULTADOS. En el presente ejemplo se demuestra el cálculo
de las divergencias nucleotídicas, la formación de la matriz de distancia, y la elaboración del dendograma correspondiente, de 9 organismos putativos utilizando valores arbitrarios en cm de una supuesta migración de sus fragmentos de restricción (cuadro 1), de acuerdo al programa propuesto. Los datos fueron introducidos al programa, y a partir de los mismos y con las fórmulas descritas, el programa obtuvo la primera matriz que agrupó las divergencias nucleotídicas entre cada par independiente (cuadro 2). De acuerdo al método de matriz de distancia, el programa inició la búsqueda de la divergencia nucleotídica de menor valor en la primera matriz y las unidades agrupadas por este valor se consideraron como una sola unidad. El programa obtuvo el valor promedio que presentaron con las restantes y así se conformó
Cuadro 1 Fragmentos de restricción de la unidades analizadas
Revista Biomédica
80 Programa para análisis filogenético. Cuadro 2 Construcción de una matriz inicial con las divergencias nucleotídicas (d) de las unidades analizadas.
Las divergencias nucleotídicas para cada par de unidades (d) son agrupadas en una matriz para aplicar el método de UPGMA en la construcción del dendograma.
una nueva matriz. El proceso se repitió hasta que la matriz quedó integrada por un solo valor. En ese momento el análisis concluyó y el programa
presentó la opción de construir el dendograma (fig. 1).
Figura 1.- Arbol filogenético construido a partir del número de fragmentos de restricción compartidos entre las unidades analizadas, utilizando el método de matriz de distancia UPGMA. La escala numérica indica el número de substituciones por cada 100 nucleótidos. .
Vol. 6/No. 2/Abril-Junio, 1995.
81 MJ Poot-Ferrera, JE Zavala-Castro. DISCUSION.
AGRADECIMIENTOS.
Este trabajo describe el desarrollo de un programa de computación que permite realizar el análisis filogenético de cualquier organismo a partir de la comparación entre sí de sitios de restricción representados por los fragmentos obtenidos, ya sea directamente por medio de la tinción en geles o por la hibridación con alguna sonda conocida. El programa presenta las opciones de imprimir los resultados de las divergencias nucleotídicas para cada par de cepas, pemite visualizar e imprimir el dendograma resultante del análisis realizado, y abrir archivos con los nombres de los aislados y sus divergencias para una revisión posterior. El trabajar con valores decimales en una serie de iteraciones para varias unidades es difícil, consume mucho tiempo de trabajo, y generalmente se cometen errores en la exactitud al utilizar solamente 3 ó 4 decimales. El programa ofrece la ventaja de realizar dichos cálculos en cuestión de segundos y ofrece una mayor presición en los resultados. La inquietud resultante a la pregunta del origen de las diferentes especies de organismos existentes y la importancia de su relación a través de la evolución para entener los fenómenos de origen de las especies que presentan, han generado la realización de trabajos destinados a establecer las relaciones filogenéticas de muy diversos organismos (11-13). En algunos casos, como por ejemplo en los parásitos, estas inferencias permiten comprender mejor las diferencias o similitudes que presentan en su comportamiento biológico y pueden ser útiles para determinar las variables que influyen en esos cambios (14). Este programa representa una herramienta para la determinación de la filogenia entre organismos y puede ser de utilidad en la constante búsqueda del origen y la relación que presenten entre sí las diversas especies existentes.
Los autores agradecen a las autoridades Universitarias su apoyo económico para la realización del trabajo.
REFERENCIAS. 1.- Tibayrenc M, Ward P, Moya A, Ayala FJ. Natural populations of Trypanosoma cruzi, the agent of Chagas disease, have a complex multiclonal structure. Proc Natl Acad Sci USA 1986;83:115-119. 2.- Ellis WA, Montgomery JM, Thiermann AB. Restriction endonuclease analysis as a taxonomic tool in the study of pig isolates belonging to the australis serogroup of Leptospira interrogans. J Clin Micro 1991; 29: 957-961. 3.- Beverly SM, Ismach RB, McMahon-Pratt D. Evolution of the genus Leishmania as revealed by comparisons of nuclear DNA restriction fragment patterns. Proc Natl Acad Sci USA 1987; 84:484488. 4.- Paindavoine P, Pays E, Laurent M, et al. The use of DNA hybridization and numerical taxonomy in determining relationships between Trypanosoma brucei stocks and subspecies. Parasitology 1986; 92: 31-50. 5.- Lake J, de la Cruz VF, Ferreira PC, Morel C, Simpson L. Evolution of parasitism: Kinetoplastid protozoan history reconstructed from mitochondrial rRNA gene sequences. Proc Natl Acad Sci USA 1988; 85:4779-4783. 6.- Felsenstein J. Evolutionary trees from DNA sequences: A maximum likelihood approach. J Mol Evol 1981; 17: 368-376. 7.- Olsen GJ. Earliest phylogenetic branchings: Comparing rRNA-based evolutionary trees inferred
Revista Biomédica
82 Programa para análisis filogenético. with various techniques. Cold Spring Harbour Symposia on Qualitative Biology New York: Cold Spring Harbour, 1987; 825-837. 8.- Palatnik CB, Previato JO, Mendonça-Previato L, Borojevic R. A new approach to the phylogy of Leishmania: species specificity of glycoconjugate ligands for promastigote internalization into murine macrophages. Parasitol Res 1990; 76: 289-293. 9.- Zavala-Castro JE, Velasco-Castrejon O, Hernández R. Molecular characterization of mexican stocks of Trypanosoma cruzi using total DNA. Am J Trop Med Hyg 1992; 47: 201-209. 10.- Nei M, Li WH. Mathematical model for studyng genetic variation in terms of restriction endonucleases. Proc Natl Acad Sci USA 1979; 76: 5269-5273.
12.- Musser JM, Granoff DM, Pattison PE, Selander RK. A population genetic framework for the study of invasive diseases caused by serotype b strains of Hemophilus influenzae. Proc Natl Acad Sci USA 1985; 82: 5078-5082. 13.- Hernández R, Ríos P, Valdes AM, Piñero D. Primary structure of Trypanosoma cruzi smallsubunit ribosomal RNA coding region: comparison with other trypanosomatids. Mol Biochem Parasitol 1990; 41: 207-212. 14.- Tibayrenc M, Kjellberg F, Ayala FJ. A clonal theory of parasitic protozoa: The population structures of Entamoeba, Giardia, Leishmania, Naegleria, Plasmodium, Trichomonas, and Trypanosoma and their medical and taxonomical consequences. Proc Natl Acad Sci USA 1990; 87: 2414-2418.
11.- Gomez E, Valdes AM, Piñero D, Hernández R. Wath is a Genus in the Trypanosomatidae family? Phylogenetic analysis of the two small rRNA sequences. Mol Biol Evol 1991; 8: 254259.
Vol. 6/No. 2/Abril-Junio, 1995.