Story Transcript
EL PROYECTO GENOMA HUMANO ANTONIO JOSÉ CARUZ ARCOS
ÍNDICE
PÁGINA
INTRODUCCIÓN
2
ESTRATEGIAS DE SECUENCIACIÓN
5
CONSORCIO PÚBLICO
5
CELERA
9
ANÁLISIS DE LA INFORMACIÓN CONTENIDA EN EL GENOMA HUMANO 10 CONTENIDO EN SECUENCIAS REPETIDAS
10
CONTENIDO EN GENES
19
VARIABILIDAD DEL GENOMA
PERSPECTIVAS
29
31
GENOMA HUMANO Y BIOLOGÍA
32
GENOMA HUMANO Y MEDICINA
34
Proyecto genoma humano
INTRODUCCIÓN El resdescubrimiento de las leyes de Mendel a principios del siglo XX constituyó una 1
revolución en Biología que creó los cimientos para el desarrollo posterior de la Genética . El progreso científico en este campo podría dividirse en cuatro fases que se corresponden aproximadamente con los cuatro cuartos del siglo XX. En la primera se establecieron las bases celulares de la herencia, los cromosomas, la segunda permitió definir la base molecular de la herencia: los ácidos nucleicos. En la tercera se descubrió la base de la expresión de la información genética, con el descubrimiento de los mecanismos biológicos por los cuales las células decodifican la información contenida en los genes y con la invención de las tecnologías del ADN recombinante de clonación y secuenciación; la Genética se dotó de unas herramientas poderosísimas para el estudio de la estructura y función del material hereditario. El último cuarto de siglo ha estado marcado por el esfuerzo mantenido por descifrar la información de genomas completos y comprender su estructura, función y evolución. El fruto de este trabajo incluye actualmente la secuencia completa de los genomas de 570 virus, 16 arqueobacterias, 136 bacterias y 22 eucariotas entre los cuales destacan por su importancia como modelos en Genética Saccharomyces cerevisiae, Drosophila melanogaster, Caehnorabditis elegans, Mus musculus y Arabidopsis thaliana. El proyecto de secuenciación del genoma humano (PGH) fue planteado a principios de la década de los 80 por el consejo nacional de investigación de Estados Unidos (US National Research Council) que consideraba que adquirir una visión global de la estructura del genoma, podría acelerar enormemente la investigación sobre la Biología humana y comprender: 1. La evolución de la humanidad 2. El origen de muchas enfermedades 3. La interrelación entre el ambiente y la herencia en la expresión fenotípica de la condición humana La generación de esta visión global requería un esfuerzo común en infraestructura, financiación y coordinación entre diferentes laboratorios como nunca hasta entonces había sido planteado en la investigación biológica. El PGH estaba sustentado en una base tecnológica previa que permitieron cristalizar el proyecto: • En 1977 Sanger describió una nueva metodología para determinar el orden de 2
nucleótidos de ADN utilizando dideoxinucleótidos . Ese mismo año el primer gen humano fue aislado y secuenciado. Entre 1977 y 1982 se secuenciaron los virus 3
bacterianos φX174 1
4
5
y lambda , el virus animal SV40
y el ADN mitocondrial
De Vries, H. Sur la loi de disjonction des hybrides. Comptes Rendus de l'Academie des Sciences (Paris), 130:845-847. (1900).
Tschermak, E. . Über Künstliche Kreuzung bei Pisum sativum. Berichte der Deutsche Botanischen Gesellschaft 18: 232-239, (1900). Correns, C. G. Mendels Regel Über das Verhalten der Nachkommenschaft der Rassenbastarde. Berichte der Deutschen Botanischen Gesellschaft,18: 158-168. (1900) 2
Sanger F, Nicklen S, Coulson AR. DNA sequencing with chain-terminating inhibitors. Proc Natl Acad Sci U S A.. Dec;74(12):5463-
7.(1977). 3
Sanger, F. et al. Nucleotide sequence of bacteriophage F X174 DNA. Nature 265, 687-695 (1977).
2
Antonio José Caruz Arcos
6
humano . Estos proyectos confirmaron que el ensamblaje de pequeños fragmentos de secuencia hasta completar pequeños genomas completos era factible, y mostró el valor de contar con un catálogo completo de los genes y secuencias reguladoras para comprender el binomio estructura-función, que caracteriza la expresión genética de los genomas estudiados. 7
• En 1986 Hood describió una mejora en el sistema radiactivo de secuenciación de Sanger que hacía uso de fluorocromos unidos a los dideoxinucleótidos lo que permitía la lectura secuencial por un ordenador acoplado a un laser. El primer secuenciador automático fue desarrollado por Applied Biosystems en 1987, demostrando su capacidad cuando dos nuevos genes fueron identificados
utilizando
esta
8
tecnología .
Los
primeros
intentos
de
secuenciación de fragmentos cromosómicos humanos revelaron que contar con secuencias de ADNc procedentes de la retrotranscripción de ARNm sería esencial para anotar y validar las predicciones de genes en las secuencias 9
humanas . Estos estudios fueron en parte la base para el desarrollo del método de identificación génica denominado Expressed Sequence Tags (EST). La información suministrada por los EST permitió un rápido descubrimiento y 10
mapeo de muchos genes humanos . La cantidad creciente de datos generado por la secuenciación de bancos de ADNc hizo imprescindible el desarrollo de nuevos algoritmos informáticos para analizar la información y en 1993 The Institute for Genomics Research (TIGR) puso a punto un programa que 11
permitía el ensamblaje y análisis de cientos de miles de ESTs . • Los programas para crear un mapa físico de clones que cubrieran los genomas 12
de la levadura
13
y nematodo , para permitir el aislamiento de genes y regiones
completas basándose sólo en su posición cromosómica. • El programa para crear un mapa genético humano que hiciera posible la localización de genes de enfermedades de función desconocida, basándose 14
solamente en los patrones de ligamiento a genes de posición conocida . 4
Sanger, F., Coulson, A. R., Hong, G. F., Hill, D. F. & Petersen, G. B. Nucleotide-sequence of bacteriophage Lambda DNA. J. Mol. Biol.
162, 729-773 (1982). 5
. Fiers, W. et al. Complete nucleotide sequence of SV40 DNA. Nature 273, 113-120 (1978).
6
Anderson, S. et al. Sequence and organization of the human mitochondrial genome. Nature 290, 457-465 (1981).
7
Strauss EC, Kobori JA, Siu G, Hood LE. Specific-primer-directed DNA sequencing. Anal Biochem. Apr;154(1):353-60.(1986).
8
J. Gocayne, et al. Primary structure of rat cardiac beta-adrenergic and muscarinic cholinergic receptors obtained by automated DNA
sequence analysis: further evidence for a multigene family.Proc. Natl. Acad. Sci. U.S.A. 84, 8296 (1987) . 9
McCombie WR, Martin-Gallardo A, Gocayne JD, FitzGerald M, Dubnick M, Kelley JM, Castilla L, Liu LI, Wallace S, Trapp S, et al.
Expressed genes, Alu repeats and polymorphisms in cosmids sequenced from chromosome 4p16.3. Nat Genet. Aug;1(5):348-53.(1992). 10
Adams MD, Dubnick M, Kerlavage AR, Moreno R, Kelley JM, Utterback TR, Nagle JW, Fields C, Venter JC. Sequence identification of
2,375 human brain genes. Nature. 357(6377):367-8.(1992). 11
Adams MD, Kerlavage AR, Fleischmann RD, Fuldner RA, Bult CJ, Lee NH, Kirkness EF, Weinstock KG, Gocayne JD, White O, et al.
Initial assessment of human gene diversity and expression patterns based upon 83 million nucleotides of cDNA sequence. Nature. 377(6547 Suppl):3-174.(1995). 12
Olson, M. V. et al. Random-clone strategy for genomic restriction mapping in yeast. Proc. Natl Acad. Sci. USA 83, 7826-7830 (1986).
13
Coulson, A., Sulston, J., Brenner, S. & Karn, J. Toward a physical map of the genome of the nematode Caenorhabditis elegans. Proc.
Natl Acad. Sci. USA 83, 7821-7825 (1986).
3
Proyecto genoma humano
• Desarrollo de poderosas herramientas bioinformáticas que permiten el ensamblaje de secuencias solapantes de grandes fragmentos de información genética, así como la optimización de algoritmos para la identificación de genes y secuencias reguladoras. • Desarrollo de nuevos equipos de manipulación masiva de muestras (robots) así como de sistemas de secuenciación a gran escala (ABI 3700). En 1985, el Consejo Nacional de Investigación de Estados Unidos, recomendó un programa muy amplio en el que se desarrolla en paralelo la secuenciación de organismos 15
modelo como bacterias, levadura, mosca y nematodo . A priori, el programa debía centrarse en las zonas de ADN más interesantes, así como en las regiones génicas codificadoras, dejando para una etapa posterior el análisis del enorme contenido de ADN repetitivo de distintas clases que existe en el genoma. Simultáneamente había que ir desarrollando toda una infraestructura de técnicas instrumentales y de análisis de la información generada (programas informáticos potentes para gestionar las secuencias y extraer sentido biológico de ellas, nuevos algoritmos, redes de ordenadores interconectados, bases de datos entrelazados, etc.). El proyecto contó con una asignación inicial sólo en Estados Unidos de unos 3000 millones de dólares para un periodo de 15 años. Otros países también fueron incluidos en el proyecto inicial, Gran Bretaña fue financiada por el Consejo de Investigación Médica (MRC) y la fundación privada Wellcome Trust, en Francia por el Centre d´Etude du Polymorphisme Humain y la asociación francesa contra la distrofia muscular y Japón por el Ministerio de Educación y Ciencia. Posteriormente otros países se incorporaron al proyecto como China y Alemania. Pero el proyecto público ha tenido un competidor muy serio en la empresa privada Celera, que en 1999 inició un programa de secuenciación del genoma humano independiente motivado por intereses comerciales. Ello supuso una auténtica revolución en el consorcio público que degeneró en una frenética carrera para alcanzar la meta antes que el competidor. Aunque Celera estuviese fundamentalmente motivada por intereses económicos (patentes de genes, identificación de genes asociados a enfermedades, etc.) su contribución ha sido enorme en estrategia, desarrollo tecnológico y sobre todo porque ha acelerado de tal forma el trabajo del consorcio público que el borrador del genoma ha sido publicado unos cuatro años antes de lo programado inicialmente. España, como es habitual, quedó al margen del mismo, tan sólo un grupo de la Universidad Pompeu Fabra liderado por Roderic Guigó, participó en el desafío privado liderado por Celera, contribuyendo con aplicaciones bioinformáticas para el ensamblaje de las secuencias. Actualmente el Ministerio de Ciencia y Tecnología de España ha creado una 16
fundación llamada Genoma-España
que financia proyectos de investigación en genómica.
También existe un programa específico de financiación a través de los fondos generales del Ministerio, pero considero que llega muy tarde y que las cuantías de los proyectos financiados 14
Berry, R. et al. Gene-based sequence-tagged-sites (STSs) as the basis for a human gene map. Nature Genet. 10, 415-423 (1995).
15
Sinsheimer, R. L. The Santa Cruz Workshop-1985. Genomics 5, 954-956 (1989).
16
www.gen-es.org
4
Antonio José Caruz Arcos
no alcanzan el mínimo necesario para que nuestro país ocupe el puesto en el campo de la nueva Biología que le corresponde por su capacidad económica y por el sustrato de investigadores en la materia que tiene. La base tecnológica genómica está constituyendo ya una nueva revolución biológica con aplicaciones en la industria farmacéutica, medicina, agricultura y ganadería, sectores esenciales para el desarrollo económico del país. A continuación pasaremos a revisar las dos estrategias de secuenciación que han seguido tanto el consorcio público como Celera. En el siguiente apartado veremos la información obtenida del análisis de la secuencia, fundamentalmente el contenido de elementos repetidos (transposones, repeticiones simples y duplicaciones) así como el contenido en genes del genoma. Luego se analizará la información suministrada por la genómica comparativa y las perspectivas que ha abierto el PGH en la investigación biomédica que va a condicionar el desarrollo de la Genética durante el próximo siglo.
ESTRATEGIAS DE SECUENCIACIÓN DEL GENOMA HUMANO Consorcio público (Secuenciación mediante shotgun jerárquico ) Es una estrategia basada en el ordenamiento de los clones de varias genotecas humanas y su asignación precisa a una localización cromosómica concreta antes de abordar la 17
secuenciación. Tras las propuestas iniciales , que partieron del ministerio de energía de los EEUU (DOE), al que enseguida siguieron los Institutos Nacionales de la Salud (NIH), quedó claro que este magno proyecto no podía consistir en la secuenciación exclusivamente, sino que habría de constar de varias etapas encadenadas, comenzando por la elaboración de mapas genéticos y físicos de resolución cada vez mayor. El soporte que se ha utilizado para clonar los distintos fragmentos del genoma son unos plásmidos denominados BAC
18
(Cromosomas Artificiales de Bacterias) y PAC
(Cromosomas Artificiales de P1), que tienen unas características especiales que los hacen imprescindibles para el PGH. Los plásmidos BAC derivan del célebre plásmido F de E. coli y presenta una característica muy importante: tiene un sistema genético que controla el número de copias por bacteria, limitándolo a una sola. Esta propiedad es fundamental para la estabilidad de insertos grandes derivados de secuencias genómicas ricas en elementos repetidos que pueden sufrir procesos de recombinación y por tanto de pérdida, inversión o translocación de fragmentos. Los plásmidos PAC incluyen un sistema regulador del número de copias similar en estructura a los BACs pero derivados del bacteriófago P1 de E. coli. Entre las virtudes de estos vectores podríamos destacar las siguientes: •
Los insertos pueden ser enormes entre 50 y300 Kpb, con un tamaño medio de 150 Kpb
•
Más estables que los cromosomas artificiales de levadura (YACs)
17
Sinsheimer, R. L. The Santa Cruz Workshop-1985. Genomics 5, 954-956 (1989).
18
Kim, U. J. et al. Construction and characterization of a human bacterial artificial chromosome library. Genomics 34, 213-218 (1996).
Osoegawa, K. et al. Bacterial artificial chromosome libraries for mouse sequencing and functional analysis. Genome Res. 10, 116-128 (2000).
5
Proyecto genoma humano
•
Crecen más deprisa que los YACs
•
Más fácil purificación del ADN a partir de cultivos bacterianos
•
Permite un eficaz escrutinio mediante hibridación o PCR.
•
Posibilidad de selección por color de clones recombinantes
•
Sitio de clonación múltiple muy completo
Las genotecas genómicas fueron construidas a partir de muestras de ADN aisladas de sangre y semen de 8 hombres anónimos procedentes de diferentes orígenes geográficos, para tener 19
una representación de la variabilidad genética humana . El ADN original fue digerido con varias enzimas de restricción que producían cortes solapados en un mismo trozo de cromosoma, consiguiéndose una redundancia de 65 veces. Una vez generada la genoteca, el PGH hizo uso de dos tipos de cartografía para caracterizarlas, aunque en última instancia los mapas generados por los distintos métodos fueron correlacionados e integrados: cartografía genética de ligamiento y cartografía física. Cartografía genética de ligamiento. La cartografía genética se basa en el cálculo de la frecuencia con la que se coheredan formas alternativas (alelos) de dos loci genéticos que están ligados formando parte de un mismo cromosoma. Hasta la aparición de las técnicas moleculares, los mapas genéticos de ligamiento en humanos eran bastante rudimentarios, ya que en su elaboración no se pueden hacer cruces dirigidos (por obvios motivos éticos) y porque los datos habían de basarse casi exclusivamente en la comparación de fenotipos normales y los mutantes correspondientes a determinadas enfermedades genéticas, y en el recurso a análisis de familias, a ser posible con registros de varias generaciones y con gran número de individuos. La revolución de la cartografía genética de ligamiento sobrevino cuando en los años 80 se recurre al análisis molecular de zonas de ADN no codificadoras y que son muy polimórficas: existen varios tipos de secuencias (algunas de ellas de naturaleza repetitiva, como los VNTR, los microsatélites, etc.), dispersos por el genoma, cada uno de ellos con varios alelos en el 20
ámbito poblacional . Entre las ventajas de los microsatélites se cuentan: contenido informativo muy alto, con lo que los análisis estadísticos mejoran en fiabilidad; distribución abundante y relativamente uniforme por todo el genoma; y que se pueden identificar fácilmente mediante PCR. Además, estos loci genéticos sirven en genética clínica como marcadores útiles para localizar genes relacionados con enfermedades. Los polimorfismos moleculares han permitido que en la actualidad el PGH haya generado detallados mapas genéticos del genoma humano a un nivel de resolución en torno a 1 centimorgan (cM) o incluso menos. Esto ya se logró en 21
1994, un año antes de lo previsto, y en buena parte con resoluciones mejores (0.7 cM) . 19
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001). 20
Dunham I. Mapping human chromosomes. Curr Opin Genet Dev. 5(3):328-34. (1995).
21
Donis-Keller, H. et al. A genetic linkage map of the human genome. Cell 51, 319-337 (1987). Gyapay, G. et al. The 1993-94 Genethon
human genetic linkage map. Nature Genet. 7, 246-339 (1994). Hudson, T. J. et al. An STS-based map of the human genome. Science 270, 1945-1954 (1995). Dietrich, W. F. et al. A comprehensive genetic map of the mouse genome. Nature 380, 149-152 (1996). Nusbaum, C. et al. A YAC-based physical map of the mouse genome. Nature Genet. 22, 388-393 (1999).
6
Antonio José Caruz Arcos
La cartografía física, tiene como objetivo especificar distancias físicas en pares de bases (pb) o alguno de sus múltiplos. Obviamente, el mapa físico de mayor detalle es la propia secuencia del genoma. Pero antes de llegar a obtenerla, hay que elaborar mapas físicos partiendo de resoluciones bajas y avanzando hacia las resoluciones cada vez mayores. En cierta manera, los mapas físicos de menor resolución son los propios cariotipos: la visualización microscópica de la dotación cromosómica haploide humana teñida con colorante de Giemsa nos muestra un patrón alternante de bandas claras y oscuras, en el que cada banda tiene una media de unos 7 millones de pares de bases. Si bien los métodos citogenéticos tienen sus limitaciones, no hay que olvidar que actualmente existen novedosas herramientas de citogenética molecular (como las sondas fluorescentes in situ o FISH, la "pintura de cromosomas", etc.)
22
que permiten un mayor detalle y que, unidas a otras técnicas aumentan el
arsenal de enfoques para el estudio de los genomas, de su dinámica y de sus alteraciones. Los mapas físicos de mayor resolución se elaboran a partir de la genotecas en BAC, utilizando dos estrategias, en cierto modo similar a la de ensamblar un rompecabezas: consiste en ordenar los fragmentos del genoma a base de buscar grupos de fragmentos que tienen alguna zona en común, es decir, ir hallando conjuntos de pares de fragmentos parcialmente solapados. Ello conduce al concepto de contig: “un conjunto de fragmentos de un genoma que se han clonado por separado, pero que son contiguos y que están parcialmente solapados”. Los actuales mapas físicos han de recurrir pues al ensamblaje de esos fragmentos dentro de un contig, y ulteriormente, los distintos contigs correspondientes al mismo grupo de ligamiento han de ser ensamblados entre sí: el objetivo final (ideal) sería obtener un gran contig por cada cromosoma, que describiera detalladamente la posición y distancia física (en bases) entre distintos marcadores (representados, por ejemplo , por dianas para enzimas de restricción). La metodología de los mapas físicos ha sido el desarrollo de una especie de "marcadores físicos universales", fácilmente generables, que permiten que los datos obtenidos en un laboratorio sean rápidamente compartidos y asumidos por toda la comunidad investigadora: se trata de los llamados "lugares etiquetados por su secuencia" (Sequence 23
Tagged Site) . Consisten en trechos cortos de ADN de unas 300-500 pb de media, cuya secuencia exacta se conoce y se sabe que es única en todo el genoma. Su facilidad de uso y su aceptación como "lenguaje común" estriba en que una vez que un investigador descubre una STS, cualquier otro puede obtenerla por sí mismo (ni siquiera hace falta el envío físico de muestras), simplemente fabricando in vitro los cebadores correspondientes a sus extremos y amplificando la STS por reacción en cadena de la polimerasa (PCR). Los STS definen puntos concretos únicos del mapa físico, y constituyen magníficos "hitos" o balizas fácilmente detectables. Uno de los objetivos iniciales del PGH era la obtención de mapas físicos con unas 30.000 balizas repartidas de modo más o menos uniforme, de modo que cada dos marcadores consecutivos estén separados una media de 100 kb. Este objetivo se acaba de cumplir, en
22
Swansbury J. Cytogenetic studies using FISH: background. Methods Mol Biol. 220:173-91. (2003).
23
Hudson, T. J. et al. An STS-based map of the human genome. Science 270, 1945-1954 (1995).
7
Proyecto genoma humano
buena parte debido al empleo de los STS, que permiten elaborar mapas de contigs según el contenido de STS de los clones solapados. Estos mapas de STS permiten la integración de los mapas genéticos y físicos, hacen accesible la fase de secuenciación y facilitan la clonación de 23
genes implicados en enfermedades mediante la llamada estrategia de clonación posicional . Una vez que se construyen los mapas, hay que refinarlos y purgarlos de posibles errores. Los errores suelen tener dos fuentes principales: algunos clones BACs son en realidad híbridos o quimeras producidas por artefactos durante el proceso de elaboración de la genoteca, y por lo tanto su mapa no refleja el orden genómico auténtico; y por otro lado, los programas de ensamblado de los mapas no son fiables al 100%. De ahí la importancia de confirmar y normalizar los datos mediante estrategias aceptadas por todos los investigadores. Dentro del PGH se ha abordando un enfoque paralelo y complementario consistente en secuenciar EST. Estos fragmentos se corresponden con los genes sin intrones que se expresan en los diferentes tejidos. Los datos obtenidos se integran en "mapas funcionales" que muestran el patrón de expresión diferencial según su localización histológica. La etapa siguiente en la cartografía de cada clon BAC o PAC consiste en una versión modificada de la técnica FISH denominada Fiber FISH, que permite hibridar el contenido de cada clon con el genoma, determinando su posición exacta dentro de cada cromosoma así 24
como la longitud que ocupa a lo largo del mismo . Una vez que las genotecas están mapeadas y está identificada la posición cromosómica de cada clon, se procede a la secuenciación de 25
cada uno de ellos mediante un sistema de shotgun clásico . El cual presenta unas indudables ventajas con respecto al sistema de paseo cromosómico que requiere la síntesis de nuevos oligonucleótidos después de la secuenciación de los extremos para determinar la secuencia interna del clon. Debido a que el PGH ha sido desarrollado en varios laboratorios a lo largo del mundo, no ha existido una homogeneidad en cuanto a las herramientas utilizadas, talla media 26
de los insertos shotgun así como los sistemas de secuenciación (cadena simple o doble) . La automatización también ha sido variable entre los laboratorios y a lo largo del tiempo, con secuenciadores basados en tecnología de electroforesis de acrilamida o capilar. En 1999, la mayoría se automatizaron hasta alcanzar proporciones casi industriales (7 millones de muestras procesadas cada mes, 1000 nucleótidos secuenciados por segundo, 24 horas al día, 26
7 días a la semana) . La secuencia completa de cada clon BAC es solapada con la de otros clones que mapean en la misma región dando lugar a una cadena continua que contiene la información de varios de ellos formando los llamados Contigs, los cuales a su vez se agrupan en secuencias de mayor tamaño denominadas Scaffolds 24
que representan fragmentos de varias Mb de
Rosenberg C, Florijn RJ, Van de Rijke FM, Blonden LA, Raap TK, Van Ommen GJ, Den Dunnen JT. High resolution DNA fiber-fish on
yeast artificial chromosomes: direct visualization of DNA replication. Nat Genet. 10(4):477-9. (1995). 25
Anderson, S. Shotgun DNA sequencing using cloned DNase I-generated fragments. Nucleic Acids Res. 9, 3015-3027 (1981). Gardner,
R. C. et al. The complete nucleotide sequence of an infectious clone of cauliflower mosaic virus by M13mp7 shotgun sequencing. Nucleic Acids Res. 9, 2871-2888 (1981). Deininger, P. L. Random subcloning of sonicated DNA: application to shotgun DNA sequence analysis. Anal. Biochem. 129, 216-223 (1983). 26
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001).
8
Antonio José Caruz Arcos
secuencia. Toda esta fase de ensamblaje es dependiente de la bioinformática, la cual ha sido uno de los objetivos esenciales del PGH, debido a la gigantesca cantidad de datos que hay que recoger, analizar, comparar, interpretar y distribuir. El ensamblaje completo del genoma humano ha dado una estima aproximada de 3200 Gb de secuencia no redundante, lo que concuerda con datos previos sobre el contenido de 26
ADN del genoma. La talla de la porción eucromática del genoma se calcula en torno a 2,9 Gb . Celera (Secuenciación mediante shotgun genómico completo) En 1999, Celera una empresa privada liderada por C. Venter, el antiguo director del TIGR (The Institut for Genomic Research) emprendió la extraordinaria tarea de secuenciar por su cuenta el genoma humano, entrando en competencia directa con el consorcio público. El sistema utilizado por Celera para la secuenciación del genoma difiere del público en que prescinde completamente de las etapas iniciales de localización de los clones genómicos sobre los cromosomas. Está basada en la secuenciación directa y posterior ensamblaje de trozos pequeños de información genética aisladas y secuenciadas independientemente y que sólo 27
posteriormente son ensambladas en contigs continuos . La genoteca de Celera es completamente diferente a la del proyecto público, se partió de ADN de 5 individuos de diferentes orígenes étnicos (2 hombres y 3 mujeres) y se hicieron 3 genotecas diferentes, una en plásmidos de alto número de copias (tipo pUC-18) y con insertos de 2 Kb de media. Las otras dos genotecas de 10 Kb y 50 Kb de talla media, fueron clonadas en el clásico vector pBR322 de bajo número de copias. Posteriormente se observaron fenómenos de inestabilidad de la genoteca de 50 Kb y fue necesario subclonar los insertos como fragmentos de menor talla. La estrategia de Celera incluyó el uso de la más modernas técnicas de manipulación de muestras mediante sistemas robotizados con rastreo de origen que permiten trabajar a un ritmo absolutamente fabuloso: 65 técnicos de laboratorio, 150 secuenciadores automáticos que generan unas 175.000 reacciones de secuenciación diarias (650 pb de media), durante 24 horas al día y 7 días a la semana (50 millones de reacciones aproximadamente), permitieron que en sólo 9 meses tuviesen secuenciado casi el genoma 28
completo con una redundancia de 5,11 veces por cada segmento . El ensamblaje de esta enorme cantidad de información se llevó a cabo utilizando unas herramientas informáticas especialmente diseñadas para el proyecto, tanto de hardware como de software. Incluían dos estrategias generales: •
The Overlapper, tiene su origen en la secuenciación del genoma de Drosophila y su fundamento es la comparación de la información de cada reacción de secuenciación con todas las demás, búsqueda de homologías con menos del 6% de heterogeneidad en fragmentos de al menos 40 pb.
•
Comparación de los fragmentos ensamblados con la información disponible de los clones BAC hechas públicas en la red por el consorcio internacional.
27
Venter C. et al. The sequence of the human genome. Science 291 1304-1351. (2001).
9
Proyecto genoma humano
Este sistema puede parecer algo falso ya que el gran problema de la integración de grandes fragmentos de información generada por el software de Celera tiene un sistema de verificación y control independiente que son los clones BAC de acceso público. Sin embargo, la secuenciación posterior del genoma del ratón
28
usando sólo el sistema de whole genome
shotgun sin necesidad de recurrir a la información de mapeo, valida a posteriori esta radical metodología. Sin embargo, la información suministrada por Celera está empobrecida de elementos repetidos, fracción muy importante del genoma completo, ya que un mismo transposón puede tener miles de copias dispersas por todo el genoma con un grado de homología altísimo (casi el 100%) lo que implica que si la secuenciación no incluye las secuencias flanqueantes es 28
virtualmente imposible asignarle una posición concreta en el laberinto genómico .
ANÁLISIS DE LA INFORMACIÓN CONTENIDA EN EL GENOMA HUMANO En esta sección estudiaremos las características biológicas a gran escala que presenta el genoma humano, así como el contenido de secuencias repetidas y de genes. Contenido en secuencias repetidas Una de las observaciones iniciales de la Genética Molecular fue que el tamaño de los genomas no está correlacionado con la complejidad del organismo al que pertenece (paradoja del valor C). Por ejemplo, Homo sapiens tiene un genoma 200 veces mayor que el de 29
Saccharomyces cerevisiae, pero 200 veces más pequeño que el del protozoo Amoeba dubia . Este misterio fue resuelto cuando se demostró que los genomas pueden contener una enorme cantidad de ADN altamente repetido que supera con creces el ADN implicado en la producción de proteínas. En el genoma humano sólo el 5% son genes de los cuales tan sólo un 1% aproximadamente son exones que se traducen a proteínas. Por el contrario, las secuencias repetidas constituyen como mínimo el 50% del total. En general este tipo de secuencia puede ser clasificada en 3 grupos: 1. Transposones o secuencias derivadas de la actividad de ellos (incluyendo pseudogenes) 2. Secuencias simples repetidas, constituidas por repeticiones directas cortas de una, dos, tres o más bases (satélites, minisatélites y microsatélites) 3. Duplicaciones segmentales, consistentes en bloques de 1-300 Kb que han sido copiados desde una región a otra diferente Estas repeticiones fueron tomadas como ADN basura y minusvaloradas por los investigadores, sin embargo actualmente están consideradas como una de las más potentes 28
Mouse genome sequencing consortium. Initial sequencing and comparative analysis of the mouse genome. Nature 420, 520-562.
(2002). 29
Li, W. -H. Molecular Evolution (Sinauer, Sunderland, Massachusetts, 1997). Gregory, T. R. & Hebert, P. D. The modulation of DNA
content: proximate causes and ultimate consequences. Genome Res. 9, 317-324 (1999). Hartl, D. L. Molecular melodies in high and low C. Nature Rev. Genet. 1, 145-149 (2000).
10
Antonio José Caruz Arcos
fuerzas que determinan la evolución de los genomas, siendo utilizadas además como herramientas en Genética médica y forense. También han despertado el interés de los farmacólogos ya que alguna de las dianas de drogas utilizadas a gran escala presentan genes parálogos en fragmentos duplicados a lo largo de diferentes cromosomas y algunas duplicaciones están asociadas con enfermedades genéticas producidas por fenómenos de microdeleción generados por recombinación desigual entre ellos. A continuación profundizaremos en el análisis de cada uno de estos tipos de elementos repetidos de nuestro genoma y evaluaremos las implicaciones que tienen cada uno de ellos en estudios sobre la evolución humana y sus implicaciones médicas. Repeticiones derivadas de transposones La mayoría de las repeticiones presentes en el genoma humano, derivan de la actividad de los transposones, aproximadamente un 45% de nuestro genoma pertenece a esta clase de secuencia. En general los tipos de transposones pueden clasificar de la siguiente 30
forma : Mecanismo replicativo
Autónomos
Dependientes
Con intermediario de ARN
Retroposones (LINES)
Retroposones (SINES)
Retrotransposones (LTR) Sin intermediario de ARN 31
Los LINES
Transposones de ADN
(Long Interspersed Elements) tienen un tamaño medio de 6 Kb, tienen un
promotor interno para la ARN polimerasa II y codifican para dos proteínas. Una vez traducido el ARNm se une a las propias proteínas producidas y se transloca al núcleo, donde una actividad endonucleasa genera un corte en el ADN nuclear y una actividad retrotranscriptasa utiliza el ADN monocatenario generado por el corte como cebador para la síntesis del ADNc. Muchas veces la retrotranscriptasa no alcanza el extremo 5´del ARNm generando elementos truncados no funcionales. De hecho la mayoría de estos elementos tienen una talla media de 900 pb (LINE 1). El sitio de inserción presenta una duplicación de 7 a 20 pb. La actividad enzimática de estos elementos es la responsable de la mayoría de la actividad retrotranscriptasa del genoma humano y pueden actuar en trans sobre ARN que presenten cierta homología de secuencia en su extremo 3´terminal como son los elementos SINE. En el genoma humano existen 3 familias 31
de LINES y sólo una de ellas continua en activo (LINE 1) . 31
Los elementos SINES
(Short Interspersed Elements), son pequeños tienen una talla
media de 100-400 pb, no codifican para proteínas y contienen un promotor interno de la ARN polimerasa III. Utilizan en trans la maquinaria de los LINE por homología con el extremo 3´ de los mismos. La mayoría de las familias de SINEs derivan de ARNt (elementos MIR y Ther2)
30 31
N.L. Craig, R.Craigie, M. Gellert y A.M. Lambowitz. Mobile DNA II. American Society of Microbiology. (1989). International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001).
11
Proyecto genoma humano
aunque la más prolífica y aún activa en nuestro genoma, denominada Alu, procede de un ARN pequeño no codificante que está implicado en el transporte de proteínas (7SL). Los retrotransposones
30
están flanqueados por dos repeticiones largas terminales
(LTR) que contienen todas las señales en cis de inicio de la transcripción. Contienen dos genes principales gag y pol, que codifican para varias proteínas independientes: proteasa, retrotranscriptasa, ARNasa-H e integrasa. Los retrovirus derivan de estos elementos por la incorporación de un gen extra denominado env (envuelta) que les permite realizar una transposición cruzada entre dos genomas. Los datos avalan la hipótesis de que los genes env 32
de retrovirus proceden de receptores de superficie de virus como Baculovirus o Herpesvirus . El sistema de replicación incluye también un intermediario de ARN pero las características de la retrotranscripción son completamente diferentes a los LINES, utilizando como cebador para la síntesis del ADNc un ARNt específico. Los retrotransposones de mamíferos pertenecen a 3 clases generales (I, II y III) cada uno de ellos con muchas familias. En el genoma humano casi el 85% de las secuencias derivadas de retrotransposones constan sólo de LTRs aisladas o elementos truncados no funcionales. Los transposones de ADN
33
son muy similares a los bacterianos, con repeticiones
terminales invertidas y con una movilidad dependiente de un sistema de corte y pegado que puede ser replicativo o conservativo. El genoma humano contiene unas 7 clases generales que se dividen en varias familias según su grado de parentesco filogenético. Los transposones de ADN presentan una vida funcional relativamente corta en un genoma, ya que a diferencia de los elementos LINE en los que hay una preferencia en cis para la inserción (sólo se transponen los funcionales), la transposasa codificada por estos elementos es producida en el citoplasma pero ejerce su actividad en el núcleo donde no puede distinguir entre las formas activas o inactivas de los elementos. Por ello cuando el número de copias no funcionales se incrementa en el genoma, la transposición comienza a ser cada vez menos eficaz y el elemento sufre una muerte funcional. Para sobrevivir en el tiempo, necesitan colonizar nuevos genomas mediante 34
transferencia horizontal y existen numerosas pruebas que indican que así ocurre . El censo de transposones en el genoma humano ha revelado unas cifras extraordinariamente altas (ver tabla 1):
32
•
SINES: 13%
•
LINES: 20%
•
LTR: 8%
•
Transposones de ADN: 3%
Malik HS, Henikoff S, Eickbush TH. Poised for contagion: evolutionary origins of the infectious abilities of invertebrate retroviruses.
Genome Res. 2000 10(9):1307-18. 33
N.L. Craig, R.Craigie, M. Gellert y A.M. Lambowitz. Mobile DNA II. American Society of Microbiology. (1989).
34
Haring, E., Hagemann, S. & Pinsker, W. Ancient and recent horizontal invasions of Drosophilids by P elements. J. Mol. Evol. 51, 577-
586 (2000). Koga, A. et al. Evidence for recent invasion of the medaka fish genome by the Tol2 transposable element. Genetics 155, 273-281 (2000). Robertson, H. M. & Lampe, D. J. Recent horizontal transfer of a mariner transposable element among and between Diptera and Neuroptera. Mol. Biol. Evol. 12, 850-862 (1995). Simmons, G. M. Horizontal transfer of hobo transposable elements within the Drosophila melanogaster species complex: evidence from DNA sequencing. Mol. Biol. Evol. 9, 1050-1060 (1992).
12
Antonio José Caruz Arcos
Tabla 1: Número de copias y fracción del genoma para cada clase de transposón35
Tipo de transposón SINEs Alu MIR MIR3 LINEs LINE1 LINE2 LINE3 LTR ERV-I ERV(K)-II ERV-L MaLR Elementos de ADN MER1-Charlie Zaphod MER2-Tigger Tc2 Mariner Similar a PiggyBac Otros No clasificados
Copias (x1000) 1,558 1,090 393 75 868 516 315 37 443 112 8 83 240 294 182 13 57 4 14 2 22 3
Total de bases en el genoma 359.6 290.1 60.1 9.3 558.8 462.1 88.2 8.4 227.0 79.2 8.5 39.5 99.8 77.6 38.1 4.3 28.0 0.9 2.6 0.5 3.2 3.8
% del genoma 13.14 10.60 2.20 0.34 20.42 16.89 3.22 0.31 8.29 2.89 0.31 1.44 3.65 2.84 1.39 0.16 1.02 0.03 0.10 0.02 0.12 0.14
Nº de familias (subfamilias) 3 1 (20) 1 (1) 1 (1) 3 1 (55) 1 (2) 1 (2) 4 72 (132) 10 (20) 21 (42) 1 (31) 7 25 (50) 4 (10) 12 (28) 1 (5) 4 (5) 10 (20) 7 (7) 3 (4)
Los transposones han constituido una poderosa fuerza en la configuración actual de nuestro genoma, la actividad de los transposones ha dado lugar a varios fenómenos 36
importantes que podríamos resumir de la siguiente manera : •
Producción de pseudogenes funcionales
•
Producción de nuevos genes
•
Generación de nuevos patrones de expresión génica
•
Agentes del caos cromosómico Los
pseudogenes funcionales pueden aparecer por inserción de un ADNc
retrotranscrito en
una posición cercana a un promotor, cambiando el patrón original de
expresión de dicho gen (tabla 2). También nuevos patrones de expresión génica pueden aparecer por la inserción de un elemento completo o un fragmento del mismo en las proximidades una región codificante, generando nuevas secuencias reguladoras en cis como promotores completos, potenciadores y silenciadores de la transcripción, sitios de splicing. Este fenómeno ha sido observado fundamentalmente con LTR aisladas procedentes de retrotransposones defectivos (tabla 3). Nuevos genes tambien han aparecido por fusión accidental de secuencias procedentes de transposones con genes humanos como una familia de unos 11 factores de transcripción (Zn finger) híbridos o han sido probablemente tomados directamente de transposones por ejemplo: 35
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001). 36
Brosius J. RNAs from all categories generate retrosequences that may be exapted as novel genes or regulatory elements. Gene 238
115–134. (1999).
13
Proyecto genoma humano
•
Recombinasas RAG1 y RAG2
•
Proteína principal centromérica (CENPB)
•
Telomerasa
•
Transposasa de expresión cerebral Tabla 2: Genes funcionales con origen en la actividad de transposones37
Retrogen, expresión, cromosoma
Gen original, expresión cromosoma
CARACTERÍSTICAS Intrones
Poli-A
Repeticiones directas
Fosfoglicerato kinasa testicular; Chr 9
Pgk-1; constitutiva; chr X
No
+
+
Piruvato deshidrogenasa (Pdha2); testículo; chr 12
Pdha1; constitutiva; chr X
No
+
+
Calmodulin; tejido epitelial; chr 10
CaMIII; ubícua; chr 2
No
Glutamato deshid. (GLUD2); retina, testículo, cerebro; X
GLUD1; ubícua; chr 10
No
+
+
Factor splicing pancreas, bazo, próstata; chr 11
PR264/SC35; timo, bazo, riñón, pulmón; chr 17
No
+
+
CDY, chr 15
CDYL; ubícuo chr 13
No
+
REFERENCIA
38
39
40
41
42 43
Los transposones no sólo han influido a nivel molecular como acabamos de ver, sino que se han postulado como responsables en parte de procesos de cambio en la estructura de cromosomas como inversiones, translocaciones y duplicaciones que pueden estar en el origen de algunos fenómenos de especiación. Este papel de inducción de la inestabilidad cromosómica ha sido estudiado en Drosophila melanogaster
44
y Zea mais
45
entre otros
organismos.
37
Brosius J. RNAs from all categories generate retrosequences that may be exapted as novel genes or regulatory elements. Gene 238
115–134. (1999). 38
Adra, C.N., Ellis, N.A., McBurney, M.W. The family of mouse phosphoglycerate kinase genes and pseudogenes. Somatic Cell Mol.
(1988) 39
Fitzgerald, J., Hutchison, W.M., Dahl, H.-H.M. Isolation and rRNA affects translational efficiency. Proc. Natl. Acad. Sci. USA 96, 1339–
1344. Biochim. Biophys. Acta 1131, 83–90. (1992). 40 41
Linnenbach, A.J. et al. Retroposition in a family of carcinoma-associated antigen genes. Mol Cell. Biol. 13, 1507–1515. (1993). Papamatheakis, J., Plaitakis, A., 1994. Novel human glutamate. Alu dehydrogenase expressed in neural and testicular tissues
encoded by an X-linked intronless gene. J. Biol. Chem. 269, 16971–16976. (1993). 42
Soret, J. et al. SRp46, a novel human SR splicing factor encoded by a PR264/ SC35 retropseudogene. Mol. Cell. Biol. 18, 4924–4934.
(1988). 43
Lahn, B.T., Page, D.C. Retroposition of autosomal mRNA sequences in yielded testis-specific gene family on human Y chromosome.
Nat. Genet. 21, 429–433. (1999). 44
Cáceres M. et al. Generation of a widespread Drosophila inversion by a transposable element. Science 285, 415-418. (1999).
45
Zhang J. & Peterson T. Genome rearrangements by nonlinear transposons in maize. Genetics 153, 1403-1410. (1999).
14
Antonio José Caruz Arcos
Tabla 3: Elementos de control de la expresión génica derivados de transposones46 Origen
Elemento
Gen influido
Sirve como
Referencia
ERV9
LTR
ZNF80 zinc finger
Promotor
47
HERV-E
LTR
Amilasa salival
Promotor
48
LINE
Promotor
apolipoproteina
Enhancer
49
LINE-2
ALF
anexina VI, interleucina-4, proteína quinasa C-b
Silenciador específico de tejido
THE-1
Gen específico
Cadena pesada de las inmunoglobulinas
Secuencia codificante
HERV-K
LTR
leptin receptor (OBRa)
Splicing alternativo
HERV-H
LTR
HHLA2
Señal de poliadenilación
50
51
52
53
Si comparamos el porcentaje del genoma humano ocupado por elementos transponibles y lo comparamos con la secuencia genómica de otros eucariotas superiores 54
como Drosophila , Caenorhabditis
55
56
o Arabidopsis , podemos observar algunas diferencias
significativas. El genoma humano es mucho más rico en transposones que especies inferiores en la escala evolutiva, si consideramos el contenido total tendríamos la siguiente imagen: •
Drosophila: 3,1%
•
Caenorhabditis: 6,5%
•
Arabidopsis: 10,5%
•
Homo: 45% 57
Si lo comparamos con el ratón , el número en esta especie es ligeramente inferior al del hombre (35%), pero existen dudas sobre ello, debido a que el sistema de whole genome shotgun empleado para la secuenciación del ratón subestima el número real de elementos 46
Brosius J. RNAs from all categories generate retrosequences that may be exapted as novel genes or regulatory elements. Gene 238
115–134. (1999). 47
Di Christofano, A., Strazzullo, M., Longo, L., La Mantia, G. Characterization and genomic mapping of the ZN80 locus: expression. A
comprehensive endogenous retroviral family. Nucleic Acids Res. 23, 2823–2830. (1985). 48
Samuelson, L.C., Wiebauer, K., Snow, C.M., Meisler, M.H. Retroviral and pseudogene insertion sites reveal the lineage of human
salivary and pancreatic amylase genes from a single during primate evolution. Mol. Cell. Biol. 10, 2513–2520. (1990). 49
Yang, Z., Boffelli, D., Boonmark, N., Schwartz, K., Lawn, R. Apolipoprotein(a) gene enhancer resides within a LINE element.
J. Biol. Chem. 273, 891–897. (1998). 50
Morgan, R.O., Fernandez, M.P. TA BC200-derived element and Z-DNA as structural markers in annexin I genes: Relevance to Alu
evolution and annexin tetrad formation. J. Mol. Evol. 41, 973–985. (1995). 51
Hakim, I., Amariglio, N., Grossman, Z., Simoni-Brok, F., Ohno, S., Rechavi, G. The genome of the THE I human transposable
repetitive elements is composed of a basic motif homologous to an ancestral immunoglobulin gene sequence. Proc. Natl. Acad. Sci. USA 91, 7967–7969. (1994). 52
Kapitonov, V.V., Jurka, J. The Long Terminal Repeat of an endogenous retrovirus induces alternative splicing and encodes an
additional carboxy-terminal sequence in the human leptin receptor. J. Mol. Evol. 48, 248–251. (1999). 53
Mager D.L. (Polyadenylation function and sequence variability of the long terminal repeats of the human endogenous retrovirus-
like family RTLV-H. Virology 173, 591–599. 1989). 54
Myers, E. W. et al. A whole-genome assembly of Drosophila. Science 287, 2196-2204 (2000).
55
The C. elegans Sequencing Consortium. Genome sequence of the nematode C. elegans: A platform for investigating biology. Science
282, 2012-2018 (1998). 56 57
Paterson, A. H. et al. Comparative genomics of plant chromosomes. Plant Cell 12, 1523-1540 (2000). Mouse genome sequencing consortium. Initial sequencing and comparative analysis of the mouse genome. Nature 420, 520-562.
(2002).
15
Proyecto genoma humano
transponibles, tal como ocurre cuando se comparan los resultados del consorcio público con los de Celera que da un total de 35% del genoma como transposones (9% inferior al IHGSC). El genoma humano aparece lleno de fósiles de transposones mientras que los otros genomas tienen tendencia a tener elementos más recientes, la explicación puede estar en que en el genoma de los insectos se producen deleciones con una frecuencia 75 veces superior al genoma de mamíferos, siendo el tiempo de vida media en el genoma de los elementos no funcionales de 12 millones de años en Drosophila y en torno a 800 millones de años en los 58
mamíferos . En el genoma humano existen dos familias predominantes relacionadas entre si los LINE1 y Alu que constituyen por si mismas el 60% del total de los elementos repetidos, mientras que en los otros organismos estudiados son los transposones de ADN los que predominan, constituyendo: •
Drosophila: 25%
•
Arabidopsis: 49%
•
Caenorhabditis: 85% Esta frecuencia es compartida con el genoma del ratón y sugiere que los eventos de
transmisión horizontal a la línea germinal de transposones de ADN es más difícil, debido probablemente a limitaciones impuestas por la anatomía y el sistema inmunitario. El análisis de los sitios de inserción de los transposones ha revelado algunos datos importantes que se aplican en la investigación de la evolución y diversificación de la humanidad, los elementos LINE 1 están aún activos y su transposición puede medirse incluso en cultivos celulares. Las poblaciones humanas no son homogéneas en cuanto a la distribución de algunos elementos LINE, ya que la inserción en ciertos puntos del genoma se produjo 59
posteriormente a la separación de dos poblaciones que tenían un origen ancestral . Por ello han sido utilizados para trazar el grado de parentesco entre poblaciones humanas, los LINES presentan una serie de ventajas con respecto a otros sistemas de análisis filogenético: •
Diagnóstico simple por PCR
•
Polimorfismos estables
•
Su presencia indica identidad de antepasados (probababilidad casi cero de identidad de inserción)
•
La ausencia de su inserción sería incicativo del origen del árbol filogenético
•
Pueden ser incluso específicos de una sola familia
El conocimiento del genoma completo va a dotar de una herramienta potente para estudiar en profundidad los procesos de migración y selección que han caracterizado nuestra historia durante los últimos miles de años. Otra aplicación potencial del análisis de los sitios de inserción de los elementos transponibles son la identificación de zonas reguladoras a gran escala del genoma. Por
58
Petrov, D. A., Lozovskaya, E. R. & Hartl, D. L. High intrinsic rate of DNA loss in Drosophila. Nature 384, 346-349 (1996).
59
Sheen F. et al. Reading between the LINEs: Human Genomic Variation Induced by LINE-1 Retrotransposition. Genome Research 10,
1496-1508. (2000).
16
Antonio José Caruz Arcos
ejemplo cuando se analizó la zona del cromosoma 2 que contiene algunos genes homeóticos, se ha observado que la frecuencia de transposones es extraordinariamente baja con respecto a 60
otros fragmentos situados en el mismo cromosoma, otros ejemplos son : •
8q21: 1,5% de transposones en 63 Kb, contiene genes de factores de transcripción
•
1p36: 5% en 100 Kb, sin genes identificables
•
18q22: 4% en 100 Kb, tres genes de función desconocida
La presencia de exones codificantes para proteínas o promotores podría limitar seriamente la inserción, pero la paradoja está en que la mayor parte de la secuencia libre de transposones tampoco contiene exones codificantes ni ninguna secuencia reguladora conocida. Es altamente probable que esta observación nos esté indicando la presencia de algo nuevo, de función desconocida pero absolutamente esencial para la supervivencia del organismo. Repeticiones simples repetidas en tandem 62
Constituyen el 3% del genoma humano y pueden ser divididos en tres tipos : 1. Satélites: tienen una unidad repetida de 200 pb, su tamaño es muy grande e incluye varias Mb y forman los centrómeros, aunque pueden también aparecer dispersos por otras localizaciones genómicas 2. Minisatélites: unidad repetida de 14 a 500 pb, su tamaño hasta 20 Kb, están relacionados con la función telomérica 3. Microsatélites: unidad repetida: 1-13pb, tamaño < 150pb, son de función variada, unos incluyen exones, UTRs, o tiene función desconocida. Son extraordinariamente polimórficos e inestables (se acortan o alargan a través de las generaciones). Los satélites y minisatélites están poco representados en la secuencia final del genoma humano, probablemente porque son inestables incluso en los plásmidos BAC. Los microsatélites por el contrario han recibido mucha atención por parte de los investigadores biomédicos. Constituyen la herramienta principal para realizar clonación posicional, que evalúa la frecuencia con la que se cohereda una enfermedad o carácter fenotípico con alguno de los microsatélites descritos (análisis de ligamiento). Este sistema está tan perfeccionado que algunas empresas como Applied Biosystems o Beckman han optimizado un sistema que permite genotipar el tamaño de 1200 microsatélites dispuestos a lo largo del genoma en tan sólo 20 reacciones de PCR múltiple. En unos pocos días, contando con un conjunto lo suficientemente amplio de familias se puede identificar la zona portadora del gen de interés con una distancia de 10 centimorgans. El uso de otros marcadores polimórficos de la zona candidata permite luego ir acotando la región hasta encontrar un ligamiento absoluto. El proyecto genoma ha permitido aumentar el catálogo de microsatélites disponibles para este tipo de aplicaciones.
60
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001).
17
Proyecto genoma humano
Los microsatélites también están asociados con enfermedades ya que si la inestabilidad en el número de repeticiones incluye regiones codificantes o reguladoras puede afectar a la expresión o función del gen afectado, por ejemplo el Síndrome del X frágil o el Corea de Huntington tienen este origen. Se han descrito algunas enfermedades cuya base molecular está en la inestabilidad de microsatélites formados por trinucleótidos. El descubrimiento de la base molecular de enfermedades genéticas de origen desconocido, podría verse potenciado mediante la búsqueda de genes que contienen microsatélites y que 61
serían susceptibles de sufrir procesos de expansión . Duplicación de segmentos Un 5% del genoma humano está duplicado en varias localizaciones cromosómicas independientes, hecho que implica la transferencia de bloques de 1 a 200 Kb a una o varias 62
localizaciones cromosómicas . Probablemente son muy recientes ya que el grado de homología es muy alto y no aparecen en especies relacionadas filogenéticamente. Las duplicaciones pueden ser incluso específicas de una población revelando un grado más en la variabilidad genética humana. Las duplicaciones pueden dividirse en dos tipos: 1. Intercromosómicas: Segmentos duplicados entre cromosomas no homólogos, por ejemplo 9,5 Kb del locus de la adrenoleucodistrofia del cromosoma X aparece 63
duplicado en zonas próximas a los centrómeros de los cromosomas 2, 10, 16 y 22 . 2. Intracromosómicas: Segmentos duplicados dentro del mismo cromosoma, por ejemplo en el cromosoma 17 aparecen duplicados en tándem 3 fragmentos de 200 Kb 64
separados por 5 Mb con un 99% de homología . El análisis de la distribución de duplicaciones ha revelado que las regiones pericentroméricas están constituidas fundamentalmente por duplicaciones intercromosómicas con poca secuencia única. Tambien las regiones situadas en los telómeros tienen este origen. En algunos casos como el cromosoma 22, una región pericentromérica de 1,5 Mb (5% de la secuencia total del cromosoma) contiene el 52% del total de duplicaciones intercromosómicas. Las regiones pericentroméricas son muy complejas (figura 1), parecen haber sido bombardeadas con sucesivas inserciones. El grado de homología con la secuencia original paráloga es muy alto (96-100%) lo que sugiere que tienen un origen muy reciente en términos evolutivos. Las diferentes inserciones aparecen situadas entre minisatélites ricos en A+T o C+G. A veces un solo fragmento ha sido duplicado en regiones pericentroméricas de varios
61
Broman, K. W., Murray, J. C., Sheffield, V. C., White, R. L. & Weber, J. L. Comprehensive human genetic maps: individual and sex-
specific variation in recombination. Am. J. Hum. Genet. 63, 861-869 (1998). The BAC Resource Consortium. Integration of cytogenetic landmarks into the draft sequence of the human genome. Nature 409, 953-958 (2001). 62
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001). 63
Eichler, E. E. et al. Interchromosomal duplications of the adrenoleukodystrophy locus: a phenomenon of pericentromeric plasticity.
Hum. Mol. Genet. 6, 991-1002 (1997).Horvath, J. E., Schwartz, S. & Eichler, E. E. The mosaic structure of human pericentromeric DNA: a strategy for characterizing complex regions of the human genome. Genome Res. 10, 839-852 (2000).
18
Antonio José Caruz Arcos
cromosomas, por ejemplo la región que contiene el locus ADL del cromosoma X aparece duplicada en otros 5 cromosomas.
Figura 1: Patrón de duplicaciones del cromosoma 22, las intercromosómicas están representadas en rojo y las intracromosómicas en azul
Varios estudios han demostrado que las poblaciones humanas son polimórficas para otras duplicaciones, por ejemplo el locus de los receptores olfativos. Estas observaciones sugieren que el análisis de las duplicaciones polimórficas pueden ser aplicadas como marcador 64
de dispersión de poblaciones humanas . Contenido en genes La definición de gen ha experimentado una evolución a lo largo de la historia de la genética, desde los factores indivisibles mendelianos hasta un gen-una proteína pasando por un gen-una enzima. Sin embargo la definición actual de gen es más amplia: fragmento de ADN que contiene información funcional para la síntesis de una molécula de ARN o proteína (¡la mayoría de los textos se olvidan de los miles de virus con genoma de ARN!). Sin embargo esta definición oficial también podría cambiar en el futuro. Li y Graur
65
proponen que un gen es una
secuencia de ADN o ARN que es esencial para una función específica, bien sea en el desarrollo o en el mantenimiento de la función fisiológica normal. Esta definición implica que un gen esencial podría no necesitar ni siquiera traducirse o transcribirse a ARN.Esta definición de gen incluiría: 1. Los genes que codifican para proteínas.
64
Trask, B. J. et al. Members of the olfactory receptor gene family are contained in large blocks of DNA duplicated polymorphically near
the ends of human chromosomes. Hum. Mol. Genet. 7, 13-26 (1998). Trask, B. J. et al. Large multi-chromosomal duplications encompass many members of the olfactory receptor gene family in the human genome. Hum. Mol. Genet. 7, 2007-2020 (1998). 65
Li, W.-H. y D. Graur. Fundamentals of Molecular Evolution. Sinuaer Associates, Sunderland, MA.(1991).
19
Proyecto genoma humano
2. ARNs específicos que solo se transcriben. 3. Los genes reguladores sin transcriptos, tales como los orígenes de replicación (que especifican el sitio de iniciación y terminación de la replicación del ADN). 4. Genes de recombinación (que proveen los sitios de engarce para las enzimas de recombinación). 5. Genes de segregación (los sitios específicos para que las fibras del huso durante la meiosis se adhieran a los cromosomas durante la segregación en mitosis y meiosis). A pesar de lo anterior en esta sección consideraré sólo los genes que se transcriben y codifican para proteínas o ARN no codificantes
66
de acuerdo con el concepto mas extendido de
gen. Genes para ARN no codificante Existen varios tipos de ARN no codificante: 1. ARN de transferencia 2. ARN ribosómico 3. ARN pequeños nucleolares (implicados en la modificación de las bases del ARNt y ARNr) 4. ARN pequeños nucleares (implicados en el splicing de los intrones) 5. ARN telomérico (componente de la telomerasa) 6. ARN no codificante variado, a veces con función conocida como el ARN 7SL implicado en el transporte de vesículas o el ARN Xist asociado a la inactivación del cromosoma X. Pueden contiener intrones y colas de adenina aunque otros carecen de ellos. 68
La tabla 3 representa los ARN no codificantes estudiados en el genoma humano . Se han hallado menos ARNt de los esperados, probablemente debido a que su número estaba sobrevalorado por la presencia de pseudogenes derivados de ellos. El catálogo incluye un ARNt específico para la selenocisteína, que incorpora este aminoácido en el codón UGA en ciertos ARNm que incorporan una secuencia en cis específica en su extremo 3´ no traducido (elemento SECIS). Existen miles de pseudogenes derivados de la retrotranscripción de ARN no codificantes, especialmente U6, hY y 7SL. Este último es el origen de los elementos Alu pertenecientes a los SINES que constituyen el 13% de la secuencia total del genoma. El 98% del total de transcritos del genoma humano son ARN no codificantes, los ARNr y ARTt constituyen la mayoría, sin embargo recientemente estamos asistiendo a un cambio 67
importante en la visión que tenemos de la transcripción del genoma. Según John Mattick , el dogma central de la biología molecular está incompleto y los ARNnc constituyen una escala más en la expresión génica de los eucariotas que permite la integración/interrelación entre complejos patrones de actividad génica. En eucariotas superiores existen numerosos 66
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001). Venter C. et al. The sequence of the human genome. Science 291 1304-1351. (2001). 67
Mattick J.S. Non-conding RNAs: the architects of eukaryotic complexity. EMBO reports 21, 986-991. (2001).
20
Antonio José Caruz Arcos
fenómenos genéticos poco comprendidos que incluyen ARN de interferencia, co-supresión, silenciamiento de transgenes, impronta, metilación del ADN y compensación de dosis del cromosoma X, todos los cuales comparten algo en común: interacciones entre ADN-ARN o 69
ARN-ARN, así como remodelación de la cromatina . Tabla 4: Genes de ARN no codificante identificados en el genoma humano Genes ARNt
Número esperado 1310
Número encontrado 497
Genes relacionados 324
Síntesis protéica
ARNr 18 S
150±200
0
40
Síntesis protéica
ARNr 5,8 S
150±200
1
11
Síntesis protéica
ARNr 28S
150±200
0
181
Síntesis protéica
ARNr 5 S
200±300
4
520
Síntesis protéica
U1
30
16
134
Splicing intrones
U2
10±20
6
94
Splicing intrones
U4
??
4
87
Splicing intrones
U4atac
??
1
20
Splicing intrones
U5
??
1
31
Splicing intrones
U6
??
44
1,135
Splicing intrones
U6atac
??
4
32
Splicing intrones
U7
1
1
3
Splicing intrones
U11
1
0
6
Splicing intrones
U12
1
1
0
Splicing intrones
7SL
4
3
773
Secreción proteínas
ARNasa P
1
1
2
Procesado ARNt
ARNasa MRP
1
1
6
Procesado ARNr
ARN telomérico
1
1
4
Replicación telómeros
hY1
1
1
353
Desconocida
hY3
1
25
414
Desconocida
hY4
3
3
115
Desconocida
hY5
1
1
9
Desconocida
3
1
Desconocida
Vault
Función
7SK
1
1
330
Desconocida
H19
1
1
2
Desconocida
Xist
1
1
0
ARNsno c/d
811
69
558
Inactivación cromosoma X Procesado ARNr
ARNsno h/aca
16
15
87
Procesado ARNr
Aunque aún no se ha realizado un catálogo completo de los ARNnc del genoma humano, un equipo internacional denominado Phantom
68
ha aislado unos 60.000 ARN
expresados en el ratón. Una de las conclusiones más impactantes es que 15.815 de ellos son ARNnc potencialmente funcionales. El 71% de ellos no contienen intrones (frente al 18% de los codificantes para proteínas), pero están poliadenilados y por ello son probablemente producto de la ARN polimerasa II. Muchos de ellos presentan ortólogos en el genoma humano. Es interesante constatar que 2.431 de estos ARNnc forman parejas sentido/antisentido de al menos 20 bases con exones de otros ARNm previamente descritos, lo que sugiere que podrían 68
The Fantom Consortium and the RIKEN genome exploration research group phase I & II team. Analysis of the mouse transcriptome
based on functional annotation of 60.770 full-length cDNAs. Nature 420, 563-573. (2002).
21
Proyecto genoma humano
funcionar como ARN antisentido reguladores. Existen ya suficientes ejemplos de la importancia de los ARNnc en diferentes etapas de la regulación de la expresión génica (Tabla 5). Hay muchos más ARNnc de lo que suponíamos, uno de los desafíos de la Genética para los próximos años será completar el catálogo y elucidar su función. La genómica comparativa con otros genomas emparentados al humano como el de ratón, constituirá una herramienta poderosa para determinar las regiones del genoma en las que ha existido una gran presión selectiva en contra de la fijación de mutaciones y que no cuentan con exones implicados en la 69
síntesis de proteínas. Por ejemplo Dubchak , utilizando un novedoso algoritmo bioinformático han encontrado zonas no codificantes altísimamente conservadas comparado un fragmento cromosómico concreto de ratón, perro y humano (Figura 2). Estas regiones podrían ser zonas reguladoras en cis como potenciadores de la transcripción, pero si se comprueba experimentalmente que se transcriben, podrían constituir candidatos de ARNnc funcionales. Tabla 5: Procesos afectados por ARNnc70
Proceso
Ejemplo
Función
Transcripción
SRA humano
Coactivador receptor esteroides
7SK humano
Inhibidor de factor de elongación P-TEFb
Silenciamiento génico Xist humano
Inactivación cromosoma X
Air humano
Impronta gen IgfII
Replicación ADN
ARN telomerasa
Replicación de los telómeros
Estabilidad ARNm
ARNmi eucariota
Etiqueta ARNm específicos para degradación
Traducción
Lin-4 C.elegans
Reprime la traducción
Estabilidad proteínas
ARNtm de E. coli
Degradación proteínas mal plegadas
Translocación
ARN 7SL humano
Transporte proteínas a través de membranas
proteínas Los genes codificantes para proteínas La identificación de este tipo de genes es una de las aplicaciones más importantes de los datos de secuenciación, pero constituye también uno de los mayores retos ya que la cantidad de secuencia codificante es muy baja (1-1,5%), los exones pueden ser muy pequeños y las regiones conservadas de promotores o maduración del ARN pueden no ser evidentes. Antes de comentar los resultados sobre la identificación de genes de novo a partir de la secuencia en bruto, analizaremos los datos obtenidos sobre genes previamente conocidos 71
cuya secuencia se encuentra depositada en los bancos de datos (Embl, NCBI, etc.) .
69
Dubchak I. et al. Active conservation of non coding sequences revealed by three-way species comparisons. Genome Research 10,
1304-1306. (2000). 70 71
Volker A. et al. Collection of mRNA-like non-coding RNAs. Nucl. Acid. Resear. 27, 192-195. (1999). International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001). Venter C. et al. The sequence of the human genome. Science 291 1304-1351. (2001).
22
Antonio José Caruz Arcos
hombre/perro hombre/ratón ratón/perro
hombre/perro hombre/ratón ratón/perro
hombre/perro hombre/ratón ratón/perro
Figura 2: Comparación de un fragmento cromosómico de ratón, perro y humano. Azul: Exones, Rojo: No codificante.
La estructura de los genes humanos es muy variable tanto en el tamaño de los genes como en el de los intrones. Muchos genes tienen más de 100 Kb, siendo el mayor la distrofina que ocupa 2,4 Mb. La variación en el tamaño de la zona codificante no es tan extrema, pero se observan outliers muy llamativos como el gen titin con 80.780 pb de secuencia codificante, 254 exones y el exón más largo (17.106 pb). La tabla 6 resume las características generales de los genes humanos. Cuando los comparamos con otros
organismos
como
Drosophila
o
Caenorhabditis se observa que el tamaño medio de la secuencia codificante es similar: 1311 en nematodo, 1497 en mosca y 1340 en humano. Por el contrario el tamaño de los intrones es mayor en humanos (3.300 pb frente a 267 en nematodo y 487 de mosca) (Figura 3). Figura 3:Tamaño de los intrones en humanos, mosca y nematodo73
Estudios previos habían sugerido que existe una segmentación del genoma en compartimentos con una diferente proporción de G+C (isócoras) y que el contenido en genes está relacionado con una mayor concentración de G+C. Los datos del genoma humano, revelan las zonas ricas en G+C contienen proporcionalmente mayor cantidad de genes (Figura 4).
23
Proyecto genoma humano
Figura 4: Relación entre la densidad relativa de genes y el contenido de G+C73
Especialmente significativo es el hecho de que los extremos 5´ proximales de los genes (promotores y 5´UTRs) suelen estar constituidos por G+C en un 80% de los casos. La asociación entre islas CG y los genes es estadísticamente significativa, con una puntuación de 0,89 para las regiones intergénicas, 1,2 para intrones, 5,86 para exones y 13,2 para el primer exón. Con respecto al procesado de los intrones de los genes humanos, el 98,12% utiliza el dinucleótido GT en el extremo 5´ y AG en el 3´. Otro 0,76% utiliza la pareja GC-AG y sólo un 0,1% de los genes tienen una secuencia poco habitual: AT-AC. El uso de splicing alternativo está muy extendido entre los genes humanos (70%), lo que hace que puedan presentar una mayor diversidad funcional si los comparamos con Caenorhabditis (22%). Ello implica que por 72
cada gen humano existen una media de 3,4 transcritos frente a 1,34 de Caenorhabditis . La búsqueda de nuevos genes es un problema complicado de resolver, y el número de genes potenciales depende de los programas bioinformáticos utilizados, llegando a variar hasta un 30% dependiendo del algoritmo. Existen varios problemas importantes: •
Los exones constituyen sólo el 5% de la secuencia ocupada por el gen.
•
Pueden existir exones muy pequeños y crípticos (incluso de sólo 3 pb) que enmascaren una pauta abierta de lectura.
•
Splicing alternativo en un 70% de los genes.
•
En algunos casos la edición del ARNm puede introducir cambios en la pauta abierta de lectura teórica encontrada en el ADN. La búsqueda automatizada de genes utiliza las secuencias consenso de los promotores
(islas CG), cajas TATA, secuencias iniciadoras, sitios donadores y aceptores de splicing, señal de poliadenilación y sobre todo homología de las secuencias con bancos de ADNc tanto de humanos (localización de genes nuevos pertenecientes a familias génicas conocidas) o de otros animales (Drosophila, Mus, Caenorhabditis, etc.). El consorcio público y la empresa Celera identificaron en el primer borrador del genoma unos 30.000 genes codificantes para proteínas, sin embargo una comparación directa entre los dos catálogos de genes reveló que no cuadraban entre sí, existiendo grandes diferencias en identidades y propiedades de los nuevos genes identificados. El consorcio público en su primer índice de proteínas codificadas por el genoma humano estima su número en unas 31.778, siendo 14.882 de genes conocidos y 16.896 correspondientes a predicciones. Celera predijo una cantidad superior en torno a 3572
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001). Venter C. et al. The sequence of the human genome. Science 291 1304-1351. (2001).
24
Antonio José Caruz Arcos
40.000 genes debido a que el método bioinformático empleado fue más potente, con un gran énfasis en la comparación genómica interespecífica. El conocimiento del número definitivo de genes humanos deberá esperar la finalización de varios proyectos en curso para determinar el contenido total del transcriptoma humano. Resulta sorprendente que el genoma humano tenga sólo el doble de genes que Drosophila o Caenorhabditis. Sin embargo, los genes humanos producen más isoformas por splicing alternativo, pudiendo codificar quizás unas 5 veces más proteínas que estos otros animales. Funciones de los genes codificantes para proteínas Para la clasificación funcional de los genes codificantes para proteínas, se ha tratado 73
de responder a tres preguntas : 1. ¿Cuáles son las funciones moleculares más probables de las proteínas hipotéticas y cómo pueden ser incorporadas a la clasificación actual? 2. ¿Cuáles son las funciones comunes que aparecen en genomas de otros animales? 3. ¿Cuáles son las proteínas que difieren con respecto a otros eucariotas secuenciados? Para abordar la primera pregunta se han utilizado dos estrategias, la primera consiste en el análisis de similitud con familias proteicas conocidas y la segunda la identificación de dominios funcionales cortos (por ejemplo, homeodominio, dominio de inmunoglobulinas, etc.). La figura 5 representa una visión global de las funciones moleculares predichas en el catálogo de genes de Celera (26.383 genes) que incluían al menos dos de estos criterios estrictos: •
Proteína caracterizada previamente
•
EST identificada en bancos de ADNc humanos
•
EST identificada en bancos de ADNc de ratón
•
Homología entre el genoma humano y el de ratón El resultado más interesante es que aproximadamente el 41% de las proteínas son de
función desconocida. La
familia
más
transcripción/traducción
representada
(ADN/ARN
se
corresponde
metiltransferasas,
con
polimerasas,
la
maquinaria
helicasas,
de
ligasas,
nucleasas, factores de transcripción y proteínas ribosomales). Otros tipos proteicos muy comunes
son
enzimas
implicadas
en
el
metabolismo
intermedio
(transferasas,
oxidorreductasas, ligasas, liasas e isomerasas), proteínas con funciones reguladoras como (GTPasas pequeñas tipo Ras/Rho, ciclinas y proteínas quinasas). Por último otras familias muy representadas son las proteínas transportadoras y las chaperonas. La función específica que tiene más genes proporcionalmente es la de los receptores olfativos que comprende unos 1000 genes y pseudogenes. Aproximadamente el 80% de ellos están situados en unos 12 clusters y comprenden el 1% del genoma (30 Mb). Curiosamente en los receptores de clase II, el 60% de ellos tienen mutaciones que alteran la pauta abierta de lectura, lo que sugiere que no ha existido una fuerte presión selectiva para su mantenimiento. 73
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001). Venter C. et al. The sequence of the human genome. Science 291 1304-1351. (2001).
25
Proyecto genoma humano
En la clase I se observa una menor frecuencia de mutaciones lo que indica que han podido tener más importancia adaptativa.
Figura 5: Distribución de funciones moleculares de 26.383 genes identificados por celera
Un descubrimiento que ha suscitado una encendida discusión en el ambiente académico ha sido la caracterización de 223 proteínas humanas que tienen una gran homología con proteínas bacterianas pero que no aparecen en levadura, mosca, nematodo o 74
Arabidopsis (ver tabla 6) . Estas secuencias podrían representar contaminaciones de los plásmidos de clonación con ADN bacteriano. Para comprobar su presencia real el consorcio público verificó una fracción de ellos mediante amplificación por PCR de varios ADN genómicos humanos, demostrando que efectivamente no son contaminaciones accidentales durante los procesos de fabricación de la genoteca genómica. La mitad de estos genes (113) aparecen ampliamente difundidos entre especies bacterianas sin relación directa filogenética, pero en los eucariotas sólo aparecen en vertebrados. Se han propuesto dos hipótesis para explicar el origen de estos genes: 1. Los genes estaban presentes en los eucariotas originales pero se perdieron en alguno de los linajes. 74
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001). Bergthorsson U, Adams KL, Thomason B, Palmer JD. Widespread horizontal transfer of mitochondrial genes in flowering plants. Nature 424(6945):197-201. (2003). Genereux DP, Logsdon JM Jr. Much ado about bacteria-to-vertebrate lateral gene transfer. Trends Genet. 19(4):191-5. (2003). Katz LA. Lateral gene transfers and the evolution of eukaryotes: theories and data. Int J Syst Evol Microbiol. 52(Pt 5):1893-900. (2002). Roelofs J, Van Haastert PJ. Genes lost during evolution. Nature. 411(6841):1013-4. (2001). Stanhope MJ, Lupas A, Italia MJ, Koretke KK, Volker C, Brown JR.
Phylogenetic analyses do not support horizontal gene transfers from
bacteria to vertebrates. Nature. 411(6840):940-4. (2001). Andersson JO, Doolittle WF, Nesbo CL. Genomics. Are there bugs in our genome?. Science. 292(5523):1848-1850. (2001).
26
Antonio José Caruz Arcos
2. Los genes bacterianos entraron en el genoma de un antecesor de los vertebrados mediante transferencia horizontal a partir de bacterias. Existen pruebas de transferencia horizontal entre bacterias y el genoma de Caenorhabditis, lo que sugiere que la segunda hipótesis sería la más plausible, aunque la discusión sigue abierta. Tabla 6: Genes humanos con homología en bacterias pero no en eucariotas invertebrados
Función potencial
Ortólogos en vertebrados
Ciclodeaminasa
Cerdo, ratón, pollo Ungulados, roedores Roedores, peces Vaca Roedores, peces No No No No No
Cotransportador Na/glucosa Hidrolasa epoxidos Oxidorreductasa metionina Monoamino oxidasa ADP-ribosil glicohidrolasa Timidina fosforilasa Metal binding-protein Hidrolasa α/β Histona M-2cA fosfatasa
Rango de especies bacterianas Generalizado
Genero con máxima homología Termotoga
Confirmado por PCR
Generalizado
Vibrio
Si
Generalizado
Pseudomonas
Si
Generalizado Synechocystis Generalizado Mycobacterium
Si Si
Streptomyces Generalizado Generalizado Rickettsia Thermotoga
Si Si Si Si Si
S. coelicolor H. influenzae Borrelia R. prowazekii T. marítima Virus de ARN
Si
Genes compartidos con Mus, Drosophila, Caenorhabditis y Saccharomyces. 75
El catálogo de genes humanos contiene ortólogos en el 99% del proteoma de Mus , 76
61% de Drosophila, 43% de Caenorhabditis y 46% de Saccharomyces . Fueron identificados 1.308 grupos de proteínas cada un de los cuales tenía al menos un ortólogo en cada especie y podía contener además varios genes parálogos. Este grupo estaba constituido por 3.129 proteínas humanas, 1.445 de Drosophila, 1.503 de Caenorhabditis y 1.441 de Saccharomyces. Dentro de este grupo conservado están incluidos los genes responsables mayoritarios de las funciones básicas domésticas celulares como el metabolismo, replicación/reparación del ADN y transcripción/traducción. Los genes específicos de vertebrados representan sólo el 7% del total, con 70 familias y 24 dominios funcionales no compartidos con invertebrados. Cuando comparamos las posiciones de los genes ortólogos Homo-Mus se observa que ocupan posiciones sinténicas en 77
el 96% de los casos . Sólo el 1% de los genes de Mus no tenían ortólogo en Homo, probablemente por deleción en los antecesores de la línea humana o por que estos genes representan nuevas adquisiciones en la línea evolutiva de los roedores, otras posibles explicaciones podrían ser que los genes ortólogos humanos han sufrido un proceso acelerado
75
Mouse genome sequencing consortium. Initial sequencing and comparative analysis of the mouse genome. Nature 420, 520-562.
(2002). 76
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001). Venter C. et al. The sequence of the human genome. Science 291 1304-1351. (2001).
27
Proyecto genoma humano
de cambio determinado por presiones selectivas que han hecho difícil la identificación de un 77
grado significativo de homología de secuencia . El grado de conservación en la estructura de los genes entre Homo y Mus es muy elevado y permite identificar las regiones bajo selección negativa para la incorporación de mutaciones. En la Figura 6 se muestra el grado de homología entre 3.165 genes humanos y de 77
ratón . Una representación más en detalle de los inicios de transcripción y de las secuencias donadoras y aceptoras de splicing, revela que el grado de conservación alcanza casi el 100%, siendo muy significativo que las terceras posiciones de los codones codificantes no están sujetos a tantas limitaciones para el cambio, demostrando la importancia que tiene el tambaleo de la tercera posición del ARNt en la variabilidad del uso de codones (Figura 7).
% identidad de secuencia
Figura 6: Variación en la conservación de secuencia a lo largo de gene humanos y de ratón77
Primer exón
Promotor UTR 5´
Exón interno
Intrón
Último exón
Intrón
UTR 3´
Posición en el genoma
La identificación de los genes específicos de vertebrados se ha realizado comparando todos los genes identificados con los genomas de Drosophila y Caenorhabditis, los resultados muestran que algunas familias han experimentado un cambio importante en el número de 78
miembros o bien han aparecido familias completamente nuevas . Las funciones específicas de vertebrados pueden ser clasificadas en 5 grupos: 1. Sistema inmunitario: La inmunidad adquirida es una función poco representada en invertebrados, el genoma humano y de ratón tienen genes del complejo mayor de histocompatibilidad (44), inmunoglobulinas (114), receptores específicos (59). Otras proteínas específicas de vertebrados son las citoquinas, quimiocinas y componentes asociados con la transducción de señales mediada por receptores de membrana.
77
Mouse genome sequencing consortium. Initial sequencing and comparative analysis of the mouse genome. Nature 420, 520-562.
(2002). 78
Venter C. et al. The sequence of the human genome. Science 291 1304-1351. (2001).
28
Antonio José Caruz Arcos
% de identidad de secuencia
Inicio de la traducción
Posición relativa con respecto al sitio de inicio de la traducción Figura 7: Conservación en el sitio de inicio de la traducción79
2. Desarrollo, estructura y función neuronal: Marcado incremento en proteínas implicadas en el desarrollo y función neuronal como factores de crecimiento nervioso, canales iónicos, mielina y proteínas de comunicación neuronal (sinaptotagmina). 3. Rutas de señalización intracelular implicadas en homeostasis y desarrollo: Hormonas, factores de crecimiento, receptores, factores de transcripción y moléculas de señalización intracelular como TGF-β, FGF, NGF, PDGF y efrinas. También se observa una expansión en el número de genes dedicados a la síntesis de moléculas de adhesión extracelular como proteínas de la matriz (proteoglicanos) que juegan un papel importante en procesos de defensa, morfogénesis y reparación de tejidos. Proteínas del citoesqueleto como actina y miosina, así como otras implicadas en la señalización intracelular (superfamilia Ras), factores de transcripción (por ejemplo proteínas con el dominio Zn-finger C2H2 aparece en 564 proteínas humanas frente a 234 de Drosophila). 4. Hemostasis: Expansión de genes implicados en la interacción entre células hematopoyéticas y la matriz vascular, así como metaloproteasas. 5. Apoptosis: Expansión de genes implicados en las rutas de señalización que median la muerte celular programada como caspasas, Bcl2, etc. Variabilidad del genoma humano El catálogo de la base molecular de la variabilidad humana es más amplio del esperado a priori, podemos clasificar el origen de la variabilidad en varias categorías: 1. Inserción diferencial de elementos transponibles (fundamentalmente LINES L1 y SINES tipo Alu). 29
Proyecto genoma humano
2. Duplicaciones polimórficas (por ejemplo un cluster que contiene genes de receptores olfativos está duplicado en algunas poblaciones) 3. Polimorfismos de número de copias de microsatélites, minisatélites y satélites. Siendo más conocidos los primeros. 4. Polimorfismos debidos a pequeñas deleciones, inserciones o mutaciones puntuales. De los que los cambios de un solo nucleótido constituyen por si mismos la mayor parte de la variabilidad humana. Los tres primeros han sido analizados en secciones precedentes, ahora pasaremos a describir los resultados sobre la variación debida a pequeños cambios de nucleótidos a lo largo del genoma. Contamos con datos de variabilidad de un total de 13 individuos de diferentes orígenes étnicos, el consorcio público ha secuenciado 8 y la empresa Celera 5. Es importante destacar que no contamos con la información completa de un solo genoma humano por separado, sino que los datos suministrados están mezclados y representan la secuencia media del genoma. El análisis de la variabilidad ha permitido identificar unos 2 millones de cambios puntuales denominados SNP (Single Nucleotide Polymorphism) con una frecuencia de 79
aproximadamente un cambio cada 1000 pb . Una conclusión trascendental desde el punto de vista social y político es que los seres humanos comparten entre sí más del 99,99% de la información genética. La base molecular de las diferencias fenotípicas entre poblaciones de orígenes geográficos distintos están fundamentadas en pocos genes que controlan la expresión de ciertos caracteres fácilmente distinguibles a simple vista. La distribución de SNPs a lo largo del genoma no es homogénea sino que existen zonas calientes que presentan mayor variabilidad, así como se observa una tendencia a acumular SNPs en regiones de poca importancia funcional (ver tabla 7). Tabla 7: Distribución de los SNPs en función de la clase funcional del genoma
Clase de región genómica Intergénica Intrones Primer intrón Exón Primer exón
Talla de (Mb) 2185 615 164 31 10
la
región Densidad (SNP/Mb) 707 921 808 529 592
La tabla 6 revela un hecho interesante desde el punto de vista funcional. En concreto en el primer intrón existe una menor frecuencia de SNPs comparado con otros intrones del mismo gen, ello es debido a que en algunos casos el primer intrón puede contener secuencias reguladoras en cis de la transcripción así como en muchos genes existen dos promotores alternativos, estando el segundo de ello situado dentro del primer intrón. Con respecto a las secuencias intergénicas se observa que el 75% de los SNPs se localizan dentro de estas regiones, pero la densidad de SNPs es menor que en los intrones. Esto podría explicarse por
79
International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860-921.
(2001). Venter C. et al. The sequence of the human genome. Science 291 1304-1351. (2001).
30
Antonio José Caruz Arcos
un fenómeno de incremento de la mutagénesis debida a los fenómenos de transcripción génica. Con respecto a los exones, destacar que el primer exón puede acumular mayor variabilidad genética, debido a que suele contener regiones no traducidas importantes para la unión del ribosoma durante las etapas preliminares de la traducción, por ello está menos limitado que el resto de exones a la hora de acumular cambios. Con respecto a los exones codificantes, los SNPs son muy raros (0,17% del total), siendo la mayoría cambios conservativos por tambaleo de la tercera base del codón o cambios por un aminoácido muy similar funcionalmente al original. Cambios no conservativos constituyen sólo el 0,07% del total descrito. Sin embargo pueden tener un papel importante en explicar las diferencias fenotípicas entre los seres humanos. Por ejemplo multitud de SNPs en los genes de los citocromos P450 están asociados a una mayor frecuencia de desarrollo de cáncer o enfermedades cardiovasculares, otros SNPs en genes implicados en la respuesta inmunitaria están asociados a enfermedades autoinmunes como la psoriasis o la enfermedad de Crohn. El catálogo completo de SNPs del genoma humano y su asociación con diferentes enfermedades es una tarea importante para el futuro. También van a representar un papel determinante como marcadores evolutivos que permiten trazar el origen y dispersión de las poblaciones humanas.
PERSPECTIVAS La publicación del borrador del genoma humano constituyó un hito en la historia de la ciencia y va a cambiar profundamente la Biología y la Medicina del futuro. En esta sección describiré las tendencias que se vislumbran y que condicionarán el trabajo de los futuros biólogos que estamos formando. Tres paradigmas han aparecido estos años, el primero está relacionado con la escala casi industrial de recursos económicos y materiales necesarios para llevar a cabo la investigación. El segundo es la incorporación de empresas privadas en la investigación biológica, que aportan una perspectiva práctica y comercial. El último es la necesidad de formar nuevos biólogos capaces de entender varias disciplinas y que trabajen cómodamente en un entorno de bases de datos, bioinformática y modelos matemáticos. No hay que olvidar que lo que entendemos por Proyecto Genoma consiste en principio en la obtención de información estructural desnuda, pero lo realmente importante empieza ahora: dar sentido biológico, funcional y evolutivo a la información, extrayendo el auténtico conocimiento. El banquete de datos que se nos viene encima habrá de ser metabolizado adecuadamente, impulsando nuevos avances a base de sugerir nuevos enfoques, nuevos experimentos, renovadas hipótesis de trabajo, todo ello retroalimentándose en un "círculo virtuoso" que abrirá las puertas de una nueva era en las Ciencias Biológicas. Se habla por ello de una "Era Postgenómica", en la que se irán integrando los conocimientos acumulados en diversos "Atlas" del ser humano y de otros seres vivos, en los que se podrán interrelacionar de modo funcionalmente significativo diversos niveles de comprensión de la materia viva: génico,
31
Proyecto genoma humano
genómico, regulación, biología celular, fisiología, evolución, etc. El impacto real de todo ello no se puede preveer, pero no cabe duda que el genoma humano sienta las bases de un salto cualitativo y cuantitativo en nuestra visión del mundo vivo. A continuación repasaré las perspectivas que se abren tanto para la Biología humana como para la Medicina. 80
Genoma humano y Biología
1. Identificar los componentes estructurales y funcionales codificados por el genoma humano. El uso de la genómica comparativa permitirá identificar regiones reguladoras en cis esenciales para el control de la expresión génica, replicación del ADN y recombinación. Especialmente interesante es el campo de los ARN no codificantes ya que representan una nueva escala en la expresión génica y en su regulación. Poco se conoce de los mecanismos moleculares por los que algunos de estos ARN regulan procesos como la metilación del ADN, impronta o estabilidad de mensajeros. Es de esperar que nuevas estrategias de regulación de la expresión génica puedan ser descubiertos, especialmente la regulación mediada por ARN de interferencia durante el desarrollo. El hecho de que el 42% de los genes potencialmente codificados por el genoma humano no tengan una función conocida, ni puedan clasificarse dentro de ninguna de las familias proteicas descritas es un auténtico desafío para los 81
investigadores. Tal como sugieren Christine Debouck y Peter N. Goodfellow , la búsqueda de la función será el campo de trabajo que ocupe a mayor número de biólogos en los próximos años. Encontrar la función de un gen es una tarea ardua que implica un enfoque multidisciplinar que podría ser resumido en el refrán de dime con quién vas y te diré quién eres, que se fundamenta en el argumento de que dos proteínas van juntas si participan en un proceso común, o dos ARNm se expresan conjuntamente porque están relacionados funcionalmente. Técnicamente estamos hablando de proteómica (doble híbrido,
inmunoprecipitación,
MALDITOF) o de estrategias de medida de la expresión génica con microarrays (transcriptoma). Este enfoque debe ser complementado con la información suministrada por el bloqueo de la función del gen y el análisis del fenotipo resultante en animales modelo como ratones (Knock-outs y Knock-downs) o cultivos celulares (ARN de interferencia). La figura 8 podría resumir esta estrategia experimental. 2. La organización de las redes de información genética y establecer como contribuyen al fenotipo celular y orgánico. Los genes y sus productos no funcionan independientemente, sino que participan en complejas rutas interconectadas y redes de comunicación que permiten el mantenimiento celular, la organización de tejidos, órganos y el desarrollo ontogenético. Definir estos sistemas así como determinar sus propiedades e interrelaciones es crucial para entender como funcionan los sistemas biológicos. Desde el punto de vista práctico es una información imprescindible para manipularlos y predecir su comportamiento. En cierto sentido los investigadores tratarán de describir los programas o algoritmos genéticos desencadenados durante el desarrollo o en respuesta a diferentes estímulos como productos tóxicos, hormonas,
80
Collins F S. et al. A vision for the future of genomics research
81
Debouck C, Goodfellow PN. DNA microarrays in drug discovery and development. Nat Genet. 21(1 Suppl):48-50. (1999).
32
Antonio José Caruz Arcos
etc. Modelizarlos computacionalmente y predecir el comportamiento de los mismos en nuevas situaciones. Catalogar toda la variabilidad genética de la humanidad: en cuatro niveles, inserción de transposones, microsatélites, duplicaciones y SNPs. Esta información es esencial para entender la historia de la humanidad, su origen y dispersión. También, la comprensión de la interrelación entre genotipo y fenotipo es un problema serio, a veces un polimorfismo genético está asociado con un fenotipo específico, por ejemplo, susceptibilidad a enfermedades autoinmunes, cáncer o resistencia a enfermedades infecciosas, sin embargo, en muchos casos no ha sido posible establecer el motivo. Los polimorfismos pueden ser por ellos mismos el agente causal del fenotipo o bien tan sólo un marcador de proximidad porque se cohereda como un haplotipo único con el auténtico polimorfismo funcional. Desentrañar la base molecular por la cual los polimorfismos afectan al fenotipo, ocupará también a muchos laboratorios de investigación en los próximos años. Figura 8: La búsqueda de la función
GENÓ M COMP ICA ARA T IVA
ARNi TRAN
DO BL HÍBR E IDO
FUNC
SC R I PTOM A MAL
IÓN
DITO F
RATO N KNOC ES K-OU T
MOTIV O SEC U E S D E NCIA EXP RE TISU SIÓN LAR N ENF ORMAL / ERM EDA DES
4. Comprender los mecanismos evolutivos: El genoma es una entidad dinámica, continuamente sometida a cambios por las fuerzas de la evolución. El conocimiento de las diferencias de secuencia entre diferentes especies permitirá comprender cómo se han formado en su configuración actual los genomas y cuales han sido las presiones selectivas que han condicionado su estructura. En este apartado, el desafío total está en localizar los genes o secuencias reguladoras que nos hacen humanos (lenguaje, pensamiento abstracto, etc.). La secuenciación del genoma del chimpancé podría arrojar luz sobre cuales son los genes que podrían estar detrás de las diferencias morfológicas y psicológicas entre las dos especies. Filosóficamente resulta interesante plantear la hipótesis que la esencia del ser humano pudiera residir en la expresión diferencial, con respecto al chimpancé, de una pequeña batería de genes.
33
Proyecto genoma humano
82
Genoma humano y Medicina
1. Desarrollar nuevas estrategias para la identificación de los componentes genéticos que contribuyen al desarrollo de enfermedades y respuesta a drogas. La aplicación más importante de la secuencia del genoma humano es la identificación de genes de función completamente desconocida, asociados por desequilibrio de ligamiento con una enfermedad hereditaria. Este sistema se denomina clonación posicional y era muy potente pero tedioso e incluía etapas de paseo cromosómico sobre grandes distancias genéticas antes de encontrar un gen candidato donde buscar mutaciones en familias afectadas. La secuencia del genoma humano permite una identificación rápida in silico de los genes candidatos, seguido de búsqueda de mutaciones y ayudado por los programas de predicción de estructura génica. Unos 30 genes asociados con enfermedades se han conseguido clonar partiendo de la información suministrada sólo durante el año antes de la publicación de la secuencia del genoma, en los próximos años asistiremos a la correlación de genes específicos con enfermedades hereditarias mendelianas, enfermedades de origen poligénicos o susceptibilidad a desarrollar cáncer, arteriosclerosis, hipertensión, etc. La actividad enzimática responsable de la metabolización de muchos fármacos es variable entre diferentes pacientes y afecta a la respuesta terapéutica de muchos tratamientos. La identificación de polimorfismos genéticos asociados a esa respuesta (farmacogenética) mejorará la práctica clínica y permitirá al médico la adopción de un sistema personalizado de tratamiento. Hasta el momento se han descrito muchos polimorfismos asociados a respuesta diferencial al tratamiento farmacológico (especialmente de la familia del citocromo P450), pero el número real de genes asociados a respuesta diferencial a fármacos sólo ha empezado a ser atisbado. 2. Desarrollo de nuevos fármacos contra dianas moleculares identificadas por su patrón de expresión génica. La industria farmacéutica depende de un número muy limitado de dianas moleculares de acción farmacológica, una revisión reciente cita que sólo 483 proteínas son las dianas de prácticamente todos los fármacos que hay en el mercado. El listado completo de genes humanos expandirá enormemente el número de dianas potenciales de drogas. Algunos autores predicen que varios miles de genes podrían ser candidatos para la acción farmacológica. Ello ha llevado a la creación de poderosos departamentos de investigación genética en todas las grandes compañías farmacéuticas.
Como hemos expuesto, las perspectivas son apasionantes para la investigación biomédica basada en la extracción de la información contenida en el genoma y el análisis de su expresión. Sin embargo muchas cuestiones pueden suscitar una gran polémica social por las implicaciones éticas que tienen, entre ellas destacaría el determinismo y reduccionismo genético. En algunos casos parece demostrada una relación entre polimorfismos genéticos y 82
Collins F S. et al. A vision for the future of genomics research
34
Antonio José Caruz Arcos
83
tipos de personalidad (receptores de la dopamina
84
con personalidad agresiva o serotonina
con tendencias depresivas). Si en el futuro, la investigación lograse demostrar que nuestro comportamiento y aptitudes están fundamentadas en los genes, ¿dónde quedaría nuestra libertad? ¿Dónde el bien o el mal tal como lo entendemos ahora? Quisiera concluir esta revisión general sobre el proyecto genoma humano con las palabras de Craig Venter, exdirector científico de Celera, y que resume las implicaciones no sólo científicas sino también filosóficas que tiene la actual investigación genómica: The real challenge of human biology, beyond the task of finding out how genes orchestrate the construction and maintenance of the miraculous mechanism of our bodies, will lie ahead as we seek to explain how our minds have come to organize thoughts sufficiently well to investigate our own existence.
83
Se puede consultar una revisión en: http://www.ncbi.nlm.nih.gov/entrez/dispomim.cgi?id=601696
84
Revisión en http://www.ncbi.nlm.nih.gov/entrez/dispomim.cgi?id=182138
35