Análisis de la diversidad genética utilizando datos de marcadores moleculares: Módulo de aprendizaje Medidas de la diversidad genética

Análisis de la diversidad genética utilizando datos de marcadores moleculares: Módulo de aprendizaje Medidas de la diversidad genética Derechos de Au

Author: Sergio Iglesias Maldonado

4 downloads 122 Views 984KB Size

Report

DOWNLOAD PDF

Recommend Stories

DIVERSIDAD DE LA MATERIA

Tratamiento de la diversidad

Tratamiento de la diversidad La Educación Secundaria Obligatoria se organiza de acuerdo con los principios de educación común y de atención a la diver

ASPECTOS DE LA DIVERSIDAD

ISSN 1988-6047 DEP. LEGAL: GR 2922/2007 Nº 27 – FEBRERO DE 2010 “ASPECTOS DE LA DIVERSIDAD” AUTORÍA MARÍA JOSÉ RUBIALES RUIZ TEMÁTICA ATENCIÓN A LA

EL JAZZ DE LA DIVERSIDAD

La diversidad de los protistas

C A P Í T U L O 20 La diversidad de los protistas El protista fotosintético Caulerpa taxifolia es un invasor indeseable en los mares de aguas templ

Los dilemas de la diversidad

Diálogos Latinoamericanos Los dilemas de la diversidad Héctor Díaz-Polanco1 Durante el siglo XX, los conflictos culturales han sido una presencia inc

DIVERSIDAD DE LA ACTIVIDAD GANADERA

WAlRA PAMPA 1995 Didier GENIN, HansJoachim PICHT, Rodolfo LIZARAZU, Tito RODRIGUEZ (Eds.). ORSTOM. CONPAC-Oruro IBTA, pp.73-89 . DIVERSIDAD DE LA AC

CONSERVANDO LA DIVERSIDAD DE LENGUAS

La diversidad de las plantas

C A P Í T U L O 21 La diversidad de las plantas Esta enorme flor de la Rafflesia arnoldii con olor putrefacto es una atracción para quienes visitan

Story Transcript

Análisis de la diversidad genética utilizando datos de marcadores moleculares: Módulo de aprendizaje

Medidas de la diversidad genética Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 1

Contenido f Análisis básico de la diversidad genética f Tipos de variables f Cuantificación de la diversidad genética: • Medidas de la diversidad genética dentro de una población • Medidas de la diversidad genética entre poblaciones

f Cuantificación de las relaciones genéticas:

• Diversidad y diferenciación a nivel de nucleótido • Distancia genética

f Visualización de las relaciones: • Clasificación o agrupación • Ordenación

f Apéndices

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 2

Análisis básico de la diversidad genética 1. Descripción de la variación dentro de poblaciones, regiones, etc. y entre ellas

m D a a r t c o a s d o d r e e s

1 1 0 1 0 1 1

0 0 1 0 0 1 0

Individuos 1 1 0 0 0 1 1 0 1 0 0 1 1 1 0 1 0 0 1 0 1

2. Evaluación de las relaciones entre individuos, poblaciones, regiones, etc. 01

1 1 0 1 0 0 1

02

03

04

05

01

0

02

0.56

0

03

0.33

0.33

0

04

0.47

0.26

0.50

0

05

0.32

0.43

0.37

0.28

0

06

0.33

0.56

0.56

0.37

0.46

06

0

Ind5

3. Expresión de las relaciones entre los resultados obtenidos con diferentes tipos de caracteres Derechos de Autor: IPGRI y Cornell University, 2004

Ind3 Ind6 Ind4 Ind2 Ind1

Medidas de diversidad 3

La mayoría de los análisis de diversidad genética en los que podríamos estar interesados incluiría los siguientes pasos: 1.

La descripción de la diversidad. Esto se puede hacer dentro de una población o entre poblaciones. También puede extenderse a unidades más grandes como zonas y regiones.

2.

El cálculo de las relaciones entre las unidades analizadas en el paso uno. Esto implica el cálculo de las distancias (geométrica o genética) entre todos los pares de clases analizadas en el estudio.

3.

La expresión de estas relaciones con cualquier método de ordenación y/o clasificación disponible. Algunos de estos métodos permitirán comparar los resultados de nuestro estudio molecular con otros tipos de datos (por ejemplo, geográficos). En la diapositiva, los Ind1, Ind2, … pueden representar poblaciones o regiones, en vez de individuos.

Tipos of variables f Cualitativas. Se refieren a caracteres o cualidades, y son binarias o categóricas: • Binarias, cuando reciben solamente dos valores: presente (1) o ausente (0) • Categóricas, cuando reciben un valor entre varias posibilidades y pueden ser ordinales o nominales: − Ordinales: categorías que tienen un orden − Nominales: categorías que no tienen relación entre sí

f Cuantitativas. Son numéricas y pueden ser continuas o discretas:

• Continuas, cuando toman un valor dentro de un rango dado • Discretas, cuando toman números enteros o decimales Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 4

Ejemplos de variables cualitativas: • Binarias: p. ej., pubescencia foliar: presente (1), ausente (0) • Categóricas: − Ordinales: p. ej., pubescencia caulinar: escaso (1), común (2), abundante (3), o longitud del pecíolo: corto (1), intermedio (2), largo (3) − Nominales: p. ej., color de los pétalos: amarillo (1), rojo (2), blanco (3), púrpura (4) Ejemplos de variables cuantitativas: • Continuas: p. ej., peso de la raíz (g); longitud de la hoja (cm) • Discretas: p. ej., número de estambres: 2, 3, 4, … número de frutos: 1, 2, 3, … Las variables categóricas pueden convertirse en variables binarias; sin embargo, existen algunas limitaciones puesto que, como veremos, algunos coeficientes de similitud le dan mayor importancia a la categoría de algún carácter determinado, lo que puede generar un sesgo en contra de otros caracteres que se estén evaluando. Es decir, cuántas más categorías tenga una variable, más importancia tendrá cuando se combine con otras variables binarias o categóricas que tengan pocas categorías. A continuación presentamos un ejemplo de conversión de una variable categórica en una binaria: Longitud del pecíolo: corto (1), intermedio (2), largo (3) − Corto: presente (1), ausente (0) − Intermedio: presente (1), ausente (0) − Largo: presente (1), ausente (0) Las variables cuantitativas también se pueden convertir en variables binarias, p.e.: De 0 a 3 frutos: presente (1), ausente (0) De 4 a 7 frutos: presente (1), ausente (0), ...

Cuantificación de la diversidad genética: Medida de la diversidad genética intrapoblacional f Con base en el número de variantes • • • •

Polimorfismo o tasa de polimorfismo (Pj) Proporción de loci polimórficos Abundancia de variantes alélicas (A) Número promedio de alelos por locus

f Con base en la frecuencia de variantes • Número efectivo de alelos (Ae) • Heterocigosidad esperada (He; diversidad genética de Nei)

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 5

Polimorfismo o tasa de polimorfismo (Pj)

Un gen se define como polimórfico si la frecuencia de uno de sus alelos es menor o igual a 0.95 ó 0.99 Pj = q ≤ 0.95

o

Pj = q ≤ 0.99

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 6

Donde, Pj = tasa de polimorfismo q = frecuencia alélica • Esta medida proporciona el criterio para determinar si un gen presenta variación. • Su cálculo se hace por observación directa respecto a si se cumple la definición o no se cumple. • La medida puede usarse con marcadores codominantes y, de manera muy restrictiva, con marcadores dominantes, debido a que la estimación basada en los marcadores dominantes presentaría una tendencia al sesgo inferior al número real. Por lo general, un gen polimórfico es aquel para el cual el alelo más común tiene una frecuencia de menos de 0.95. Los alelos raros o poco comunes se definen como aquellos cuyas frecuencias son menores a 0.005. El límite de la frecuencia alélica, que se fija en 0.95 (ó 0.99) es arbitrario, y su objetivo es ayudar a identificar aquellos genes en los cuales es común la variación alélica. Referencia Cavalli-Sforza, L. L. y W. F. Bodmer. 1981. Genética de las Poblaciones Humanas. Ed. Omega, Barcelona.

Proporción de loci polimórficos

Es el número de loci polimórficos dividido por el número total de loci (polimórficos y monomórficos), es decir:

P = npj/ntotal

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 7

Donde, P = la proporción de loci polimórficos npj = el número de loci polimórficos ntotal = el número total de loci • Expresa el porcentaje de loci variables en una población. • Su cálculo se basa en el conteo directo de los loci polimórficos y totales. • Puede usarse con marcadores codominantes y, de manera muy restrictiva, con marcadores dominantes (ver la diapositiva anterior para la explicación).

Abundancia de variantes alélicas (A)

f Se refiere al número de variantes en una muestra f La medida de la diversidad es (A - 1) variantes porque, dentro de una población monomórfica, el grado de diversidad es cero (A - 1 = 0)

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 8

•

Para un gen dado en una muestra, esta medida indica cuántas variantes alélicas pueden encontrarse.

•

Es sensible al tamaño de la muestra.

•

Aunque la distribución de alelos no afecta, el número máximo de alelos sí es importante.

•

La medida solamente puede aplicarse con marcadores codominantes.

Número promedio de alelos por locus

Es la suma de todos los alelos detectados en todos los loci, dividido por el número total de loci K

n = (1/K )∑ ni i =1

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 9

Donde, K = el número de loci ni = el número de alelos detectados por locus • Esta medida brinda información complementaria a la información sobre polimorfismo. • Requiere únicamente el conteo del número de alelos por locus y luego, el cálculo del promedio. • Se aplica mejor a marcadores codominantes, dado que los dominantes no permiten la detección de todos los alelos.

Número efectivo de alelos (Ae)

Es el número de alelos que pueden estar presentes en una población Ae = 1/(1 – h) = 1/Σpi2

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 10

Donde, pi = frecuencia del i-ésimo alelo en un locus h = 1 – Σpi2 = heterocigosidad en un locus • Indica el número de alelos que se esperaría en un locus, en cada población. • Se calcula invirtiendo la medida de la homocigosidad en un locus. • Puede utilizarse con datos de marcadores codominantes. • Su cálculo puede verse afectado por el tamaño de la muestra. Esta medida de diversidad puede proporcionar información útil para establecer estrategias de colecta. Por ejemplo, estimamos el número efectivo de alelos en una muestra. Luego, la comprobamos en una muestra diferente o en toda la colección. Si la cifra obtenida la segunda vez es menor que la primera, esto podría significar que nuestra estrategia de colecta necesita revisión.

Cálculo de Ae: Un ejemplo Loci (A, B, C)

Población 1

Población 2

Individuo 1

A1 A1

B1 B1

C1 C1

A1 A1

B1 B3

C1 C1

Individuo 2

A1 A2

B1 B2

C2 C2

A1 A1

B2 B3

C1 C1

Individuo 3

A1 A1

B1 B1

C1 C3

A2 A2

B1 B4

C1 C1

Individuo 4

A1 A3

B1 B3

C2 C3

A2 A2

B1 B1

C1 C1

Individuo 5

A3 A3

B3 B3

C3 C3

A1 A2

B4 B4

C1 C1

3

3

3

2

4

1

Frecuencia del alelo 1

0.60

0.60

0.30

0.50

0.40

1.00

Frecuencia del alelo 2

0.10

0.10

0.30

0.50

0.10

0.00

Frecuencia del alelo 3

0.30

0.30

0.40

⎯

0.20

0.00

Número de alelos

⎯

⎯

⎯

⎯

0.30

⎯

Heterocigosidad (h)

0.54

0.54

0.66

0.50

0.70

0.00

Número efectivo de alelos

2.17

2.17

2.94

2.00

3.33

1.00

Frecuencia del alelo 4

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 11

El cuadro que aparece en esta diapositiva presenta un ejemplo de cómo calcular el número efectivo de alelos. Cada una de las dos poblaciones tiene 5 individuos. Para cada individuo, se analizan 3 loci, cada uno con un número diferente de alelos, dependiendo de la población (el locus A tiene 3 alelos en la población 1 y sólo 2 alelos en la población 2, y así sucesivamente). Primero se calculan las frecuencias alélicas para cada locus y para cada población. Luego se calcula la heterocigosidad en cada locus y, por último, el número efectivo de alelos, Ae, de acuerdo con la fórmula que aparece en la diapositiva anterior.

Heterocigosidad promedio esperada (He) (diversidad genética de Nei [D]) f Es la probabilidad de que, en un locus único, cualquier par de alelos, escogidos al azar de la población, sean diferentes entre sí f Tres cálculos son posibles: • Un locus con dos alelos:

h j = 1 – p 2 – q2

• Un locus j con i alelos:

hj = 1 – Σpi2

• Promedio para varios loci:

H = ΣjLhj/L

f La He promedio de todos los loci es una estimación del grado de variabilidad genética en la población Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 12

Donde, hj = la heterocigosidad por locus p y q = las frecuencias alélicas H = la heterocigosidad promedio para varios loci L = el número total de loci • La heterocigosidad promedio esperada se calcula al restar de 1 las frecuencias esperadas de homocigotos en un locus. La operación se repite para todos los loci y luego se saca el promedio. • Puede aplicarse con todos los marcadores, ya sean codominantes o dominantes. • El valor calculado puede verse afectado por aquellos alelos presentes en frecuencias mayores. • Varía de 0 a 1. • Se maximiza cuando hay muchos alelos cuyas frecuencias son iguales. • Debe analizarse un mínimo de 30 loci en 20 individuos por población, para reducir el riesgo de sesgo estadístico.

Cálculo de la diversidad con un marcador molecular codominante Individuos M

1

2

3

4

2

3

4

5

6

7

8

9

10

11 12

13 14

15 16

17

8

9

10

11 12 13 14

15 16

17 18

18

19 20

21

22

23 24

19

21

22

23

25 26

27

28

29

30

27 28 29

30

Gel Locus A Locus B Locus C Locus D Locus E

Lectura de datos Locus A Locus B Locus C Locus D Locus E

M

1

5

6

7

20

24

25 26

1,1 0,1 1,1 0,1 0,1 0,1 0,1 0,1 0,1 1,0 0,1 0,1 0,1 0,1 0,1 1,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1

1,0 0,1 0,1 1,1 0,1 0,1 0,1

0,1 0,1 0,1 0,1 0,1 1,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 1,0 1,0 1,0 0,1 0,1 0,1 0,1 0,1 0,1 1,0

0,1 1,1 0,1 1,0 1,0 1,0 1,1

1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0

1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0

1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0

1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0

0,1 1,1 0,1 1,1 0,1 1,0 1,1 1,0 1,1 1,1 1,1 1,0 1,0 1,0 1,0 1,0 1,0 1,0 1,0 0,1 0,1 1,0

1,0 1,0 1,0 1,0 1,1 1,1 0,1 0,1

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 13

(continúa en la siguiente) En la mitad superior de esta diapositiva aparece un dibujo de un gel con un marcador de tamaño a la izquierda (M) y 30 individuos analizados con un marcador codominante, que detectó cinco loci (A, B, C, D y E). De estos loci, solamente tres son polimórficos (A, B y E). En la mitad inferior de la diapositiva aparecen los resultados de la lectura de bandas, por individuo y por locus. Obsérvese que, para facilitar la presentación, no se ilustraron más de dos alelos por locus. Aunque las bandas que pertenecen a los loci C y D fueron registradas como (1,0) para todos los individuos, la lectura no hubiera sido necesaria puesto que las bandas no dieron información de diversidad. Los cálculos se presentan en la siguiente diapositiva.

Cálculo de la diversidad con un marcador molecular codominante (continuación) Locus

Frecuencia alélica

Análisis de datos

Hi

Total

A1 A1

A1 A2

A2 A2

Frecuencia genotípica (esp.)

p2

2pq

q2

1

Individuos (no.)

2

4

24

30

P11 = 0.07

P12 = 0.13

P22 = 0.80

1

B1 B1

B1 B2

B2 B2

Total

Frecuencia genotípica (esp.)

p2

2pq

q2

1

Individuos (no.)

7

3

20

30

P11 = 0.23

P12 = 0.10

P22 = 0.67

1

E1 E1

E1 E2

E2 E2

Total

p2

2pq

q2

1

Genotipos

hj = (1 - p2 - q2)

p

q

0.13

0.87

p

q

0.28

0.72

p

q

0.63

0.37

A Frecuencia genotípica (obs.) Genotipos B

Frecuencia genotípica (obs.) Genotipos Frecuencia genotípica (esp.)

0.23

0.41

E Individuos (no.) Frecuencia genotípica (obs.)

15

8

7

30

P11 = 0.50

P12 = 0.27

P22 = 0.23

1

Derechos de Autor: IPGRI y Cornell University, 2004

0.46

0.22

Medidas de diversidad 14

1. En primer lugar, observamos que los loci A, B y E son polimórficos porque satisfacen el requisito de tener frecuencias alélicas por debajo de 0.99. Los loci C y D son monomórficos (esp. = valor esperado; obs. = valor observado). 2. La proporción de loci polimórficos es de P = (3/5) = 0.6 ó 60%. Es decir, el número de loci polimórficos se divide por el número total de loci analizados. 3. Para calcular la heterocigosidad promedio (Ho), se procede de la siguiente manera: a. Contamos el número de loci, del total, que son heterocigotos. Por ejemplo, el Individuo1 tiene un locus heterocigoto (A), el Individuo2 también (E); el Individuo27 tiene 2 loci heterocigotos (A y E), ... . En total, 16 individuos fueron monomórficos (es decir, tenían únicamente una banda en cada uno de los cinco loci), 13 individuos tenían 1 locus heterocigótico y 1 individuo tenía 2 loci heterocigóticos. b. Calculamos la heterocigosidad promedio observada, de la siguiente manera: Ho = [16(0/5) + 13(1/5) + 1(2/5)]/(30) = 0.1 4. La diversidad génica dentro de un locus (hj) se calcula para cada locus, de acuerdo con la fórmula que aparece en la fila superior del cuadro, lo que nos da los siguientes resultados: locus A = 0.23, locus B = 0.41 y locus E = 0.46. 5. La diversidad génica promedio esperada (Hi) se calcula a partir de la fórmula que aparece en la diapositiva número 12: Hi = (0.23 + 0.41 + 0.46)/5 = 0.22

Cálculo de la diversidad con un marcador molecular dominante Individuos M

1

2

3

4

5

6

7

8

9

10

11 12

13 14

15 16

17

18

19 20

21

22

23 24

25 26

27

28

29

30

25 26

27 28 29

30

Locus A Locus B Locus C Locus D Locus E

Lectura de datos Locus A Locus B Locus C Locus D Locus E

M

1

2

3

4

5

6

7

8

9

10

11 12 13

14 15

16

17 18

19 20

21

22

23

24

1

0

1

0

0

0

0

0

0

1

0

0

0

0

0

1

0

0

0

0

0

0

0

1

0

0

1

0

0

0

0

0

0

0

0

1

0

0

0

0

0

0

0

1

1

1

0

0

0

0

0

0

1

0

1

0

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

0

1

0

1

0

1

1

1

1

1

1

1

1

1

1

1

1

1

1

0

0

1

1

1

1

1

1

1

0

0

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 15

(continúa en la siguiente) En la mitad superior de esta diapositiva aparece un dibujo de un gel (marcador de tamaño a la izquierda, M) con 30 individuos analizados con un marcador dominante. Se identifican cinco loci (A, B, C, D y E), de los cuales tres están segregando (A, B y E), en tanto que los otros dos, C y D, son monomórficos. En la mitad inferior de la diapositiva están los resultados de la lectura de bandas, por individuo y por locus. Como se trata de un marcador dominante, a las bandas presentes se les asigna un 1 y a las ausentes un 0. La lectura de las bandas para los loci C y D puede omitirse o bien atribuirles un 1 a todos, como aparece en la diapositiva. Los cálculos figuran en la siguiente diapositiva.

Cálculo de la diversidad con un marcador molecular dominante (continuación) Locus

Frecuencia alélica

Análisis de datos Genotipos

Aa

Frecuencia genotípica (esp.)

p2

Aa

aa

Total

2pq

q2

1

24

30

p

q

0.11

0.89

p

q

0.18

0.82

p

q

0.52

0.48

hj = (1 - p2 – q2)

Hi

A Individuos (no.) Frecuencia genotípica (obs.)

B

P2 = 0.80

1

Genotipos

BB

Bb

bb

Total

Frecuencia genotípica (esp.)

p2

2pq

q2

1

P1 = 0.20

10

20

30

P1 = 0.33

P2 = 0.67

1

Individuos (no.) Frecuencia genotípica (obs.)

E

6

Genotipos

EE

Ee

ee

Total

Frecuencia genotípica (esp.)

p2

2pq

q2

1

23

7

30

P1 = 0.77

P2 = 0.23

1

Individuos (no.) Frecuencia genotípica (obs.)

Derechos de Autor: IPGRI y Cornell University, 2004

0.19

0.30

0.50

0.198

Medidas de diversidad 16

1. En primer lugar, tomamos en consideración el polimorfismo mostrado por todos los loci. Los loci A, B y E satisfacen el requisito de tener frecuencias alélicas por debajo de 0.99 y, como tales, se puede decir que son polimórficos. Los loci C y D son monomórficos (esp. = valor esperado; obs. = valor observado). 2. La proporción de loci polimórficos (P) es de P = (3/5) = 0.6 ó 60%. No se puede estimar la heterocigosidad promedio (He) porque los marcadores dominantes no permiten discriminar entre individuos heterocigotos y homocigotos. 3. A pesar de lo anterior (2), se puede calcular la diversidad génica dentro de un locus (hj) para cada locus, utilizando la fórmula que aparece en la fila superior del cuadro, columna 4, del siguiente modo: locus A = 0.19; locus B = 0.30; y locus E = 0.50. 4. La diversidad génica promedio (Hi) se calcula a partir de la fórmula que aparece en la diapositiva número 12: Hi = (0.19 + 0.30 + 0.50)/5 = 0.198

Cuantificación de la diversidad genética: Medida de la diversidad genética entre poblaciones f Diferenciación entre poblaciones respecto a un locus (gST) f Diferenciación entre poblaciones respecto a varios loci (GST) f Aporte de la población a la diversidad genética total f Estadísticos F (Wright) f Análisis de varianza molecular (AMOVA) Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 17

La ‘diferenciación’ se refiere a las diferencias polimórficas entre las poblaciones, a niveles diferentes de estructura (poblaciones e individuos).

Diferenciación entre poblaciones respecto a un locus (gST)

gST = 1 – (hS/hT) hS = diversidad de la población hT = diversidad total

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 18

Donde, hS = (ñ/(ñ - 1)[1 – (1/s)∑∑xij2 – (ho/2ñ)] hT = 1 - ∑[(1/s)∑xij]2 + (hS/ñs) – (ho/2ñs) ñ = el promedio armónico de los tamaños de población s = el número de poblaciones ho = la heterocigosidad promedio observada xij = la frecuencia calculada del i-ésimo alelo en la j-ésima población • La fórmula que aparece en la diapositiva provee una medida de la diferenciación en función de los alelos por locus, en dos poblaciones o más. • Varía de 0 a 1. Podría obtenerse un valor negativo si se cometiera un error en el muestreo o si se empleara un tipo de marcadores inapropiado. • Dada la complejidad de sus componentes, para su cálculo se requieren programas informáticos especializados. • Puede utilizarse con marcadores codominantes y, con algunas restricciones, con marcadores dominantes debido a que es una medida de la heterocigosidad. Son necesarias varias generaciones para tener una apreciación razonable del valor real.

Cálculo de gST Genotipos

A1 A1

A1 A2

A2 A2

p

q

p2 + q2

Población 1

20

30

50

0.35

0.65

0.545

Población 2

10

20

70

0.20

0.80

0.680

Población 3

60

10

30

0.65

0.35

0.545

ho = 1/3(0.3 + 0.2 + 0.1) = 0.20

s=3

∑(p2 + q2) = 1.77

1/ñ = 1/n1 + 1/n2 + 1/n3 = 1/100 + 1/100 + 1/100 = 0.03

ñ = 33.33

hs = (33.33/33.33 – 1)[1 – 1/3(1.77) – (0.20/2(33.33))] = 0.4196 ∑[1/3∑xij]2 = (1/3(0.35))2 + (1/3(0.65))2 + (1/3(0.20))2 + … + (1/3(0.35))2 = 0.1967 hT = 1 – 0.1967 + [0.4196/(33.33 x 3)] – [0.20/(2 x 33.33 x 3)] = 0.8065 gST = 1 – (hs/hT) = 1 – (0.4196/0.8065) = 0.4797 Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 19

En este ejemplo, tenemos el número de individuos para cada genotipo, para un locus (A), en tres poblaciones diferentes. Mediante este número, queremos conocer el grado de diferenciación en las tres poblaciones. En el cuadro, se realizan los cálculos para todos los elementos necesarios en la fórmula que aparece en la diapositiva anterior. El resultado (gST = 0.4797) muestra que existe una diferenciación significativa entre las poblaciones con respecto a las frecuencias alélicas. En consecuencia, podemos afirmar que un porcentaje alto de la diversidad genética se encuentra distribuido entre las poblaciones.

Diferenciación entre poblaciones respecto a varios loci (GST) GST es el coeficiente de diferenciación génica GST = DST/HT Pob2 HS HT

DST

DST

Pob1 HS

Pob3 DST

Derechos de Autor: IPGRI y Cornell University, 2004

HS

Medidas de diversidad 20

Donde, HT = la diversidad génica total = HS + DST HS = la diversidad génica dentro de una población DST = la diversidad entre poblaciones (HT/HT) = (HS/HT) + (DST/HT) = 1 • GST mide la proporción de diversidad génica que está distribuida entre las poblaciones. • Debe tomarse una muestra de un número suficiente de loci. • Las ecuaciones son complejas y deben calcularse con programas informáticos específicos. Por ejemplo, suponiendo que: HT = 0.263 HS = 0.202 DST = 0.263 – 0.202 = 0.061 Entonces, GST = (DST/HT) ∗ 100 = (0.061/0.263) ∗ 100 = 23.19%, lo que significa que, en esta especie, existe una diferenciación del 23% entre las poblaciones.

Aporte de la población a la diversidad génica total El aporte se calcula retirando una población del conjunto, de manera que se pueda evaluar su aporte a la diversidad génica total CT(K) = (HT – HT/K)/HT CS(K) = (HS – HS/K)/HT CST(K) = (DST – DST/K)/HT

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 21

Donde, CT(K) = el aporte de K a la diversidad total CS(K) = el aporte de K a la diversidad dentro de una población CST(K) = el aporte de K a la diversidad entre poblaciones HT = la diversidad génica total HS = la diversidad génica dentro de una población DST = la diversidad entre poblaciones HT/K = la diversidad génica total, después de retirar la población K HS/K = la diversidad génica dentro de una población, después de retirar la población K DST/K = la diversidad génica entre poblaciones, después de retirar la población K • La medida permite cuantificar la variación de la diversidad génica total cuando se introduce o se retira una población de un sitio (por ejemplo, al introducir una variedad nueva en el campo de un agricultor, como parte de un programa de conservación in situ). • También sirve para medir el impacto ocasionado, en términos de diversidad génica, por la pérdida de una población en un lugar dado. • Puede utilizarse únicamente con marcadores codominantes.

Estadísticos F (Wright) La ecuación para la estructura genética de poblaciones es: (1 - FIT) = (1 – FIS)(1 – FST) FIT = 1 – (HI/HT) FIS = 1 – (HI/HS) FST = 1 – (HS/HT) Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 22

Donde, HT = la diversidad génica total o la heterocigosidad esperada en la población total, estimada a partir de las frecuencias alélicas combinadas HI = la diversidad génica dentro de una población o la heterocigosidad promedio observada en un grupo de poblaciones HS = la heterocigosidad promedio esperada, estimada a partir de cada subpoblación Los estadísticos F permiten el análisis de estructura en poblaciones subdivididas. También puede emplearse para medir la distancia genética entre las subpoblaciones, un concepto que se fundamenta en la idea de que aquellas subpoblaciones que no presentan apareamiento entre sí tendrán frecuencias alélicas diferentes a las de la población total. La distancia genética también provee una manera de medir la probabilidad de encuentro entre alelos iguales (endogamia). Los índices estadísticos involucrados miden: FIS = la deficiencia o el exceso de heterocigotos promedio en cada población FST = el grado de diferenciación génica entre las poblaciones, en función de las frecuencias alélicas FIT = la deficiencia o el exceso de heterocigotos promedio en un grupo de poblaciones

Interpretación de valores FST El rango de FST es: 0

1

(no existe divergencia genética)

(fijación para alelos alternos en diferentes subpoblaciones)

Cuando FST es:

entonces la diferenciación genética es:

de 0 a 0.05 de 0.05 a 0.15 de 0.15 a 0.25 >0.25

pequeña moderada grande muy grande

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 23

Cálculo de los estadísticos F Frecuencia genotípica Pob. A1 A1

A1 A2

A2 A2

pi

qi

2piqi

F

1

0.40

0.30

0.30

0.55

0.45

0.4950

0.3939

2

0.60

0.20

0.20

0.70

0.30

0.4200

0.5238

HT

2(0.625)(0.375) = 0.4688

po

(0.55 + 0.70)/2 = 0.625

HI

(0.3 + 0.2)/2 = 0.25

qo

(0.45 + 0.30)/2 = 0.375

HS

(0.495 + 0.420)/2 = 0.4575 FIT = 1 – (0.25/0.4688) = 0.4667 FIS = 1 – (0.25/0.4575) = 0.4536 FST = 1 – (0.4575/0.4688) = 0.0241

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 24

(continúa en la siguiente) Esta diapositiva presenta un ejemplo de dos poblaciones y el análisis de un locus (A). Se calculan las frecuencias alélicas (p y q), al igual que sus promedios. También se calculan las variables HT, HI y HS, y se utilizan para calcular los estadísticos F. El análisis muestra una diferenciación baja en las frecuencias alélicas entre las dos poblaciones (FST). Podemos concluir que casi todo el déficit de heterocigotos se debió al apareamiento no aleatorio dentro de las poblaciones (FIS = 0.4536). F = índice de fijación (primera columna a la derecha del cuadro), que es la probabilidad de que los dos alelos de un individuo sean los mismos. Su cálculo debe hacerse sólo con marcadores codominantes. Si se hace con marcadores dominantes, el cálculo puede resultar sesgado.

Cálculo de los estadísticos F (continuación) Frecuencia genotípica Pob. A1 A1

A1 A2

A2 A2

pi

qi

2piqi

F

1

0.25

0.50

0.25

0.50

0.50

0.500

0.0000

2

0.80

0.10

0.10

0.85

0.15

0.255

0.6078

HT

2(0.675)(0.325) = 0.4388

po

(0.50 + 0.85)/2 = 0.675

HI

(0.5 + 0.1)/2 = 0.30

qo

(0.50 + 0.15)/2 = 0.325

HS

(0.500 + 0.255)/2 = 0.3775 FIT = 1 – (0.30/0.4388) = 0.3163 FIS = 1 – (0.30/0.3775) = 0.2053 FST = 1 – (0.3775/0.4388) = 0.1397

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 25

Este es otro ejemplo para el cual se siguieron los mismos procedimientos que en la diapositiva anterior. La diferenciación en las frecuencias alélicas entre las dos poblaciones parece mayor (FST = 0.1397), con solo un efecto moderado del apareamiento no aleatorio dentro de las poblaciones (FIS = 0.2053).

Análisis de varianza molecular (AMOVA) f AMOVA es un método que sirve para estudiar la variación molecular dentro de una especie f Se basa en un modelo jerárquico o anidado f Se diferencia de un análisis de varianza (ANOVA) en que: • Puede contener diferentes suposiciones evolutivas sin modificar la estructura básica del análisis • La hipótesis utiliza métodos de permutación que no requieren la suposición de una distribución normal

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 26

Los diferentes niveles jerárquicos de la diversidad génica, estudiados por medio del método AMOVA, pueden abarcar: 1.

Continentes, que pueden contener niveles jerárquicos menores

2.

Regiones geográficas dentro de un continente

3.

Zonas dentro de una región, en un continente

4.

Poblaciones dentro de una zona de una región, en un continente

5.

Individuos dentro de una población en una zona de una región, en un continente

En los Apéndices 2 y 3 está la descripción matemática del modelo para las situaciones 3 y 4, respectivamente. Para consultarlos, haga clic aquí. En las dos diapositivas que aparecen a continuación, se explica el modo de analizar la situación 4.

Un ejemplo de AMOVA Ind.

Pob. 1

Pob. 2

Pob. 3

X...k

15

21

18

54

A1

A2

A1

A2

A1

A2

X...k2

225

441

324

990

1

0

0

0

1

1

1

∑∑Xi...k2

27

33

28

88

2

1

1

0

1

1

1

∑∑∑Xijk2

15

21

18

3

0

0

1

1

0

1

X...2

4

1

0

1

0

1

1

5

0

0

0

1

0

1

6

0

0

0

1

0

0

7

1

1

1

1

1

1

8

0

0

1

1

0

0

9

1

0

1

1

1

0

10

1

1

1

0

0

1

11

1

0

0

1

1

1

12

0

0

1

1

1

0

54 2916

Sca

0.6

CMa

0.3

SCb

11

CMb

0.26190476

SCw

10

CMw

0.22222222

13

1

1

1

1

0

1

14

1

1

1

0

1

0

A1 = 1

Presente

15

1

1

0

1

1

0

A1 = 0

Ausente

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 27

(continúa en la siguiente) En este cuadro, aparecen los datos obtenidos con 15 individuos de cada una de las tres poblaciones, en un análisis realizado con un marcador codominante. Mediante un análisis de varianza, estos datos nos permitirán calcular los estadísticos F. El primer paso es convertir en variables binarias las bandas detectadas en los geles, asignándoles un valor de 0 ó de 1. Luego, se calculan las sumas de las presencias (1) para que podamos proceder con la suma de cuadrados. Se realizan primero los cálculos para una población y se continúa con las demás hasta completar (X...k). Tenemos i = 15 individuos (efecto b), j = 2 alelos (efecto w), k = 3 poblaciones (efecto a). Donde, X...k es el resultado de la suma de todas las bandas presentes en los individuos por población X...k2 es el resultado de elevar al cuadrado el número obtenido anteriormente ∑ ∑ Xi...k2 es el resultado de sumar los cuadrados de la suma de alelos presentes en cada individuo (por ejemplo, Indiv.1 en la Pob.1 será (0 + 0)2 + Indiv.2 en la Pob.1 (1 + 1)2 + Indiv. ...) ∑ ∑ ∑ Xijk2 es la suma de cada valor al cuadrado SC es la suma de los cuadrados para los efectos a, b y w Un ejemplo para calcular SC: SCa = ∑ X...k2/ij – X...2/ijk = [990/(15 x 2)] - [2916/(15 x 2 x 3)] = 0.6 CM son los cuadrados medios para los efectos a, b y w Un ejemplo para calcular CM: SCa/gla = 0.6/2 = 0.3, donde gla se refiere a los grados de libertad para el efecto a (poblaciones).

Un ejemplo de AMOVA (continuación) FV

gl

SC

CM

CME σw2

+ 2σb2 + 2*15σa2

Poblaciones

2

0.6

0.3

Indiv./población

42

11

0.26190476

σw2 + 2σb2

Dentro de indiv.

45

10

0.22222222

σw2

Cálculos de varianzas y estadísticos F σa2

0.0012698

σb2

0.0198413

σw2

0.2222222

σ2

0.24333

FIT

0.086758

FIS

0.0819672

FST

0.0052185

(1 - FIT)

0.91324

(1 - FIS)(1 - FST)

0.91324

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 28

Donde, FV = fuentes de variación gl = grados de libertad SC = la suma de los cuadrados (ver diapositiva anterior) CM = cuadrados medios (ver diapositiva anterior) σ2 = varianza total calculada CME = cuadrados medios esperados σw2 = 0.2222222 σb2 = (CMb – CMw)/2 = (0.26190476 – 0.22222222)/2 = 0.0198413 σa2 = (CMa – CMb)/2 ∗ 15 = (0.3 – 0.26190476)/2 ∗ 15 = 0.0012698 σ2 = σw2 + σb2 + σa2 = 0.24333 (varianza total calculada) En la diapositiva 22, ya se ha explicado la forma de calcular los estadísticos F. Para este ejemplo en particular, sería de la siguiente manera: FIT = (σa2 + σb2)/σ2 = (0.0012698 + 0.0198413)/0.24333 = 0.086758 FST = σa2/σ2 = 0.0012698/0.24333 = 0.0052185 FIS = σb2/(σb2 + σw2) = 0.0198413/(0.0198413 + 0.222222) = 0.0819672 La diferenciación de las frecuencias alélicas entre las tres poblaciones es muy baja (FST = 0.0052185) y probablemente es un resultado de muchos apareamientos al azar. Para sacar una conclusión, es necesario analizar un mayor número de loci.

Cuantificación de las relaciones genéticas: Diversidad y diferenciación a nivel de nucleótido f Usando datos de secuencia • •

Diversidad de nucleótidos dentro de una población Diversidad de nucleótidos entre poblaciones

f Usando datos de restricción • • •

Variaciones en los patrones de bandas Diversidad de nucleótidos dentro de una población Diversidad de nucleótidos entre poblaciones

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 29

Para realizar estos cálculos, se parte del supuesto de que cada nucleótido es un locus.

Utilización de datos de secuencia: Diversidad de nucleótidos dentro de una población

Mide la diversidad de nucleótidos entre varias secuencias en una región dada del genoma, dentro de una población (πX) πX = n/(n – 1)ΣXiXjπij

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 30

Donde, n = el número de secuencias analizadas en los individuos de la población Xi = la frecuencia estimada de la i-ésima secuencia en la población Xj = la frecuencia calculada de la j-ésima secuencia en la población πij = la proporción de nucleótidos diferentes entre las secuencias i y j • La medida brinda información acerca del grado de diversidad de nucleótidos entre varias secuencias, en una región dada del genoma. Equivale a la medida de la diversidad alélica dentro de un locus. • Varía de 0 a 1 (0 < πX < 1). • Entre los factores que limitan el uso de esta herramienta de análisis están los siguientes: Debe haber disponibilidad de secuencias genómicas parciales La ecuación sólo puede aplicarse a datos haploides Este parámetro da información acerca de las secuencias de nucleótidos, y el modelo supone la presencia de haplotipos (genotipos haploides). Aunque el estudio se basa en individuos diploides, es necesario secuenciar cada copia del genoma.

Cálculo de la diversidad de nucleótidos dentro de una población Secuencia

n

Frec. Xi

5

Sec1

TCC T CGAT T ATTC C CAGGGTGC C GATG A AT

5/10 = 0.5

2

Sec2

TCC A CGAT T ATTC G CAGGGTGC C GATG A AT

2/10 = 0.2

1

Sec3

TCC A CGAT C ATTC C CAGGGTGC A GATG G AT

1/10 = 0.1

2

Sec4

TCC G CGAT T ATTC T CAGGGTGC G GATG A AT

2/10 = 0.2

10

Π1,2 = 2/30, Π1,3 = 4/30, Π1,4 = 3/30, Π2,3 = 4/30, Π2,4 = 3/30, Π3,4 = 5/30

πX

= 10/(10 – 1)ΣXiXjπij = (10/9)[0.5 ∗ 0.2 ∗ (2/30) + 0.5 ∗ 0.1 ∗ (4/30) + ... + 1 ∗ 0.2 ∗ (5/30)] = 0.037

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 31

Este ejemplo presenta 10 individuos en una población X. Para cada individuo, analizamos una secuencia de 30 nucleótidos y observamos que las secuencias individuales difieren en 5 nucleótidos (azul). En total, en la población hay cuatro secuencias alternas para estos 30 nucleótidos. La primera columna muestra el número de individuos (n) que tienen cada una de las alternativas de secuencia. Calculamos el número de diferencias de nucleótidos en cada par de secuencias dentro de la población. Por ejemplo, Π1,2 = 2/30 significa que entre las secuencias 1 y 2 hay dos diferencias entre los nucleótidos (T versus A en la posición 4, y C versus G en la posición 14). Luego, calculamos πX para toda la población. El número obtenido es 0.037, o sea una diversidad de nucleótidos del 3.7%, con base en la secuencia analizada en la muestra de 10 individuos.

Utilización de datos de secuencia: Diversidad de nucleótidos entre poblaciones f VXY mide la divergencia poblacional con base en el grado de variación de la secuencia (1 secuencia, 2 poblaciones) VXY = dXY – (πX + πY)/2 f VW mide la diversidad promedio en una población con base en diversas secuencias VW = (1/s)ΣπX f Vb mide la diferenciación total en diversas poblaciones Vb = [1/(s(s – 1))]ΣXΣYVXY f NST es la diferenciación relativa NST = Vb/(Vb + VW) Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 32

Donde, VXY = la divergencia entre las poblaciones X y Y πX = la diversidad de nucleótidos en la población X dXY = la probabilidad de que dos nucleótidos al azar, en las poblaciones X y Y, sean diferentes s = el número de poblaciones • La medida brinda información acerca del nivel de diferenciación entre secuencias de nucleótidos en las poblaciones. • Requiere datos de secuencia en una muestra de individuos para cada población. • Necesita programas informáticos específicos con atributos que permitan la alineación de secuencias, por ejemplo CLUSTAL W, MALIGN y PAUP*.

Cálculo de la diversidad de nucleótidos entre poblaciones Divergencia de nucleótidos entre X y Y VXY = dXY – (πXπY)/2 = 0.14 – (0.037 + 0.09)/2 = 0.0765 Diferenciación total Vb = [1/(s(s – 1))]ΣXΣYVXY = [1/(2(2 – 1))]0.0765 = 0.03825 Diversidad promedio en cada población VW = (1/s)ΣπX = ½(0.037 + 0.09) = 0.0635 Diferenciación relativa NST = Vb/(Vb + VW) = 0.03825/(0.03825 + 0.0635) = 0.3759 Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 33

Digamos que tenemos otra población Y en la cual la diversidad de nucleótidos para la misma secuencia analizada en la diapositiva 31 es πY = 0.09. También sabemos que la probabilidad de que dos nucleótidos tomados al azar sean diferentes en X y Y es de 0.14 (dXY). En esta diapositiva, presentamos la divergencia entre las poblaciones X y Y (VXY), la diferenciación total (Vb), la diversidad promedio en cada población (Vw) y la diferenciación relativa (NST)..

Utilización de datos de restricción: Variaciones en patrones de bandas Sitio de restricción EcoRI Fragmento 1

Fragmento 2

ADN Indiv. 1

…GACTGAATTCCACGGCACTGACGAATTCGA…AGTGAATTCTTACTTAAGCTAGCCTGAATTCGATAC… …CTGACTTAAGGTGCCGTGACTGCTTAAGCT…TCACTTAAGAATGAATTCGATCGGACTTAAGCTATG…

ADN Indiv. 2

…GACTGATTTCCACGGCACTGACGAATTCGA…AGTGAATTCTTACTTAAGCTAGCCTGAATTCGATAC… …CTGACTAAAGGTGCCGTGACTGCTTAAGCT…TCACTTAAGAATGAATTCGATCGGACTTAAGCTATG…

Fragmento 2

No existe sitio de reconocimiento para EcoRI

M

I1

I2 Fragmento 2 Fragmento 1

Gel

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 34

La ausencia del fragmento 1 en el Individuo2 indica que porta una secuencia diferente de ADN, al menos en este sitio de restricción. Basta una pequeña diferencia de apenas dos nucleótidos, en el dibujo, para hacer que desaparezca el sitio de reconocimiento para la enzima.

Utilización de datos de restricción: Diversidad de nucleótidos dentro de una población

Esta medición (π) se basa en el número de fragmentos de restricción presentes en dos muestras π = - (1/r)ln G (si π < 5%)

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 35

Donde, r = el número de nucleótidos de reconocimiento de una enzima de restricción ln G = el logaritmo natural de la probabilidad de que no hubo substitución en el sitio de restricción. Se calcula del siguiente modo: G = F(3 – 2Gº)1/4 F = [∑Xi(Xin – 1)]/[∑Xi(n – 1)] F = la proporción de fragmentos compartidos Gº = F1/4 n = el número de genotipos haploides en la población Xi = la frecuencia estimada del i-ésimo fragmento en la población • La medida estima la diversidad en los sitios de restricción en una muestra, porque depende de la secuencia de nucleótidos de los sitios de reconocimiento de una enzima de restricción dada. • Suministra información acerca de la substitución de nucleótidos en los sitios de restricción. Varía de 0 a 1 (0 ≤ πX ≤ 1). • Las ecuaciones anteriores pueden utilizarse con muestras haploides, ADNmt, ADNcp o haplotipos. Referencia Karp, A., P. G. Isaac y D. S. Ingram. 1998. Molecular Tools for Screening Biodiversity: Plants and Animals. Chapman & Hall, Londres.

Utilización de datos de restricción: Diversidad de nucleótidos entre poblaciones f Esta medición (VXY) indica la divergencia o diferenciación entre poblaciones, con base en los datos de restricción VXY = dXY – (πX + πY)/2 f También se utiliza esta medida con datos de marcadores RAPD

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 36

Donde, VXY = la divergencia o diferenciación entre las poblaciones X y Y πX = la diversidad de la restricción en la población X dXY = la diversidad de fragmentos entre dos poblaciones = – (2/r)ln (GXY) GXY = FXY(3 – 2GºXY)1/4 Gº = FXY1/4 FXY = la proporción de alelos compartidos entre las poblaciones X y Y = (2ΣXiXXiY)/(Σ(XiX + XiY)) XiX = la frecuencia calculada del fragmento i en la población X •

•

Calcula la diversidad en los sitios de restricción de una muestra de dos poblaciones o más. Brinda información acerca de la substitución de nucleótidos en los sitios de restricción. Resultan prácticos los programas informáticos como BIOSYS y GENEPOP. Los datos obtenidos son considerados como pertenecientes a organismos haploides.

Si se utiliza con datos de RAPD, el valor de ‘r’ es reemplazado por la longitud del cebador (r = 10). Se hacen, además, ciertas suposiciones: Que se emplean los cebadores apropiados Que el polimorfismo originado por inserción o deleción es poco común Que los fragmentos de tamaño similar en poblaciones diferentes pertenecen al mismo locus Que se deben identificar los fragmentos sin error Los programas que más se usan son RAPDISTANCE y RAPDIS.

Cálculo de la diversidad de nucleótidos entre poblaciones P o b l a c i ó n

Sec.

1

2

3

4

5

6

7

8

9

10

11

12

P o b l a c i ó n

15

16

17

18

19

20

Frec. Xi

A2

5/20 = 0.25

A3

9/20 = 0.45

F = [0.30(0.30 ∗ 3 – 1) + 0.25(0.25 ∗ 3 – 1) + 0.45(0.45 ∗ 3 – 1)] = 0.0325 0.30(3 – 1) + 0.25(3 – 1) + 0.45(3 – 1) G = 0.0325[3 – 2(0.424591)]1/4 = 0.039358

πX = -(1/6) ln (0.039358) = 0.539176

Sec.

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

Frec. Xi

A1

5/20 = 0.25

A2

13/20 = 0.65

A3

2/20 = 0.10

F = [0.25(0.25 ∗ 3 – 1) + 0.65(0.65 ∗ 3 – 1) + 0.10(0.10 ∗ 3 – 1)] = 0.2425 0.25(3 – 1) + 0.65(3 – 1) + 0.10(3 – 1) G° = (0.2425)1/4 = 0.701743

Y

14

6/20 = 0.30

G° = (0.0325)1/4 = 0.424591 X

13

A1

G = 0.2425[ 3 – 2(0.701743)]1/4 = 0.272587

πY = -(1/6) ln (0.272587) = 0.216633

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 37

En cada población, detectamos tres fragmentos de ADN, como resultado de una restricción: A1, A2 y A3. La diversidad de nucleótidos en las regiones analizadas es más grande en la población X (πX = 0.5392) que en la población Y (πY = 0.2166); por tanto, X tiene mayor diversidad génica que Y. Entre las poblaciones X y Y, la diferenciación de nucleótidos con base en los sitios de restricción es de 0.230766.

2[0.30*0.25+0.25*0.65+0.45*0.10] F = (0.30+0.25)+ (0.25+0.65)+ (0.45+0.10) = 0.14125

(

)

1/4 G°XY = 0.14125 = 0.613052

[

]1/ 4 = 0.163012

GXY = 0.14125 3 − 2(0.613052)

dXY = −(2 / 6 )ln(0.163012) = 0.604643 VXY = 0.604643 − 1 (0.539176 + 0.216633) = 0.226739 2 VW = 1 (0.539176 + 0.216633) = 0.377905 2 Vb = 1 (0.226739) = 0.11337 2 NST =

0.11337 0.11337 + 0.377905

= 0.230766

Cuantificación de las relaciones genéticas: Distancia genética

f La distancia genética entre dos muestras se describe como la proporción de elementos genéticos (alelos, genes, gametos, genotipos) que no son compartidos por ambas muestras f D = 1 cuando, y solamente cuando, las dos muestras no tienen elementos genéticos en común

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 38

Según las similitudes de los individuos, son posibles tres tipos de representación de la distancia (D): • D = 1 – S, conocida como la distancia lineal porque asume que la relación con la similitud es lineal. • D = √(1 – S), conocida como la distancia cuadrática porque asume que la relación con la similitud se ajusta a una función cuadrática, de manera que para volverla lineal es necesario calcular la raíz cuadrada. • D = √(1 – S2), conocida como la distancia circular.

R

Linear Lineal

Circular

Quadratic

1

Cuadrátic a

1

0.6 0.4 0.2

1 0.8

0.8

Distancia

D is ta n c ia

D is ta n c ia

0.8

0.6 0.4 0.2

0

0.2

0.4

0.6

Similitud

0.8

1

0.4 0.2

0

0

0.6

0

0.2

0.4

0.6

Similitud

0.8

1

0 0

0.2

0.4

0.6

Similitud

0.8

1

Modelos de distancia El cálculo de la distancia o disimilitud se ajusta a uno de estos dos modelos posibles: Modelo de equilibrio

Modelo de desequilibrio

t

t d

t+1

d1 t+1

d

d2

La distancia permanece constante con el tiempo (existe equilibrio entre la migración y la deriva genética)

La distancia cambia con el tiempo, a través de la migración y la deriva genética

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 39

Para nuestros propósitos, emplearemos el modelo de desequilibrio. Existen dos alternativas: •

Distancia geométrica − No considera los procesos evolutivos − Se basa solamente en las frecuencias alélicas − Existe una relación compleja entre la distancia y el tiempo de divergencia

•

Distancia genética − No considera los procesos evolutivos − La distancia aumenta a partir del momento de separación de una población ancestral − Requiere un modelo genético de evolución

¿Cuándo debemos emplear la distancia geométrica y cuándo la distancia genética? • La distancia geométrica se emplea para estudios de diversidad en los cuales se hacen comparaciones según los datos morfológicos o de marcadores recopilados de las unidades taxonómicas operativas (UTO). Las UTO pueden ser individuos, accesiones o poblaciones. La distancia geométrica puede utilizarse con marcadores dominantes (RAPD, AFLP) o codominantes. Dado que no se consideran los aspectos evolutivos, los dendrogramas obtenidos no pueden interpretarse como árboles filogenéticos que suministran información acerca de la evolución o divergencia entre grupos. • Por el contrario, la distancia genética de cualquier UTO dada puede incorporarse en estudios filogenéticos. El modelo contempla las frecuencias alélicas en las UTO y su fundamento matemático es diferente. Puede utilizarse con marcadores codominantes y dominantes; no obstante, con éstos últimos, se pierde información porque solamente se pueden calificar dos alelos. La distancia genética con marcadores dominantes requiere que se examinen dos generaciones de la misma población para medir la segregación de los loci (Lynch y Milligan, 1994). Referencia Lynch, M. y B. G. Milligan. 1994. Analysis of population genetic structure with RAPD markers. Mol. Ecol. 3:91-99.

Modelos de desequilibrio: Distancia geométrica f Mide la relación directa entre el índice de similitud (s) y la distancia (D = 1 – s) f Son posibles diferentes situaciones; por ejemplo: • • • •

Variables binarias Variables cuantitativas Tipos mixtos de variables Número P de variables

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 40

(continúa en la siguiente) Al analizar datos moleculares, tratamos con variables binarias (1,0). Estas se discutirán en las diapositivas que aparecen a continuación. En el Apéndice 4, hay información adicional sobre aquellos casos en los cuales es necesario utilizar también variables cuantitativas, tipos mixtos de variables y un número diverso de variables. En el Apéndice 5, se ha agregado un ejemplo sobre cómo calcular las distancias geométricas con variables cuantitativas. Para consultar los Apéndices 4 y 5, haga clic aquí.

Distancia geométrica (continuación) Con variables binarias: •

• • •

Se emplea el análisis multivariado y se elaboran matrices de similitud o diferenciación entre los posibles pares de individuos o unidades taxonómicas operativas (UTO) Dos individuos similares tienen, simultáneamente, el valor mínimo de distancia y el valor máximo de similitud La distancia y la similitud están inversamente relacionadas La similitud se calcula por el número de coincidencias

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 41

Al emplear datos de marcadores moleculares y transformarlos en datos binarios, hay que tener en cuenta los siguientes aspectos: • El número de ploidía de una especie puede ocultar la presencia de series alélicas en un locus. Si esto sucede, se subestimará la diversidad genética al emplear marcadores dominantes (presencia/ausencia). • Si un marcador es codominante, se necesitan muestras de gran tamaño para que se puedan detectar todos los genotipos posibles, especialmente si hay varios alelos por locus. • Son comunes las distorsiones de segregación en las especies poliploides. • La mayoría de los programas de informática especializados están diseñados para analizar especies diploides. Por lo tanto, si se usan con especies poliploides, puede haber sesgos en la estimación de los diversos índices de diversidad genética. • El sistema reproductivo de ciertas especies no ha sido estudiado, de manera que no se conoce lo suficiente acerca de su tipo de herencia. • Para obtener estimaciones confiables de diversidad genética, se debe muestrear y analizar la mayor cobertura posible (regiones de codificación y de no codificación) del genoma de la especie en estudio.

Cálculo de frecuencias alélicas para diploides y tetraploides: Marcador dominante Individuos 17 18

M

1

2

3

4

5

6

7

8

9

10

11

12 13

14 15

16

M

1

2

3

4

5

6

7

8

9

10

11

12 13

14 15

16 17 18

1

1

0

1

1

1

1

0

1

1

1

0

1

1

1

0

1

1

1

1

0

1

1

1

1

0

1

1

1

0

1

1

1

0

1

1

Locus A diploide (2X) Locus A tetraploide (4X)

Matriz binaria

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 42

En este ejemplo, 18 individuos de una especie diploide y 18 de una especie tetraploide fueron analizados con un marcador dominante. Los patrones de bandas obtenidos son similares. En ambos casos, las bandas se convierten en un cuadro binario. Los cálculos de frecuencias están abajo. Observamos que, por ejemplo, en el tetraploide, el genotipo 1 puede ser AAAA, AAAa, AAaa o Aaaa; pero la banda se leerá como presente (1) al igual que en el diploide (AA o Aa). Locus

A (2X)

A (4X)

Genotipos

Frec. alélica

Diploide

AA, Aa

aa

Total

Frec. geno. (esp.)

p2 + 2pq

q2

1

No. de indiv.

14

4

18

Frec. geno. (obs.)

P1 = 0.78

P2 = 0.22

Tetraploide

AAAA, AAAa, AAaa, Aaaa

Frec. geno. (esp.)

p

q

1

0.53

0.47

aaaa

Total

p

q

p4 + 4p3q + 6p2q2 + 4pq3

q4

1

No. de indiv.

14

4

18

Frec. geno. (obs.)

P1 = 0.78

P2 = 0.22

1

0.31

0.69

En ambos casos, las frecuencias alélicas deben ser diferentes. No obstante, la pérdida de información en el individuo tetraploide es significativa. ¿A qué se debe esto? A que para calcular la frecuencia del alelo recesivo a, no se consideran los heterocigotos AAAa, Aaaa y Aaaa. Este efecto es mucho mayor cuando no se conoce el número de ploidía de la especie en estudio (esp. = valor esperado; obs. = valor observado).

Cálculo de frecuencias alélicas para diploides y tetraploides: Marcador codominante 7

4

5

6

8

Individuos 9 10 11

12 13

14

15

16 17 18

12

14

15

16 17 18

A2 A3

6

A1 A2

5

A2 A2

4

A3 A3

3

A1 A1

Locus A diploide (2X)

2

A1 A3

1

M

3

A3 A3 A3 A3

2

A1 A2 A3 A3

A1 A1 A2 A3

1

M Matriz binaria diploide

A1 A2 A2 A3

A1 A1 A1 A1

Locus A tetraploide (4X)

7 I

N

8

9

D I

V

10 I

D

11 U O

13

S

(1,0,0) (1,0,1) (0,0,1) (1,0,1) (0,1,1) (1,0,0) (1,0,1) (0,0,1) (0,0,1) (0,1,0) (1,1,0) (0,0,1) (0,0,1) (0,0,1) (0,0,1) (0,1,1) (1,0,1) (0,0,1)

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 43

En este ejemplo, hay 18 individuos de una especie diploide y 18 de una especie tetraploide analizados utilizando un marcador codominante. En ambas situaciones, se detecta un locus (A) con tres alelos (A1, A2 y A3). El cálculo de las frecuencias alélicas en los individuos diploides no es difícil (matriz binaria, parte inferior de la diapositiva). Sin embargo, con individuos tetraploides, se dificulta la conversión a datos binarios debido a que aquellos que portan los alelos A1 A1 A2 A3 no pueden diferenciarse de los que tienen otras combinaciones como A1 A2 A2 A3 o A1 A2 A3 A3. Esta situación solamente puede ser resuelta por inferencia, con base en el cálculo del número de copias del fragmento de ADN en el gel.

Genotipo

A1 A1

A1 A2

A1 A3

A2 A2

A2 A3

A3 A3

Tota l

Frec. geno. (esp.)

p2

2pq

2pr

q2

2qr

r2

1

Indiv. (no.)

2

1

4

1

2

8

18

Frec. geno. (obs.)

P11 = 0.11

P12 = P13 = P22 = P23 = P33 = 0.06 0.22 0.06 0.11 0.44

(esp. = valor esperado; obs. = valor observado).

1

p

q

r

0.25

0.15

0.60

Coeficientes de similitud para variables binarias: Ejemplos Ejemplo del valor del coeficiente si a = 3, b = 1, c = 3, d = 2

Autor

Expresión

S1

Russel y Rao (1940)

a/n

0.333

S2

Simpson

a/min[(a + b),(a + c)]

0.750

S3

Braun-Blanquet

a/max[(a + b),(a + c)]

0.500

S4

Dice (1945); Nei y Li (1979)

a/[a + (b + c)/2]

0.600

S5

Ochiai (1957)

a/[(a + b)(a + c)]1/2

0.612

S6

Kulczynski 2

(a/2)([1/(a+b)] + [1/(a+c)])

0.625

S7

Jaccard (1900, 1901, 1908)

a/(a + b + c)

0.429

S8

Sokal y Sneath 5 (1963)

a/[a +2(b + c)]

0.273

S9

Kulczynski 1 (1928)

a/(b + c)

0.750

S10

Sokal y Michener (1958)

(a + d)/n

0.556

S11

Rogers y Tanimoto (1960)

(a + d)/[a + d + 2(b + c)]

0.385

S12

Sokal y Sneath 1 (1963)

(a + d)/[a + d + (b + c)/2]

0.714

S13

Sokal y Sneath 3 (1963)

(a + d)/(b + c)

1.250

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 44

Indiv.j

Indiv.i

1

0

1

a

b

a+ b

0

c

d

c+d

a+c

b+d

n

Donde, n=a+b+c+d En el cuadro de la diapositiva, observamos que: Los índices S1 a S9 dan valor solamente a la presencia de información Los índices S10 a S13 dan valor tanto a la presencia de información como a su ausencia A continuación, discutiremos tres índices (los que aparecen en rojo en la diapositiva): Concordancia Simple (S10), Jaccard (S7) y Nei-Li (S4).

Índices de distancia geométrica Coeficiente de concordancia simple: (a + d)/(a + b + c + d) Coeficiente de Jaccard: a/(a + b + c) Coeficiente de Nei-Li, o de Dice: 2a/(2a + b + c) Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 45

Estos tres índices difieren en su enfoque para estimar el número de coincidencias y diferencias. El Coeficiente de Concordancia Simple considera que la ausencia corresponde a loci homocigóticos. Puede usarse con datos de marcadores dominantes (RAPD y AFLP), por cuanto las ausencias podrían corresponder a recesivos homocigóticos. En el Apéndice 6 se da un ejemplo de aplicación del Coeficiente de Concordancia Simple para variables categóricas (haga clic aquí). El Coeficiente de Jaccard solamente cuenta las bandas presentes para cualquiera de los individuos (‘i’ o ‘j’). Las ausencias dobles se consideran como datos ausentes. Si se presentan falsos positivos o falsos negativos, la estimación del índice tiende a ser sesgada. Puede aplicarse con datos de marcadores codominantes. El Coeficiente de Nei-Li cuenta el porcentaje de bandas compartidas entre dos individuos y le da más importancia a aquellas bandas presentes en ambos. Considera que la ausencia tiene menor importancia biológica y, de esta manera, este coeficiente tiene un significado completo en función de la similitud del ADN. Puede aplicarse con datos de marcadores codominantes (RFLP, SSR).

Modelos de desequilibrio: Distancia genética

f Mide la diferencia entre dos genes, proporcional al tiempo de separación de un ancestro común f Varios modelos son posibles: • Mutación de alelos infinitos p. ej. Distancia genética de Nei • Modelo de mutación gradual p. ej. Distancia con microsatélites • Mutación en la secuencia de nucleótidos

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 46

•

Mutación de alelos infinitos (isoenzimas) – Cada mutación da origen a un alelo nuevo. – Si 2 genes son iguales, no ha habido mutación. Si 2 genes son diferentes, se presentó un número desconocido de mutaciones. – El número promedio de mutaciones desde el momento t, cuando divergieron de un ascestro es = 2tµ, donde µ es la tasa de mutación y se multiplica por 2 porque estamos tratando con 2 genes independientes. – La probabilidad de que 2 genes provengan de un mismo progenitor después del momento t es de P= e-2tµ.

•

Modelo de mutación gradual (SSR) – La mutación es un cambio progresivo de tal manera que los fragmentos que migran distancias similares han experimentado pocas mutaciones. – En el caso de las SSR, se asume que la mutación modifica el número de repeticiones, aumentando o disminuyendo paso a paso. Puede mostrarse que el cuadrado de la diferencia en el número de repeticiones entre 2 microsatélites es proporcional al momento de divergencia de un ancestro común.

•

Mutación en la secuencia de nucleótidos – Indica que la substitucion más sencilla es la mutación de una base única. – La limitación principal es la pérdida de informacion por desconocer el número de mutaciones que podrían haber ocurrido en un sitio. Para resolver ese problema, algunos métodos asumen la probabilidad de transición (purina → purina o pirimidina → pirimidina) y de transversión (purina → pirimidina o pirimidina → purina).

Cálculo de la distancia genética de Nei f La distancia genética estándar de Nei es:

DXY = −ln (IXY) f Se basa en el concepto de identidad genética (IXY):

Ixy =

Jxy (JxJy)

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 47

(continúa en la siguiente) Donde, JX = la homocigosidad promedio en la población X JY = la homocigosidad promedio en la población Y JXY = la homocigosidad promedio entre poblaciones De manera que, IXY = 1, si dos poblaciones tienen las mismas frecuencias alélicas en todos los loci muestreados IXY = 0, si dos poblaciones no comparten las mismas frecuencias alélicas en todos los loci muestreados • El valor de DXY varía de 0 (donde las poblaciones tienen frecuencias alélicas idénticas) a infinito (∞, donde las poblaciones no comparten ningún alelo). • Asume que la tasa de substitución por locus es igual entre todos los loci y las poblaciones. • Esta distancia calcula las diferencias de codones por locus entre dos poblaciones.

Cálculo de la distancia genética de Nei (continuación) Locus

Alelos

Frecuencias alélicas Población 1

Población 2

Población 3

A1

0.80

0.74

0.65

A2

0.20

0.26

0.35

Heterocigosidad del locus

hijk

0.3200

0.3848

0.4550

B

B1

0.86

0.81

1.00

B2

0.01

0.10

0.00

B3

0.13

0.09

0.00

Heterocigosidad del locus

hijk

0.2434

0.3258

0.0000

D

D1

0.00

1.00

0.30

D2

1.00

0.00

0.70

Heterocigosidad del locus

hijk

0.0000

0.00

0.4200

Heterocigosidad promedio

Hi

0.0433

0.0547

0.0673

Homocigosidad promedio

Ji

0.9567

0.9453

0.9327

Homocig. prom. entre poblac.

Jii’

J1,2 = 0.8733

J1,3 = 0.9346

J2,3 = 0.8986

Identidad genética

Iii’

I1,2 = 0.9183

I1,3 = 0.9894

I2,3 = 0.9570

Distancia genética

Dii’

D1,2 = 0.0852

D1,3 = 0.0107

D2,3 = 0.0440

A

Derechos de Autor: IPGRI y Cornell University, 2004

Medidas de diversidad 48

En este ejemplo hay i = 3 poblaciones, j = 3 loci polimórficos y 10 loci monomórficos. Además, hay diferentes números (K) de alelos por locus (por ejemplo, A y D tienen 2 alelos cada uno y B, 3 alelos). En el cuadro aparecen los resultados del cálculo de las frecuencias alélicas en cada población, así como la heterocigosidad por locus. A continuación, calculamos la heterocigosidad y la homocigosidad promedio (1 - heterocigosidad) por población. Luego, calculamos la homocigosidad entre poblaciones y la identidad genética para estimar la distancia genética de Nei: jii’jk = Σii’j pijk pi’jk, por ejemplo, j1,2jk = la homocigosidad entre las poblaciones 1y2 j1,2jk = (0.8)(0.74) + (0.2)(0.26) + (0.86)(0.81) + (0.01)(0.10) + (0.13)(0.09) + (0.0)(1.0) + (1.0)(0.0) + 10 = 11.3533 J1,2 = la homocigosidad promedio entre poblaciones = j1,2jk/13 = 11.3533/13 = 0.8733 I1,2 = la identidad genética entre las poblaciones 1 y 2 = J1,2/√(J1J2) = 0.8733/√(0.9567 ∗ 0.9453) = 0.9183 D1,2 = la distancia genética entre las poblaciones 1 y 2 = -ln(I1,2) = -ln(0.9183) = 0.0852 Puesto que aún no hemos explicado los métodos de agrupación, en el Apéndice 7 presentamos la matriz de distancia y el dendrograma de este ejemplo (haga clic aquí).

Cálculo de la distancia dentro de una población, usando microsatélites f La distancia dentro de una población es el promedio de la suma de los cuadrados de las diferencias en número de repeticiones entre alelos

Swi =

2 2 ∑i