GUÍA RÁPIDA DEL PROGRAMA NTSYSpc ver.2.20n

GUÍA RÁPIDA DEL PROGRAMA NTSYSpc ver.2.20N. Programa de análisis multivariante específicamente diseñado para estudios de caracterización de germoplasm

237 downloads 137 Views 5MB Size

Story Transcript

GUÍA RÁPIDA DEL PROGRAMA NTSYSpc ver.2.20N. Programa de análisis multivariante específicamente diseñado para estudios de caracterización de germoplasma vegetal.

Curso Intensivo de Postgrado. UACH. México 2014.

Fernando González Andrés.

Curso Intensivo de Postgrado. UACH. México 2014.

Fernando González Andrés.

INDICE DEL CONTENIDO 1. APLICACIÓN A DATOS FENOTÍPICOS MORFOLÓGICOS O MOLECULARES: MULTI-ESTADO CUALITATIVOS O CUANTITATIVOS, O DOBLE-ESTADO. Pg. 5 1.1. PREPARACIÓN DE LA MATRIZ BÁSICA DE DATOS.

Pg. 5

1.2. ESTANDARIZACIÓN Y TRANSFORMACIONES EN LA MATRIZ BÁSICA DE DATOS.

Pg. 6

1.2.1. Opción 1. Utilizar el módulo “Standardization” de NTSYS.

Pg. 6

1.2.2. Opción 2. Utilizar el módulo “Transformation” de NTSYS.

Pg. 7

1.3. ANÁLISIS DE COMPONENTES PRINCIPALES (DATOS CUANTITATIVOS).

Pg. 8

1.3.1.

Obtener una matriz de correlación entre caracteres o de varianzas – covarianzas. Pg. 8 1.3.1.1. Opción 1: Calcular una matriz de correlación entre caracteres Pg. 8 1.3.1.2. Opción 2: Calcular una matriz de varianzas – covarianzas.

Pg. 9

1.3.2.

Obtener los Componentes Principales sin rotar y el gráfico de las saturaciones factoriales Pg. 10

1.3.3.

Obtener los Componentes Principales rotados y el correspondiente gráfico de saturaciones factoriales. Pg. 12

1.3.4.

Proyectar cada una de las UBC sobre los tres o dos primeros componentes principales. Pg. 16

1.4. ANÁLISIS DE AGRUPAMIENTOS PARA DATOS MULTI-ESTADO.

Pg.19

1.4.1. Agrupamiento en base a todos los caracteres analizados, cuando éstos son de tipo multi-estado cualitativo o cuantitativos. Pg.19 1.4.1.1. Estandarización y otras transformaciones en la matriz básica de datos. Pg.19 1.4.1.2. Determinar la matriz de similitud entre las UBC.

Pg.19

1.4.1.3. Calcular y dibujar el dendrograma.

Pg. 20

1.4.2. Agrupamiento en base a los primeros componentes principales (los que recogen una mayor variabilidad). Pg. 22 1.4.2.1. Determinar la matriz de similitud entre las UBC.

Pg. 22

1.4.2.2. Calcular y dibujr el dendrograma y dibujarlo.

Pg. 23

1.5. ANÁLISIS DE AGRUPAMIENTOS PARA DATOS DOBLE-ESATDO).

Pg. 23

1.5.1. Determinar la matriz de similitud entre las UBC.

Pg. 23

1.5.2. Calcular y dibujar el dendrograma.

Pg. 24

Curso Intensivo de Postgrado. UACH. México 2014.

Fernando González Andrés.

2. APLICACIÓN A MARCADORES MOLECULARES CODOMIENTANTES INTERPRETADOS GENÉTICAMENTE.. Pg. 25 2.1. OBTENCION DE LAS FRECUENCIAS ALÉLICAS.

Pg. 25

2.1.1. Preparación de la matriz básica de datos con 0/1/2

Pg. 25

2.1.2. Obtención de las frecuencias alélicas

Pg. 30

2.2. DETERMINAR LA MATRIZ DE SIMILITUD GENÉTICA ENTRE LAS 2.3. CALCULAR Y DIBUJAR EL DENDROGRAMA

Pg. 32

3. TEMAS COMPLEMENTARIOS.

Pg. 33

3.1. VISUALIZACIÓN E IMPRESIÓN DE CUALQUIER ARCHIVO GENERADO POR ALGUNO DE LOS SUBPOGRAMAS. Pg. 33 3.2. VOLVER A DIBUJAR DENDROGRAMA O PROYECCIONES DE UBC SOBRE COMPONENTES PRINCIPALES.

Pg. 34

3.3. VALIDACIÓN DEL ANÁLISIS DE CONGLOMERADOS

Pg. 36

3.3.1. Cuantificación de la distorsión debida al método de agrupación empleado mediante la elaboración de la matriz cofenética. Pg. 36 3.3.1.1. Calcular la matriz de cofenética (matriz diagonal) a partir del fenograma. Pg. 36 3.3.1.2. Comparar la matriz de similitud original y la matriz cofenética. Pg. 36 3.3.2. Comparación de la similitud entre diferentes métodos de caracterización.

Pg. 38

3.3.2.1. Opción 1: Comparar las matrices de similitud.

Pg. 38

3.3.2.2. Opción 2: Medir la coincidencia entre las estructuras taxonómicas derivadas de las matrices de similitud. Pg. 39 3.3.3. Métodos de remuestreo en las matrices de datos: Bootstrapping. 3.3.3.1. Obtención de las matrices remuestreadas

Pg. 40 Pg. 40

3.3.3.2. Obtención de una matriz de similitud por cada una de las matrices remuestreadas. Pg. 41 3.3.3.3. Obtención de la matriz de similitud promedio.

Pg. 42

3.3.3.4. Calcular y dibujar el dendrograma a partir de la matriz de similitud promedio. Pg. 43

Curso Intensivo de Postgrado. UACH. México 2014.

Fernando González Andrés.

1. APLICACIÓN A DATOS FENOTÍPICOS MORFOLÓGICOS O MOLECULARES: MULTI-ESTADO CUALITATIVOS O CUANTITATIVOS, O DOBLE-ESTADO. 1.1. PREPARACIÓN DE LA MATRIZ BÁSICA DE DATOS. Puede prepararse en el “Editor de NTSYS” (Ntedit) o en un archivo de MS Excel (recomendado). El programa por defecto considera que se situarán las Unidades Básicas de Caracterización (UBC) en columnas y los caracteres en filas. Pero puede hacerse al revés, como en el presente ejemplo. Tipo de matriz: Ver en Help Contents / Data File /File format Nº de filas, en este ejemplo UBC. Nº de columnas, en este ejemplo caracteres. Si faltaran datos aquí iría el código correspondiente a los datos que faltan (habitualmente “999”).

Curso Intensivo de Postgrado. UACH. México 2014.

Fernando González Andrés.

1.2. ESTANDARIZACIÓN Y TRANSFORMACIONES EN LA MATRIZ BÁSICA DE DATOS. Si fuese necesario estandarizar la matriz de datos, la estandarización se haría por caracteres, ya que lo que se pretende es que los valores de todos los caracteres varíen entre los mismos límites. En función de cómo se haya construido la matriz básica de datos, la estandarización se hará por filas o por columnas. 1.2.1. Opción 1. Utilizar el módulo “Standardization” de NTSYS. y'  Es un módulo que permite realizar transformaciones lineales del tipo:

y  substract option divide option

Para acceder a dicho módulo se entrará en los siguientes enlaces Transformation/Standardization

Las diferentes opciones de “substract option” y “divide option” pueden consultarse en Help / Parameters Curso Intensivo de Postgrado. UACH. México 2014.

Fernando González Andrés.



1. 2.2. Opción 2. Utilizar el módulo “Transformation” de NTSYS. Es un módulo que permite realizar todo tipo de transformaciones, como por ejemplo transformaciones logarítimicas. Para acceder a dicho módulo se entrará en los siguientes enlaces Transformation/Transformation



Curso Intensivo de Postgrado. UACH. México 2014.

Fernando González Andrés.

Las diferentes opciones de “Transformation codes” pueden consultarse en Help /

Parameters

1.3. ANÁLISIS DE COMPONENTES PRINCIPALES (DATOS CUANTITATIVOS). 1.3.1.

Obtener una matriz de correlación entre caracteres o de varianzas – covarianzas.

1.3.1.1. Opción 1: Calcular una matriz de correlación entre caracteres -

Estandarizar la matriz básica de datos por caracteres (ver punto 2).

-

Calcular la matriz de correlación entre los caracteres. La matriz de correlación es un tipo de matriz de similitud, y su cálculo se hará a partir de la matriz básica de datos estandarizada, operando por filas o por columnas en función de la estructura que se dio a la matriz de datos, teniendo en cuenta que la similitud se calcula entre caracteres. Para calcular una matriz de correlación se utiliza el módulo “Dis/similarity” utilizando los siguientes enlaces Dis/similarity / interval data Para calcular la matriz de correlación, el coeficiente a utilizar será el de correlación Momento – Producto de Pearson.



Curso Intensivo de Postgrado. UACH. México 2014.

Fernando González Andrés.

1.3.1.2. Opción 2: Calcular una matriz de varianzas – covarianzas. En este caso se dan mayores pesos a las variables que presentan varianzas mayores. Sin embargo de nuevo esto implica que las variables o caracteres sean medidas en unidades comparables por lo que es necesario algún tipo de transformación como la estandarización o la transformación logarítmica. En un estudio morfométrico convencional mediante ACP basado en la matriz de varianzas–covarianzas de los caracteres, los pasos a realizar son los siguientes:  Realizar la transformación logarítimica de la matriz básica de datos (ver punto 2).  Calcular la matriz de varianzas – covarianzas de los caracteres.



Curso Intensivo de Postgrado. UACH.Mxico México2012. 2014. Postgrado UACH.

Fernando González Andrés.

1.3.2. Obtener los Componentes Principales sin rotar y el gráfico de saturaciones factoriales.

 *

* * Si se está trabajando con la matriz de varianzas – covarianzas, aquí se introducirá dicha matriz La pantalla resultante es la que se presenta a continuación.

Curso Intensivo de Postgrado. UACH. México 2014.

Fernando González Andrés.

A partir del documento de salida anterior deben imprimirse directamente los eigen – valores (valores propios) correspondientes a cada uno de los componentes principales, y los porcentajes de variación que recogen. Presionando en los botones que aparecen en la parte inferior izquierda, señalados en rojo en la pantalla anterior, se obtienen los diagramas de dispersión bidimensionales o tridimensionales del espacio factorial, donde se puede observar de manera gráfica la contribución de cada carácter o variable a cada uno de los factores, que en este caso son los componentes principales. Las coordenadas de un carácter o variable en cada factor (en este caso componente principal) se corresponden con las saturaciones de la variable en dichos factores, que se encuentran en la matriz factorial, y que se obtiene solicitando del programa los eiguen-vectores (ver apartado 1.3.3)

Curso Intensivo de Postgrado. UACH. México 2014.

Fernando González Andrés.

Para obtener lo eiguen-vectores es preciso solicitar del programa dicha salida.



1.3.3. Obtener los Componentes Principales rotado y el correspondiente gráfico de saturaciones factoriales. Cada vez se está imponiendo más la práctica de rotar la solución original con objeto de mejorar la interpretabilidad de los resultados (ver explicación teórica en la parte de teoría). La nueva versión de NTSYS permite realizar esta rotación. A continuación se describen los pasos para realizarla. La matriz de entrada debe ser la de eiguen-vectores. El método de rotación más utilizado entre los que siguen manteniendo la ortogonalidad de los factores es el Varimaz-Normalizado.

Curso Intensivo de Postgrado. UACH. México 2014.

Fernando González Andrés.



La pantalla resultante es la que se presenta a continuación.

Curso Intensivo de Postgrado. UACH. México 2014.

Fernando González Andrés.

Presionando en los botones que aparecen en la parte inferior izquierda, señalados en rojo en la pantalla anterior, se obtienen los diagramas de dispersión bidimensionales o tridimensionales del espacio factorial rotado, donde se puede observar de manera gráfica la contribución de cada carácter a cada uno de los factores.

Curso Intensivo de Postgrado. UACH. México 2014.

Fernando González Andrés.

Para obtener los valores de las proyecciones de cada carácter sobre los factores rotados, es preciso solicitar del programa la salida de los mismos.



Si el objetivo del ACP es una “reducción de datos”, es decir reducir el número de caracteres inicialmente utilizados a un menor número de ellos, el uso del ACP habría llegado a su fin. Los componentes principales, en su forma original o rotados, pueden ser ahora las nuevas variables, para otros tipos de estudios como un análisis de agrupamientos. No hay que olvidar que los componentes principales son una combinación lineal de los caracteres originales que recogen mayor varianza. Sin embargo, el objetivo del ACP puede ser también visualizar en proyección tridimensional las Unidades Básicas de Caracterización sobre el conjunto de ejes definidos por los componentes principales. Esto se estudia en el punto siguiente.

Curso Intensivo de Postgrado. UACH. México 2014.

Fernando González Andrés.

1.3.4. Proyectar cada una de las UBC sobre los tres o dos primeros componentes principales.



*

* Si la proyección quiere hacerse sobre los ejes rotados, aquí deberá introducirse la matriz de componentes rotados, es decir los vectores propios de cada carácter con respecto de los ejes rotados. Dicha matriz se obtuvo con el modulo FRotate bajo la denominación de “Output reference structure”

Curso Intensivo de Postgrado. UACH. México 2014.

Fernando González Andrés.

La pantalla resultante es la que se presenta a continuación.

Presionando en los botones que aparecen en la parte inferior izquierda, señalados en rojo en la pantalla anterior, se obtienen los diagramas de dispersión bidimensionales o tridimensionales de proyección de las Unidades Básicas de Caracterización sobre los componentes sin rotar o rotados, según que el “Input factor matrix file” haya sido la matriz de componentes sin rotar o rotados.

Curso Intensivo de Postgrado. UACH. México 2014.

Fernando González Andrés.

Curso Intensivo de Postgrado. UACH. México 2014.

Fernando González Andrés.

1.4. ANÁLISIS DE AGRUPAMIENTOS PARA DATOS MULTI-ESTADO. 1.4.1. Agrupamiento en base a todos los caracteres analizados, cuando éstos son de tipo multiestado cualitativo o cuantitativos (pueden requerir estandarización). 1.4.1.1. Estandarización y otras transformaciones en la matriz básica de datos. Ver punto 2. 1.4.1.2. Determinar la matriz de similitud entre las UBC. El cálculo de la matriz de similitud se hará a partir de la matriz básica de datos estandarizada, operando por filas o por columnas en función de la estructura que se dio a la matriz de datos, teniendo en cuenta que la similitud se calculará entre UBC. En este caso se trabaja con datos multiestado cualitativos o cuantitativos. Para calcular una matriz de similitud se utiliza el módulo “Dis/similarity” utilizando los siguientes enlaces Dis/similarity / interval data. El “Input file” será por tanto la matriz básica de datos estandarizada. Para información sobre los posibles coeficientes a utilizar consultar Help /

Parameters



Curso Intensivo de Postgrado. UACH. México 2014.

Fernando González Andrés.

1.4.1.3. Calcular y dibujar el dendrograma.



La pantalla resultante se muestra a continuación.

Curso Intensivo de Postgrado. UACH.México México212. 2014. Postgrado UACH.

Fernando González Andrés.

Presionando en el botón que aparece en la parte inferior izquierda, señalado en rojo en la pantalla anterior, se obtiene el dendrograma de las Unidades Básicas de Caracterización.

Curso Intensivo de Postgrado. UACH. México 2014.

Fernando González Andrés.

1.4.2. Agrupamiento en base a los primeros componentes principales (los que recogen una mayor variabilidad). 1.4.2.1. Determinar la matriz de similitud entre las UBC. El cálculo de la matriz de similitud se hará en este caso a partir de la matriz de proyección de las UBC sobre el número de componentes principales que el investigador quiera considerar, que en este caso harán las veces de caracteres. En consecuencia el “Input file” será el archivo de salida del programa PROJ. Todo puede hacerse referido a los componentes originales o rotados (ver apartado 1.3.4 Pág 15). Se operará por filas o por columnas en función de la estructura que tenga la matriz de entrada, teniendo en cuenta que la similitud se calculará entre UBC. En el ejemplo que se presenta a continuación se ha utilizado la matriz de proyección sobre los componentes rotados.



Curso Intensivo de Postgrado. UACH. México 2014.

Fernando González Andrés.

1.4.2.2. Calcular y dibujr el dendrograma y dibujarlo. Se seguirá el mismo procedimiento que el indicado en el punto 1.4.1.3. (Pág. 19) 1.5. ANÁLISIS DE AGRUPAMIENTOS PARA DATOS DOBLE-ESTADO . Es preciso indicar que algunos coeficientes admiten también datos multiestado cualitativos sin secuencia lógica. El aspecto de la matriz básica de datos será el siguiente:

1.5.1. Determinar la matriz de similitud entre las UBC. El cálculo de la matriz de similitud se hará a partir de la matriz básica de datos, operando por filas o por columnas en función de la estructura que se dio a la matriz básica de datos, teniendo en cuenta que la similitud se calculará entre UBC. Para calcular una matriz de similitud se emplea el módulo “Dis/similarity” utilizando los siguientes enlaces Dis/similarity / Qualitative data. Para información sobre coeficientes pueden consultarse en Help/

Curso Intensivo de Postgrado. UACH. México 2014.

Parameters

Fernando González Andrés.

La pantalla de entrada de datos se presenta a continuación:



1.5.2. Calcular y dibujar el dendrograma. Se seguirá el mismo proceso que el descrito en el apartado 1.4.1.3. (Pág. 19)

Curso Intensivo de Postgrado. UACH. México 2014.

Fernando González Andrés.

2. APLICACIÓN A MARCADORES MOLECULARES CODOMINANTES INTERPRETADOS GENÉTICAMENTE. 2.1. OBTENCION DE LAS FRECUENCIAS ALÉLICAS. 2.1.1. Preparación de la matriz básica de datos con 0/1/2. Puede prepararse en el “Editor de NTSYS” (Ntedit) o en un archivo de MS Excel. Son necearias 3 matrices Primera matriz. La primera fila indica el tipo de matriz, la segunda designa los loci presentes, y las siguientes representan los diferentes individuos. La primera columna indica la población de pertenencia de cada individuo. Las columnas a partir de la segunda representan cada una un alelo. Para el caso de un individuo diploide, el número 1 indica presencia de la banda correspondiente al alelo, el número 0 ausencia de dicha banda, y el número 2 se reserva para los homocigotos en el alelo en cuestión. Tipo de matriz: Ver en Help Contents / Data File / File format Nº de filas

Nº de columnas Si faltaran datos código correspondiente a los datos que faltan

Locus 1 con 3 alelos Locus 2 con 2 alelos Locus 3 con 2 alelos Locus 4 con 3 alelos

25 individuos que constituyen la población 1

Curso Intensivo de Postgrado. UACH. México 2014.

Fernando González Andrés.

Segunda matriz. El programa la denomina “Name of sample ID array”. Su utilidad es indicar al programa qué filas de la “Primera matriz” pertenecen a la población, 1, cuáles a la población 2, y cuáles a la 3.

25 individuos que constituyen la población 1

Tercera matriz. El programa la denomina “Name of loci file”. Su utilidad es indicar al programa qué columnas de la “Primera matriz” pertenecen al locus 1, cuáles al 2 y cuáles al 3.

Curso Intensivo de Postgrado. UACH. México 2014.

Fernando González Andrés.

Locus 1 con 3 alelos Locus 2 con 2 alelos Locus 3 con 2 alelos Locus 4 con 3 alelos

2.1.2. Obtención de la matriz de frecuencias alélicas.



Curso Intensivo de Postgrado. UACH. México 2014.

Fernando González Andrés.

Para obtener la matriz de frecuencias, es preciso solicitar del programa la salida de la misma.



Locus 2 con 2 alelos Locus 1 con 3 alelos

Locus 3 con 2 alelos

Locus 4 con 3 alelos

Pobl. 1

Pobl. 2

Pobl. 3

Antes de continuar puede ser interesante abrir esta matriz en el editor de NSTYS y etiquetar filas y columnas

Curso Intensivo de Postgrado. UACH. México 2014.

Fernando González Andrés.

La pantalla resultante es la que se presenta a continuación.

Curso Intensivo de Postgrado. UACH. México 2014.

Fernando González Andrés.

Row labs Pulsando en y de las columnas

y

Col labs

se modificarán las etiquetas de las filas

Como alternativa también es posible crear directamente en el programa una matriz de frecuencias alélicas, en lugar de crear una matriz de 0/1/2 y solicitar del programa el cálculo de la matriz de frecuencias alélicas.

2.2. DETERMINAR LA MATRIZ DE SIMILITUD GENÉTICA ENTRE LAS POBLACIONES. El cálculo de la matriz de similitud genética se hará a partir de la matriz de frecuencias alélicas, previamente obtenida, operando por filas o por columnas en función de la estructura que tenga dicha matriz, teniendo en cuenta que la similitud se calculará entre UBC (en este caso concreto poblaciones). Si se utilizan determinados coeficientes, el programa requerirá otras matrices adicionales, que en este módulo se denominan como: • “Name of loci array file” que es exactamente la matriz que se describió en al apartado II/1.1 con el nombre de tercera matriz, denominada por el programa en esa ocasión “Name of loci file”. • “Name of N array”. Es una matriz rectangular que indica el número de individuos que tiene cada una de las poblaciones. Su estructura se especifica en la siguiente figura.

Curso Intensivo de Postgrado. UACH. México 2014.

Fernando González Andrés.

Locus 1 con 3 alelos

Número de individuos en cada población

Locus 2 con 2 alelos Locus 3 con 2 alelos

Locus 4 con 3 alelos

Para calcular una matriz de similitud con datos genéticos se emplea el módulo “Dis/similarity” utilizando los siguientes enlaces Dis/similarity /Genetic distance Para información sobre coeficientes pueden consultarse en Help/

Parameters

En este apartado también puede encontrarse información sobre los archivos de entrada requeridos en función de los coeficientes utilizados. La pantalla de entrada de datos se presenta a continuación.

Curso Intensivo de Postgrado. UACH. México 2014.

Fernando González Andrés.



2.3. CALCULAR EL DENDROGRAMA. Se seguirá el mismo proceso que el descrito en el apartado 1.4.1.3 (Pg. 19) A continuación se presenta un ejemplo del resultado final. Curso Intensivo de Postgrado. UACH. México 2014.

Fernando González Andrés.

3. TEMAS COMPLEMENTARIOS. 3.1. VISUALIZACIÓN E IMPRESIÓN DE CUALQUIER ARCHIVO GENERADO POR ALGUNO DE LOS SUBPOGRAMAS. En cualquier momento se puede visualizar cualquiera de los archivos guardados, con el módulo “Output” Los archivos visualizados en el “Report listing” pueden guardarse en formato texto (=.txt) y posteriormente pueden ser recuperados en cualquier programa de tratamiento de textos



Curso Intensivo de Postgrado. UACH. México 2014.

Fernando González Andrés.

3.2. VOLVER A DIBUJAR DENDROGRAMA O PROYECCIONES DE UBC SOBRE COMPONENTES PRINCIPALES. Se puede volver a dibujar un dendrograma con el módulo “Cluster” utilizando el enlace Cluster / Tree plot.



Curso Intensivo de Postgrado. UACH. México 2014.

Fernando González Andrés.

Y un diagrama tridimensinal con el módulo “Graphics” utilizando el enlace Graphics / Mod3D plot.



Curso Intensivo de Postgrado. UACH. México 2014.

Fernando González Andrés.

3.3. VALIDACIÓN DEL ANÁLISIS DE CONGLOMERADOS. 3.3.1. Cuantificación de la distorsión debida al método de agrupación empleado mediante la elaboración de la matriz cofenética. 3.3.1.1. Calcular la matriz de cofenética (matriz diagonal) a partir del fenograma.



3.3.1.2. Comparar la matriz de similitud original y la matriz cofenética.

Curso Intensivo de Postgrado. UACH. México 2014.

Fernando González Andrés.



Los resultados obtenidos se presentan a continuación:

Curso Intensivo de Postgrado. UACH. México 2014.

Fernando González Andrés.

3.3.2. Comparación de la similitud entre diferentes métodos de caracterización. 3.3.2.1. Opción 1: Comparar las matrices de similitud.



Los resultados obtenidos se presentan a continuación:

Curso Intensivo de Postgrado. UACH. México 2014.

Fernando González Andrés.

3.3.2.2. Opción 2: Medir la coincidencia entre las estructuras taxonómicas derivadas de las matrices de similitud.



La pantalla resultante se muestra a continuación.

Curso Intensivo de Postgrado. UACH. México 2014.

Fernando González Andrés.

Presionando en el botón que aparece en la parte inferior izquierda, señalado en rojo en la pantalla anterior, se obtiene el dendrograma de consenso.

3.3.3. Métodos de remuestreo en las matrices de datos: Bootstrapping. 3.3.3.1. Obtención de las matrices remuestreadas El primer paso es realizar el remuestreo para lo que se emplea el módulo “Transformation” utilizando los siguientes enlaces Transformation / Resample La matriz de entrada “Input data file” es la matriz básica de datos. Lo que se remuestrean son los caracteres. En función de la estructura de la matriz básica de datos, el remuestreo deberá hacerse por filas o por columnas. El número de remuestreos debe ser como mínimo de 100.

Curso Intensivo de Postgrado. UACH. México 2014.

Fernando González Andrés.



3.3.3.2. Obtención de una matriz de similitud por cada una de las matrices remuestreadas. Se utiliza el mismo procedimiento descrito para el apartado 1.5.1 (Pág. 22). En este caso habrá 100 matrices de entrada, las obtenidas mediante la técnica de remuestreo. A efectos prácticos la salida del módulo anterior guarda las 100 matrices de forma que puedan ser directamente tomadas por el modulo “Dis/similarity”.

Curso Intensivo de Postgrado. UACH. México 2014.

Fernando González Andrés.



3.3.3.3. Obtención de la matriz de similitud promedio. Para esto se emplea el módulo “Transformation” mediante los siguientes enlaces Transformation / Summary La matriz de entrada “Input file” es la obtenida en el paso anterior

Curso Intensivo de Postgrado. UACH. México 2014.

Fernando González Andrés.



3.3.3.4. Calcular y dibujar el dendrograma a partir de la matriz de similitud promedio. Se seguirá el mismo proceso que el descrito en el apartado 1.4.1.3 (Pág. 19).

Curso Intensivo de Postgrado. UACH. México 2014.

Fernando González Andrés.

Curso Intensivo de Postgrado. UACH. México 2014.

Fernando González Andrés.

Get in touch

Social

© Copyright 2013 - 2024 MYDOKUMENT.COM - All rights reserved.