Story Transcript
Producción de Tubérculos-Semillas de Papa Manual de Capacitación CIP
Fascículo 5.4
Tamaño de las muestras para el control de calidad de tuberculos-semilla de papa Alfredo García Goicochea
Introducción Los agricultores necesitan semillas de alta calidad para que sus cultivos de papa tengan altos rendimientos. Mientras los agricultores demandan semillas que cumplan estrictas normas de calidad, los productores de semillas señalan que las normas muy rigurosas repercuten negativamente en los costos de producción y prolongan el tiempo necesario para producir mayores volúmenes. Las normas establecidas en varios países donde se producen tubérculos- semillas de papa tratan de mantener el equilibrio entre estas dos posiciones. El estado sanitario es probablemente el factor más importante para determinar la calidad de los tubérculossemillas. Aquéllas con bajos niveles de enfermedades generan plantas con altos rendimientos. Es por ello que los productores de semillas prestan especial atención al control fitosanitario de sus campos. Aunque
S. • Fasc. 5.4 - 97 •
1
CENTRO INTERNACIONAL DE LA PAPA (CIP)
sería ideal verificar la presencia o ausencia de patógenos en todas las semillas, esto es imposible por la limitación de materiales, equipos, tiempo y por el elevado costo de tan minuciosa verificación. Sin embargo, podemos usar técnicas de muestreo para seleccionar una muestra representativa. Los resultados y conclusiones basados en la muestra pueden ser inferidos, con un razonable grado de confidencialidad, a la población o al campo de donde se extrajo la muestra. En este documento se presentan las principales consideraciones para determinar el tamaño de muestra para el estudio de variables cualitativas expresadas en porcentaje.
Definciones Básicas Cuando una muestra es seleccionada al azar se dice que el muestreo es probabilístico. El muestreo probabilístico permite calcular estimadores no sesgados y
proporciona los medios para determinar el
tamaño de muestra más recomendable. Diferentes técnicas de muestreo pueden aplicarse de acuerdo a las características de la población y sólo estas técnicas producen estimadores no sesgados con variabilidad mínima.
Población. Es un conjunto bien definido de elementos o unidades. Según el número de unidades, una población puede ser finita o infinita. De acuerdo a esta definición, el número de plantas de un campo productor de semillas corresponde a una población finita, aunque el número de plantas por hectárea es bastante alto (40,000 plantas por hectárea).
Parámetros. Las principales características de una población se resumen en ciertas medidas llamadas parámetros. Los parámetros más importantes son: (1) la media (m), que representa a toda la población, por ejemplo el rendimiento promedio por hectárea, (2) la varianza (s2) que mide el grado de homogenidad de los individuos de la población, y (3) la proporción de elementos que presentan una característica (P), como la proporción de plantas afectadas por un virus, la que resulta de dividir el número de plantas afectadas entre el total de plantas del semillero.
Muestra. Es un subconjunto de la población. Cuando no es posible estudiar a toda la población se selecciona una muestra al azar, de modo que podamos aplicar los estudios y conclusiones de la muestra a toda la población.
Estimadores. Son valores que se calculan en base a los elementos de la muestra. La media de la muestra () es un estimador no sesgado de la media de la población, la varianza de la muestra (s2) es un estimador no sesgado de la varianza de la población y la proporción de individuos de la muestra que presentan una característica (p) que es un estimador no sesgado de P, que es la proporción de individuos de la población que presentan la característica.
S. • Fasc. 5.4 - 97 •
2
CENTRO INTERNACIONAL DE LA PAPA (CIP)
La diferencia entre un estimador y el parámetro depende de la técnica de muestreo empleada y del tamaño de la muestra. Los muestreos al azar simple, al azar sistemático, estratificado y el multietápico son son los más conocidos y ampliamente usados. Las características de la población es uno de los factores mas importantes que se deben considerar cuando se está seleccionando una técnica de muestreo.
El tamaño de la muestra depende de la precisión
deseada, del tiempo para realizar el trabajo y del costo de seleccionar la muestra y analizar sus elementos. En términos generales conforme el tamaño de la muestra aumenta, los valores de los estimadores de la muestra se aproximan a los parámetros. Si una población es homogénea, la muestra que de ella se seleccione también será homogénea y el valor del estimador será un muy cercano al parámetro.
Determinación del Tamaño de la Muestra Determinar el tamaño de la muestra es uno de los problemas que se enfrenta cuando se va a realizar un muestreo. El tamaño repercute en el tiempo, materiales, y equipos que se requieren para realizar el trabajo. Muestras muy grandes ocasionan demasiados gastos, pero muestras muy pequeñas proporcionan resultados de poca utilidad práctica. El siguiente ejemplo ilustra los pasos que se deben seguir para determinar el tamaño de muestra más adecuado. Suponga que un investigador desea conocer qué porcentaje de plantas de papa están afectadas por un determinado virus (P). Para resolver el problema debemos preguntar al investigador con qué exactitud desea conocer el porcentaje de plantas afectadas. Supongamos que él responde estar satisfecho si el porcentaje es correcto con un ± 5% , es decir que si la muestra resulta 8%, entonces el porcentaje real de plantas infectadas por el virus se encuentra entre 3% y 13%. Es importante informar al investigador que no nos es posible garantizarle tal precisión a menos que revisemos cada una de las plantas del campo. No importa cuan grande sea la muestra, siempre existe la posibilidad de seleccionar una muestra «desafortunada», cuyo resultado exceda el 5% . El uso del muestreo probabilístico nos permite seleccionar una muestra una oportunidad de 1 en 20 (0.05) de no ser representativa. Con esta información es posible iniciar el cálculo del tamaño de la muestra. La presencia o ausencia de virus corrresponde a una variable discreta que sigue una distribución binomial. La magnitud de la infección puede expresarse como porcentaje de plantas afectadas por el virus y porcentaje de plantas sanas. El tamaño de la muestra puede determinarse en forma exacta usando la distribución binomial, pero cuando el número de elementos de la población es muy grande, como el número de plantas de una hectárea, se puede usar la aproximación normal con buenos resultados. En teoría, p se encuentra incluído en el rango (P ± 5), salvo el caso que se halla tomado una muestra no representativa, cuya probabilidad es de 0.05. En el supuesto que p está normalmente distribuido alrededor de P, éste se encontrará en el intervalo P ± 2 sp .
S. • Fasc. 5.4 - 97 •
3
CENTRO INTERNACIONAL DE LA PAPA (CIP)
Si
2 σp = 5 2
y como
√ PQ / n = 5
σp =
√ PQ / n
entonces
y
n = 4PQ 25
(1)
En esta ecuación puede verse que el tamaño de la muestra, n, depende del valor de P. Conforme el valor de P se aproxima a 0.5, el valor de n aumenta, pero cuando P se aproxima a cero o a uno el tamaño de la muestra disminuye (Tabla 1).
Análisis del Problema De acuerdo al ejemplo presentado podemos establecer los siguientes pasos para determinar el tamaño de una muestra: ·Debemos establecer, en términos numéricos, el objetivo del muestreo, señalando los márgenes del error permitido, o la acción a tomar cuando se conocen los resultados de la muestra. · Debemos seleccionar la ecuación que nos permita calcular el tamaño de la muestra. La ecuación debe incluir un término indicando la precisión de la muestra. · La ecuación seleccionada posiblemente incluirá algunos parámetros que, en caso de ser desconocidos, deben estimarse para poder calcular resultados específicos. · Si estamos estudiando varias características, con diferentes niveles de precisión, podemos calcular diferentes tamaños de muestras, uno para cada característica. El tamaño final debe reconciliar todos estos valores. · Una vez que se ha establecido el tamaño final de la muestra, n, debe evaluarse si se dispone de los recursos necesarios para tomar la muestra. Esto requiere evaluar el tiempo, costo, y materiales necesarios para seleccionar la muestra. En algunas ocasiones cuando es evidente que el tamaño de la muestra debe ser reducida drásticamente, nos enfrentamos a una dificil situación para decidir entre reducir el tamaño y perder precisión o abandonar el esfuerzo hasta contar con más recursos.
Especificación de la Precisión
S. • Fasc. 5.4 - 97 •
4
CENTRO INTERNACIONAL DE LA PAPA (CIP)
La precisión puede especificarse proporcionando la magnitud del error que uno está dispuesto a tolerar en los estimadores. En términos estadísticos la precisión está definida como la diferencia entre el estimador y el parámetro: (p - P). El valor de la precisión depende fundamentalmente del uso que se va a dar a los resultados. Fórmula para Determinar el Tamaño de la Muestra Sea N el número total de plantas de la población, A el número de plantas afectadas por virus y (N - A )el número de plantas sanas, de modo que: P= A
y
Q = (N – A)
N
y
P+ =1
N
P es la proporción de plantas afectadas y Q la proporción de plantas sanas de la población.
Estos
parámetros son estimados por: p= a
y
q= (n–a)
n
y
p+q=1
n
donde n es el tamaño de la muestra, a es el número de plantas con virus y (n-a) es el número de plantas sanas. El cálculo del tamaño de la muestra se presenta en dos pasos. Paso 1 Calcular el tamaño preliminar de la muestra, n1 , con la siguiente ecuación: 2
n1 = t pq 2
d
Donde t es el valor obtenido de la Tabla t de Student, p es la proporción de plantas infectadas con el virus en una muestra preliminar, q es la proporcion de plantas sanas, y d es el grado de precisión definido como (p - P) Paso 2 Para obtener el tamaño final de la muestra, n, debemos multiplicar el valor preliminar, n1, por el factor de corrección k, el que toma en consideración el tamaño de la población.
k =
1
.
1 + n1 -1 . N Si N es muy grande, el valor del factor de corrección, k, tendrá un muy próximo a la unidad, y el tamaño inicial no sufrirá grandes cambios.
S. • Fasc. 5.4 - 97 •
5
CENTRO INTERNACIONAL DE LA PAPA (CIP)
El siguiente ejemplo ilustra estos dos pasos. Suponga que deseamos estimar la magnitud de la infección de un virus en un campo semillero de papa con una superficie de una hectárea, para lo cual debemos obtener una muestra. Para tener una información preliminar de P, tomamos una muestra de 30 plantas y encontramos que el 8% está afectada por el virus. Suponga que deseamos estimar el nivel de infección con una precisión de 5% y el riesgo de seleccionar una muestra no representativa es de 1 en 20 (0.05), entonces: n1 =
2
(2 ) (8) (92) 5
2
n1 = 181 El factor de corrección, k, para una hectárea de papa con 40,000 plantas es: n1 =
1
.
1 + 181 . 40000 k = 0.99 y el tamaño final de la muestra no será seriamente alterado por este factor: n1 = (181)(0.99) = 180 Como un segundo ejemplo suponga que conocemos el nivel de infección inicial (p) de la semilla de papa tiene un valor igual a 0.25% y que la máxima infección permitida al final del cultivo (P) es 0.75%, y deseamos hallar el tamaño de muestra más adecuado, si existe una probabilidad de 0.05 de obtener una muestra no representativa. El valor inicial será: n1 =
(4) (0.25) (99.75) 2
(0.25 – 0.75)
n1 = 399 El tamaño de muestra final será: n1 = (399)(0.99) = 395 En algunos países productores de tubérculos-semillas de papa, la regulaciones gubernamentales especifican que la muestra debe tener 400 tubérculos, para lo cual seleccionan al azar cuatro puntos del semillero y toman un tubérculo de 100 plantas contiguas.
S. • Fasc. 5.4 - 97 •
6
CENTRO INTERNACIONAL DE LA PAPA (CIP)
Selección de la Muestra Una vez determinado el tamaño de la muestra, ésta debe ser seleccionada aplicando un muestreo aleatorio. Esto es válido si el virus está uniformemente distribuido en todo el campo. En este caso la muestra tratar de cubrir todo el campo. Por otro lado seleccionar tubérculos en el campo es más fácil que en el almacén. El siguiente ejemplo se aplica a la selección de tubérculos o plantas. Supongamos que vamos a seleccionar una muestra de 400 tubérculos de un semillero de una hectárea, cuyas dimensiones son 100m x 100m. Las normas recomiendan que los tubérculos sean seleccionados de 4 puntos escogidos al azar, que corresponden a 4 surcos. En cada punto se selecciona un tubérculo de 100 plantas contiguas. Suponga que el distanciamiento entre surcos es de 1.0m y entre plantas de 0.25 m, (40,000 plantas por hectárea), de modo que el campo tiene 100 surcos. Los 4 surcos pueden seleccionarse en forma sistemática de modo que la muestra se distribuya entre todos los surcos. El primer surco de la muestra corresponde a un número
S. • Fasc. 5.4 - 97 •
7
CENTRO INTERNACIONAL DE LA PAPA (CIP)
seleccionado al azar entre el 1 y 25 (supongamos el 17) y los otros surcos se seleccionan cada 25 surcos (42, 67, y 92). Una vez seleccionados los surcos, la longitud del campo puede dividirse en 4 sectores continuos de 25 m, cada uno con 100 plantas, numerándolos en forma consecutiva del 1 al 4. Luego puede procederse a seleccionar al azar, los 4 números que determinan la ubicación de los 4 grupos. Suponga que el orden de selección resultó: 1,3, 2, 4. La distribución de este muestreo puede verse en la siguiente figura.
El tamaño y forma del campo influyen efecto en la forma de seleccionar la muestra, toda vez que es recomendable que los tubérculos de la muestra provengan de diferentes partes del semillero. Otra forma de tomar la muestra sería seleccionar 8 surcos en lugar de 4 y disminuir el número de plantas de 100 a 50. De esta forma el muestreo cubre el campo en forma más homogénea. Es importante señalar que el tamaño de muestra hallado para un campo tiene validez estadística en forma exclusiva para dicho campo, sin embargo su valor puede tomarse como referencial para determinar el tamaño de muestra de otros campos. Una vez determinado el tamaño de la muestra y la forma de seleccionarla se procede a evaluar las plantas y a calcular los estimadores y los límites de confianza. La proporción de plantas infectadas en el campo (P) es estimada por la proporción de plantas infectadas en la muestra (p). Como existen escasas probabilidades que el estimador sea igual al parámetro se procede a calcular la estimación por intervalo dada por la siguiente ecuación: p ± t 0.05 √ PQ / n
S. • Fasc. 5.4 - 97 •
8
CENTRO INTERNACIONAL DE LA PAPA (CIP)
la que permite la estimación de intervalo con 0.05 probabilidades de tener un muestra no representativa. Suponga que p es igual a 0.03 y que t es igual a 1.96 entonces los límites de confianza son: L.C. (P) = 0.03 ± 1.96 √ (0.03) (0.97) / 291 L.C. (P) = (0.0104 , 0.0496) Con base en estos resultados podemos concluir que existen 0.95 probabilidades de que los valores hallados incluyan a la verdadera proporción de plantas afectadas por el virus (P).
Bibliografía Cochran G., William. 1965. Sampling Techniques. John Wiley & Sons., New York, EE.UU. 413 p. Yates, Frank. 1960. Sampling Methods for Censuses and Surveys. Charles Griffin & Company Limited., London., Reino Unido. 440 p. Yamane Taro. 1967. Elementary Sampling Theory. Prentice-Hall International Inc., London., Reino Unido. 405 p.
S. • Fasc. 5.4 - 97 •
9
CENTRO INTERNACIONAL DE LA PAPA (CIP)