Story Transcript
´todos Gra ´ ficos Me de
´n Comunicacio Cuantitativa cap´ıtulo 5 Variables v.0.10 Junio de 2012
M´etodos Gr´aficos de Comunicaci´ on Cuantitativa Cap´ıtulo 5 Variables Versi´on 0.10 © 2012, Pere Mill´ an Mart´ınez
http://www.peregraph.com/book
cap´ıtulo 5
VARIABLES
Cuando en este trabajo se hace referencia a las componentes de un gr´afico, se refiere a las variables consideradas inherentes a los datos. Por otro lado, se tienen las variables visuales que comunican gr´aficamente los valores de las componentes. La representaci´on de las componentes puede encontrarse tanto en el ´area externa o en el ´area interna del gr´ afico. Los gr´ aficos de comunicaci´ on cuantitativa re´ unen un m´ınimo de dos componentes dado que, con una sola componente, no puede haber las correspondencias necesarias para elaborar una informaci´on. Se podr´ıa construir un gr´afico con una sola componente, por ejemplo un term´ometro con una sola escala, pero no ofrecer´ıa ning´ un tipo de informaci´ on porque no tiene ning´ un sentido conocer la temperatura sin relacionarla con el momento o el lugar donde se ha registrado. 5.1.
´n clasificacio
Una primera clasificaci´on de las variables puede hacerse tal como plante´ o Stevens (1946), en funci´on del orden interno y de las posibilidades de c´ alculo que ofrecen los conjuntos, en cuatro tipos: nominal, ordinal, intervalar y racional. nominal(N ), si toma valores de un conjunto de palabras o n´ umeros no ordenados, por lo que intercambiar el orden no altera la informaci´on y en el que carece de sentido realizar operaciones aritm´eticas. Aunque los conjuntos est´en compuestos de n´ umeros, ´estos identifican igualmente categor´ıas y no valores num´ericos. Pyle (1999) distingue tambi´en las variables nominales de las categ´oricas; se refiere a nominales si asignan un nombre a un elemento individual y a categ´oricas si se refiere a un conjunto de elementos o una propiedad de ´estos. Con el fin de evitar confusiones, dado que las variables ordenadas son tambi´en categ´oricas, en este trabajo no se utilizar´ a el t´ermino categ´ orico sino cualitativo para referirnos a la uni´ on de los conjuntos de variables nominales y ordinales. 1
5. Variables
Las variables nominales pueden a su vez clasificarse en funci´on del n´ umero de grupos en los que se subdivide el conjunto como dicot´omicas, tricot´ omicas o polit´omicas. Ejemplos de variables nominales son el n´ umero de identificaci´on fiscal o los nombres de personas o, referidas a agrupaciones de elementos, el n´ umero de distrito postal. Es arbitrario asignar valores num´ericos a estos elementos y no tiene sentido preguntarse si uno es mayor que otro.
n n1
n2
n3
n4
n5
n6
n7
nominal
n8
n9
ordinal(O), si toma valores de un conjunto de palabras o n´ umeros ordenados. En este caso no cabe la posibilidad de intercambiar el orden ni de realizar operaciones aritm´eticas. La variable ordinal permite categorizar un elemento a la vez que le asigna un orden dentro del conjunto. Un ejemplo es la clasificaci´ on de dureza de los minerales de Mohs de m´ as blando ((1–talco)) a m´ as duro ((10–diamante)). En esta clasificaci´ on se puede utilizar tanto la escala num´erica como la alfab´etica y al estar ordenada s´ı cabe preguntarse qu´e material es mas duro.
o o1
<
o2
<
o3
<
o4
<
o5
<
o6
<
o7
<
o8
<
ordinal
o9
intervalar(I), si el conjunto continuo o discreto de valores, adem´as de etiquetar y ordenar, permite establecer intervalos iguales entre sus valores y en que el cero no implica ausencia de valor sino simplemente una referencia. Estas variables permiten realizar operaciones de adici´on y sustracci´on. Es com´ un representar el transcurso del tiempo de naturaleza intervalar y continua estableciendo periodos discretos —horas, d´ıas, meses, a˜ nos, etc.— para los cuales los datos son significativos. En este y otros casos, por tradici´on, los intervalos no son num´ericos y podr´ıan considerarse ((casi iguales)). 2
5.1. Clasificaci´on
Otros ejemplos de variables intervalares son la temperatura en grados Celsius o las coordenadas geogr´aficas y de modo generalizado los indicadores y estad´ısticos muestrales.
i i1
i2
i3
i4
i5
i6
i7
intervalar
i8
i9
racional(R), si el conjunto continuo o discreto de valores, adem´as de etiquetar y ordenar, permite establecer intervalos iguales entre sus valores y donde el cero implica ausencia de valor. Estas variables permiten realizar operaciones aritm´eticas m´as complejas y gozan de proporcionalidad. Ejemplos de esta variable son el coste de un producto o la velocidad de un veh´ıculo, de modo que si el valor es 0, el producto es gratuito y el veh´ıculo permanece inm´ovil.
r r1
r2
r3
r4
r5
r6
r7
r8
racional
r9
Bertin (1973) utiliz´o una versi´on simplificada de esta clasificaci´on al considerar las componentes en funci´on de los tres niveles de organizaci´on de los elementos de ´estas: el nivel cualitativo que equivale a los conjuntos nominales, el nivel del orden que equivale a los conjuntos ordinales y el nivel cuantitativo que re´ une los conjuntos intervalares y racionales. Esta versi´on simplificada de las variables en conjuntos no ordenados y conjuntos ordenados con y sin posibilidad de c´alculo, ha provocado l´ogicamente confusi´on acerca de las variables visuales y c´odigos que deber´ıan diferenciar las variables intervalares de las racionales. Las componentes se pueden clasificar tambi´en, en funci´ on del control que se tiene sobre las mismas, en dos grupos: gobernables e ingobernables. gobernable(`), si est´ a en nuestras manos modificar el conjunto del que toma valores la variable en un cierto experimento dado. 3
5. Variables
ingobernable(a), si no est´a en nuestras manos modificar el conjunto del que toma valores la variable en un cierto experimento dado. La combinaci´ on de componentes gobernables e ingobernables suele determinar el tipo de conclusiones que se espera obtener de un gr´afico, de modo que facilitar la identificaci´on de las componentes en uno de estos dos grupos mejora su interpretaci´on. Una misma componente, por ejemplo la temperatura, puede ser gobernable en un horno e ingobernable en otro. Esta misma clasificaci´on de las componentes se conoce, de manera confusa, como variables dependientes e independientes aunque es preferible no utilizar esta nomenclatura por las diferentes acepciones de estos adjetivos. Otra clasificaci´on recurrente de las componentes se hace en funci´ on de la naturaleza continua o discreta del conjunto del que toma valores la variable: discreta(Σ), si la componente puede asumir un conjunto de valores numerable. Esto sucede necesariamente en variables nominales y ordinales. continua(∫ ), si la componente puede tomar valores a lo largo de un intervalo especifico, de modo que entre dos valores potencialmente observables se encuentra siempre otro valor potencialmente observable limitado solamente por la precisi´on del medidor. Las variables intervalares y racionales pueden ser continuas o discretas. Para la construcci´on de gr´aficas interesa m´as el modo como las consideramos las variables que la naturaleza de ´estas. Un claro ejemplo es el tiempo que a pesar de su naturaleza continua e intervalar es usual representarlo en escalas discretas o incluso como una variable nominal dicot´omica si, por ejemplo, se pretende comparar dos estudios de opini´on de una misma poblaci´on realizados en dos fechas distintas. As´ı mismo, el tiempo se puede considerar como variable ordinal cuando clasifica sucesos acontecidos en diferentes momentos y cuando interesa u ´ nicamente ordenarlos de modo secuencial. Estos sucesos ordenados en el tiempo se conocen como variables secuenciales. 4
5.2. Variables espaciales
Otros conjuntos particulares de variables son las variables aleatorias que son funciones que asignan un n´ umero real a cada elemento de un espacio muestral. 5.2.
variables espaciales
Las dos dimensiones del plano se suelen identificar con dos componentes. En diagramas de representaci´on espacial se utilizan estas dos dimensiones para georeferenciar otras variables, pero las dos dimensiones del plano ofrecen muchas otras ventajas. Bertin (1973) se refiere a la identificaci´on interna como la identificaci´on de las componentes con respecto a las variables visuales, pero es a partir de la tercera componente que nos vemos obligados a utilizar variables visuales dado que las dos primeras se pueden identificar con las dimensiones del plano. Tambi´en se refiere a la identificaci´ on de series homog´eneas, en las que una o las dos dimensiones del plano se utilizan para reproducir diferentes gr´aficos que responden a una misma invariable y a diferentes valores de una o dos variables adicionales.
n1
i2 i1
n2
i2 i1 r1
r2 o1
r3
r1
r2 o2
r3
r1
r2
r3
o3
Tufte (1983) utiliza tambi´en las dimensiones del plano para hallar un indicador1 de la densidad de datos de la gr´afica y justifica en la capacidad de la visi´on para observar diferencias min´ usculas, la utilidad de lo que define como ((Small multiples resemble the frames of a movie: a series of graphics, showing the same combination of 1
Se define como el cociente entre el n´ umero de entradas en una matriz de datos y la superficie de utilizada para los estos datos en una gr´ afica.
5
5. Variables
variables, indexed by changes in another variable)). Las posibilidades de las dos dimensiones del plano superan en cambio la secuencia unidimensional cinematogr´afica ya que permiten mostrar a la vez las variaciones respecto a dos variables. Los ((small multiples)) aprovechan el esfuerzo ya realizado de identificaci´on interna y externa de una gr´afica para reproducirla con alteraciones, de modo que el receptor puede dirigir su atenci´on hacia las diferencias. Otra ventaja de las miniaturas m´ ultiples es la posibilidad de reducir en uno o dos grados las variables visuales necesarias, ya que permiten la representaci´ on de hasta cuatro componentes mediante la multiplicaci´on en el plano de gr´aficas con solo dos componentes. 5.3.
variables visuales
Para relacionar tres o m´as componentes sobre las dos dimensiones del plano es frecuente recurrir a las variables visuales (Bertin, 1973) que permiten a˜ nadir complejidad al gr´afico.
6
Forma
Orientaci´on
Color
Grano
Valor
Tama˜ no
5.4. Dominio
Las variables visuales son la forma, la orientaci´on, el color, el grano, el valor y el tama˜ no. Cualquier marca sobre un plano, ya sea un punto, una l´ınea o una zona puede verse afectada por cada una de estas variables obteniendo as´ı un amplio abanico de combinaciones que se clasifican en funci´on de los niveles de percepci´on a los que responden y esto determina la idoneidad de cada combinaci´on para representar componentes nominales, ordinales, intervalares o cuantitativas. Los niveles de percepci´ on en los que se clasifican las variables visuales son: asociativo, selectivo, ordenado y cuantitativo. asociativo(), es el nivel de percepci´on que no cambia la visibilidad de los signos de los diferentes valores de una misma variable. La forma, la orientaci´on, el color y el grano se consideran asociativos mientras que el valor y el tama˜ no son disociativos. Las variables asociativas igualan la percepci´ on que se tiene de los valores de una variables, por lo que son ideales para componentes nominales. El valor y en tama˜ no provocan, en cambio, una percepci´ on sesgada de valores nominales. selectiva(), es la percepci´on que se utiliza, no ya para observar sin sesgo los valores nominales en su conjunto, sino para percibir los diferentes valores de una misma variable de manera espont´ anea. Todas las variables visuales, a excepci´ on de la forma, permiten la selecci´ on selectiva. ordenado(O), si permite adem´as comparar o´rdenes de magnitud sin que sea posible cuantificar las diferencias. Esto permite representar con eficacia escalas de componentes ordinales. S´ olo el grano, el valor y el tama˜ no posibilitan la percepci´on ordenada. cuantitativo(Q), si tambi´en permite cuantificar, inicialmente de modo relativo pero con la ayuda de las escalas, de modo absoluto, el valor de componentes racionales o la diferencia entre valores de componentes intervalares. La u ´ nica variable visual que posibilita la percepci´ on cuantitativa es el tama˜ no. 5.4.
dominio
El dominio de una variable es el conjunto de valores que puede tomar la variable. El dominio puede ser infinito si se trata de una variable 7
5. Variables
´ n de variables visuales Percepcio Dimensiones del plano Tama˜ no Valor Grano Color Orientaci´ on Forma
O Q O Q O O (Puntos y l´ıneas)
continua en un intervalo espec´ıfico, o puede ser finito en el caso de variables discretas. Para dominios finitos se puede considerar la longitud del dominio como el n´ umero de posibles valores de una variable. En funci´on de la longitud del dominio de los componentes, Bertin (1973) se refiere a componentes cortas si la longitud del dominio es igual o inferior a cuatro y componentes largas si es superior a quince. La longitud del dominio de las componentes determina si un m´etodo de comunicaci´on gr´afica es o no eficaz para unos datos determinados. Por otro lado, se tiene el dominio de las variables visuales que se ve limitado por las facultades de percepci´on humana. Para el caso de percepci´on cuantitativa y ordenada, por ejemplo, la vista no es capaz de diferenciar entre m´ as de 20 escalones entre un punto y otro con una superficie diez veces mayor. En cuanto a la percepci´ on selectiva, si consideramos igualmente el tama˜ no, el n´ umero m´ aximo de tama˜ nos diferentes no deber´ıa pasar de cinco. Para las dem´as variables visuales se tienen otras limitaciones en funci´ on del nivel de percepci´ on ya sea asociativo, selectivo u ordenado.
8
BIBLIOGRAF´IA
Bertin, J. (1973). S´emiologie graphique. Mouton, Paris. Pyle, D. (1999). Data preparation for data mining. Morgan Kaufmann Publishers, San Francisco. Stevens, S. S. (1946). On the theory of scales of measurement. Science, 103:677–680. Tufte, E. R. (1983). The Visual Display of Quantitative Information. Graphics Press, Cheshire.
9