lunes, 26 de mayo de 2008

DIAGRAMA DE CAJAS

Presentación visual que describe al mismo tiempo varias características importantes de un conjunto de datos, tales como el centro, la dispersión, el alejamiento de la simetría, y la identificación de valores extremos (puntos atípicos), es decir, de valores que se alejan de una manera poco usual del resto de los datos.
Presenta los tres cuartiles, (y los valores mínimos y máximos) alineados sobre una caja vertical u horizontalmente.
Procedimiento
Para el diagrama de cajas y bigotes se requiere
Calcular la mediana y los otros dos cuartiles, con los cuales se formará la caja, que tiene la mediana como eje central, y como lados los dos cuartiles. Estos cuartiles reciben también los nombres de " bisagras". La altura (anchura) de la caja no interesa.
La distancia H definida como la distancia entre el cuartil superior y el cuartil inferior, es decir, corresponde al rango intecuartílico Þ H = Q3 - Q1 = RIC.
El paso correspondiente a 1.5 veces la distancia Þ Paso = 1.5 H
Cercas Internas, ubicadas a un paso de las bisagras o de los respectivos cuartiles. Así, las Cercas Internas Inferior (CIi) y Superior (CIs) estarán dadas por:CIi = Q1 - PasoCIs = Q3 + PasoSi la cerca interna inferior da menor que el valor mínimo de la muestra, ésta se hace igual al valor mínimo; igualmente, si la cerca interna superior da mayor que el valor máximo, ésta se hace igual a dicho valor.
Cercas Externas, ubicadas a un paso de las cercas internas. Así, las Cercas Externas Inferior (CEi) y Superior (CEs) estarán dadas por:CEi = CIi - PasoCEs = CIs + Paso
Se denominan "valores adyacentes" los ubicados entre las cercas internas y los bordes de las cajas. Por simplicidad no se grafican.
"Valores extremos" son los ubicados entre las dos cercas, y merecen especial atención, ya que pueden ser valores atípicos, que, en algunos casos, no pertenecen realmente a la distribución general de donde provienen los datos.
"Valores lejanos" o , ubicados por fuera de las cercas externas, correspondientes a valores extremos, que requieren un mayor análisis que los valores atípicos.
Los diagramas de cajas y bigotes también llamados boxplots o box and whiskers son representaciones gráficas de una distribución estadística unidimensional en las que se reflejan cinco parámetros: límite inferior, primer cuartil, mediana, tercer cuartil y límite superior. A partir de estos cinco parámetros se pueden obtener fácilmente otros dos: el rango y el rango intercuartílico. Además, también dan una medida de la simetría o asimetría de la distribución, del sesgo y de la dispersión.
Se observa que:
1. El bigote de la izquierda es algo más corto que el de la derecha, lo que indica que las calificaciones de la cuarta parte más baja de la clase están algo más concentradas que las calificaciones de la cuarta parte que las tienen más altas.
2. También se observa que la parte izquierda de la caja, que corresponde a los alumnos que han obtenido calificaciones entre el 25% y el 50% es menor que la de la derecha, lo que indica que las calificaciones de estos últimos alumnos están más dispersas.
3. Es fácil ver que el rango es: Ls - Li = 9 – 3 = 6
Y el rango intercuartílico es: Q3 - Q1=6,5– 4,5 = 2
También se observa que la distribución es asimétrica y ligeramente sesgada hacia la derecha.
Los diagramas de caja también llamados gráficos de caja y bigotes, nos permiten identificar la distribución y la dispersión de los datos de una variable de escala. Con este tipo de gráfico se representa la mediana, los Cuartiles (1 y 3), los valores atípicos y los valores extremos. La estructura de este tipo de gráfico esta basada en una caja, donde el límite superior corresponde al valor del tercer cuartil (75% de los datos) y el límite inferior al primer cuartil (25%); a su vez dentro de la caja se incluye una línea representando el valor de la mediana.


Además se incluye dos barras verticales (Bigotes), los cuales determinan la distancia o rango del 95% de los casos; adicionalmente el procedimiento anexa algunos símbolos representativos de los valores atípicos y extremos. La utilidad de este tipo de gráficos radica en la posibilidad de resumir el comportamiento y las principales medidas de una o varias variables de escala, mediante un solo diagrama.

Para acceder al procedimiento Diagrama de caja, debemos ir al menú Gráficos.. Interactivos.. Diagramas de caja. Al seleccionarlo aparece el cuadro de diálogo correspondiente [Fig.7-70]. Este cuadro cuenta con las mismas características de forma y aplicación del gráfico de barras; la única diferencia que encontramos corresponde a la casilla Etiquetar los casos mediante; en esta casilla se pude ingresar una variable para identificar la etiqueta de los valores atípicos y extremos. Note que en este cuadro no aparecen las variables preincorporadas ni las opciones de agrupar o apilar.

Figuras 7-70 y 7-71

Al igual que los demás gráficos interactivos, los diagramas de cajas cuentan con un grupo de opciones específicas para este tipo de gráficos. Al hacer clic en la pestaña Caja, aparecerán todas las opciones de edición con que cuenta el procedimiento [Fig.7-71]; en la primera sección Mostrar en las cajas, encontramos las opciones para incluir los valores atípicos, extremos y la línea de la mediana; por defecto estas opción están activas. La segunda sección (Remates de los bigotes) nos permite escoger la forma final de los bigotes.

La tercera sección Base de caja, nos permite escoger la forma de la base de las cajas (Cuadrado o Circular); cabe notar que esta sección sólo se activa cuando creamos diagramas en 3-D. Por último encontramos la opción Mostrar las etiquetas de la frecuencia, por medio de la cual podemos pedirle al programa que anexe el recuento de los casos en la parte inferior del gráfico.

Para comprender mejor estos conceptos vamos a generar algunos diagramas de caja, tratando de emplear cada una de las opciones. El primer gráfico que generaremos describe el comportamiento de los datos la variable de escala Años estudiados; para realizarlo debemos ingresar la variable de interés en la casilla del eje vertical y sucesivamente hacer clic en Aceptar, con lo cual el gráfico se creará en el visor de resultados [Fig.7-72].

Si nos fijamos en el gráfico notaremos que en la parte superior e inferior aparecen una serie de símbolos (círculos y asteriscos); el circulo representa los valores atípicos, mientras el asterisco representa los valores extremos. Para facilitar la identificación de los conceptos del gráfico, hemos anexado al diagrama de la figura [7-72], algunas etiquetas informativas; a través de ellas podemos apreciar parámetros como la mediana, el 50% de los datos que aborda la caja y el 95% (aprox.) de los datos que se cubren desde los limites de los bigotes.
COMENTARIO:
El diagrama de cajas llamado tambien box plot es una grafica en la cual representa la distribucion de un conjunto de datos los cuales se estan investigando, se utilizan cinco medidas las cuales son: media, cuartil 1, cuartil 3, valor maximo, valor minimo, esta grafica se emplea para conocer la tendencia central , la dispersion y la simetria de los datos.

AREA BAJO LA CURVA NORMAL

Una de las distribuciones teóricas mejor estudiadas en los textos de bioestadística y más utilizada en la práctica es la distribución normal, también llamada distribución gaussiana2,3,4,5 Su importancia se debe fundamentalmente a la frecuencia con la que distintas variables asociadas a fenómenos naturales y cotidianos siguen, aproximadamente, esta distribución. Caracteres morfológicos (como la talla o el peso), o psicológicos (como el cociente intelectual) son ejemplos de variables de las que frecuentemente se asume que siguen una distribución normal. No obstante, y aunque algunos autores6,7 han señalado que el comportamiento de muchos parámetros en el campo de la salud puede ser descrito mediante una distribución normal, puede resultar incluso poco frecuente encontrar variables que se ajusten a este tipo de comportamiento.
El uso extendido de la distribución normal en las aplicaciones estadísticas puede explicarse, además, por otras razones. Muchos de los procedimientos estadísticos habitualmente utilizados asumen la normalidad de los datos observados. Aunque muchas de estas técnicas no son demasiado sensibles a desviaciones de la normal y, en general, esta hipótesis puede obviarse cuando se dispone de un número suficiente de datos, resulta recomendable contrastar siempre si se puede asumir o no una distribución normal. La simple exploración visual de los datos puede sugerir la forma de su distribución. No obstante, existen otras medidas, gráficos de normalidad y contrastes de hipótesis que pueden ayudarnos a decidir, de un modo más riguroso, si la muestra de la que se dispone procede o no de una distribución normal. Cuando los datos no sean normales, podremos o bien transformarlos8 o emplear otros métodos estadísticos que no exijan este tipo de restricciones (los llamados métodos no paramétricos).

La distribución normal fue reconocida por primera vez por el francés Abraham de Moivre (1667-1754). Posteriormente, Carl Friedrich Gauss (1777-1855) elaboró desarrollos más profundos y formuló la ecuación de la curva; de ahí que también se la conozca, más comúnmente, como la "campana de Gauss". La distribución de una variable normal está completamente determinada por dos parámetros, su media y su desviación estándar.


La distribución normal es muy importante por lo siguiente:

1. Es la distribución a la que se aproximan la mayoría de los fenómenos físicos, Químicos, Biólogicos
2. Se ha tomado como base en la inferencia estadística paramétrica

3. Otras distribuciones bajo ciertas circunstancias se pueden aproximar a la normal

4. Es la base para definir otras distribuciones de importancia tales como la Chi cuadrada, t de Student y F de Fisher.

CARACTERISTICAS DE LA DISTRIBUCION NORMAL

1. Forma
Es una campana simétrica con respecto a su centro
La curva tiene un solo pico; por tanto, es unimodal.
La media de una población distribuida normalmente cae en el centro de su curva normal.
Debido a la simetría de la distribución normal de probabilidad, la mediana y la moda de la distribución se encuentran también en el centro; en consecuencia, para una curva normal, la media, la mediana y la moda tienen el mismo valor.
Los dos extremos de la distribución normal de probabilidad se extienden indefinidamente y nunca tocan el eje horizontal

2. Parámetros
Está caracterizada por dos parámetros

a).- Parámetro de localización: La media
b).- Parámetro de forma: La varianza

3. Función de densidad

Para determinar las áreas bajo la curva de función de densidad normal se requiere integrar la ecuación anterior, desafortunadamente no existe una solución exacta para la integral, por lo que su evaluación solamente puede obtenerse utilizando métodos de aproximación. Por esta razón, se aprovechó la propiedad de transformación de cualquier curva normal a la NORMAL ESTANDAR utilizando una nueva variable aleatoria Z llamada variable aleatoria normal estándar.


COMENTARIO:

Es una grafica en forma de campana que se utiliza para calcular el porcentaje de dicho problema, en dicha grafica se puede representar la media y el dato x, tambien recibe el nombre de campana de gauss.
No todo fenomeno va a ser normal ya que para ello existe en la grafica en la cual se ve de que forma se queda la curva, sirve para ver la simetria de los datos.

a