Presentación visual que describe al mismo tiempo varias características importantes de un conjunto de datos, tales como el centro, la dispersión, el alejamiento de la simetría, y la identificación de valores extremos (puntos atípicos), es decir, de valores que se alejan de una manera poco usual del resto de los datos.
Presenta los tres cuartiles, (y los valores mínimos y máximos) alineados sobre una caja vertical u horizontalmente.
Procedimiento
Presenta los tres cuartiles, (y los valores mínimos y máximos) alineados sobre una caja vertical u horizontalmente.
Procedimiento
Para el diagrama de cajas y bigotes se requiere
Calcular la mediana y los otros dos cuartiles, con los cuales se formará la caja, que tiene la mediana como eje central, y como lados los dos cuartiles. Estos cuartiles reciben también los nombres de " bisagras". La altura (anchura) de la caja no interesa.
La distancia H definida como la distancia entre el cuartil superior y el cuartil inferior, es decir, corresponde al rango intecuartílico Þ H = Q3 - Q1 = RIC.
El paso correspondiente a 1.5 veces la distancia Þ Paso = 1.5 H
Cercas Internas, ubicadas a un paso de las bisagras o de los respectivos cuartiles. Así, las Cercas Internas Inferior (CIi) y Superior (CIs) estarán dadas por:CIi = Q1 - PasoCIs = Q3 + PasoSi la cerca interna inferior da menor que el valor mínimo de la muestra, ésta se hace igual al valor mínimo; igualmente, si la cerca interna superior da mayor que el valor máximo, ésta se hace igual a dicho valor.
Cercas Externas, ubicadas a un paso de las cercas internas. Así, las Cercas Externas Inferior (CEi) y Superior (CEs) estarán dadas por:CEi = CIi - PasoCEs = CIs + Paso
Se denominan "valores adyacentes" los ubicados entre las cercas internas y los bordes de las cajas. Por simplicidad no se grafican.
"Valores extremos" son los ubicados entre las dos cercas, y merecen especial atención, ya que pueden ser valores atípicos, que, en algunos casos, no pertenecen realmente a la distribución general de donde provienen los datos.
"Valores lejanos" o , ubicados por fuera de las cercas externas, correspondientes a valores extremos, que requieren un mayor análisis que los valores atípicos.
Calcular la mediana y los otros dos cuartiles, con los cuales se formará la caja, que tiene la mediana como eje central, y como lados los dos cuartiles. Estos cuartiles reciben también los nombres de " bisagras". La altura (anchura) de la caja no interesa.
La distancia H definida como la distancia entre el cuartil superior y el cuartil inferior, es decir, corresponde al rango intecuartílico Þ H = Q3 - Q1 = RIC.
El paso correspondiente a 1.5 veces la distancia Þ Paso = 1.5 H
Cercas Internas, ubicadas a un paso de las bisagras o de los respectivos cuartiles. Así, las Cercas Internas Inferior (CIi) y Superior (CIs) estarán dadas por:CIi = Q1 - PasoCIs = Q3 + PasoSi la cerca interna inferior da menor que el valor mínimo de la muestra, ésta se hace igual al valor mínimo; igualmente, si la cerca interna superior da mayor que el valor máximo, ésta se hace igual a dicho valor.
Cercas Externas, ubicadas a un paso de las cercas internas. Así, las Cercas Externas Inferior (CEi) y Superior (CEs) estarán dadas por:CEi = CIi - PasoCEs = CIs + Paso
Se denominan "valores adyacentes" los ubicados entre las cercas internas y los bordes de las cajas. Por simplicidad no se grafican.
"Valores extremos" son los ubicados entre las dos cercas, y merecen especial atención, ya que pueden ser valores atípicos, que, en algunos casos, no pertenecen realmente a la distribución general de donde provienen los datos.
"Valores lejanos" o , ubicados por fuera de las cercas externas, correspondientes a valores extremos, que requieren un mayor análisis que los valores atípicos.
Los diagramas de cajas y bigotes también llamados boxplots o box and whiskers son representaciones gráficas de una distribución estadística unidimensional en las que se reflejan cinco parámetros: límite inferior, primer cuartil, mediana, tercer cuartil y límite superior. A partir de estos cinco parámetros se pueden obtener fácilmente otros dos: el rango y el rango intercuartílico. Además, también dan una medida de la simetría o asimetría de la distribución, del sesgo y de la dispersión.
Se observa que:
1. El bigote de la izquierda es algo más corto que el de la derecha, lo que indica que las calificaciones de la cuarta parte más baja de la clase están algo más concentradas que las calificaciones de la cuarta parte que las tienen más altas.
2. También se observa que la parte izquierda de la caja, que corresponde a los alumnos que han obtenido calificaciones entre el 25% y el 50% es menor que la de la derecha, lo que indica que las calificaciones de estos últimos alumnos están más dispersas.
3. Es fácil ver que el rango es: Ls - Li = 9 – 3 = 6
Y el rango intercuartílico es: Q3 - Q1=6,5– 4,5 = 2
También se observa que la distribución es asimétrica y ligeramente sesgada hacia la derecha.
Se observa que:
1. El bigote de la izquierda es algo más corto que el de la derecha, lo que indica que las calificaciones de la cuarta parte más baja de la clase están algo más concentradas que las calificaciones de la cuarta parte que las tienen más altas.
2. También se observa que la parte izquierda de la caja, que corresponde a los alumnos que han obtenido calificaciones entre el 25% y el 50% es menor que la de la derecha, lo que indica que las calificaciones de estos últimos alumnos están más dispersas.
3. Es fácil ver que el rango es: Ls - Li = 9 – 3 = 6
Y el rango intercuartílico es: Q3 - Q1=6,5– 4,5 = 2
También se observa que la distribución es asimétrica y ligeramente sesgada hacia la derecha.
Los diagramas de caja también llamados gráficos de caja y bigotes, nos permiten identificar la distribución y la dispersión de los datos de una variable de escala. Con este tipo de gráfico se representa la mediana, los Cuartiles (1 y 3), los valores atípicos y los valores extremos. La estructura de este tipo de gráfico esta basada en una caja, donde el límite superior corresponde al valor del tercer cuartil (75% de los datos) y el límite inferior al primer cuartil (25%); a su vez dentro de la caja se incluye una línea representando el valor de la mediana.
Además se incluye dos barras verticales (Bigotes), los cuales determinan la distancia o rango del 95% de los casos; adicionalmente el procedimiento anexa algunos símbolos representativos de los valores atípicos y extremos. La utilidad de este tipo de gráficos radica en la posibilidad de resumir el comportamiento y las principales medidas de una o varias variables de escala, mediante un solo diagrama.
Para acceder al procedimiento Diagrama de caja, debemos ir al menú Gráficos.. Interactivos.. Diagramas de caja. Al seleccionarlo aparece el cuadro de diálogo correspondiente [Fig.7-70]. Este cuadro cuenta con las mismas características de forma y aplicación del gráfico de barras; la única diferencia que encontramos corresponde a la casilla Etiquetar los casos mediante; en esta casilla se pude ingresar una variable para identificar la etiqueta de los valores atípicos y extremos. Note que en este cuadro no aparecen las variables preincorporadas ni las opciones de agrupar o apilar.
Figuras 7-70 y 7-71
Al igual que los demás gráficos interactivos, los diagramas de cajas cuentan con un grupo de opciones específicas para este tipo de gráficos. Al hacer clic en la pestaña Caja, aparecerán todas las opciones de edición con que cuenta el procedimiento [Fig.7-71]; en la primera sección Mostrar en las cajas, encontramos las opciones para incluir los valores atípicos, extremos y la línea de la mediana; por defecto estas opción están activas. La segunda sección (Remates de los bigotes) nos permite escoger la forma final de los bigotes.
La tercera sección Base de caja, nos permite escoger la forma de la base de las cajas (Cuadrado o Circular); cabe notar que esta sección sólo se activa cuando creamos diagramas en 3-D. Por último encontramos la opción Mostrar las etiquetas de la frecuencia, por medio de la cual podemos pedirle al programa que anexe el recuento de los casos en la parte inferior del gráfico.
Para comprender mejor estos conceptos vamos a generar algunos diagramas de caja, tratando de emplear cada una de las opciones. El primer gráfico que generaremos describe el comportamiento de los datos la variable de escala Años estudiados; para realizarlo debemos ingresar la variable de interés en la casilla del eje vertical y sucesivamente hacer clic en Aceptar, con lo cual el gráfico se creará en el visor de resultados [Fig.7-72].
Si nos fijamos en el gráfico notaremos que en la parte superior e inferior aparecen una serie de símbolos (círculos y asteriscos); el circulo representa los valores atípicos, mientras el asterisco representa los valores extremos. Para facilitar la identificación de los conceptos del gráfico, hemos anexado al diagrama de la figura [7-72], algunas etiquetas informativas; a través de ellas podemos apreciar parámetros como la mediana, el 50% de los datos que aborda la caja y el 95% (aprox.) de los datos que se cubren desde los limites de los bigotes.
Además se incluye dos barras verticales (Bigotes), los cuales determinan la distancia o rango del 95% de los casos; adicionalmente el procedimiento anexa algunos símbolos representativos de los valores atípicos y extremos. La utilidad de este tipo de gráficos radica en la posibilidad de resumir el comportamiento y las principales medidas de una o varias variables de escala, mediante un solo diagrama.
Para acceder al procedimiento Diagrama de caja, debemos ir al menú Gráficos.. Interactivos.. Diagramas de caja. Al seleccionarlo aparece el cuadro de diálogo correspondiente [Fig.7-70]. Este cuadro cuenta con las mismas características de forma y aplicación del gráfico de barras; la única diferencia que encontramos corresponde a la casilla Etiquetar los casos mediante; en esta casilla se pude ingresar una variable para identificar la etiqueta de los valores atípicos y extremos. Note que en este cuadro no aparecen las variables preincorporadas ni las opciones de agrupar o apilar.
Figuras 7-70 y 7-71
Al igual que los demás gráficos interactivos, los diagramas de cajas cuentan con un grupo de opciones específicas para este tipo de gráficos. Al hacer clic en la pestaña Caja, aparecerán todas las opciones de edición con que cuenta el procedimiento [Fig.7-71]; en la primera sección Mostrar en las cajas, encontramos las opciones para incluir los valores atípicos, extremos y la línea de la mediana; por defecto estas opción están activas. La segunda sección (Remates de los bigotes) nos permite escoger la forma final de los bigotes.
La tercera sección Base de caja, nos permite escoger la forma de la base de las cajas (Cuadrado o Circular); cabe notar que esta sección sólo se activa cuando creamos diagramas en 3-D. Por último encontramos la opción Mostrar las etiquetas de la frecuencia, por medio de la cual podemos pedirle al programa que anexe el recuento de los casos en la parte inferior del gráfico.
Para comprender mejor estos conceptos vamos a generar algunos diagramas de caja, tratando de emplear cada una de las opciones. El primer gráfico que generaremos describe el comportamiento de los datos la variable de escala Años estudiados; para realizarlo debemos ingresar la variable de interés en la casilla del eje vertical y sucesivamente hacer clic en Aceptar, con lo cual el gráfico se creará en el visor de resultados [Fig.7-72].
Si nos fijamos en el gráfico notaremos que en la parte superior e inferior aparecen una serie de símbolos (círculos y asteriscos); el circulo representa los valores atípicos, mientras el asterisco representa los valores extremos. Para facilitar la identificación de los conceptos del gráfico, hemos anexado al diagrama de la figura [7-72], algunas etiquetas informativas; a través de ellas podemos apreciar parámetros como la mediana, el 50% de los datos que aborda la caja y el 95% (aprox.) de los datos que se cubren desde los limites de los bigotes.
COMENTARIO:
El diagrama de cajas llamado tambien box plot es una grafica en la cual representa la distribucion de un conjunto de datos los cuales se estan investigando, se utilizan cinco medidas las cuales son: media, cuartil 1, cuartil 3, valor maximo, valor minimo, esta grafica se emplea para conocer la tendencia central , la dispersion y la simetria de los datos.