Categoricas con Numericas

Mapa -> Exploración -> Bivariables

Gráfico de Lineas con Barras de Errores

Este gráfico muestra información como una serie de puntos de datos conectados por segmentos de lineas rectas. Cada punto de datos es un promedio de los datos numéricos que corresponden a la categoría de la variable categórica, con una barra de errores que muestra el error estándar. Es una forma de sumarizar cuantas piezas de información están relacionadas y cómo varían una con otra.

Aqui hay un Csv para graficar en excel el gráfico a continuacion: iris

Grafico Combinado

Este gráfico utiliza dos o mas tipos de gráficas para enfatizar el hecho de que posee más de un solo tipo de información. Aquí, utilizamos un gráfico de barras para mostrar la distribución de una variable numérica discreteada (binning) y un gráfico de lineas para mostrar el porcentaje de la categoría seleccionada de la variable categórica. El gráfico combinado es el mejor método de visualización para demostrar el poder de predicibilidad de un predictor (eje X) contra un objetivo o target (eje Y).

Prueba-Z y Prueba-t

Tanto la Prueba-Z como la Prueba-t son esencialmente lo mismo. Ambos miden si los promedios de dos grupos son estadísticamente diferentes uno del otro. Este análisis es muy apropiado para comparar los promedios de una variable numérica para dos categorías de una variable categórica.

Si la probabilidad de Z es pequeña, la diferencia entre los dos promedios es más significante.

Prueba-t

Cuando el n1 n2 es mejor que 30, utilizamos la prueba-t en lugar de la prueba-Z

Ejemplo:

¿Hay una diferencia significativa entre los promedios de la variable numérica (Temperatura) en dos diferentes categorías de la variable categórica (O-Ring Failure)?

O-Ring Failure    Temperatura

Y

53 56 57 70 70 70 75

N

63 66 67 67 67 68 69 70 72 73 75 76 76 78 79 80 81

prueba-t

O-Ring Failure

Temperatura Y N
Count 7 17
Mean 64.43 72.18
Varianza 76.95 30.78
t -2.62
df 22
Probabilidad 0.0156

La baja probabilidad (0,0156) indica que la diferencia entre el promedio de la temperatura para los fallos de O-Ring y el promedio de la temperatura para cuando el O-Ring no falla es significativa.

Analisis de Varianza (ANOVA)

La prueba ANOVA mide si los promedios de dos o mas grupos son estadísticamente diferentes uno del otro. Este análisis es apropiado para comparar los promedios de una variable numérica para mas de dos categorías de una variable categórica.

Ejemplo:

¿Hay una diferencia importante entre los promedios de la variable numérica (Humedad) y las tres categorías de la variable categórica (Pronostico)?

Pronostico Humedad
overcast 86 65 90 75
rainy 96 80 70 80 91
sunny 85 90 95 70 70
Pronostico Count Promedio Varianza
overcast 4 79.0 127.3
rainy 5 83.4 104.8
sunny 5 82.0 132.5
Origen de la variacion

Suma de los cuadrados

Grados de libertad

Promedio cuadrado

Valor F

Probabilidad

Between Groups 44.0 2 22.0 0.182 0.836
Within Groups 1331.2 11 121.0
Total 1375.2 13

No hay una diferencia significativa entre los promedios de Humedad en las tres categorías de Pronostico.


Ejercicio en R

Dejá una respuesta