Gráfico de Lineas con Barras de Errores
Este gráfico muestra información como una serie de puntos de datos conectados por segmentos de lineas rectas. Cada punto de datos es un promedio de los datos numéricos que corresponden a la categoría de la variable categórica, con una barra de errores que muestra el error estándar. Es una forma de sumarizar cuantas piezas de información están relacionadas y cómo varían una con otra.
Aqui hay un Csv para graficar en excel el gráfico a continuacion: iris
Grafico Combinado
Este gráfico utiliza dos o mas tipos de gráficas para enfatizar el hecho de que posee más de un solo tipo de información. Aquí, utilizamos un gráfico de barras para mostrar la distribución de una variable numérica discreteada (binning) y un gráfico de lineas para mostrar el porcentaje de la categoría seleccionada de la variable categórica. El gráfico combinado es el mejor método de visualización para demostrar el poder de predicibilidad de un predictor (eje X) contra un objetivo o target (eje Y).
Prueba-Z y Prueba-t
Tanto la Prueba-Z como la Prueba-t son esencialmente lo mismo. Ambos miden si los promedios de dos grupos son estadísticamente diferentes uno del otro. Este análisis es muy apropiado para comparar los promedios de una variable numérica para dos categorías de una variable categórica.
Si la probabilidad de Z es pequeña, la diferencia entre los dos promedios es más significante.
Prueba-t
Cuando el n1 o n2 es mejor que 30, utilizamos la prueba-t en lugar de la prueba-Z
Ejemplo:
¿Hay una diferencia significativa entre los promedios de la variable numérica (Temperatura) en dos diferentes categorías de la variable categórica (O-Ring Failure)?
O-Ring Failure | Temperatura | ||||||||||||||||
Y |
53 | 56 | 57 | 70 | 70 | 70 | 75 | ||||||||||
N |
63 | 66 | 67 | 67 | 67 | 68 | 69 | 70 | 72 | 73 | 75 | 76 | 76 | 78 | 79 | 80 | 81 |
prueba-t |
O-Ring Failure |
|
Temperatura | Y | N |
Count | 7 | 17 |
Mean | 64.43 | 72.18 |
Varianza | 76.95 | 30.78 |
t | -2.62 | |
df | 22 | |
Probabilidad | 0.0156 |
La baja probabilidad (0,0156) indica que la diferencia entre el promedio de la temperatura para los fallos de O-Ring y el promedio de la temperatura para cuando el O-Ring no falla es significativa.
Analisis de Varianza (ANOVA)
La prueba ANOVA mide si los promedios de dos o mas grupos son estadísticamente diferentes uno del otro. Este análisis es apropiado para comparar los promedios de una variable numérica para mas de dos categorías de una variable categórica.
Ejemplo:
¿Hay una diferencia importante entre los promedios de la variable numérica (Humedad) y las tres categorías de la variable categórica (Pronostico)?
Pronostico | Humedad | ||||
overcast | 86 | 65 | 90 | 75 | |
rainy | 96 | 80 | 70 | 80 | 91 |
sunny | 85 | 90 | 95 | 70 | 70 |
Pronostico | Count | Promedio | Varianza |
overcast | 4 | 79.0 | 127.3 |
rainy | 5 | 83.4 | 104.8 |
sunny | 5 | 82.0 | 132.5 |
Origen de la variacion |
Suma de los cuadrados |
Grados de libertad |
Promedio cuadrado |
Valor F |
Probabilidad |
Between Groups | 44.0 | 2 | 22.0 | 0.182 | 0.836 |
Within Groups | 1331.2 | 11 | 121.0 | ||
Total | 1375.2 | 13 |
No hay una diferencia significativa entre los promedios de Humedad en las tres categorías de Pronostico.