Quantiles

Mapa -> Explicar el pasado -> Exploración -> Univariables -> Categóricas -> Discretizar | Codificar (encode) -> Sin supervision -> Quantiles


Variables Numéricas

Una variable numérica, continua o analógica (también conocida como atributo) es una variable que puede tomar cualquier valor dentro de un intervalo finito o infinito (ej. altura, peso, temperatura, etc). Hay dos tipos de variables numéricas, intervalo y ratio.

Una variable del tipo intervalo tiene valores cuyas diferencia es interpretable, pero que no tiene un verdadero cero. Un buen ejemplo es el de la temperatura en grados Centígrados. Los datos en una escala de intervalos pueden ser sumadas y restadas pero no pueden ser multiplicadas ni divididas. Por ejemplo no podemos decir que un día es el doble de caluroso que otro. En cambio, las variables de ratio tienen valores con un cero verdadero que pueden ser sumadas, restadas, multiplicadas o divididas (ej. el peso).

Variable Univariable – Variables Numéricas
Estadísticas Visualización Ecuación Descripción
Count Histograma N

La cantidad de valores (observaciones) de la variable.

Minimo Diagrama de Caja Min

El menor valor de la variable.

Maximo Diagrama de Caja Max

El mayor valor de la variable.

Media (Promedio) Diagrama de Caja

La suma de los valores dividida por la cantidad.

Mediana Diagrama de Caja

El valor del medio. Por encima y por debajo de la mediana hay la misma cantidad de valores.

Moda Histograma

El valor mas frecuente. Puede haber más de una moda.

Quantil Diagrama de Caja

Qk

Un conjunto de puntos de corte que dividen el conjunto de datos en grupos que contienen la misma cantidad de valores (Quartil, Quintil, Percentil, etc)

Rango Diagrama de Caja

Max-Min

La diferencia entre el máximo y el mínimo.
Varianza Histograma

Una medida de dispersión de datos.
Desviación Estándar Histograma

La raíz cuadrada de la Varianza.
Coeficiente de Desvío Histograma

Una medida de dispersión de datos dividida por el promedio.
Distorsión (Skewness) Histograma

Una medida de simetría o asimetría en la distribución de los datos.
Kurtosis Histograma

Una medida de si los datos son mayores o iguales con relación a la distribución normal.

Diagrama de Caja e Histograma para el dataset “iris“.

Ejemplo:

Análisis estadístico utilizando Microsoft Excel

sepal length

Count 150
Minimum 4.3
Maximum 7.9
Mean 5.84
Median 5.8
Mode 5
Quartile 1 5.1
Range 3.6
Variance 0.69
Standard Deviation 0.83
Coefficient of Variation 14.2%
Skewness 0.31
Kurtosis -0.55

Ejemplos