Sin supervision

Mapa -> Explicar el pasado -> Exploración -> Univariables -> Categóricas -> Discretizar | Codificar (encode) -> Sin Supervisión | Supervisada


Los métodos de discretización sin supervisión transforman variables numéricas en variables categóricas sin utilizar información del target (class). Los dos métodos más comunes de discretización  sin supervisión son Mismo Ancho y Misma Frecuencia.

Mismo Ancho

Este algoritmo divide los datos en intervalos k del mismo tamaño. El ancho de los intervalos se calcula utilizando la siguiente ecuación:

w = (max – min) / k

Y los límites de los intervalos con:

min + w, min + 2w, …. , min + (k-1)w

Misma Frecuencia

Este algoritmo divide los datos en k grupos donde cada grupo contiene aproximadamente la misma cantidad de valores. Para ambos métodos la mejor manera de determinar k es mirando el histograma e intentando diferentes intervalos o grupos.

Ejemplos:

Datos: 0, 4, 12, 16, 18, 24, 26, 28

Mismo Ancho (Equal Width):
  • Bin 1: 0, 4              [- , 10]
  • Bin 2: 12, 16, 16, 18    [10, 20]
  • Bin 3: 24, 26, 28        [20, + ]
Misma Frecuencia (Equal Frequency):
  • Bin 1: 0, 4, 12          [- , 14]
  • Bin 2: 16, 16, 18        [14, 21]
  • Bin 3: 24, 26, 28        [21, + ]

Otros métodos

  • Ranking: El ranking de un numero es su tamaño relativo a las otras variables numéricas. Primero, ordenamos la lista de valores, luego le asignamos su posición en la lista como su ranking. Los mismos valores reciben el mismo ranking, pero la presencia de valores duplicados afecta el ranking de los valore siguiente (ej: 1, 2, 3, 3, 5). El rango es un método de discretización muy sólido con un solo gran contratiempo: que los valores pueden tener diferentes ranking según la lista que se rankee.
  • Quantiles: (mediana, quartiles, percentiles, etc) Los quantiles son un método de discretización muy util, pero al igual que el Ranking, el mismo valor puede pertenecer a un quantil diferente segun la lista que se procese.
  • Funciones Matemáticas: Por ejemplo, FLOOR(LOG(X)) es un método efectivo para hacer discretizacion cuando hablamos de variables numericas con distribuciones muy distorsionadas (como por ejemplo el salario).

Tip: Intenta inventar un método de discretización no supervisada en tiempo real. Los componentes en tiempo real se actualizan en el momento.