Mapa -> Exploración -> Univariables -> Categóricas
Los métodos de discretizacion supervisados transforman variables numéricas en categóricas y utilizan referencias a la informacion de objetivo (target class) para seleccionar puntos de corte.
Discretizacion Entropíca
Este método utiliza un enfoque dividido. La entropía (o el contenido de la información) se calcula basado en la etiqueta de la clase. Encuentra asi de forma intuitiva la mejor división para que los bin discretos sean tan puros como sea posible, es decir, que la mayoria de los valores en un bin correspondan a la misma etiqueta de clase. Formalmente se caracteriza por encontrar la separacion con la máxima ganancia de información
Ejemplo
Discretizar la temperatura utilizando un algoritmo entrópico.
Paso 1: Calcular la “entropia” del target.
O-Ring Failure | |
Y | N |
7 | 17 |
E (Failure) = E(7, 17) = E(0.29, .71) = -0.29 x log2(0.29) – 0.71 x log2(0.71) = 0.871
Paso 2: Calcular la “Entropia” del target dado un bin.
O-Ring Failure | |||
Y | N | ||
Temperature | <= 60 | 3 | 0 |
> 60 | 4 | 17 |
E (Failure,Temperature) = P(<=60) x E(3,0) + P(>60) x E(4,17) = 3/24 x 0 + 21/24 x 0.7= 0.615
Paso 3: Calcular la “Ganancia de informacion” dado un bin.
Information Gain (Failure, Temperature) = 0.256
La ganancia de informacion para los tres bins muestra que el mejor intervalo para “Temperatura” es (<=60, >60) ya que es el que devuelve la mayor ganancia.