Supervisada

Mapa -> Exploración -> Univariables -> Categóricas


Los métodos de discretizacion supervisados transforman variables numéricas en categóricas y utilizan referencias a la informacion de objetivo (target class) para seleccionar puntos de corte.

Discretizacion Entropíca

Este método utiliza un enfoque dividido. La entropía (o el contenido de la información) se calcula basado en la etiqueta de la clase. Encuentra asi de forma intuitiva la mejor división para que los bin discretos sean tan puros como sea posible, es decir, que la mayoria de los valores en un bin correspondan a la misma etiqueta de clase. Formalmente se caracteriza por encontrar la separacion con la máxima ganancia de información

Ejemplo

Discretizar la temperatura utilizando un algoritmo entrópico.

Paso 1: Calcular la “entropia” del target.

O-Ring Failure
Y N
7 17

E (Failure) = E(7, 17) = E(0.29, .71) = -0.29 x log2(0.29) – 0.71 x log2(0.71) = 0.871

Paso 2: Calcular la “Entropia” del target dado un bin.

O-Ring Failure
Y N
Temperature  <= 60 3 0
 > 60 4 17

 E (Failure,Temperature) = P(<=60) x E(3,0) + P(>60) x E(4,17) = 3/24 x 0 + 21/24 x 0.7= 0.615

Paso 3: Calcular la “Ganancia de informacion” dado un bin.

Information Gain (Failure, Temperature) = 0.256

La ganancia de informacion para los tres bins muestra que el mejor intervalo para “Temperatura” es (<=60, >60) ya que es el que devuelve la mayor ganancia.

Ejercicio en Orange