Arboles de decisiones – Super Atributos

Mapa -> Predecir el Futuro (inferir) -> Modelizacion -> Clasificacion -> Arbol de Decisiones -> Súper Atributos


La ecuación de ganancia de información, G(T,X) tiene un sesgo hacia atributos con una gran cantidad de valores versus atributos que tienen una cantidad menor. Estos Super Atributos serán fácilmente seleccionados como la raíz, resultando en un árbol ancho que clasifica perfectamente pero que se desempeña pobremente en instancias desconocidas. Podemos penalizar a los atributos con una gran cantidad de valores utilizando un método de selección de atributos alternativo. A éste método se lo conoce como Gain Ratio (Tasa de Ganancia).

Ejemplo:

El siguiente ejemplo muestra una tabla de frecuencias entre el target (Play Golf) y el atributo ID que tiene un valor único para cada registro del conjunto de datos.

La ganancia de información para ID es un máximo con 0.94, antes de dividir los datos. Sin embargo, con el ajuste, la ganancia de información cayó a 0.25.

 

Dejá una respuesta