Analisis de Discriminacion Lineal

Mapa -> Predecir el Futuro (inferir) -> Modelizacion -> Clasificacion -> Análisis de Discriminación Lineal


El análisis de discriminación lineal (Lineal Discriminant Analysis o LDA en inglés) es un método de clasificación desarrollado originalmente en 1936 por R.A. Fisher. Es simple, es matemáticamente robusto y a menudo produce modelos cuya precisión es tan buena como la de otros modelos más complejos.

Algoritmo

LDA se basa en el concepto de buscar la combinación de variables lineal (predictores) que mejor separa a las clases (targets). Para capturar la noción de separabilidad, Fisher definió la siguiente función de puntaje:

Dada la función de puntaje, el problemas estimar los coeficientes lineales que maximizan el puntaje y que se puedan resolver con las siguientes ecuaciones.

Una forma de medir la efectividad de la discriminación de variables es el de calcular la distancia matemática entre dos grupos. Una distancia mayor a 3 quiere decir que sus promedios difieren por más de 3 desviaciones estándar. Es decir que el solapamiento (probabilidad de clasificación errónea) es bastante pequeño.

Por último, se clasifica un nuevo punto proyectándolo en la dirección de máxima separación y se lo clasifica como C1 si:

 

Ejemplo

Supongamos que recibimos un dataset de un pequeño banco sobre sus clientes de pequeños negocios que cayeron en default (rojos) y aquellos que no lo hicieron (azul) separados estos por días de mora (DAYSDELQ) y la cantidad de meses en funcionamiento (BUSAGE). Utilizamos así LDA para encontrar el modelo lineal óptimo que mejor separa a estas dos clases (default y no default).

El paso final es el de calcular los vectores promedios, matrices de covarianza y clases probabilisticas.

Entonces, calculamos la matriz de covarianza sumarizada y finalmente los coeficientes del modelo lineal.

La distancia Mahalanobis de 2.32 muestra un pequeño solapamiento entre los dos grupos lo que implica una buena separación entre las clases por el modelo lineal.

En la tabla siguiente, calculamos el puntaje Z (Z score) utilizando la ecuación Z de arriba. Sin embargo este puntaje no se puede utilizar por si mismo para predecir un resultado. Necesitamos también la ecuación de la columna 5 de la tabla que se ve abajo para escoger la clase N o Y. Predecimos clase N si el valor calculado es mayor a -1.1, sino es clase Y. Como se ve abajo, el modelo LDA cometió dos errores.

Contribución de los predictores

Se puede usar una simple correlación lineal entre los predictores y puntajes del modelo para probar cuales predictores contribuyen de forma significativa a la función de discriminación. La correlación puede variar entre -1 y 1, siendo estos valores los que indican la mayor cantidad de contribución y 0 indicando una contribución nula.

Análisis de discriminación Cuadrático (QDA)

QDa es una función de discriminación general con limites de decisión cuadráticos que se puede utilizar para clasificar set de datos en dos o más clases. QDA tiene más poder predictivo que LDA pero necesita estimar la matriz de covarianza para cada clase.

Donde Ck es la matriz de covarianza para la clase k (-1 indica matriz inversa), |Ck| es la determinante de la matriz de covarianza Ck’ y P(ck) es la probabilidad previa a la clase k. La regla de clasificación es simplemente encontrar la clase con el mayor valor Z.


Dejá una respuesta