Bayesiano Puro

Mapa -> Predecir el Futuro (inferir) -> Modelizacion -> Clasificacion -> Bayesiano Puro


Este clasificador, conocido en ingles como “Naive Bayesian”, se basa en el teorema de Bayes donde asume la independencia entre predictores. Un modelo Bayesiano Puro es facil de construir, no posee parametros estimativos iterativos complicados lo cual lo vuelve particularmente útil para datasets grandes. A pesar de su simplicidad, el clasificador a menudo funciona sorprendentemente bien y es muy popular porque a menudo rinde mejor que otros métodos de clasificación.

Algoritmo

El teorema de Bayes provee una forma de calcular la probabilidad subsiguiente, P(c|x), de P(c), P(x) y P(x|c). El clasificador Bayes Puro asume que el efecto del valor de un predictor (x) a una clase dada (c) es independiente de los valores de otros predictores. A la conjetura se la conoce como independencia de clase condicional.

  • P(c|x) es la probabilidad subsiguiente de la clase (target) dado un predictor (atributo)
  • P(c) es la probabilidad anterior de la clase
  • P(x|c) es la posibilidad donde la probabilidad de un predictor dada una clase.
  • P(x) es la probabilidad anterior del predictor.

En el clasificador ZeroR no hay ningun predictor, en el modelo UnR intentamos encontrar el predictor mas simple, los modelos Bayesianos puros incluyen a todos los predictores utilizando la regla de Bayes y la suposicion de independencia entre los predictores.

Ejemplo 1

Usamos el mismo ejemplo del dataset del tiempo (weather_nominal)

La probabilidad posterior se puede calcular primero, construyendo una tabla de frecuencias para cada atributo contra el target. Luego, transformando las tablas de frecuencia a tablas de posibilidad y usando finalmente la ecuacion de Bayesiano Puro para calcular la probabilidad posterior para cada clase. La clase con la mayor probabilidad posterior es el resultado de la predicción.

Las tablas de posibilidad para los cuatro predictores.

Ejemplo 2

En este ejemplo tenemos 4 inputs (predictores). Las probabilidades posteriores finales se pueden estandarizar entre 0 y 1.

 

El problema de la cero-frecuencia

Agregar 1 a la cuenta para cada combinacion de valor-atributo y clase (estimador de Laplace) cuando el valor de un atributo (Outlook = Overcast) no ocurre con cada valor de clase (Play Golf = no)

Predictores Numéricos

Las variables numéricas se deben transformar a sus contrapartes categoricas (Discretizar - Binning) antes de construir sus tablas de frecuencia. La otra opcion que tenemos es utilizar la distribucion de las variables numericas para tener una buena estimacion de la frecuencia. Por ejemplo, una práctica comun es asumir la distribucion normal para las variables numéricas.

La funcion de densidad probabilistica para la distribucion normal se define con dos parámetros (promedio y desviación estandar)

Ejemplo

Humidity

Primedio

DesvEst

Play Golf

yes

86 96 80 65 70 80 70 90 75 79.1 10.2

no

85 90 70 95 91 86.2 9.7

 

Contribución de los predictores

El método de Kononenko conocido como ganancia de la información donde se suma la información contribuida por cada atributo, puede ofrecer una explicacion en cómo los valores de los predictores influencian la probabilidad de la clase.

La contribución de los predictores se pueden visualizar graficandolos con nomogramas, los cuales grafican las tasas para cada valor de cada predictor. El largo de la linea corresponde a los limites de la tasa de sus probabilidades, sugeriendo asi la importancia del predictor relacionado. Tambien muestra el impacto de los valores individuales del predictor.


Ejercicio en R

Dejá una respuesta