Que falten valores es una ocurrencia muy común, y lo que se necesita es una estrategia para tratarlos. Un valor faltante puede indicar un montón de cosas diferentes en tus datos. Quizá el dato no estaba disponible, o no aplicaba para el evento, o simplemente es algo que no sucedió. Podría ser que la persona que ingresó el dato no conocía el valor correcto, o que se le pasó completarlo.
Los métodos de minería de datos varían en la forma en la que tratan a los valores faltantes. En general, se ignoran los valores faltantes, o se excluye por completo el registro que contiene valores faltantes, o se completan los valores faltantes con la media, el promedio, o se infieren los valores faltantes a partir de los valores existentes.
Politicas de Reemplazo de Valores Faltantes
- Ignorar los registros con valores faltantes.
- Reemplazar los valores por una constante (ej. “?”).
- Completar los valores manualmente según tu conocimiento.
- Reemplazarlos con un promedio de la variable (si es numerica) o con el valor más frecuente (si es categórica)
- Utilizar técnicas tales como “vecino más cercano”, Bayes, árboles de decisión, algoritmo EM, etc.