La Evaluacion del Modelo es una parte integral del proceso de desarrollo de un modelo. Ayuda a encontrar el mejor modelo que representa a nuestros datos y cuan bien puede el modelo seleccionado funcionar en el futuro. Evaluar la performance de un modelo con los datos utilizados para el entrenamiento no es algo aceptable en la ciencia de datos porque facilmente puede generar modelos demasiado optimistas o sobreexplotados (overfitting). Hay dos metodos para evaluar modelos en data science, Hold-Out y Cross-Validation. Para evitar sobreexplotar un modelo, ambos metodos utilizan un conjunto de pruebas (este conjunto de datos no debe haber sido visto anteriormente por el modelo) para poder evaluar la performance del modelo.
Hold-Out
En este método, el dataset mas grande es dividido de manera aleatoria en tres subsets:
- Set de entrenamiento, es un subset del dataset que se utiliza para la construccion del modelo
- Set de validacion, es un subset utilizado para medir la performance del modelo construido durante la fase de entrenamiento. Provee una plataforma de pruebas donde se puede afinar los parametros del modelo, y asi seleccionar el modelo que mejor rinde. No todos los algoritmos de modelado requieren de un set de validacion.
- Set de pruebas, o de ejemplos desconocidos para el modelo, pertenecientes al dataset original. De esta forma se puede medir el futuro rendimiento del modelo. Si un modelo encaja mejor con el set de pruebas que con el set de entrenamiento, lo mas probable es que el modelo este siendo sobreexplotado.
Cross-Validation
Cuando solo se posee un conjunto limitado de datos, para lograr un estimado imparcial del modelo utilizamos algo llamado k-fold cross-validation. En este k-fold cross-validation, dividimos los datos en k subsets de igual tamaño. Construimos modelos k veces, cada vez dejando afuera a uno de los subsets del entrenamiento y lo utilizamos como set de pruebas. Si k es igual al tamaño del sampleo de datos, se llama “leave-one-out” (dejar ir)
La evaluacion del modelo se puede dividir en dos secciones: