Page 29 - Revista FIUDE 2018
P. 29
Revista de la Facultad de Ingeniería, Año 5, Número 1
Contabilizando los resultados totales, se puede construir lo que se conoce como la
matriz de confusión, donde la primera fila tiene los resultados positivos, separados
por Verdaderos y Falsos; y la segunda fila contiene los resultados negativos,
igualmente separados en Verdaderos y Falsos. A continuación, se presenta un
ejemplo de la matriz de confusión:
Valor Predicho
= + = −
Valor = + TP = 753 FP = 25
Real
= − FN = 43 TN = 433
Tabla 2: Matriz de confusión
Estas cuatro variables definen una gran variedad de indicadores, capaces de analizar
la calidad del algoritmo desde distintos puntos de vista. Recordemos que existen,
al menos, cuatro grandes proveedores de soluciones de Machine Learning
(Microsoft, Amazon, IBM y Google), todos ellos proveen de estas variables y los
indicadores que definiremos a continuación como métricas de performance del
resultado del algoritmo a la hora de ejecutar el test de datos.
Errores de Clasificación (Misclassification error)
Cuando no es importante diferenciar las clasificaciones incorrectas y no es necesario
tomar en consideración que uno de los dos tipos de Falsos (Negativos o Positivos) es
más importante o relevante que el otro, podemos construir el primer indicador
básico de la siguiente manera:
+
+
= = [ ≠ ]
+
+ +
Este indicador brinda, en forma general, el porcentaje de casos mal clasificados,
representados con el color rojo en la matriz de confusión.
= + = −
= + TP FP
= − FN TN
Tabla 3: Matriz de confusión de ejemplo
28