L'algorithme d'apprentissage automatique va calculer une prédiction en minimisant une fonction de côut ou en maximisant une fonction de performance.
La mesure de la performance prédictive change de forme, selon que les variables de sortie sont des valeurs discrètes désignant une classe dans un ensemble de classes, ou des valeurs continues ordonnées.
Lorsque les valeurs d'entrée et de sortie sont continues, on parlera de problème de regression. La variable cible se note `y`. Sa prédiction par le modèle se note `f`. La moyenne de `y` se note `bar y`. L'écart type de `y` se note `sigma(y)`. La variance de `y` ce note `sigma^2(y)`. La variance de l'érreur de prédiction se note `sigma^2(f-y)`. On note `N` le nombre d'observations. `y_i` est la `i`ème observation. `f_i` est la `i`ème prédiction.
`bar y = 1/N sum_i y_i`
`sigma^2(y) = 1/N sum_i (y_i-bar(y))^2`
`sigma^2(f-y) = 1/N sum_i (f_i-y_i)^2`
La fonction de coût à minimiser est souvent la somme des carrés des erreurs :
`sum_i (f_i - y_i)^2`
Cela revient à minimiser la variance de l'erreur :
`sigma^2(f-y)`
En statistique la variance est plus fondamentale que l'écart-type. La variance de la somme de deux variables linéairement indépendantes est la somme des variances : `sigma^2(x+y)= sigma^2(x)+sigma^2(y)`. Ainsi, si `f` est une prédiction linéaire optimale de `y`, alors l'erreur `y-f` n'est pas corrélée à `f`. La variable `y-f` est linéairement indépendante de la variable `f`, et donc `sigma^2(y) = sigma^2(y-f)+sigma^2(f)`. La performance du modèle est donnée par le coefficient de détermination `R^2` :
`R^2=1-(sigma^2(f - y))/(sigma^2(y))`
Les statisticiens préfèrent utiliser cette fonction de coût `R^2` parceque :
Lorsque les valeurs de sortie sont discrètes et désignent des classes, on parlera de problème de classification. La variable cible se note `y`. Sa prédiction par le modèle se note `f`. La fonction de coût à minimiser est la probabilité d'erreur, notée `sf"P"(f"≠"y)`. C'est le nombre de cas où `f"≠"y`, divisé par le nombre totale de tirages.
.