Mesure de performance de la prédiction

L'algorithme d'apprentissage automatique va calculer une prédiction en minimisant une fonction de côut ou en maximisant une fonction de performance.

La mesure de la performance prédictive change de forme, selon que les variables de sortie sont des valeurs discrètes désignant une classe dans un ensemble de classes, ou des valeurs continues ordonnées.

1) Mesures de performance du modèle continue

Lorsque les valeurs d'entrée et de sortie sont continues, on parlera de problème de regression. La variable cible se note `y`. Sa prédiction par le modèle se note `f`. La moyenne de `y` se note `bar y`. L'écart type de `y` se note `sigma(y)`. La variance de `y` ce note `sigma^2(y)`. La variance de l'érreur de prédiction se note `sigma^2(f-y)`. On note `N` le nombre d'observations. `y_i` est la `i`ème observation. `f_i` est la `i`ème prédiction.

`bar y = 1/N sum_i y_i`

`sigma^2(y) = 1/N sum_i (y_i-bar(y))^2`

`sigma^2(f-y) = 1/N sum_i (f_i-y_i)^2`

La fonction de coût à minimiser est souvent la somme des carrés des erreurs :

`sum_i (f_i - y_i)^2`

Cela revient à minimiser la variance de l'erreur :

`sigma^2(f-y)`

En statistique la variance est plus fondamentale que l'écart-type. La variance de la somme de deux variables linéairement indépendantes est la somme des variances : `sigma^2(x+y)= sigma^2(x)+sigma^2(y)`. Ainsi, si `f` est une prédiction linéaire optimale de `y`, alors l'erreur `y-f` n'est pas corrélée à `f`. La variable `y-f` est linéairement indépendante de la variable `f`, et donc `sigma^2(y) = sigma^2(y-f)+sigma^2(f)`. La performance du modèle est donnée par le coefficient de détermination `R^2` :

`R^2=1-(sigma^2(f - y))/(sigma^2(y))`

Les statisticiens préfèrent utiliser cette fonction de coût `R^2` parceque :

Lorsque `z` est une prédiction linéaire optimale alors `R` est égale au coefficient de corrélation entre `x` et `z`.
`R^2` est une valeur normalisée entre `0` et `1`,
`R^2` mesure la proportion de variance expliquée,
`R^2` est stable sous changement d'uniés,
`R^2` apparait naturellement dans l'algèbre des moindres carrés,
`R^2` a une interprétation géométrique dans `RR^n`

2) Mesures de performance du modèle discret

Lorsque les valeurs de sortie sont discrètes et désignent des classes, on parlera de problème de classification. La variable cible se note `y`. Sa prédiction par le modèle se note `f`. La fonction de coût à minimiser est la probabilité d'erreur, notée `sf"P"(f"≠"y)`. C'est le nombre de cas où `f"≠"y`, divisé par le nombre totale de tirages.

Dominique Mabboux-Stromberg
septembre 2025