La descente de gradient

1) Introduction

L'objet de la prédiction n'est plus une valeur réelle ordonnée, mais une valeur booléenne, `1` ou `0`.

On ramène le modèle à celui d'une prédiction d'un nombre réel mesurant la probabilité que la valeur booléenne cible soit `1` ou `0`. La valeur cible est alors un réel compris entre zéro et un. Mais la combinaisons linéaire des entrée peut roduire des prévision supérieur à `1` ou inférieurs à `0`. Pour contourner ce problème nous avons besoin d'une fonction qui sait transformer le résultat de notre combinaison linéaire en une valeur comprise dans l'intervale `[0,1]`. On utilise pour cela, la fonction sigmoïde `s` :

`s(x) = 1/(1+e^-x)`

D'une manière générale, une fonction prédictive `f`, à partir de `n` variables `(x_1,x_2,x_3,...,x_n)`, voulant prédire une variable cible booléenne `y`, va prédire en fait, une variable cible `z` indiquant la probabilité que `y=1`. La fonction de côut qu'il faudra minimiser dans le précédé de régression logistique, doit sanctionner beacoup plus fortement le cas où `y=1` et la probabilité `f=0.001`, que simplement linéairement. C'est pourquoi elle n'est pas calculé à partir de l'erreur quadratique moyenne. Nous aurons besoin de la théorie de l'information pour la calculer.

2) Entropie et quantité d'information

Qu'est-ce qu'une variable booléenne aléatoire :

Une variable booléenne aléatoire `x` produit à chaque tirage au sort, une valeur égale à `0` ou à `1`, et possède cette propriété essentielle (difficile à formaliser de façon complète) que chaque tirage au sort est indépendants des autres tirages aux sorts.

La variable `x` suit alors la loi de Bernouilli. On note `P(x"="1)` la probabilité que `x"="1`. C'est la limite lorsque `N` tend vers l'infini, de la moyenne de `N` tirages.

On note `p = P(x"="1)`.
La moyenne de `x` vaut `bar x = p`.
Les moments de `x` valent `bar (x^n) = p`.
La variance de `x` vaut `sigma^2(x) = p(1"-"p)`.

Qu'est-ce que la quantité d'information :

Un mot de `8` bits peut exprimer un nombre compris entre `0` et `255` c'est à dire qu'il peut faire un choix parmi `256` alternatives. Si on ajoute un bit, le mot de `9` bits peut exprimer un nombre compris entre `0` et `511` c'est à dire qu'il peut faire un choix parmi `512` alternatives.

Hartley (1928) : La quantité d'information d'un message doit varier linéairement avec la taille du message, un message 2 fois plus long contient potentiellement une quantit d'information deux fois plus grande. Or le nombre de messages distincts possibles croit exponentiellement. La quantité d'information est donc proportionnelle au logarithme du nombre de messages distincts possibles. Et on choisie le logarithme en base deux pour exprimer la quantité d'information en nombre de bits.

Qu'est-ce que l'entropie :

L'entropie est une variable d'état proportionnelle au logarithme du nombre d'états microscopique possibles équiprobables du système pour le même état macroscopique présent. C'est une variable d'état extensive, c-a-d que l'entropie de plusieurs systèmes, disposés comme un n-uplet de systèmes, est la somme des entropies des systèmes.

Si les états microscopiques ne sont pas équiprobables, la définition est un peu plus compliqué. C'est la définition générale (Gibbs–Shannon) de l'entropie qu'il faut utiliser. Soit un système ayant des états microscopiques `i`, chacun réalisé avec une probabilité `p_i`, avec

`p_i≥0` et `sum_i p_i=1`

L’entropie est définie par :

`S=−k_B sum_i p_i ln(p_i)`

où `k_B` est la constante de Boltzmann. Ne nous intéréssant pas aux gaz parfait ni à la température d'un gaz, on remplace cette constante par `1`, et on obtient une entropie exprimée en nombre de bits.

---- 9 janvier 2026 ----

Considérons un message composé de `N` tirages de la variable booléenne aléatoire `x`. L'état macroscopique est définit par la probabilité `p` (probabilité que `x"="1`) et par le nombre `N` (taille du message). L'état microscopique est définit par le `N`-uplets de valeurs booléennes optenue par tirages successifs de la variable `x`.

Si p=0.5 alors chaque bit, quelque soit sa valeur, apporte une quantité d'information d'un bit.

Le modèle de régression linéaire ainsi modifié avec une fonction de sortie, s'appelle un neurone.

2) Le neurone

La plus part des neurones procèdent à une combinaison linéaire (voir affine si on ajoute le paramètre `a_0`) des entrées et transforment le résultat de cette combinaison à l'aide d'une fonction inversible dite fonction d'activation qui correspond à la tête du neurone (et plus précisement à l'opération effectuée juste avant la sortie de la prédiction). On déclare le neurone comme suit :

`f ← (x_1,x_2,x_3,...,x_n)`

Après cette déclaration, on note `f=f(x_1,x_2,x_3,...,x_n)` sans mentionner les paramètres ni les hyperparamètres pourtant bien présents. La fonction d'activation choisie, est généralement la sigmoïde `s` :

`f = s(a_0+a_1x_1+a_2x_2+...+a_nx_n)`

`f = 1/(1+e^-(a_0+a_1x_1+a_2x_2+...+a_nx_n))`

On ajuste les paramètres `a_0, a_1,a_2,...,a_n` pour que la valeur `f` prédise `z`. Où la variable `z` correspond à la probabilité que `y=1`.

---- 7 janvier 2026 ----

La régression logistique

1) Introduction

2) Entropie et quantité d'information

2) Le neurone