La descente de gradient

1) Introduction

Dans le procédé de régression logistique, l'objet de la prédiction n'est plus une valeur réelle continue, mais une valeur booléenne, `1` ou `0`.

On ramène le modèle à celui d'une prédiction d'un nombre réel, mesurant la probabilité que la valeur booléenne cible soit `0` ou `1`. La valeur cible est alors un réel dans l'intervalle ]0,1[. Mais la combinaisons linéaire des entrées peut produire des prévisions supérieures à `1` ou inférieures à `0`. Pour contourner ce problème nous avons besoin d'une fonction qui sait transformer le résultat de notre combinaison linéaire en une valeur comprise dans l'intervale `[0,1]`. On utilise pour cela, la fonction sigmoïde `s` :

`s(x) = 1/(1+e^-x)`

C'est une fonction monotone envoyant `"]-oo","+oo["` sur `]0,1[`.

D'une manière générale, une fonction prédictive `f` à partir de `n` variables `(x_1,x_2,x_3,...,x_n)`, voulant prédire une variable cible booléenne `y`, va prédire dans la pratique une variable cible `z` indiquant la probabilité que `y"="1`.

La fonction de côut qu'il faut minimiser dans le procédé de régression logistique, doit alors sanctionner beaucoup plus fortement les cas contradictoires où nous avons par exemple à la fois une probabilité `f"="0.001` et une valeur `y"="1` , ou une probabilité `f"="0.999` et une valeur `y"="0`, que seulement linéairement. C'est pourquoi elle n'est pas calculée à partir de l'erreur quadratique moyenne mais à partir d'une autre mesure appelée l'entropie croisée.

Pour expliquer cela, il nous faut d'abord décrire la théorie de l'information et ses conceptes clés que sont l'entropie qui correspond à une quantité d'information, et la probabilité qui correspond à l'inverse du nombres de possibilité dans le cas équiprobable.

2) Entropie et quantité d'information

Qu'est-ce qu'une variable booléenne aléatoire :

Une variable booléenne aléatoire `x` produit à chaque tirage au sort, une valeur égale à `0` ou à `1`, et possède cette propriété essentielle (difficile à formaliser de façon exacte et exhaustive) que chaque tirage au sort est indépendants des autres tirages aux sorts. La variable `x` suit alors la loi de Bernouilli.

On note `P(x"="1)` la probabilité que `x"="1`. C'est la limite lorsque `N` tend vers l'infini, de la moyenne de `N` tirages.

On note `p = P(x"="1)`.
La moyenne de `x` vaut `bar x = p`.
Les moments de `x` valent `bar (x^n) = p`.
La variance de `x` vaut `sigma^2(x) = p(1"-"p)`.

Qu'est-ce que la quantité d'information :

Un mot de `8` bits peut exprimer un nombre compris entre `0` et `255` c'est à dire qu'il peut faire un choix parmi `256` alternatives. Un bit peut mémoriser `0` ou `1` c'est à dire qu'il peut faire un choix parmi `2` alternatives.

Si on ajoute un bit au mot de 8 bits, le mot de `9` bits peut exprimer un nombre compris entre `0` et `511` c'est à dire qu'il peut faire un choix parmi `512` alternatives. Ajouter un bit à un mot va multiplier par `2` le nombre de messages distincts possibles mémorisable par ce mot.

Hartley (1928) : La quantité d'information d'un message doit varier linéairement avec la taille du message, un message 2 fois plus long contient potentiellement une quantité d'information deux fois plus grande. Or le nombre de messages distincts possibles croit exponentiellement.

La quantité d'information est donc proportionnelle au logarithme du nombre de messages distincts possibles. Et on choisie le logarithme en base deux pour exprimer la quantité d'information en nombre de bits.

Ainsi dans l'exemple, le mot de `8` bits représente une quantité d'information de `8` bits, et permet d'exprimer `2^8"="256` messages distincts.

Si on transmet une succession de message de 8 bits en supposant que tout les messages sont équiprobables, alors n'importe quel message de 8 bits possèdera exactement une probabilité de réalisation valant `1"/"256 = 2^-8`.

Qu'est-ce que l'entropie :

L'entropie est une variable d'état proportionnelle au logarithme du nombre d'états microscopiques possibles équiprobables du système pour le même état macroscopique présent. C'est une variable d'état extensive, c-a-d que l'entropie de plusieurs systèmes, disposés comme un `n`-uplet de systèmes, est la somme des entropies des systèmes.

Donc pour définir formellement l'entropie, il faut donc définir des critères macroscopiques qui définissent les états macroscopiques, et des critères microscopiques qui définissent les états microscopiques qui devront dans le cas simple être tous équiprobables pour un même état macroscopique. La définition de l'entropie dépend donc du choix de ces critères. L'entropie représente la quantité d'information nécessaire pour caractériser un état microscopique dans l'état macroscopique présent. Lorqu'il y a `N` états microscopiques équiprobables, et que l'on choisi comme unité le bit, alors l'entropie synonyme de quantité d'information, se définit comme suit :

`Q=logN`

Le logarithme est en base `2` pour que l'entropie soit exprimé en nombre de bits. Par analogie au modèle de messages décrit au chapitre précédent :

L'état macroscopique correspond à la taille du message.
L'état microscopique correspond à un message.
L'entropie correspond à la quantité d'information que porte un message.
La probabilité correspond à celle de recevoir un message préalablement fixé.

Du nombre d'états microscopiques équiprobables `N`, on déduit la probabilité d'un état microscopique `p=1"/"N`. Et donc l'entropie exprimée en bits s'écrit :

`Q = -logp`

L'entropie est utilisé dans l'étude des gaz-parfaits. Il est curieux de prolonger l'analogie et de voir à quoi ressemble les états microscopiques d'un gaz parfait qui sont ainsi utilisés dans la formule de l'entropie. Voir Gaz parfait.

Qu'est-ce que l'entropie dans le cas d'états microscopiques non-équiprobables

Lorsque les états microscopiques ne sont plus équiprobables, la définition de l'entropie se perfectionne. On se réfère alors à la définition de l'entropie selon Shannon :

Soit un système ayant des états microscopiques `i`, chacun se réalisant avec une probabilité `p_i` :

`p_i≥0` et `sum_i p_i=1`

L’entropie est définie par :

`Q=−sum_i p_i logp_i`

Cela se démontre en définissant un niveau inférieur d'états fondamentaux tous équiprobables, qui se regroupent en paquet de différente taille pour former les états microscopiques de différente probabilité. Chaque état microscopiques numéro `i` regroupe `n_i` états fondamentaux. Ainsi `p_i "=" n_i"/"N` où `N` est le nombre total d'états fondammentaux tous équiprobables. La quantité d'information du choix d'un état fondamental dans le micro-état `i` est `log n_i` qui est égale à `-log p_i`.

Puis nous allons utiliser le calcul de la moyenne à partir des probabilitées dont on rappelle la règle générale : Etant donné une variable statistique `x` pouvant avoir différentes valeurs `x_i` avec une probabilité `P(x"="x_i)` noté simplement `p_i` `, la moyenne de `x` est obtenue par la formule suivante :

`bar x = sum_i p_ix_i`

La quantité `Q` d'information moyenne du choix d'un état fondamental dans un micro-état dont la probabilité de réalisation est `p_i` est donc (On remplace `x_i` par `log n_i` et on remplace `bar x` par `Q`) :

`Q=sum_i p_i logn_i`

`Q=-sum_i p_i logp_i`

Pour davantage d'explication sur la probabilité dans un univers d'évènements élémentaires exclusifs, équiprobables et exhaustifs, voir Probabilité

3) Différence entre régression linéaire et régression logistique

À la différence de la régression linéaire qui prédit une valeur de la variable cible, la regression logistique prédit la probabilité que la variable cible booléenne soit égale à `1`. La différence de fond est là, la régression linéaire cherche à prédire une valeur numérique ordinaire, tandis que la régression logistique cherche à prédire une probabilité.

En régression linéaire, on approxime une quantité réelle `y` par une valeur prédite `haty`. Donc il est naturel de mesurer l’erreur par un écart comme :

`(y-haty)^2`

En régression logistique, on calcul une estimation de la probabilité conditionnelle `haty= P(y"="1 "|" x"="bbbx)` noté simplement `p(bbbx)`. Et deux cas sont à prévoire, soit la variable d'observation `x` est discrète, ou soit elle est continue.

En formalisant le problème, on le rend plus facilement abordable et transcriptible à d'autres situtions, et en plus, on en présente une généralisation. Cela consiste à définir un langage adapté au problème et cela en constitue la moitié de sa résolution. C'est pourquoi il convient dans un soucis pédagogique de procéder à cet effort de formalisation. On propose donc une partie sur les variables statistiques et les lois de probabilité. Ancien travaux, Nouveau travaux

---- 29 mars 2026 ----