La régression logistique

1) Introduction

Dans le procédé de régression logistique, l'objet de la prédiction n'est plus une valeur réelle continue, mais une valeur booléenne, `1` ou `0`.

On ramène le modèle à celui d'une prédiction d'un nombre réel, mesurant la probabilité que la valeur booléenne cible soit `0` ou `1`. La valeur cible est alors un réel dans l'intervalle ]0,1[. Mais la combinaisons linéaire des entrées peut produire des prévisions supérieures à `1` ou inférieures à `0`. Pour contourner ce problème nous avons besoin d'une fonction qui sait transformer le résultat de notre combinaison linéaire en une valeur comprise dans l'intervale `[0,1]`. On utilise pour cela, la fonction sigmoïde `s` :

`s(x) = 1/(1+e^-x)`

C'est une fonction monotone envoyant `"]-oo","+oo["` sur `]0,1[`.

D'une manière générale, une fonction prédictive `f` à partir de `n` variables `(x_1,x_2,x_3,...,x_n)`, voulant prédire une variable cible booléenne `y`, va prédire dans la pratique une variable cible `z` indiquant la probabilité que `y"="1`.

La fonction de côut qu'il faut minimiser dans le procédé de régression logistique, doit alors sanctionner beaucoup plus fortement les cas contradictoires où nous avons par exemple à la fois une probabilité `f"="0.001` et une valeur `y"="1` , ou une probabilité `f"="0.999` et une valeur `y"="0`, que seulement linéairement. C'est pourquoi elle n'est pas calculée à partir de l'erreur quadratique moyenne mais à partir d'une autre mesure appelée l'entropie croisée.

Pour expliquer cela, il nous faut d'abord décrire la théorie de l'information et ses conceptes clés que sont l'entropie qui correspond à une quantité d'information, et la probabilité qui correspond à l'inverse du nombres de possibilité dans le cas équiprobable.

2) Entropie et quantité d'information

Qu'est-ce qu'une variable booléenne aléatoire :

Une variable booléenne aléatoire `x` produit à chaque tirage au sort, une valeur égale à `0` ou à `1`, et possède cette propriété essentielle (difficile à formaliser de façon exacte et exhaustive) que chaque tirage au sort est indépendants des autres tirages aux sorts. La variable `x` suit alors la loi de Bernouilli.

On note `P(x"="1)` la probabilité que `x"="1`. C'est la limite lorsque `N` tend vers l'infini, de la moyenne de `N` tirages.

  • On note `p = P(x"="1)`.
  • La moyenne de `x` vaut `bar x = p`.
  • Les moments de `x` valent `bar (x^n) = p`.
  • La variance de `x` vaut `sigma^2(x) = p(1"-"p)`.

Qu'est-ce que la quantité d'information :

Un mot de `8` bits peut exprimer un nombre compris entre `0` et `255` c'est à dire qu'il peut faire un choix parmi `256` alternatives. Un bit peut mémoriser `0` ou `1` c'est à dire qu'il peut faire un choix parmi `2` alternatives.

Si on ajoute un bit au mot de 8 bits, le mot de `9` bits peut exprimer un nombre compris entre `0` et `511` c'est à dire qu'il peut faire un choix parmi `512` alternatives. Ajouter un bit à un mot va multiplier par `2` le nombre de messages distincts possibles mémorisable par ce mot.

Hartley (1928) : La quantité d'information d'un message doit varier linéairement avec la taille du message, un message 2 fois plus long contient potentiellement une quantité d'information deux fois plus grande. Or le nombre de messages distincts possibles croit exponentiellement.

La quantité d'information est donc proportionnelle au logarithme du nombre de messages distincts possibles. Et on choisie le logarithme en base deux pour exprimer la quantité d'information en nombre de bits.

Ainsi dans l'exemple, le mot de `8` bits représente une quantité d'information de `8` bits, et permet d'exprimer `2^8"="256` messages distincts.

Si on transmet une succession de message de 8 bits en supposant que tout les messages sont équiprobables, alors n'importe quel message de 8 bits possèdera exactement une probabilité de réalisation valant `1"/"256 = 2^-8`.

Qu'est-ce que l'entropie :

L'entropie est une variable d'état proportionnelle au logarithme du nombre d'états microscopiques possibles équiprobables du système pour le même état macroscopique présent. C'est une variable d'état extensive, c-a-d que l'entropie de plusieurs systèmes, disposés comme un `n`-uplet de systèmes, est la somme des entropies des systèmes.

Donc pour définir formellement l'entropie, il faut donc définir des critères macroscopiques qui définissent les états macroscopiques, et des critères microscopiques qui définissent les états microscopiques qui devront dans le cas simple être tous équiprobables pour un même état macroscopique. La définition de l'entropie dépend donc du choix de ces critères. L'entropie représente la quantité d'information nécessaire pour caractériser un état microscopique dans l'état macroscopique présent. Lorqu'il y a `N` états microscopiques équiprobables, et que l'on choisi comme unité le bit, alors l'entropie synonyme de quantité d'information, se définit comme suit :

`Q=log(N)`

Le logarithme est en base `2` pour que l'entropie soit exprimé en nombre de bits. Par analogie au modèle de messages décrit au chapitre précédent :

  • L'état macroscopique correspond à la taille du message.
  • L'état microscopique correspond à un message.
  • L'entropie correspond à la quantité d'information que porte un message.
  • La probabilité correspond à celle de recevoir un message préalablement fixé.

Du nombre d'états microscopiques équiprobables `N`, on déduit la probabilité d'un état microscopique `p=1"/"N`. Et donc l'entropie exprimée en bits s'écrit :

`Q = -log(p)`

L'entropie est utilisé dans l'étude des gaz-parfaits. Il est curieux de prolonger l'analogie et de voir à quoi ressemble les états microscopiques d'un gaz parfait qui sont ainsi utilisés dans la formule de l'entropie. Voir Gaz parfait.

Qu'est-ce que l'entropie dans le cas d'états microscopiques non-équiprobables

Lorsque les états microscopiques ne sont plus équiprobables, la définition de l'entropie se perfectionne. On se réfère alors à la définition de l'entropie selon Shannon :

Soit un système ayant des états microscopiques `i`, chacun se réalisant avec une probabilité `p_i` :

`p_i≥0`      et       `sum_i p_i=1`

L’entropie est définie par :

`Q=−sum_i p_i ln⁡p_i`

Cela s'explique assez sommairement comme suit : On considère que chaque état microscopiques se subdivise en `n_i` états fondamentaux tous équiprobables. Ainsi `p_i "=" n_i"/"N``N` est le nombre total d'états fondammentaux tous équiprobables. La quantité d'information du choix d'un état fondamental dans le micro-état `i` est `ln(n_i)` qui est égale à `-ln(p_i)`. La quantité `Q` d'information moyenne du choix d'un état fondamental dans un micro-état réalisé avec sa probabilité `p_i` est donc :

`Q=sum_i p_i ln⁡n_i`

`Q=-sum_i p_i ln⁡p_i`


Voir Probabilité

---- 26 janvier 2026 ----

 

 

 
 


 

Précédent

 

 


Dominique Mabboux-Stromberg
décembre 2025