Statistiques

 

1) Introduction

Le concept de variable statistique `x` sous-entend presque naturellement qu'il existe une succession de tirages de la variable statistique `x_1,x_2,x_3,...,x_n`, où l'indice de tirage s'apparente au temps qui s'écoule. C'est pourquoi il convient de préciser si la loi de probabilité de `x` dépend du temps ou non. Nous traitons ici seulement du cas où la loi de probabilité ne dépend pas du temps, d'aucune façon. Il s'agit donc de variables statistiques dites intemporelles. La loi est alors complètement défini par une distribution de probabilités des valeurs possibles de `x`, dont leur somme vaut `1`.

Cette hypothèse d'intemporalité est essentielle si on veut pouvoir découvrir la loi de probabilité de la variable. C'est elle qui lui donne un sens, et qui donne un sens aux probabilités de prédiction et aux intervalles de confiances.

Nous allons d'abord formaliser le problème en définissant un langage adapté. Ce langage nous permetra de construire par un procédé presque naturel toutes les questions que l'on peut se poser, enlevant ainsi une grande part d'arbitraire. On propose donc une présentation des variables statistiques intemporelles et des lois de probabilité par le prisme d'une construction (voir Ancien travaux).

On traite le cas d'une variable discrète, cela signifie qu'elle désigne des classes dont apriori, l'ordre na pas de signification particulière. On renomme donc ses valeurs discrètes possibles par les premiers entiers, `x "∈" {1,2,...,n}` et dans un ordre quelconque. La loi de probabilité est la liste des probabilités `bbbP(x"="1)`,`bbbP(x"="2)`,...,`bbbP(x"="n)`. Du fait de l'intemporalité, les probabilités sont indépendantes et exhaustives. On définit la notation courte de la probabilités `p_i`  :

`bbbP(x"="i)=p_i`

`sum_(i=1)^n p_i = 1`

On note la probabilité que le tirage de la variable statistique `x` soit égale à une valeur particulière noté en utilisant la même lettre `x`, par l'expression `bbbP(x"="x)`. Conventionnellement, dans l'expression `bbbP(x"="...)` ou l'expression `bbbP(x"∈"...)` la première variable désigne la variable statistique (ou plutôt, un tirage de celle-ci), les autres occurences de `x` désignent une variable quelconque parcourant les valeurs possibles de la variable statistique. S'il est nécessaire de préciser, on utilisera la notation `x_("↑")` qui désigne l'action de procéder à un tirage au sort de la variable `x`. Ainsi la probabilité que le tirage soit égale à une valeur `x` se note explicitement `bbbP(x_("↑")"="x)`.

Les probabilités étant indépendantes, elles s'ajoutent. Ainsi la probabilité que `x` appartienne à un ensemble de valeurs `{i,j,k}` est simplement la somme des probabilité `p_i"+"p_j"+"p_k`, Ce qui s'écrit de façon générale :

`bbbP(x "∈" A) = sum_(i in A) p_i`

Si on donne à chaque classe `i` un poid `x_i` alors la moyenne des poids que l'on obtient lors des tirages est définit par :

`bbbE(x)=sum_i p_i x_i`

À partir de la variable statistique `x` et à partir deux tirages notés `x_("↑"1),x_("↑"2)`, on fabrique une nouvelle variable statistique intemporelles à deux composantes, `(x_("↑"1),x_("↑"2))` dont les différentes valeurs possibles appartiennent à `{1,2,3...,n}^2`. Les tirages étant indépendants puisque intemporels, la loi de probabilité s'obtient en prenant le produit des probabilités. On définit la notation courte des probabilités `p_i` et `p_(i,j)` :

`bbbP(x"="i) = p_i`
`bbbP((x_("↑"1),x_("↑"2))"="(i,j)) = p_(i,j)`

`p_(i,j) = p_ip_j`

Si on répète cette opération `N` fois, on fabrique une nouvelle variable statistique intemporelles à `N` composantes, `(x_("↑"1),x_("↑"2),...,x_("↑"N))` dont les différentes valeurs possibles appartiennent à `{1,2,3...,n}^N`. Les tirages étant indépendants puisque intemporels, la loi de probabilité s'obtient toujours en prenant le produit des probabilités. On définit la notation courte des probabilités `p_i` et `p_(i_1,i_2,...,i_N)`  :

`bbbP(x"="i) = p_i`
`bbbP((x_("↑"1),x_("↑"2),...,x_("↑"N))"="(i_1,i_2,...,i_N)) = p_(i_1,i_2,...,i_N)`

`p_(i_1,i_2,...,i_N) = prod_(j=1)^N p_(i_j)`

2) Quantité d'information

La quantité d'information apportée par la réception d'un message est égale à l'opposé du logarithme en base `2` de la probabilité de recevoir ce message. Cela donne le nombre de bits absolument nécessaires pour mémoriser le message compressé connaissant sa loi de propabilité. Par exemple si nous avons `1"/"2` chance de recevoir le message "`"a"`", et `1"/"4` chance d'avoir le message "`"b"`", et `1"/"4` de chance d'avoir le message "`"c"`". Alors, la quantité d'information apportée par le message "`"a"`" est de `-log(1"/"2) =1` bits. Celle apportée par le message "`"b"`" est de `-log(1"/"4) =2` bits. Et celle apportée par le message "`"c"`" est de `-log(1"/"4) =2` bits.

Ainsi un message tel que "`"abaacbc"`" représentera `1"+"1"/"2"+"1"+"1"+"1"/"2"+"1"/"2"+"1"/"2` `=` `5` bits de quantité d'informations. Cela signifit que la compression obtimale du message connaissant sa loi de probabilité, occupera nécessairement `5` bits.

On considère la variable statistique `x` comme une source d'information. À chaque tirage `x_"↑"` égale à `i`, la quantité d'information apportée est `-log(p_i)`

 

 

 

 

 

 

2) Loi normale

La loi normale centrée réduite est la courbe de Gauss pour une moyenne égale à `0` et une variance égale à `1`.

`F(x) = 1/sqrt(2pi) e^(-(x^2)/2)`

La probabilité que la variable `x` de loi de probabilité `F` soit comprise entre `a` et `b` est obtenue en intégrant la loi de `a` à `b` :

`P(x "∈" [a,b]) =int_a^b F(x)dx`

On note l'écart type de `x` par l'expression `sigma`. Et nous avons :

`sigma^2 = sum_i(x_i-bar x)^2`

`P(x "∈" ["-"1,"+"1]) = 68%`

`P(x "∈" ["-"2,"+"2]) = 95.4%`

`P(x "∈" ["-"3,"+"3]) = 99.7%`

La loi normale de moyenne `m` et d'écart type `sigma` :

`F(x) = 1/(sigma sqrt(2pi)) e^(-1/2((x-m)/sigma)^2)`

`P(x "∈" [m"-"sigma,m"+"sigma]) = 68%`

`P(x "∈" [m"-"2sigma,m"+"2sigma]) = 95.4%`

`P(x "∈" [m"-"3sigma,m"+"3sigma]) = 99.7%`

Variable centrée réduite :

`(x -m)/sigma`

 

Les lois de probabilité

1) Introduction

La conception d'une variable statistique `x` sous-entend qu'il existe une succession de tirages de la variable statistique `x_1,x_2,x_3,...,x_n`, où l'indice de tirage s'apparente au temps qui s'écoule. C'est pourquoi il convient de préciser si la loi de probabilité de `x` dépend du temps ou non. Nous traitons ici le cas où la loi de probabilité ne dépend pas du temps, d'aucune façon. Nous parlerons de variables statistiques intemporelles. La loi est donc complètement définie par une distribution de probabilités des valeurs possibles de `x`, dont leur somme vaut `1`.

En formalisant le problème, on le rend plus facilement abordable et transcriptible à d'autres situations, et en plus, on en présente une vue générale, plus apte à structurer notre pensée. Cela consiste à définir un langage adapté au problème et cela participe pour moitier à sa résolution. C'est pourquoi, il convient dans un soucis pédagogique de procéder à cet effort de formalisation. On propose donc une présentation des variables statistiques intemporelles et des lois de probabilité

2) Variable statistique à une dimension

Etant donné une variable statistique `x`. On note la probabilité que le tirage de la variable statistique `x` soit égale à une valeur particulière noté en utilisant la même lettre `x`, par l'expression `bbbP(x"="x)`. Et on note la probabilité que le tirage de la variable statistique `x` appartient à un intervalle différentiel noté en utilisant la même lettre `]x,x"+"dx[` par l'expression `bbbP(x"∈"]x,x"+"dx[ )`. Conventionnellement, dans l'expression `bbbP(x"="...)` ou l'expression `bbbP(x"∈"...)` la première variable désigne la variable statistique (ou plutôt, un tirage de celle-ci), les autres occurences de `x` désignent une variable quelconque parcourant les valeurs possibles de la variable statistique. S'il est nécessaire de préciser, on utilisera l'opérateur `ccT` qui désigne l'action de procéder à un tirage au sort de la variable dont le nom est passé en argument. `ccT(x)` désigne un tirage de la variable `x`. Ainsi la probabilité que le tirage soit égale à une valeur `x` se note explicitement `bbbP(ccT(x)"="x)`.

Lorsque la variable est discrète, cela signifie qu'elle désigne des classes dont apriori, l'ordre na pas de signification particulière. On renome ses valeurs discrètes possibles par les premiers entiers, `x in {1,2,...,n}` et dans un ordre quelconque. La loi de probabilité est la liste des probabilités `p_1,p_2,..., p_3``p_i=bbbP(x"="i)` Les probabilités étant indépendantes et exhaustives :

`sum_(i=1)^n bbbP(x"="i) = sum_(i=1)^n p_i = 1`

Lorsque la variable statistique est continue `x`, la loi de probabilité est la fonction `p` qui associe à chaque valeur possible de `x`, le poids différentiel de probabilité défini comme suit :

`bbbP(x"∈"]x, x"+"dx[) = p(x)dx`

Les probabilités étant indépendantes et exhaustives :

`int_x bbbP(x"∈"]x, x"+"dx[) = int_x p(x)dx = 1`

Une variable ayant des valeurs de façon à la fois à la fois discrète et continue se décompose en une somme d'une variable discrète et d'une variable continue.

2.1) Informations hautes

Quel genre d'information de haut niveau pouvons nous synthétiser à partir de `N` tirages ? Celle consistant à estimer la loi de probabilité de la variable. Puis celle conditionnelle. Mais à quoi peut-elle être conditionnelle ?, à des valeurs de la variable, ce qui constitue une simple restriction de la loi de probabilité, une information qui est déjà explicite dans la loi de probabilité complète.

L'estimation de la loi de probabilité à partir de `N` tirages constitue un apprentissage génératif. Il est dit génératif car, en découvrant la loi de probabilité de `x` (restreinte ou pas), on peut générer des valeurs de `x` de manière à ce qu'un observateur extérieur ne puisse pas différencier si cette génération est originale ou si elle est le résultat d'une simulation.

2.1.1) Cas discret

Dans le cas discret, l'estimation naturelle de la propabilité est la fréquence empirique. On note `N_i` le nombre de tirage où `x"="i` parmi les `N` tirages considérés. La probabilité estimée noté `hat(p)_i` est la fréquence empirique :

`hat(p)_i = (N_i)/N`

C'est l'estimateur standard. Il est sans biais. Sa moyenne et sa variance sont démontrer dans Statistique :

`bbbE(hat(p)_i) = p_i`

`bbbV(hat(p)_i) = (p_i(1-p_i))/N`

Deux modes de calcul de l'intervalle de confiance sont à prendre en compte, celui habituel pour une loi de Gauss, qui est fonction de l'écart-type, et que l'on utilise lorsque `N_i` n'est pas petit, et celui binomial exact de Clopper-Pearson, lorsque `N_i` est petit.

L'intervalle de confiance habituel dépent de l'écart type comme suit :

`sigma = sqrt((p_i(1-p_i))/N)`

`hat(p)_i ±sigma` avec `alpha"="68%`
`hat(p)_i ±2sigma` avec `alpha"="95.4%`
`hat(p)_i ±3sigma` avec `alpha"="99.7%`
`hat(p)_i ±4sigma`
avec `alpha"="99.994%`

`alpha` désigne le niveau de confiance que l'on s'accorde. Généralement on regarde juste ces 4 niveaux de confiance.

Mais cet intervalle de confiance n'est plus valable lorsque `N_i` est trop petit. C'est pourquoi on propose une seconde estimation de l'intervalle de confiance. Le calcul exacte, trop lourd pour être abordé dans ce document, abouti à un intervalle de confiance de taille maximum lorsque `N_i"="0` ou `N_i"="1` et dont la formule pratique est simple. On se base alors sur cet intervalle pour majorer le nombre de tirages nécessaires pour optenir une estimation de la loi de propabilité (suffisament détaillée et donc contenant des estimations de probabilités voisines de zéro), avec une erreur sur chaque estimation de propabilité d'au plus `epsilon` :

`N"="1.8"/"epsilon` avec `alpha"="68%`
`N"="3.8"/"epsilon` avec `alpha"="95.4%`
`N"="6.5"/"epsilon` avec `alpha"="99.7%`
`N"="10"/"epsilon` avec `alpha"="99.994%`

2.1.2) Cas continu

Dans le cas continu, deux approches sont à considérer :

  1. Soit on considère que la variable `x` suit une loi de Gauss, auquel cas, il suffit de déterminer sa moyenne et sa variance avec les intervalles de confiances habituels décrits précédement.
     
  2. Soit on considère que c'est la loi continue qui est considérée comme générée au hasard, auquel cas il faut estimer la loi de probabilité. Un moyen homogène de le faire, consiste à découper en `k` quantiles, c'est à dire en `k` intervalles consécutifs contenant chacun exactement `n` observations, avec `N"="kn`. La probabilité empirique de chaque quantile vaut exactement `hat p = n"/"N = 1"/"k`. Puis on relie les points centraux de chaque quantile avec comme abscisse, l'inverse de leur largeur, pour ainsi proposer une estimation de la loi continue (une fois normée). L'intervalle de confiance à prendre en compte est soit celui habituel si `k` n'est pas petit ou le second si `k` est petit.

3) Variable statistique à deux dimensions

Etant donné une variable statistique à deux composantes `U=(x,y)`, celle-ci porte le nom de `U` ou de `(x,y)`, un nom à double composantes. On note la probabilité que le tirage de la variable statistique `U` soit égale à une valeur particulière `(x,y)`, par l'expression `bbbP(U"="(x,y))` ou bien l'expression `bbbP((x,y)"="(x,y))`. La première variable désigne la variable statistique à double composantes (ou plutôt, un tirage de celle-ci), les autres occurences de `x` et de `y` désignent des variables quelconques parcourant les valeurs possibles des composantes de la variable statistique. S'il est nécessaire de préciser, on utilisera l'opérateur `ccT` qui désigne l'action de procéder à un tirage au sort de la variable dont le nom est passé en argument. `ccT(x,y)` désigne un tirage de la variable `(x,y)` c'est à dire un tirage conjoint de `x` et de `y`. Ainsi, la probabilité que le tirage soit égale à une valeur `(x,y)` se note explicitement `bbbP(ccT(x,y)"="(x,y))`.

La même distinction, variable discrète, variable continue, est à faire pour chaque composante. Et une variable à la fois discrète et continue se décompose en une somme d'une variable discrète et d'une variable continue.

3.1) Informations hautes

Quel genre d'information de haut niveau pouvons nous synthétiser à partir de `N` tirages ? Celle décrite précédement consistant à estimer la loi de probabilité de la variable à deux composantes. Puis celle conditionnelle. Et il y a différents types de conditions qu'il faut pouvoir exposer de façon exhaustive. Il y a deux probabilités conditionnelles élémentaires notées : `bbbP(y"|"x)` et `bbbP(x"|"y)`. Puis deux probabilités conditionnelles générales notées : `bbbP(y"|"R(x,y))` et `bbbP(x"|"R(x,y))` `R` est un précidat quelconque.

 

---- 31 mars 2026 ----

 

 

 


Dominique Mabboux-Stromberg
Septembre 2025