1) Introduction

Le concept de variable statistique `x` sous-entend presque naturellement qu'il existe une succession de tirages de la variable statistique `x_1,x_2,x_3,...,x_n`, où l'indice de tirage s'apparente au temps qui s'écoule. C'est pourquoi il convient de préciser si la loi de probabilité de `x` dépend du temps ou non. Nous traitons ici seulement du cas où la loi de probabilité ne dépend pas du temps, d'aucune façon. Il s'agit donc de variables statistiques dites intemporelles. La loi est alors complètement définie par une distribution de probabilités des valeurs possibles de `x`, dont la somme vaut `1`. Cette loi est davantage connue sous le nom de loi de Bernoulli lorsque la variable statistique est booléenne.

Cette hypothèse d'intemporalité est essentielle si on veut pouvoir découvrir la loi de probabilité de la variable. C'est elle qui lui donne un sens, et qui donne un sens aux probabilités de prédiction et aux intervalles de confiances.

Nous allons d'abord formaliser le problème en définissant un langage adapté. Ce langage nous permettra de construire par un procédé presque naturel toutes les questions que l'on peut se poser, enlevant ainsi une grande part d'arbitraire. On propose donc une présentation des variables statistiques intemporelles et des lois de probabilité par le prisme d'une construction à l'aide d'un langage mathématique qu'il convient d'apréhender (voir Ancien travaux).

On traite le cas d'une variable discrète, cela signifie qu'elle désigne des classes dont apriori l'ordre na pas de signification particulière. On renomme donc ses valeurs discrètes possibles par les premiers entiers, `x "∈" {1,2,...,n}`. La loi de probabilité `ccL` est la liste des probabilités `bbbP(x"="1)`,`bbbP(x"="2)`,...,`bbbP(x"="n)`. Ces probabilités sont exclusives et exhaustives. On définit la notation courte `p_i` de la probabilités :

`x ∈ {1,2,...,n}`

`bbbP(x"="i)=p_i`

`sum_(i=1)^n p_i = 1`

On note la probabilité que le tirage de la variable statistique `x` soit égale à une valeur particulière qui peut être notée en utilisant la même lettre `x`, par l'expression `bbbP(x"="x)`. Conventionnellement, dans l'expression `bbbP(x"="...)` ou l'expression `bbbP(x"∈"...)` la première variable désigne la variable statistique (ou plutôt, un tirage de celle-ci), les autres occurences de `x` désignent une variable quelconque parcourant les valeurs possibles de la variable statistique. S'il est nécessaire de préciser, on utilisera la notation `x_("↑")` qui désigne l'action de procéder à un tirage au sort de la variable intemporelle `x`. Ainsi la probabilité que le tirage soit égale à une valeur `x` se note plus explicitement `bbbP(x_("↑")"="x)`.

L'expression `x_("↑")"="x` désigne un évènement au cours d'un tirage de la variable statistique intemporelle `x`. Et la probabilité que se produise cet évènement lors d'un tirage se note `bbbP(x_("↑")"="x)` ou implicitement `bbbP(x"="x)`.

Les probabilités étant exhaustives, elles s'ajoutent. Ainsi la probabilité que `x_("↑")` appartienne à un ensemble de valeurs `{i,j,k}` est simplement la somme des probabilités `p_i"+"p_j"+"p_k`, Ce qui s'écrit de façon générale :

`bbbP(x "∈" A) = sum_(i in A) p_i`

Si on donne à chaque classe `i` un poid `v(i)` alors la vrai moyenne des poids que l'on obtient lors des tirages est définit par :

`bar(v(x)) = sum_i p_i v(i)`

C'est la moyenne de la variable statistique notée `v(x) in {v(1),v(2),...,v(n)}`.

À partir de la variable statistique `x` et à partir deux tirages notés `x_("↑"1),x_("↑"2)`, on fabrique une nouvelle variable statistique intemporelles à deux composantes, `(x_("↑"1),x_("↑"2))` dont les différentes valeurs possibles appartiennent à `{1,2,3...,n}^2`. La probabilité que le premier tirage soit égale à une valeur `x_1` et le second tirage soit égale à une valeur `x_2`, se note `bbbP((x_("↑"1),x_("↑"2))"="(x_1,x_2))`, ou de façon implicite `bbbP((x_1,x_2)"="(x_1,x_2))` le premier couple désignant la variable statistique `x"×"x` avec ces deux composantes, le second couple désignant deux valeurs particulières. On accepte aussi la notation `bbbP((x_1"="x_1) "et" (x_2"="x_2)))` où les premier termes des littéraux sont interprétés comme des variables statistiques alors que les seconds désignent des valeurs particulières. Cette variable statistique se note aussi bien `x"×"x` que `(x_1,x_2)`.

Les tirages étant indépendants puisque intemporels, la loi de probabilité de `x"×"x` s'obtient en prenant le produit des probabilités. On définit la notation courte des probabilités `p_i` et `p_(i,j)` :

`x in {1,2,...,n}`
`p_i = bbbP(x"="i)`

`(x_1,x_2) in {1,2,...,n}^2`
`p_(i,j) = bbbP((x_1,x_2)"="(i,j))`
`p_(i,j) = bbbP((x_1"="i) "et" (x_2"="j))`
`p_(i,j) = bbbP(x_1"="i) bbbP(x_2"="j)`

`p_(i,j) = p_ip_j`

Si on répète cette opération `N` fois, on fabrique une nouvelle variable statistique intemporelles à `N` composantes, `(x_("↑"1),x_("↑"2),...,x_("↑"N))` dont les différentes valeurs possibles appartiennent à `{1,2,3...,n}^N`. La variable statistique se note de deux façons :

`obrace(x"×"x"×"..."×"x)^(N "fois") = (x_1,x_2,...,x_N)`

Les tirages étant indépendants puisque intemporels, la loi de probabilité s'obtient toujours en prenant le produit des probabilités. On définit la notation courte des probabilités `p_i` et `p_(i_1,i_2,...,i_N)` :

`x in {1,2,...,n}`
`p_i = bbbP(x"="i)`

`(x_1,x_2,...,x_N) in {1,2,...,n}^N`

`p_(i_1,i_2,...,i_N) = bbbP((x_1,x_2,...,x_N)"="(i_1,i_2,...,i_N))`

`p_(i_1,i_2,...,i_N) = bbbP(^^^_(j=1)^N (x_j"="i_j))`

`p_(i_1,i_2,...,i_N) = prod_(j=1)^N bbbP(x_j"="i_j)`

`p_(i_1,i_2,...,i_N) = prod_(j=1)^Np_(i_j)`

2) Changement d'échelle et loi équiprobable

Si on regarde dans l'infiniment petit à la recherche des causes premières, on finit toujours par découvrir les véritables évènements élémentaires. Tel une particule élémentaire dupliqué autant que nécessaire, les évènements élémentaires sont dépourvus de tout arbitraire et dupliqué autant que de mesure, ils sont donc par principe tous équiprobables. Ainsi nous pourrions dire qu'à l'échelle ultime la plus petites possible, tous les évènements sont nécessairement équiprobables.

Il y a toujours une simplification du problème qui peut être faite, et qui consiste a subdiviser les `n` évènements de base exclusifs et exhaustifs en un ou plusieurs évènements élémentaires exclusifs formant globalement `m` évènements élémentaires exclusifs et exhaustifs tous équiprobables. C'est pourquoi, les problèmes sont souvent traités d'abord avec l'hypothèse d'une loi équiprobable.

Considérons donc que chaque évènement de base `x"↑="i` se subdivise en la disjonction de `k_i` évènements élémentaires, `x"↑="(i,1)` ou `x"↑="(i,2)` ou .... ou `x"↑="(1,k_i)`. On a donc deux niveaux d'échelle, l'une est dite de base, l'autre et dite microscopique. Quand à l'échelle macroscopique, elle est au dessus. L'état macroscopique `Omega` est l'état supposé connu que l'on traite, et est donc unique. il y a donc trois niveaux d'égalité et c'est le contexte qui nous permet de savoir de quelle égalité on parle :

`x in {Omega}`

`x in {1,2,...,n}`

`x in {(1,1),(1,2),...,(1,k_1),`
          `(2,1),(2,2),...,(2,k_2),`
          `...,`
         `(n,1),(n.2),...,(n.k_n)}`

Dans l'analogie termodynamique, la valeur d'un tirage de `x` désigne l'état du système selon l'échelle choisie. Au niveau macroscopique il n'y a qu'un seul état connue `Omega`. Tous les états considérés ici sont égaux puisqu'ils désignent tous ce même état macroscopique. Au niveau de base, il y a `n` états de base distincts possibles (ou `n` évènements de base distincts possibles) avec chacun une probabilité. Et au niveau microscopique il y a `k_1"+"k_2"+"..."+"k_n``=``m` micro-états possibles (ou évènements élémentaires possibles) tous équiprobables donc de probabilité `1"/"m`.

Chaque évènement de base `x"="i` appelé aussi état de base, possède `k_i` états microscopiques possibles, `x "=" i``<=>`` x "∈" {(i,1),(i,2),...,(i,k_i)}`, et a donc une probabilité `k_i"/"m` de se réaliser :

`bbbP(x"="i) = bbbP(vvv_(j=1)^(k_i) (x"="i_j))`

`bbbP(x"="i) = sum_(j=1)^(k_i) bbbP(x"="(i,i_j))`

`p(i) = sum_(j=1)^(k_i) p("("i,i_j")")`

`p(i) = sum_(j=1)^(k_i) 1/m = (k_i)/m`

---- 5 avril 2026 ----

2) Quantité d'information

La valeur d'un tirage de la variable `x` noté `x_i` est appelé un caractère, et la succession de tirages de la variable `x` notée `x_1,x_2,...,x_n` est appelé un message. Comme `x` appartient à `{1,2,...,n}`, il y a `n` caractères distincts. Et il y a `n^N` messages distincts de longueur `N`.

Lorsque la loi est équiprobable :

Hartley (1928) : La quantité d'information d'un message doit varier linéairement avec la taille du message, un message `2` fois plus long contient potentiellement `2` fois plus d'informations. Or le nombre de messages distincts possibles croit exponentiellement. La quantité d'information est donc proportionnelle au logarithme du nombre de messages distincts possibles.

La quantité d'information d'un message est le nombre de bits nécessaire et suffisant pour désigner chaque messages distincts possibles. Ainsi, s'il y a `2` messages possibles, `1` bit est nécessaire et suffit pour désigner l'un d'eux. S'il y a `4` messages possibles, `2` bits sont nécessaires et suffisent pour désigner l'un d'eux. S'il y a `2^N` messages, `N` bits sont nécessaires et suffisent pour désigner l'un d'eux. S'il y a `m` messages possibles, `log m` bits suffisent pour désigner l'un deux, où le logarithme est en base `2` pour exprimer le résultat en nombre de bits. S'il n'y a qu'un seul message possible alors le message n'apporte pas d'information.

---- 4 avril 2026 ----

Lorsque la loi n'est pas équiprobable, la quantité d'information

Pour chaque valeur `x_i`, la quantité d'information apportée par la réception de cette valeur est égale à l'opposé du logarithme en base `2` de la probabilité de recevoir ce message. Cela donne le nombre de bits absolument nécessaires pour mémoriser le message compressé connaissant sa loi de propabilité.

La quantité d'information apportée par la réception d'un message est égale à l'opposé du logarithme en base `2` de la probabilité de recevoir ce message. Cela donne le nombre de bits absolument nécessaires pour mémoriser le message compressé connaissant sa loi de propabilité.

Par exemple si nous avons `1"/"2` chance de recevoir le message "`"a"`", et `1"/"4` chance d'avoir le message "`"b"`", et `1"/"4` de chance d'avoir le message "`"c"`". Alors, la quantité d'information apportée par le message "`"a"`" est de `-log(1"/"2) =1` bits. Celle apportée par le message "`"b"`" est de `-log(1"/"4) =2` bits. Et celle apportée par le message "`"c"`" est de `-log(1"/"4) =2` bits.

Ainsi un message tel que "`"abaacbc"`" représentera `1"+"1"/"2"+"1"+"1"+"1"/"2"+"1"/"2"+"1"/"2` `=` `5` bits de quantité d'informations. Cela signifit que la compression obtimale du message connaissant sa loi de probabilité, occupera nécessairement `5` bits.

On considère la variable statistique `x` comme une source d'information. À chaque tirage `x_"↑"` de valeur `i`, la quantité d'information apportée est `-log(p_i)`

Il y a une simplification du cadre qui peut être faite, et qui consiste a subdiviser les évènements de base en un ou plusieurs évènements élémentaires indépendants, et tous équiprobables. Cela définit un quanta de probabilité `1"/"m` où `m` est le nombre total d'évènements élémentaires. Délors, à chaque tirage étendu `x_"↑"` d'une valeur élémentaire `e`, la quantité d'information apportée est `log(m)`.

3) Entropie

Il s'agit du même concept mais vu d'un autre point de vue. C'est le logarithme du nombre d'états microcopiques possibles satisfaisant un état macroscopique donné. C'est le nombre de bits nécessaires pour compter les micro-états possibles satisfaisant le macro-état considéré, c'est à dire pour mémorisé le micro-état.

Il y a une simplification du cadre qui peut être faite, et qui consiste a subdiviser les micro-états en un ou plusieurs états élémentaires, tous équiprobables. Cela définit un quanta de probabilité `1"/"m` où `m` est le nombre total d'états élémentaires. Et on comptabilise non pas les états microscopiques, mais les états élémentaires (qui constituent des états plus précis et qui sont tous équiprobables de propabilité `1"/"m`). Délors, l'ensemble des états élémentaires satisfaisant un état macroscopique de probabilité `p` regroupera `p"/"(1"/"m) "=" p m` états élémentaires possibles, et son entropie sera `log(p m)`. C'est le nombre de bits nécessaires pour compter les états élémentaires possibles satisfaisant l'état macroscopique considéré. Noter que cette entropie est plus grande que la première puisqu'elle considère un plus grand nombre d'états microscopiques dit élémentaires.

---- 2 avril 2026 ----

2) Loi normale

La loi normale centrée réduite est la courbe de Gauss pour une moyenne égale à `0` et une variance égale à `1`.

`F(x) = 1/sqrt(2pi) e^(-(x^2)/2)`

La probabilité que la variable `x` de loi de probabilité `F` soit comprise entre `a` et `b` est obtenue en intégrant la loi de `a` à `b` :

`P(x "∈" [a,b]) =int_a^b F(x)dx`

On note l'écart type de `x` par l'expression `sigma`. Et nous avons :

`sigma^2 = sum_i(x_i-bar x)^2`

`P(x "∈" ["-"1,"+"1]) = 68%`

`P(x "∈" ["-"2,"+"2]) = 95.4%`

`P(x "∈" ["-"3,"+"3]) = 99.7%`

La loi normale de moyenne `m` et d'écart type `sigma` :

`F(x) = 1/(sigma sqrt(2pi)) e^(-1/2((x-m)/sigma)^2)`

`P(x "∈" [m"-"sigma,m"+"sigma]) = 68%`

`P(x "∈" [m"-"2sigma,m"+"2sigma]) = 95.4%`

`P(x "∈" [m"-"3sigma,m"+"3sigma]) = 99.7%`

Variable centrée réduite :

`(x -m)/sigma`

Les lois de probabilité

1) Introduction

La conception d'une variable statistique `x` sous-entend qu'il existe une succession de tirages de la variable statistique `x_1,x_2,x_3,...,x_n`, où l'indice de tirage s'apparente au temps qui s'écoule. C'est pourquoi il convient de préciser si la loi de probabilité de `x` dépend du temps ou non. Nous traitons ici le cas où la loi de probabilité ne dépend pas du temps, d'aucune façon. Nous parlerons de variables statistiques intemporelles. La loi est donc complètement définie par une distribution de probabilités des valeurs possibles de `x`, dont leur somme vaut `1`.

En formalisant le problème, on le rend plus facilement abordable et transcriptible à d'autres situations, et en plus, on en présente une vue générale, plus apte à structurer notre pensée. Cela consiste à définir un langage adapté au problème et cela participe pour moitier à sa résolution. C'est pourquoi, il convient dans un soucis pédagogique de procéder à cet effort de formalisation. On propose donc une présentation des variables statistiques intemporelles et des lois de probabilité

(voir Ancien travaux).

Voir Probabilité

Voir Statistique

2) Variable statistique à une dimension

Etant donné une variable statistique `x`. On note la probabilité que le tirage de la variable statistique `x` soit égale à une valeur particulière noté en utilisant la même lettre `x`, par l'expression `bbbP(x"="x)`. Et on note la probabilité que le tirage de la variable statistique `x` appartient à un intervalle différentiel noté en utilisant la même lettre `]x,x"+"dx[` par l'expression `bbbP(x"∈"]x,x"+"dx[ )`. Conventionnellement, dans l'expression `bbbP(x"="...)` ou l'expression `bbbP(x"∈"...)` la première variable désigne la variable statistique (ou plutôt, un tirage de celle-ci), les autres occurences de `x` désignent une variable quelconque parcourant les valeurs possibles de la variable statistique. S'il est nécessaire de préciser, on utilisera l'opérateur `ccT` qui désigne l'action de procéder à un tirage au sort de la variable dont le nom est passé en argument. `ccT(x)` désigne un tirage de la variable `x`. Ainsi la probabilité que le tirage soit égale à une valeur `x` se note explicitement `bbbP(ccT(x)"="x)`.

Lorsque la variable est discrète, cela signifie qu'elle désigne des classes dont apriori, l'ordre na pas de signification particulière. On renome ses valeurs discrètes possibles par les premiers entiers, `x in {1,2,...,n}` et dans un ordre quelconque. La loi de probabilité est la liste des probabilités `p_1,p_2,..., p_3` où `p_i=bbbP(x"="i)` Les probabilités étant indépendantes et exhaustives :

`sum_(i=1)^n bbbP(x"="i) = sum_(i=1)^n p_i = 1`

Lorsque la variable statistique est continue `x`, la loi de probabilité est la fonction `p` qui associe à chaque valeur possible de `x`, le poids différentiel de probabilité défini comme suit :

`bbbP(x"∈"]x, x"+"dx[) = p(x)dx`

Les probabilités étant indépendantes et exhaustives :

`int_x bbbP(x"∈"]x, x"+"dx[) = int_x p(x)dx = 1`

Une variable ayant des valeurs de façon à la fois à la fois discrète et continue se décompose en une somme d'une variable discrète et d'une variable continue.

2.1) Informations hautes

Quel genre d'information de haut niveau pouvons nous synthétiser à partir de `N` tirages ? Celle consistant à estimer la loi de probabilité de la variable. Puis celle conditionnelle. Mais à quoi peut-elle être conditionnelle ?, à des valeurs de la variable, ce qui constitue une simple restriction de la loi de probabilité, une information qui est déjà explicite dans la loi de probabilité complète.

L'estimation de la loi de probabilité à partir de `N` tirages constitue un apprentissage génératif. Il est dit génératif car, en découvrant la loi de probabilité de `x` (restreinte ou pas), on peut générer des valeurs de `x` de manière à ce qu'un observateur extérieur ne puisse pas différencier si cette génération est originale ou si elle est le résultat d'une simulation.

2.1.1) Cas discret

Dans le cas discret, l'estimation naturelle de la propabilité est la fréquence empirique. On note `N_i` le nombre de tirage où `x"="i` parmi les `N` tirages considérés. La probabilité estimée noté `hat(p)_i` est la fréquence empirique :

`hat(p)_i = (N_i)/N`

C'est l'estimateur standard. Il est sans biais. Sa moyenne et sa variance sont démontrer dans Statistique :

`bbbE(hat(p)_i) = p_i`

`bbbV(hat(p)_i) = (p_i(1-p_i))/N`

Deux modes de calcul de l'intervalle de confiance sont à prendre en compte, celui habituel pour une loi de Gauss, qui est fonction de l'écart-type, et que l'on utilise lorsque `N_i` n'est pas petit, et celui binomial exact de Clopper-Pearson, lorsque `N_i` est petit.

L'intervalle de confiance habituel dépent de l'écart type comme suit :

`sigma = sqrt((p_i(1-p_i))/N)`

`hat(p)_i ±sigma` avec `alpha"="68%`
`hat(p)_i ±2sigma` avec `alpha"="95.4%`
`hat(p)_i ±3sigma` avec `alpha"="99.7%`
`hat(p)_i ±4sigma` avec `alpha"="99.994%`

Où `alpha` désigne le niveau de confiance que l'on s'accorde. Généralement on regarde juste ces 4 niveaux de confiance.

Mais cet intervalle de confiance n'est plus valable lorsque `N_i` est trop petit. C'est pourquoi on propose une seconde estimation de l'intervalle de confiance. Le calcul exacte, trop lourd pour être abordé dans ce document, abouti à un intervalle de confiance de taille maximum lorsque `N_i"="0` ou `N_i"="1` et dont la formule pratique est simple. On se base alors sur cet intervalle pour majorer le nombre de tirages nécessaires pour optenir une estimation de la loi de propabilité (suffisament détaillée et donc contenant des estimations de probabilités voisines de zéro), avec une erreur sur chaque estimation de propabilité d'au plus `epsilon` :

`N"="1.8"/"epsilon` avec `alpha"="68%`
`N"="3.8"/"epsilon` avec `alpha"="95.4%`
`N"="6.5"/"epsilon` avec `alpha"="99.7%`
`N"="10"/"epsilon` avec `alpha"="99.994%`

2.1.2) Cas continu

Dans le cas continu, deux approches sont à considérer :

Soit on considère que la variable `x` suit une loi de Gauss, auquel cas, il suffit de déterminer sa moyenne et sa variance avec les intervalles de confiances habituels décrits précédement.
Soit on considère que c'est la loi continue qui est considérée comme générée au hasard, auquel cas il faut estimer la loi de probabilité. Un moyen homogène de le faire, consiste à découper en `k` quantiles, c'est à dire en `k` intervalles consécutifs contenant chacun exactement `n` observations, avec `N"="kn`. La probabilité empirique de chaque quantile vaut exactement `hat p = n"/"N = 1"/"k`. Puis on relie les points centraux de chaque quantile avec comme abscisse, l'inverse de leur largeur, pour ainsi proposer une estimation de la loi continue (une fois normée). L'intervalle de confiance à prendre en compte est soit celui habituel si `k` n'est pas petit ou le second si `k` est petit.

3) Variable statistique à deux dimensions

Etant donné une variable statistique à deux composantes `U=(x,y)`, celle-ci porte le nom de `U` ou de `(x,y)`, un nom à double composantes. On note la probabilité que le tirage de la variable statistique `U` soit égale à une valeur particulière `(x,y)`, par l'expression `bbbP(U"="(x,y))` ou bien l'expression `bbbP((x,y)"="(x,y))`. La première variable désigne la variable statistique à double composantes (ou plutôt, un tirage de celle-ci), les autres occurences de `x` et de `y` désignent des variables quelconques parcourant les valeurs possibles des composantes de la variable statistique. S'il est nécessaire de préciser, on utilisera l'opérateur `ccT` qui désigne l'action de procéder à un tirage au sort de la variable dont le nom est passé en argument. `ccT(x,y)` désigne un tirage de la variable `(x,y)` c'est à dire un tirage conjoint de `x` et de `y`. Ainsi, la probabilité que le tirage soit égale à une valeur `(x,y)` se note explicitement `bbbP(ccT(x,y)"="(x,y))`.

La même distinction, variable discrète, variable continue, est à faire pour chaque composante. Et une variable à la fois discrète et continue se décompose en une somme d'une variable discrète et d'une variable continue.

3.1) Informations hautes

Quel genre d'information de haut niveau pouvons nous synthétiser à partir de `N` tirages ? Celle décrite précédement consistant à estimer la loi de probabilité de la variable à deux composantes. Puis celle conditionnelle. Et il y a différents types de conditions qu'il faut pouvoir exposer de façon exhaustive. Il y a deux probabilités conditionnelles élémentaires notées : `bbbP(y"|"x)` et `bbbP(x"|"y)`. Puis deux probabilités conditionnelles générales notées : `bbbP(y"|"R(x,y))` et `bbbP(x"|"R(x,y))` où `R` est un précidat quelconque.

---- 31 mars 2026 ----

Dominique Mabboux-Stromberg
Septembre 2025

Statistiques

1) Introduction

2) Changement d'échelle et loi équiprobable

2) Quantité d'information

3) Entropie

2) Loi normale

Les lois de probabilité

1) Introduction

2) Variable statistique à une dimension

2.1) Informations hautes

2.1.1) Cas discret

3) Variable statistique à deux dimensions

3.1) Informations hautes