Une façon plus simple d'aborder la notion de probabilité consiste à ne considérer que des états fondamentaux tous équiprobables et exhaustifs.
Considérons un ensemble fini d'évènements élémentaires exclusifs, exhaustifs et équiprobables, appelé l'univers `Omega`. Le qualificatif exclusif signifie qu'un seul évènement élémentaire se produit à la fois, exhaustifs signifie qu'il se produit toujours à chaque tirage un évènement élémentaire appartenant à l'univers `Omega`, et équiprobables signifie qu'il n'y a pas d'évènement privilégié.
On peut alors attribuer de façon formelle à tout sous-ensemble de `Omega`, un évènement, une probabilité et une quantité d'information. Voir Probabilité et quantité d'information
Etant donné un ensemble `A`, sous-entendu inclus dans `Omega`. Il correspond à un évènement. La probabilité qu'il se réalise se note `P(x "∈" A)` ou plus simplement `P(A)`, et vaut exactement le nombre d'évènements élémentaires appartenant à `A`, divisé par le nombre totale d'évènements élémentaires. La probabilité est ainsi définit formellement très simplement :
`P(A) = |A|/|Omega|`
Une autre simplification conceptuelle que l'on fait, est de considérer un nombre de tirage `N` suffisament grand pour que les propabilités de chaque évènement élémentaires soient quasi-égale, à une précision aussi grande que l'on veut, à leur fréquence observée dans les `N` tirages. Délors l'interprétation de la probabilité d'un évènement `A` correspondra à la fréquence de cet évènement dans ces `N` tirages.
`P(A) = (sum_i "<"x_i "∈" A">")/(sum_i"<"x_i "∈" Omega">")`
`N = sum_i"<"x_i "∈" Omega">"`
où `x_i` est le `i`-ième tirage d'un évènement élémentaire équiprobable. L'expression `"<"x_i "∈" A">"` vaut `1` si `x_i "∈" A`, et vaut `0` si `x_i "∉" A`.
Il découle alors de la règle de dénombrement suivante `|A"∪"B| = |A| + |B| - |A"∩"B|`, que :
`P(|A"∪"B|) = P(|A|) + P(|B|) - P(|A"∩"B|)`
Puis, comme il s'agit d'évènements, on adopte une écriture synonyme plus évocatrice identifiant l'opération logique à l'opération correspondantes sur les ensembles :
`"¬"A``=` `bar A` `A "et" B``=` `A"∩"B` `A "ou" B``=` `A"∪"B` `A=>B``=` `"¬"A"∪"B` `A<=>B``=` `(A"∩"B) "∪" (barA "∩" bar B)`
La règle de dénombrement se réécrit comme suit :
`P(A" ou "B) = P(A) + P(B) - P(A" et "B)`
La probabilité conditionnelle de `A` sachant `B`, notée `P(A"/"B)`, est la probabilité de l'évènement `(A" et "B)` parmi les évènements `B`. Elle n'est définie que si `B` n'est pas vide :
`P(A"/"B) = (P(A" et "B)) / (P(B))`
Ce qui s'écrit à l'aide des fréquences :
`P(A"/"B) = (sum_i "<"x_i "∈" AnnB">")/(sum_i"<"x_i "∈" B ">")`
Si la probabilité de `A` sachant `B` est égale à la probabilité de `A`, cela signifie que les deux évènements `A` et `B` sont indépendants. Les cinq propositions suivantes sont équivalentes :
`{A, B}` indépendant `P(A"/"B) = P(A)` `P(B"/"A) = P(B)` `P(A" et "B) = P(A)P(B)` `|Omega| |A"∩"B| = |A| |B|`
`P(A"/"B)` désigne la probabilité de `A` dans l'univers `Omega` restreint à `B`, où `B` ne doit pas être vide. On peut opérer des restrictions successives. La probabilité de `A` sachant `B`, sachant `C` est égale à la fréquence de l'évènement `(A" et "B" et "C)` parmi les évènements `(B" et "C)` qui ne doit pas être vide. Et donc nous pouvons écrire :
`P((A"/"B)"/"C) = P(A"/"(B" et "C)) = P((A" et "B" et "C) "/" (B" et "C )) = (P(A" et "B" et "C)) / (P(B" et "C))`
Ainsi la probabilité conditionnelle se met toujours sous une forme appliquée à deux arguments séparées par un slash `"/"`, le premier argument désignant l'évènement rechercher, le second argument désignant l'évènement connu.
Chaque règle de dénombrement correspond à une propriété remarquable sur les probabilités. Quelque soit deux évènements quelconques `A,B`, il découle de la règle de dénombrement suivante `|A"∩"B| + |A"∩"barB| = |A|`, que :
`P(A" et "B) + P(A" et ¬"B) = P(A)`
Et comme nous avons montré que :
`P(A" et "B) = P(A"/"B)P(B)`
`P(A" et ¬"B) = P(A"/¬"B)P("¬"B)`
On en déduit que :
`P(A"/"B)P(B) + P(A"/¬"B)P("¬"B) = P(A)`
L'univers `Omega` est un ensemble fini d'évènements exclusifs, exhaustifs et équiprobables, dits élémentaires. On note `|A|` le cardinal de `A` c'est à dire son nombre d'éléments. La probabilité de l'évènement `A` est égale au rapport des cardinalités des ensembles `A` et `Omega`, cela traduit l'équiprobabilité et l'exhaustivité et le caractères disjoints des évènements élémentaires. L'évènement vide, noté `Ø`, peut être interprété comme l'ensemble des évènements élémentaires en dehors de `Omega`, et par principe il n'y en a pas. La probabilité qu'un évènement élémentaire n'appartenant pas à `Omega` se réalise, est nulle, `P(Ø) "=" 0`. Tandis que la probabilité qu'un évènement élémentaire appartenant à `Omega` se réalise, est certaine, `P(Omega) "=" 0`.
Quelques soient `A, B` deux sous-ensembles d`Omega`, la probabilité de l'évènement `A` se note `P(A)` et se définie formellement comme suit :
Probabilité : `P(A) = |A| / |Omega|`
Et la probabilité conditionnelle de l'évènement `A` sachant `B` se note `P("A/B")` et se définie formellement comme suit :
Probabilité conditionnelle : `P(A"/"B) = (P(A "et" B))/(P(B)) = |A"∩"B| / |B|`
Puis on remarque que lorsque `|Omega| |A"∩"B| = |A| |B|`, les formules se simplifient, les évènement `A` et `B` sont dits indépendants.
La connaissance de l'identité d'un élément `e` parmis les éléments de l'ensemble `Omega`, représente une quantité d'information égale à `log(|Omega|)` exprimée en bits. L'unité étant le bit, le logarithme est en base deux. Cela représente exactement le nombre de bits nécessaires pour mémoriser cette information, c'est à dire le nombre de bits nécessaire pour compter les éléments de `Omega`. Cela correspond à la quantité de mémoire minimum qu'il faut réserver pour une variable devant parcourir une désignation de tous les éléments de `Omega`.
La représentation dense des éléments d'un ensemble fini, est obtenue en les numérotant. Par exemple, un entier compris entre `0` et `2^n"-"1` tient exactement sur `n` bits, dans sa représentation binaires. Lorsque l'ensemble `Omega` possède un nombre d'éléments intermédiaire qui n'est pas exactement une puissance de `2`, autrement dit, lorsque `log(|Omega|)` n'est pas entier, la représentation d'un élément tient sur un nombre de bits entier juste supérieur à `log(|Omega|)`, et il y a au plus une moitier moins une des configurations de bits possibles qui peuvent ne pas correspondrent à un élément. Mais ces configurations peuvent alors être utilisées à autre chose, telle que désigner d'autres éléments. C'est pourquoi la quantité d'information est toujours égale à `log(|Omega|)` même si cette valeur n'est pas entière.
Au lieu de connaitre précisement l'identité d'un élément `e`, on peut seulement avoir une connaissance sur l'élément `e`, comme quoi il appartient à un sous-ensemble `A`. Cette information que nous qualifions d'ensembliste, nous informe que `e` se trouve dans l'ensemble `A`.
Quelle est la quantité d'information apportée par cette information de nature ensembliste ? Nous souhaitons en trouver une mesure, c'est à dire une application, notée `I(".")`, de l'ensemble des sous-ensembles non vides de `Omega` vers l'intervalle de nombres réels `[0,log(|Omega|)]`, vérifiant les 3 premiers axiomes suivants :
Axiome du tout : `I(Omega) "=" 0` Axiome de l'unité : Si `|A| "=" 1` alors `I(A) "=" log(|Omega|)` Axiome de l'inclusion : Si `A"⊂"B` alors `I(A)">"I(B)`
Littéralement : La quantité d'information de l'information `e"∈"Omega`, est nulle. La quantité d'information de l'information identifiant `e`, est maximale. Et si `A"⊂"B` alors l'information `e"∈"A` est plus précise que l'information `e"∈"B`.
`I(A)` est égale à la quantité d'information relative à un élément inconnue `e` appartenant à `Omega`, que contient l'information `e"∈"A`.
Mais ces 3 axiomes ne suffisent pas pour déduire la mesure de l'information décrite par Hartley & C.E.Shannon. Il faut ajouter d'autres axiomes, qui associés à ces trois premiers soient capables de calculer la quantité d'information de chaque sous-ensemble de `Omega`. Et on pense à la règle de sommation de la quantité l'information qui correspond à la règle de produit des probabilités lorsque les évènements sont indépendants, et qui est liée respectivement à la notion de quantité d'information conditionnelle et à la notion de probabilité conditionnelle.
La règle de produit des probabilités ou de sommation de la quantité d'information doit s'exprimer simplement lorsque les évènements sont indépendants :
`|Omega| |A"∩"B|"="|A| |B| => {{:(P(A)P(B)"="P(A" et "B)),(I(A)+I(B)"="I(A" et "B)):}}`
C'est un principe simple qui peut s'énnoncer de façon abstraite comme suit : Si le choix d'un état se décompose en une succesion de deux choix indépendants, alors la quantité d'information nécessaire pour caractériser ce choix est la somme de la quantités d'information nécessaire pour caractériser le premier choix et de la quantités d'information nécessaire pour caractériser le second choix.
La quantité d'information apportée par une information dépend de l'information déja acquise. Et en particulier si l'information en question n'apporte aucune connaissance supplémentaire, la quantité d'information transmise est nulle. Pour formaliser cela, nous devons étendre l'application `I` aux couples d'ensembles, définissant la quantité d'information conditionnelle comme suit :
`I(A "/" B)` désigne la quantité d'information sur l'identité d'un l'élément `e` apportée par l'information `e"∈"A` transmise à un système qui possède déjà la connaissance que `e"∈"B`.
Il s'agit bien d'une extension de l'application `I` car nous avons toujours l'information initiale que `e"∈"Omega` et donc nous avons toujours : `I(A) = I(A "/" Omega)`
Si `|A|=1` c'est à dire si `A` est un singleton, On remarque que le problème se résout par homothétie en prenant `B` comme univers, on déduit que `I(A"/"B) = log(|B|)`.
De façon analogue à la probabilité conditionnelle, la quantité d'information apportée par `e"∈"A` sachant que `e"∈"B`, notée `I(A"/"B)` doit obéir à la propriétée suivante :
`P(A" et "B) = P(A)P(B"/"A) = P(B)P(A"/"B)`
`I(A" et "B) = I(A)+I(B"/"A) = I(B) + I(A"/"B)`
Littéralement : La quantité d'information apportée par `e"∈"A"∩"B` notée `I(A" et "B)` est égale à la quantité d'information apportée par `e"∈"A` notée `I(A)` à la quelle on ajoute la quantité d'information apportée par `e"∈"B` sachant que `e"∈"A` notée `I(A"/"B)`.
Pour cela, on fait le choix de définir la quantité d'information conditionnelle par la formule suivante :
`I(A"/"B) = I(A" et "B) - I(B)`
Délors la probabilité et la quantité d'information se définissent comme suit :
Probabilité : `P(A) = |A| / |Omega|` Probabilité conditionnelle : `P(A"/"B) = |A"∩"B|/|B|` Quantité d'information : `I(A) = -log(|A| / |Omega|)` Quantité d'information conditionnelle : `I(A"/"B) = -log(|A"∩"B|/|B|)`
Et nous avons bien :
`P(A"/"B) = (P(A"∩"B))/(P(B))` `I(A"/"B) = I(A"∩"B) - I(B)`
Et on passe de l'un à l'autre par les formules suivantes :
`P(A) = 2^(-I(A))`
`I(A) = - log(P(A))`
`P(A"/"B) = 2^(-I(A"/"B))`
`I(A"/"B) = - log(P(A"/"B))`
où, rappelons-le, le logarithme utilisé est en base `2`.
`I(A"/"B)` désigne la quantité d'information de la sélection `A` dans un univers `Omega` restreint à `B` (Notez que `B` ne doit pas être vide). On peut opérer des restrictions successives. La quantité d'information de `A` sachant `B`, sachant `C` est égale à la quantité d'information de `A` dans l'univers `(B "et" C)` (Notez alors que `(B "et" C)` ne doit pas être vide) et donc nous pouvons écrire :
`P((A"/"B)"/"C)=P(A"/"(B "et" C))=P((A "et" B "et" C)"/"(B "et" C))`
`I((A"/"B)"/"C)= I(A"/"(B "et" C) = I((A "et" B "et" C)"/"(B "et" C))`
La quantité d'information conditionnelle ainsi que la probabilité conditionnelle, se met toujours sous une forme appliquée à deux ensemble séparées par un slash "/", le premier ensemble désigne la sélection annoncée, le second ensemble désigne la sélection déjà connue.
Thermodynamique : L'entropie est une variable d'état proportionnelle au logarithme du nombre d'états microscopiques équiprobables d'un système pour le même état macroscopique. C'est une variable d'état extensive, c'est à dire que l'entropie de plusieurs systèmes est la somme des entropies des systèmes.
L'état macroscopique est un ensemble `E`. Les états microscopiques possible pour cet état macroscopique `E` sont ces éléments. La définition de l'entropie exprimé en bits, est la quantité d'information que représente la sélection d'un état microscopique, c'est à dire la sélection d'un élément de `E`.
`S(E) = log(|E|)`
On choisie `2` comme base du logarithme afin que l'entropie représente le nombre de bits nécessaires pour numéroter les `|E|` états microscopiques possible et équiprobable de l'état macroscopique `E`, ou autrement dit, pour numéroter les `|E|` éléments de l'ensemble `E`.
L'entropie `S(E)` représente la quantité d'information nécessaire pour déterminer un élément unique de `E` sachant qu'il appartient à `E`.
Si notre connaissance de l'inconnu `e` passe de la théorie `B` à la théorie `(A "et" B)`, alors la quantité d'information aquise est égale à la réduction d'entropie correspondante `S(B)"-"S(A "et" B)`. C'est ainsi que l'on définie la quantité d'information apportée par la connaissance de `A` sachant `B`, que l'on note `I(A"/"B)`. Cela s'appelle une quantité d'information conditionnelle :
`I(A"/"B) = S(B) "-" S(A "et" B)`
`I(A)` comme `S(A)` ne dépend que du nombre d'éléments de l'ensemble `A`. On peut donc les écrire comme des fonctions agissant sur des entiers. Posons `N"="|Ω|` et posons `n"="|A|`.
`I(A"/"B)` se met sous une forme plus explixcite `I((A "et" B)"/"B)` en exprimant l'ensemble des connaissances sur `x` avant et apprès, et on en fait une seconde notation `I(B→(A "et" B))`. Cela dénote la quantité d'information aquise par le système en passant de l'état macroscopique `B` à l'état macroscopique `(A "et" B)`, et qui correspond ici à une diminution de l'entropie. `I(X→Y)` dépend seulement du nombre `n` d'éléments de l'ensemble `X` et du nombre `m` d'éléments de l'ensemble `Y`. C'est pourquoi on peut l'identifier à une fonction sur deux entiers. En posant `n"="|X|` et en posant `m"="|Y|` nous avons :
Quantité d'information apportée par une sélection
de `n` éléments parmi `N` éléments :`I(n)=log(N)"-"log(n)` Entropie d'un état macroscopique contenant
`n` micro-états équiprobables :`S(n) = log(n)` Quantité d'information apportée par le passage d'une
théorie contenant `n` micro-états équiprobables, à une
autre théorie contenant `m` micro-états équiprobables :`I(n→m) = S(n)"-"S(m)`
Pour introduire les états-microscopiques non-équiprobables, on définit un second niveau d'états microscopiques appelé les mini-états et qui sont des ensembles disjoints de micro-états couvrant `Omega`. Autrement-dit, les mini-états forment une partition de `Omega`. Et donc la propabilité d'un mini-état `E` vaut `|E|"/"|Omega|`
Considérons maintenant un état macroscopiques `A` qui est un ensemble de mini-états. La propabilité de `A` vaut :
`P(A) = sum_(E in A) P(E)`
---- 26 janvier 2026 ----
L'entropie est une variable d'état proportionnelle au logarithme du nombre d'états microscopiques possibles équiprobables du système pour le même état macroscopique présent. C'est une variable d'état extensive, c-a-d que l'entropie de plusieurs systèmes, disposés comme un `n`-uplet de systèmes, est la somme des entropies des systèmes.
Donc pour définir formellement l'entropie, il faut donc définir des critères macroscopiques qui définissent les états macroscopiques, et des critères microscopiques qui définissent les états microscopiques qui devront dans le cas simple être tous équiprobables pour un même état macroscopique. La définition de l'entropie dépend donc du choix de ces critères. L'entropie représente la quantité d'information nécessaire pour caractériser un état microscopique dans l'état macroscopique présent. Lorqu'il y a `N` états microscopiques équiprobables, et que l'on choisi comme unité le bit, alors l'entropie synonyme de quantité d'information, se définit comme suit :
`Q=log(N)`
Le logarithme est en base `2` pour que l'entropie soit exprimée en nombre de bits. L'entropie correspond à la quantité d'information que porte le choix d'un état microscopique possible. Du nombre d'états microscopiques équiprobables `N`, on déduit la probabilité d'un état microscopique `p=1"/"N`. Et donc l'entropie exprimée en bits s'écrit :
`Q = -log(p)`
Lorsque les états microscopiques ne sont plus équiprobables, la définition de l'entropie se perfectionne. On se réfère alors à la définition de l'entropie selon Shannon :
Soit un système ayant des états microscopiques `i`, chacun se réalisant avec une probabilité `p_i` : `p_i≥0` et `sum_i p_i=1`
L’entropie est définie par :
`Q=−sum_i p_i lnp_i`
Cela s'explique assez sommairement comme suit : On considère que chaque état microscopiques se subdivise en `n_i` états fondamentaux tous équiprobables. Ainsi `p_i "=" n_i"/"N` où `N` est le nombre total d'états fondammentaux tous équiprobables. La quantité d'information du choix d'un état fondamental dans le micro-état `i` est `ln(n_i)` qui est égale à `-ln(p_i)`. La quantité `Q` d'information moyenne du choix d'un état fondamental dans un micro-état réalisé avec sa probabilité `p_i` est donc :
`Q=sum_i p_i lnn_i`
`Q=-sum_i p_i lnp_i`
-----------------------------
Pour démontrer cela, on formalise les notions de probabilité et de quantité d'informations. On part du cas simple où tous les états microscopiques sont équiprobables, puis on regroupe les états microscopiques en `n` groupes de `k_i` états formant à chaque fois un seul état-microscopique de deuxième niveau mais de probabilité `k_i` fois plus forte :
`i in {1,2,3,...,n}` `N = sum_i k_i`
Le nombre d'états microscopiques de deuxième niveau se réduit à `n` mais ont chacun une probabilité spécifique `k_i"/"N`. Cela revient à définir un univers fini `Omega`, d'évènements élémentaires exclusifs, exhaustifs et équiprobables, et à définir les évènements comme étant des ensembles d'évènements élémentaires. L'évènement se réalise si et seulement si l'évènement élémentaire qui se réalise appartient à l'évènement.