La descente de gradient

1) Introduction

La modélistaion générative est une branche de l'apprentissage automatique qui implique l'entrainement d'un modèle afin de produire de nouvelles données semblables à un ensemble de données fourni.

Nous pouvons imaginer qu'il existe une distribution probabiliste inconnue qui explique pourquoi certaines images sont susceptibles d'être trouvées dans l'ensemble des données d'apprentissage et d'autres non. Notre tâche consiste à élaborer un modèle qui imite cette distribution aussi fidèlement que possible, puis à l'échantillonner pour générer de nouvelles observations distinctes qui donnent l'impression qu'elles auraient pu être incluses dans l'ensemble des données d'apprentissage d'origine.

La modélisation discriminante, quant à elle, nécessite d'étiqueter chaque image, et consiste à prédire cet étiquète à partir d'une image quelconque.

2) Cadre théorique de la modélisation générative

Nous disposons d'un ensemble d'observations `X`. L'éspace d'échantillonnage `E` est l'ensemble continue de toutes les valeurs qu'une observation `x` peut prendre. `X "⊂" E`. La distribution de probabilité de voir apparaitre `x` est une fonction `p` de `E` vers `[0,1]` dont l'intégrale est ramenée à `1`, c'est à dire tel que :

`int_(x in E) p(x)dx = 1`

`p(x)` est la probabilité de voir apparaître `x`. On pose `d` paramètres :

`theta = (theta_1,theta_2,..., theta_d)`

La modélisation paramètrique est une distribution de probabilité parametrée `p_theta(x)` proche de `p(x)`. La probabilité de ` theta` sachant `x`, noté `ccL( theta"|"x)` est définit comme étant égale à la `p_theta(x)`

`ccL( theta"|"x) = p_theta(x)`

Il y a `N` observations indépendantes :

`X = (x_1,x_2,...,x_N)`

`ccL( theta"|"X) = prod_(x in X)p_theta(x)`

Pour éviter les erreurs de calcul on préfère calculer le logarithme : `ℓ( theta"|"X)= ln(ccL( theta"|"X))`

`ℓ( theta"|"X) = sum_(x in X) log p_theta(x)`

La modélisation paramétrique calcul une estimation `hat theta` qui se veut être la valeur optimale de `theta` qui maximise la propabilité d'observer l'ensemble de données `X` :

`hat theta = underset(theta)"max"(ℓ( theta"|"X))`

ou qui minimise la propabilité d'observer l'ensemble de données `X` :

`hat theta = underset(theta)"min"(-ℓ( theta"|"X))`

---- 26 janvier 2026 ----

Modélisation générative

1) Introduction

2) Cadre théorique de la modélisation générative