Calcul différentiel

1) Introduction

L'étude de l'apprentissage automatique va d'emblès nous faire découvrir le calcul différentiel. Car en effet, un moyen d'apprentissage canonique consiste à ajuster petit-à-petit des paramètres en mesurant leurs effets. Et ces petites variations, si elles sont infiniment petites, s'appellent des éléments différentiels. En ce domaine, la physique a progressé considérablement en 2 siècles, et les mathématiques ont offert un cadre rigoureux. Il convient donc de présenter ce qu'est le calcul différentiel avec ses notations spécifiques, et ce qu'est le calcul différentiel vectoriel.

Le calcul différentiel, le calcul des dérivées, nous amène naturellement au calcul des tangentes et à l'étude des transformations linéaires. Aussi, il est naturel que du calcul différentiel nait l'algèbre linéaire et les espaces vectoriels.

On tient à préciser formellement les notations afin de lever toute ambiguité et motif d'arrêt de compréhension du lecteur.

Etant donné une fonction `f(x)`, sous-entendant que c'est une fonction `f` analytique (c'est à dire indéfiniment dérivable et de série de Taylor convergente) que l'on applique à l'argument réel `x`, et qui retourne comme résultat un réel. On s'intéresse à ses dérivées. On adopte la notation du physicien. On fait de `f` une variable égale à `f(x)` comme suit : On déclare que la variable `f` dépend totalement de `x` en notant simplement le neurone `f"←"x`. Après cette déclaration, `f` devient aussi une fonction qui s'applique par défaut à l'argument `x` (qui constitue un système de coordonnée par défaut pour la fonction `f`) pour retourner la valeur de la variable `f`. Faisant que, si l'on rencontre l'expression `f` dans une équation où l'on attend une valeur réel, alors celle-ci doit être interprété comme étant la variable `f` qui est, par définition de son neurone, égale à `f(x)`. En résumer `f"="f(x)`.

2) Elément différentiel

Considérons une variable réel `x`. L'élément différentiel `dx` désigne une variation infinitésimale du premier ordre de la variable `x`. On formalise cette variation comme étant un hyperréel qui appartient à `epsilonRR` où `epsilon` représente l'infiniment petit standard, un étalon de l'infiniment petit dit du premier ordre. Tous les hyperréels que nous utiliserons seront inclus dans le corps des séries de Laurent formelles sur `RR` noté `RR((epsilon))`

`RR((epsilon)) = {sum_(i>K)a_iepsilon^i "/" K "∈" ZZ "et" AAi, a_i "∈" RR} sub (... + epsilon^-2RR + epsilon^-1RR + RR + epsilonRR + epsilon^2RR + ...)`

C'est un moyen pratique pour mémoriser une série sous forme d'une seule grandeur dans un corps totalement ordonné `RR((epsilon))`. Si `x` est une variable libre, alors `dx` est également une variable libre, seul leur domaine diffère :

`x in RR`
`dx in epsilonRR`

3) La différentialisation `d`

On sépare dans l'expression `dx`, l'opérateur de différentialisation `d`, de la variable `x`. Et on précise la priorité syntaxique de cet opérateur. La différentialisation `d` a une priorité syntaxique posée plus élevée que les opérations `"+ - * / ^"`, faisant que `dx^2` est égale à `dx"*"dx` et non à `d(x^2)`, et appliqué plusieurs fois de suite, elle se compose en une puissance `d(d(dx))= d^3x`. Ainsi `d^3` est l'opérateur qui différentialise trois fois de suite.

`du"*"du=du^2`

`d(d(du))= d^3u`

Puis le symbole de la multiplication est presque toujours remplacé par une simple juxtaposition des arguments du produit faisant que :

`dududu=d^3u`
`dxdydz=dx"*"dy"*"dz`

L'expression d'un calcul quelconque correspond à une variable anonyme (ou si vous voulez, dont le nom correspond à l'expression de son calcul). Ainsi l'opérateur `d` peut s'appliquer à une expression quelconque interprété comme une variable anonyme, pour former un nouvel élément différentiel car la différentialisation est exacte et correspond de fait à une nouvelle variable qui, ici, sera simplement dépendante.

Une différentielle d'ordre `n` tel que `dx^n` où `d^nx` ou `dy^(n-k)dz^k`, appartient par principe à `epsilon^n RR`.

L'appel de fonction reste de syntaxe prioritaire à celle de l'opérateur `d`, faisant que `df(x)` désigne `d(f(x))` et non `(df)(x)`, expression d'appel qui n'est d'ailleurs plus autorisée (autrement dit cela désigne maintenant un produit et non un appel). Pour désigner cet appel on utilise une autre notation : `df"|"_("("x")")`.

4) La dérivée `f’`

Dans l'infiniment petit d'une fonction analytique, tout est linéaire.

Les variables `f` et `x` dans notre exemple étant liées par la fonction `f=f(x)`, la variation infinitésimale du premier ordre de `f` notée `df` est liée à la variation infinitésimale du premier ordre de `x` notée `dx`. Et ce lien est linéaire, de pente égale à la dérivée de `f` noté `f'`. C'est la définition algébrique de la dérivée, une égalité hyperréel exacte :

`df = f’dx`

La dérivée `f'` est un réel, définit par le passage à la limite suivant. C'est la définition analytique de la dérivée :

`f’(x) = lim_(h->0) (f(x"+"h)"-"f(x))/h`

La notation du physicien s'applique aussi à la dérivée faisant que `f’` est une variable liée par `f’ = f’(x)`. Ce qui fait que nous pouvons écrire de façon condensée, en rappelant le neurone pour lever l'ambiguïté :

`f"←"x`

`f’ = lim_(h->0) (f(x"+"h)"-"f)/h`

Cela nous permet à partir de la définition analytique de redonner une définition algébrique en choisissant un `h` directement infiniment petit tel que `dx`. Néanmoins le développement de `f(x"+"dx)` n'est pas simple, car si l'argument d'une fonction analytique n'est pas réel mais appartient `RR((epsilon))` alors le résultat est une valeur de `RR((epsilon))`. En ne retenant dans le développement que le premier terme réel, on retrouve l'égalité :

`f’ = (f(x"+"dx)"-"f)/dx + O(epsilon)`

L'égalité est toujours d'hyperéelle exacte, mais elle est rendue à l'ordre d'`epsilon` près grace à la notation de Landau. L'expression `O(epsilon)` représente une grandeur `v"∈"O(epsilon)` de l'ordre d'`epsilon` c'est à dire, un élément `v"∈"RR((epsilon))` dont il existe un entier `n` tel que `n^("-1")|v|<|epsilon|<n|v|`

La différentielle de `f` se note `df`, et la dérivée de `f` se note `f’`. Ce sont tous deux des fonctions mais leur forme d'appel se distingue `f "=" f(x), f’"=" f’(x), df "="df"|"_("("x")")`. Ainsi nous avons :

`f"←"x`

`df = f’dx`

`df"|"_x = f’(x)dx`

`df"|"_y = f’(y)dy`

5) Le développement de Taylor

On peut en déduire le développement de Taylor (voir Démonstration algébrique du développement de Taylor) :

`f(x"+"dx) = f + O(epsilon)`

`f(x"+"dx) = f+ f’dx + O(epsilon^2)`

`f(x"+"dx) = f+ f’dx + (f’’)/2dx^2+O(epsilon^3)`

`f(x"+"dx) = f+ f’dx + (f’’)/2dx^2+ (f’’’)/(3!)dx^3 +O(epsilon^4)`

Les égalités sont toujours hyperréels exactes, et le `O(alpha)` désigne une valeur de l'ordre d'`alpha`. La dérivation peut être répétée et se traduit algébriquement par ces égalités d'hyperréels exactes :

`df = f’dx`
`d^2f = f’’dx^2`
`d^3f = f’’’dx^3`
`⫶`
`d^nf = f^("("n")") dx^n`

La formule de Taylor s'écrit :

`f(x"+"dx) = f + f’dx + f’’(dx^2)/2+ f’’’(dx^3)/(3!)+...+ f^("("n")") (dx^n)/(n!)+...`

`f(x"+"dx) = f + df + (d^2f)/2+ (d^3f)/(3!)+...+ (d^nf)/(n!)+...`

L'opérateur `d` peut être mis en exponentiel pour produire l'opérateur `e^d` :

`e^d = 1+d+(d^2)/2+(d^3)/(3!)+...+(d^n)/(n!)+...`

Cela aboutit aux expressions hyperréels exactes :

`f"←"x`

`f(x"+"dx) = e^d f`

`f(x"+"rdx) = e^(rd) f`

5) Formules usuelles :

`d(x^n) = nx^(n-1)dx`

`d(1/x) = (dx)/(x^2)`

`d(sqrt(x)) = 1/2(dx)/sqrt(x)`

`d(e^x) = e^x dx`

`d(ln x)= 1/x`

`d(cos x) = - sin(x) dx`

`d(sin x) = cos(x) dx`

`d(tan x) = (dx)/(cos(x)^2)`

`d(x+y) =dx+dy`

`d(xy) = xdy+ydx`

`d(x/y) = (ydx-xdy)/(y^2)`

`d(x(y)) = (d(x(y)))/(dy) dy`

6) Fonction d'activation :

Heaviside : `H(x) = ("si "x<0" retourne "0" sinon retourne "1)`

ReLU : `f(x) = ("si "x<0" retourne "0" sinon retourne "x)`

Leaky ReLU : `f(x) = ("si "x<0" retourne "ax" sinon retourne "bx)`

Affine : `f(x) = ax+b`

Sigmoïde : `sigma(x) = 1/(1+e^(-x))` et nous avons : `sigma'(x)=sigma(x)(1-sigma(x))`

Tangente hyperbolique : `tt"th"(x) = (e^x-e^-x)/(e^x+e^-x)` et `tt"th"(x) = 2sigma(2x)-1`

Dominique Mabboux-Stromberg
Septembre 2025