# TD9 - Théorie de l'information et codes polaires

On va voir aujourd'hui dans une première partie les bornes théoriques découvertes par Shannon sur la capacité de transmission d'un signal dans un canal bruité. Dans une deuxième partie on étudiera les *codes polaires* dont la construction repose sur des considérations de théorie de l'information et qui permettent d'atteindre la borne de Shannon. On rappelle que la fonction "entropie de Shannon" est définie par $H(p) = -p log(p) - (1-p) log(1-p)$ pour $p \in [0,1]$.

## 1. Codes correcteurs et théorème de Shannon
Dans le paradigme de Shannon, un canal de communication bruité prend en entrée des symboles d'un alphabet $X$ et renvoie des symboles d'un alphabet $Y$ (le plus souvent $X = Y$. Ce canal a une *matrice de transition* qui gouverne avec quelle probabilité des erreurs sont introduites. On suppose que le canal est *sans mémoire* c'est à dire que les probabilités d'erreur pour chaque symbole sont indépendantes les unes des autres. 
Pour n'importe quelle paire $(x,y) \in X \times Y$, Appelons $P(x|y)$ la probabilité que $y$ soit reçu en sortie si $x$ est mis en entrée. La matrice de transition d'un canal est la matrice $M$ donnée par $M(x,y)= P(x|y)$. 
On appelle *Binary Symmetric Channel* de paramètre $p$ ou BSC$_p$ le canal sur les alphabets $X = Y = \mathbb F_2$ donné par les probabilités de transition $M(0,0) = M(1,1) = 1-p$ et $M(0,1) = M(1,0) = p$. Autrement dit, chaque bit est transmis erroné avec probabilité $p$. 

1) Expliquer pourquoi on peut dans la suite supposer que $p \geq 1/2$ (i.e. on peut se ramener à ce cas là si $p \geq 1/2$).

Dans ce paradigme probabiliste, il est impossible de concevoir des codes correcteurs qui *garantissent* de corriger l'erreur, puisqu'elle est aléatoire et potentiellement de poids arbitrairement grand. L'objectif sera alors de fabriquer des codes qui minimisent la probabilité d'erreur. Le théorème de Shannon quantifie exactement quand il est possible de le faire :

**Théorème de capacité de Shannon pour le BSC** 
Pour des réels $p$, $\varepsilon$ tels que $0 \leq p < \frac{1}{2}$ et $0 \leq \varepsilon \leq \frac{1}{2} - p$, les affirmations suivantes sont vraies pour $n$ suffisamment grand :

1. Il existe un réel $\delta > 0$ tel que pour tout $n$ suffisamment grand, il existe une fonction d'encodage $E : \mathbb{F}_2^k \to \mathbb{F}_2^n$ et une fonction de décodage $D : \mathbb{F}_2^n \to \mathbb{F}_2^k$, où $k \leq \lfloor (1 - H(p)-\varepsilon)n \rfloor$, telles que la propriété suivante est vérifiée pour tout $\mathbf{m} \in \mathbb{F}_2^k$ :
$$
\mathbb P_{\mathbf{e} \sim \text{BSC}_p} [D(E(\mathbf{m}) + \mathbf{e}) \neq \mathbf{m}] \leq 2^{-\delta n}.
$$

2. Si $k \geq \lceil (1 - H(p) + \varepsilon)n \rceil$, alors pour toute paire de fonctions d'encodage et de décodage, $E : \mathbb{F}_2^k \to \mathbb{F}_2^n$ et $D : \mathbb{F}_2^n \to \mathbb{F}_2^k$, il existe un message $\mathbf{m} \in \mathbb{F}_2^k$ tel que :
$$
\mathbb P_{\mathbf{e} \sim \text{BSC}_p} [D(E(\mathbf{m}) + \mathbf{e}) \neq \mathbf{m}] \geq \frac{1}{2}.
$$


On ne prouvera pas le théorème de Shannon dans ce TD (pas le temps). 
La **capacité** d'un canal est défini comme le ratio $k/n$ maximal qu'on peut avoir tout en assurant une transmission avec une probabilité d'erreur arbitrairement petite. Ici, le théorème de Shannon pour le BSC affirme que sa capacité est $1-H(p)$. 

1) Montrer que pour une communication sur le canal $BSC_p$ si une fonction d'encodage $E$ assure une probabilité d'erreur de décodage maximale (calculée sur tous les messages) exponentiellement petite, c'est-à-dire au plus $2^{-\gamma n}$ pour un $\gamma > 0$, alors il existe un $\delta = \delta(\gamma, p) > 0$ explicite tel que le code défini par $E$ possède une distance d'au moins $\delta$. Autrement dit, une bonne distance est nécessaire pour obtenir une probabilité d'erreur de décodage maximale exponentiellement petite.



Le résultat de Shannon est fondamental mais il ne permet pas de construire *efficacement* des codes qui atteignent la capacité optimale ; la preuve les construit aléatoirement et on ne dispose pas d'un bon algorithme de correction. Le but des codes polaires est d'avoir à la fois un algorithme efficace en temps et d'atteindre un ratio $R$ arbitrairement proche de la capacité.


## 2. Entropie de Shannon 
Le but de cette section est de parler un peu de l'entropie d'une variable aléatoire et de ses propriétés. On notera $\log$ pour le logarithme en base $2$.
Soit $X$ une variable aléatoire discrète ($X(\Omega) = \mathcal X$ ensemble fini). Son entropie de Shannon $H(X)$ est définie par
$$H(X) = \sum_{x} -p(x) \log(p(x))$$ où $p(x) = P(X=x)$.
L'entropie conditionnelle d'une variable $X$ par rapport à une variable $Y$ est la grandeur
$$ H(X | Y ) = \sum_{x,y} p(x,y) \log \left(\frac {p(x,y)}{p(x)} \right)$$ 

1. Que vaut $H(X)$ lorsque $X$ est presque sûrement constante ? uniforme ?
2. On note $(X,Y)$ la variable aléatoire donné par la paire des variables $X,Y$. Montrer que si $X$ et $Y$ sont indépendantes, alors $H(X,Y) = H(X)+H(Y)$. Montrer qu'en général $H(X,Y) = H(Y) + H(X|Y)$.
3. Montrer que pour $X$ à support de cardinal $n$ ($n$ valeurs possibles), l'entropie est majorée par $log(n)$ et qu'elle est atteinte lorsque $X$ suit une loi uniforme.
4. Montrer que si $f : A \to B$ est une fonction quelconque et $X$ une variable aléatoire discrète à valeur dans $A$, alors
   $H(f(X)) \leq H(X)$.  En déduire que l'entropie est conservée quand on compose par une injection.
5. Soit $p_\max = \max_x P(X = x)$. On suppose que $H(X) \leq \epsilon$. Montrer que $-log(p_\max) \leq H(x)$. En déduire que $\log(p_\max) \leq 2^{-\epsilon} \leq 1-\epsilon$.

## 2. Codes Polaires

Les codes polaires reposent sur la construction d'un bon algorithme de *compression*. Nous allons voir en quoi les deux notions sont liées.

### 1) Un algorithme de (dé)compression fournit un algorithme de codage/décodage

Dans la suite on considère une variable aléatoire $x$ qui est un mot binaire de $n$ lettres dont chaque lettre est une variable de bernoulli de paramètre $p$, et les lettres sont indépendantes. Considérons une fonction $f : \mathbb{F}_2^n \to \mathbb{F}_2^m$ avec $m < n$ et $f^{*} : \mathbb{F}_2^m \to \mathbb{F}_2^n$ avec $m$ de l'ordre de $nH(p)$. On suppose que $f$ est linéaire et que $\mathbb P(f^* (f(x) ) \neq x) <<1$. On va montrer que ces données permettent de construire un algorithme de codage/décodage efficace.

1) On va construire le code $C$ comme étant le noyau de $f$ dans $\mathbb{F}_2^n$. Une matrice de contrôle de $C$ est donc donnée par la matrice de $f$ dans les bases canoniques. Le message reçu est un mot $z$ de longueur $n$. Justifier pourquoi il suffit de calculer $z - f^* f(z)$ pour corriger les erreurs avec grande probabilité (on suppose que l'erreur est un mot $x$ suivant la loi décrite plus haut).


2) Expliquer en quoi une telle fonction $f : \mathbb F_2^n \to \mathbb F_2^m$ peut être interprétée comme une fonction de compression.


Tout l'intérêt maintenant est de construire une telle fonction $f$ qui vérifie les propriétés attendues. On notera $H$ la matrice de contrôle de $f$, qu'on essaie de construire. On peut montrer que prendre une matrice $H$ aléatoire convient, mais l'algorithme de décodage a une complexité non satisfaisante (méthode des syndromes, etc). 

L'idée suivant, due à Arikan, est d'obtenir une matrice explicite $H$ comme sous-matrice d'une plus grosse matrice $P$ inversible qu'on construit en essayant de contrôler intelligemment l'entropie de chaque coefficient de $x\cdot P$.  On cherche une matrice $P$ de taille $n \times n$. Le terme "polaire" dans le nom du code évoque le fait qu'on essaie de "polariser" l'entropie des outputs, c'est-à-dire d'à la fin avoir un mot $(y_1,...,y_n)$ tel que $H(y_i| (y_1,...,y_{i-1}))$ soit ou très proche de $0$ ou très proche de $1$ (on "polarise" l'entropie vers les extrémités). 

4) Partons de seulement deux bits $(x_1,x_2)$, indépendants, de Bernoulli $p <1/2$. On veut les transformer (de façon inversible) en une suite $(y_1,y_2)$ de deux bits dont l'entropie est non uniforme.  On veut en particulier $H(x_1,x_2) = H(y_1,y_2)$, $H(y_2 | y_1) \geq H(x_2|x_1) = H(x_2)$ (ce qui implique $H(y_1) > H(x_1)$). Essayez de construire une telle famille $(y_1,y_2)$ en appliquant une application linéaire inversible simple à $(x_1,x_2)$. Calculez les entropies $H(y_2|y_1)$ et $H(y_1)$. 

5) On suppose que $n= 2^l$ pour simplifier; On va construire $P_n$ itérativement par la définition suivante :

   $x P_k = (u P_{k/2}, v  P_{k/2})$ où $u=(x_1 + x_{n/2 + 1}, x_2+x_{n/2+2},...,x_{n/2}+x_n)$ et $v = (x_{n/2+1},...,x_n)$.

   Calculez $P_n$ pour $n=2, 4$.

Dans la suite on fixe $n$ et on note $y_i  = (x P_n)_i$. 

6) On définit $\eta_i = H(y_i|y_1 y_2...y_{i-1})$. Expliquer pourquoi $\sum \eta_i = n H(p)$.

7)  On définit les sous-ensembles suivants de $\{1,...,n\}$:
  $$A = \{i \mid \eta_i \geq 1 - \frac{1}{n^2}\}$$

  $$B = \{i \mid \eta_i \leq \frac{1}{n^2}\}$$
 
  $$C = \{i \mid \eta_i \in (\frac{1}{n^2}, 1 - \frac{1}{n^2})\}$$

  Montrer que $|A| \leq \frac{n H(p)}{1-\frac{1}{n^2}}$. 
    On admet (c'est un point essentiel de la preuve, mais ça demanderait trop de détours) que $|C| = o(n)$. 
    En déduire que $|B| \geq_{n \to \infty} (1-H(p)-o(1))n$.

L'idée est maintenant de prendre $H$ comme la restriction de la matrice $P$ aux colonnes dont les indices sont dans $A$ (les indices de grande entropie relative aux précédents ; ce sont les indices qui contiennent le plus d'information). 
On définit donc $H$ comme ci-dessus. Le but est alors de montrer qu'il existe un "pseudo-inverse" à $H$.
L'idée informelle est la suivante : Comme $H$ contient l'essentiel de l'information de $P$ par construction, on peut reconstruire les colonnes manquantes avec une haute probabilité connaissant $H$. On peut donc reconstruire $P$ et construire un pseudo inverse de $H$ (cad un algorithme de décompression).


8) On appelle $y_H$ l'image par $H$ d'un mot $x$ et $y_J$ l'image par la sous matrice de $P$ dont les colonnes sont celles restantes (celles qui ne sont pas dans $A$). On suppose que $H(y_J | y_H) \leq \delta$ pour un certain $\delta$.
Le but de cette question est de montrer qu'il existe une fonction $f$ telle que $f(y_H) =y_J$ avec grande probabilité (contrôlée par $\delta)$). Autrement dit, on peut récupérer $(y)_J$ uniquement à partir de $(y)_H$.
On note $q_a = P(y_H= a)$ et $q_{b|a}  = P(y_J = b | y_H = a)$.
Montrer que $H(y_J | y_H) = \sum_{a} q_a H(q_{\bullet|a})$ (utiliser la définition plus haut). Interpréter ça comme une borne sur l'espérance de $H(q_{\bullet|y_H})$ (qui est une variable aléatoire). En déduire en appliquant l'inégalité de Markov que $P(H(q_{\bullet|y_H}) > \sqrt \delta ) \leq \sqrt \delta$. En déduire avec la dernière question de la partie $2$ que pour tout $a$ il existe $b$ tel que $q_{b|a} \geq 1 - \sqrt \delta$.

Dans le cas des codes polaires, un calcul montre qu'on peut prendre $\delta = O(1/N)$. Conclure qu'il est possible de construire un inverse avec faible probabilité d'erreur. 