# TD 5 - Codes de Hadamard, entrelacement

# 1) Code de Hadamard. 

Soit $k>1$ un entier. Le produit scalaire de deux vecteurs $x=(x_1, \ldots, x_k), y=(y_1, \ldots, y_k) \in \mathbf{F}_2^k$ est $\langle x, y \rangle=\sum_{i=1}^kx_iy_i \pmod 2$.

On définit le code de Hadamard
\begin{align*}
\mathrm{Had}_k: \mathbf{F}_2^k & \rightarrow \mathbf{F}_2^{2^k}\\
x & \mapsto (\langle x, y \rangle )_{y \in \mathbf{F}_2^k}
\end{align*}
ainsi que le code de Hadamard augmenté $\mathrm{Had}^+_k: \mathbf{F}_2^k \rightarrow \mathbf{F}_2^{2^{k-1}}$, en considérant uniquement les vecteurs $y=(1, y_2, \ldots, y_k)$.

a) Montrer que $\mathrm{Had}^+_k$ est bien un code, i.e., une fonction injective.

**Corrigé.** 
Le code de Hadamard est linéaire, donc il suffit de montrer que $\ker(\mathrm{Had}^+_k) = 0$. Soit $x=(x_1,...,x_k)$ un message dans ce noyau. Déjà, on sait que $x_1 = \langle x, \epsilon_1 \rangle  = 0$ car $x \in \ker(\mathrm{Had}^+_k)$ et $\epsilon_1$ est bien de la forme prescrite ( à savoir $(1,y_2,...,y_k)$. De plus, on a pour tout $i=2,...,k$ que $\mathrm{Had}^+_k(x)_{\epsilon_1 + \epsilon_i} = \langle x, \epsilon_1 + \epsilon_i \rangle = 0$. Or $\langle x, \epsilon_1 + \epsilon_i \rangle =x_1 +  x_i = x_i$ donc tous les $x_i$ sont nuls pour $i >1$. 


b) Montrer que $\mathrm{Had}^+_k(1, 0, 0, \ldots, 0)=(1, 1, 1, \ldots, 1)$ et, pour tout $x \in \mathbf{F}_2^k$ différent de $0$ et $(1, 0, 0, \ldots, 0)$, le poids de $\mathrm{Had}^+_k(x)$ est $2^{k-2}$. En déduire que $\mathrm{Had}^+_k$ peut corriger toute erreur d'un nombre de bits strictement inférieur à $2^{k-3}$.
*Exemple:* le code utilisé par Mariner 9 ($k=6$) permet d'envoyer un message de 6 bits en utilisant 32 bits de mémoire, et de corriger jusqu'à 7 erreurs. Par contre, un code qui répète 5 fois un message de 6 bits nécessite de 30 bits de mémoire, mais sa distance minimale est 5; il permet donc de corriger au plus 2 erreurs.

**Corrigé.**
Pour tout $y$ tel que $y_1 = 1$, on a $\langle \epsilon_1, y \rangle = 1$ ce qui implique que $\mathrm{Had}^+_k(\epsilon_1) = (1,1,...,1)$. De plus, si $x$ est différent de $0$ ou $\epsilon_1$, on va montrer que le poids de $Had_k^+(x)$ est $2^{k-2}$. Notons $H$ l'ensemble des $y$ tels que $y_1=1$ et $M$ le sous ensemble des $y \in H$ tels que $\langle x, y \rangle = 1$. On va montrer qu'il y a bijection entre $M$ et son complémentaire dans $H$, ce qui implique que $|M| = |H|/2 = 2^{k-2}$. Soit $i>1$ un indice tel que $x_i=1$. Alors l'application
$$M \to H$$
$$ y \mapsto y+ \epsilon_i$$
induit une bijection de $M$ dans $H \backslash M$. En effet $\langle x, y \rangle = 0$ si et seulement si $\langle x, y+ \epsilon_i \rangle = 1$ puisque $x_i = 1$. 
L'application réciproque $H \backslash M \to M$ est donnée par $y \mapsto y+\epsilon_i$. 
On en conclut que le poids minimum d'un vecteur du code de Hadamard augmenté est $2^{k-2}$. Sa distance est donc  $d = 2^{k-2}$ et il permet donc de corriger $t = \lfloor \frac {d-1} 2 \rfloor  = 2^{k-3} -1$ erreurs.


c) Écrire une fonction qui code un message avec le code de Hamming augmenté $\mathrm{Had}^+_6$.

In [52]:
import numpy as np
def had_6(message):
    #message est une liste de 0 et de 1.
    message_int =  int("".join(map(str, message)), 2) #on convertit en entier
    code=[] #on initialise le code à une liste vide
    for i in range(2**5,2**6):
        #on va énumérer les mots binaires de longueur 6 commençant par un 1: ils correspondent à l'écriture binaire d'entiers entre 2**5 et 2**6-1.
        #on a converti le message en entier. Le produit scalaire peut se faire en prenant le produit terme a terme et en comptant le nombre de 1
        produit = message_int & i
        produit_scalaire = bin(produit).count("1") % 2
        code.append(produit_scalaire)
    return code

**Le code de Hadamard est localement déchiffrable**. On va voir ici une propriété intéressante du code de Hadamard : il est *localement déchiffrable* au sens où on peut récupérer avec grande probabilité un bit spécifique du message envoyé uniquement en lisant une petite partie du message encodé. 

1) **Un exemple** - On considère un code de Hadamard non-augmenté : $Had_k$ de paramètres $[2^{k}, k, 2^{k-1}]$. On encode un message $m$ de longueur $k$, le message encodé est noté $c$. On rappelle que les bits de $c$ sont indexés par les vecteurs de $\mathbb F_2^k$. On choisit un indice $1\leq i\leq k$ et on essaie de retrouver $m_i$. Vérifier que $c_{\epsilon_i} = m_i$ (où $\epsilon_i$ est le $i$ème vecteur de base). On peut donc récupérer $m_i$ en regardant un seul bit de $c$.

**Corrigé.** On a déjà vu que $c_{\epsilon_i} = \langle m , \epsilon_i \rangle = m_i$ par définition. 

3) Maintenant on suppose qu'il y a au plus une proportion $\delta$ d'erreurs réparties aléatoirement dans le message. On note $r$ ce message reçu avec erreurs. Expliquer pourquoi la méthode précédente assure une probabilité $1-\delta$ d'avoir une erreur en décodant $m_i$. On va voir comment améliorer cette probabilité en consultant plus de bits du message reçu $r$. On choisit $q>0$ éléments $(v_1,...,v_q)$ de $\mathbb F_2^k$ au hasard et on consulte l'ensemble des $r_{v_1},...,r_{v_q}$ ainsi que les $r_{v_1 + \epsilon_i},...,r_{v_q + \epsilon _i}$.
   Expliquer pourquoi $c_{v_j + \epsilon_i} + c_{v_j} = m_i$. En déduire une méthode pour retrouver $m_i$ avec une grande probabilité. Faire une application numérique avec $\delta = 0.1$.

**Corrigé.** il y a une coquille, c'est $1-\delta$ de ne **pas** avoir d'erreur. C'est logique car la probabilité d'avoir une erreur en lisant $c_{m_i}$ est exactement $\delta$. 
Calculons $c_{v_j + \epsilon_i} + c_{v_j} $. C'est exactement $\langle m , v_j+\epsilon_i \rangle  +\langle m, v_j \rangle = \langle m , v_j+\epsilon_i +v_j \rangle = \langle m, \epsilon_i \rangle = m_i$ par linéarité du produit scalaire. On peut donc retrouver $m_i$ en lisant le code aux coordonnées $v_j$ et $v_j+\epsilon_i$. Quelle est la probabilité de se tromper lors de cette lecture ? On se trompe si $c_{v_j}$ a une erreur ou $c_{v_j+\epsilon_i}$ a une erreur ( et pas les deux). La probabilité est donc de $q = \delta * (1- \delta) + \delta * (1-\delta) = 2\delta(1-\delta)$. Pour retrouver $m_i$ avec une grande confiance, l'idée est de le lire sur ces coefficients en tirant $v_1,...,v_n$ au hasard de façon indépendante. On choisit ensuite $m_i$ selon la valeur majoritaire qu'on a trouvé. 
Supposons qu'on tire $n$ vecteurs $v_1,...,v_n$. On se trompe sur la valeur de $m_i$ s'il y a plus de $n/2$ erreurs parmi ces $n$ lectures. 
Comme les $v_i$ sont indépendants, la probabilité d'avoir $k$ erreurs lors des lectures suit une loi binomiale : $P( k$ erreurs $)  =  {n\choose k} q^k (1-q)^{n-k}$. La probabilité d'avoir plus que $n/2$ erreurs est donc 
$$\sum_{j=n/2}^{n} {n \choose k} q^k (1-q)^{n-k}$$ avec $q = 2\delta(1-\delta)$
Application numérique :  pour $\delta =0.1$ et $n=10$, on obtient une probabilité d'erreur de $0.0212$. Pour $n=100$, on obtient $3.65 \times 10^{-13}$. On peut ainsi avec cette méthode équilibrer finement le nombre de symboles à regarder pour connaître $m_i$ selon la probabilité d'erreur souhaitée. Par exemple, si le canal est extrêmement bruité $\delta=0.1$, on peut choisir $n=100$ de sorte que la probabilité d'erreur soit inférieur à un seuil décidé à l'avance.

# 2) Comparaison des taux de correction

Le but de cette partie est de voir comment le niveau de bruit du canal de communication influence le choix de code correcteur à utiliser. 

On considère un canal de communication qui transmet des bits d'information avec une probabilité d'erreur de $p<<1$. On encode les message avec un code $C$ de paramètres $[n,k,d]$. Si l'on veut transmettre un message de $m$ bits, on le découpera en morceaux de longueur $k$ qu'on encodera blocs par blocs. 

1) Exprimer en fonction de $p,n,k,d$ la probabilité, pour un bloc donné, que le code correcteur ne réussise pas à corriger le bruit du canal ?
2) Quelle est la probabilité qu'un message de longueur $m$ (on peut supposer $m$ divisible par $k$ pour simplifier) n'arrive pas à être transmis correctement ?
### **Corrigé.** 1) Probabilité d'échec de correction d'un bloc  

Un code correcteur avec des paramètres $[n, k, d]$ peut corriger jusqu'à $t = \lfloor \frac{d-1}{2} \rfloor$ erreurs par bloc. Cela signifie que la correction échoue si **plus de** $t$ erreurs apparaissent dans un bloc de longueur $n$.  

Les erreurs suivent une loi binomiale $X \sim \mathcal{B}(n, p)$, et la probabilité d'échec pour un bloc est :

$$
P_{\text{échec}} = P(X > t) = \sum_{j=t+1}^{n} {n \choose j} p^j (1-p)^{n-j}
$$

où $X$ est le nombre d'erreurs dans un bloc.  

### 2) Probabilité d'échec sur un message complet  

Un message complet a $\frac{m}{k}$ blocs. Pour que le message entier soit reçu correctement, **tous** les blocs doivent être corrigés avec succès.  

Si l'on suppose que les erreurs sur chaque bloc sont indépendantes, alors la probabilité qu'au moins un bloc échoue est :

$$
P_{\text{échec, message}} = 1 - (1 - P_{\text{échec}})^{m/k}
$$

où $P_{\text{échec}}$ est la probabilité d’échec sur un bloc donnée plus haut.  


4) Faire une application numérique avec $p = 10^{-4}$ pour les codes de Hamming $[7,4,3]$, le code de Golay binaire étendu $[24,12,8]$, le code de Hadamard $[32,6,16]$. Que se passe-t-il avec $p=0.1$? En déduire les avantages et inconvénients de chacun.
Pour $p=10^{-4}$, la probabilité d'échec d'un seul bloc est :
Hamming $[7,4,3]$ : $P_{échec}≈2.1×10^{-7}$

Golay $[24,12,8]$ : $P_{échec}≈1.06×10^{-12}$

Hadamard $[32,6,16]$ : $P_{échec}≈1.05×10^{-25}$

Si l'on veut transmettre un message de longueur $100$, les probabilités d'échec respectives sont : 


Hamming $[7,4,3]$ : $P_{échec}≈2.1×10^{-5}$

Golay $[24,12,8]$ : $P_{échec}≈1.06×10^{-10}$

Hadamard $[32,6,16]$ : $P_{échec}≈1.05×10^{-23}$

Les trois codes sont utilisables avec un taux d'erreurs de $10^{-4}$. On voit tout de même que le code de Hadamard est largement plus robuste que Golay, lui même beaucoup plus que Hamming. Pour un taux d'erreurs faible, il convient d'utiliser plutôt un code de Hamming ou de Golay car leur ratio $k/n$ est beaucoup plus petit que pour Hadamard (les codes sont moins redondants).

Pour $p=0.1$, la probabilité d'échec d'un seul bloc est :

Hamming $[7,4,3]$ : $P_{échec}≈0.12$

Golay $[24,12,8]$ : $P_{échec}≈0.21$

Hadamard $[32,6,16]$ : $P_{échec}≈0.012$

Si l'on veut transmettre un message de longueur $100$, les probabilités d'échec respectives sont : 

Hamming $[7,4,3]$ : $P_{échec}≈1-(1-0.12)^{100/4} \simeq 0.96$

Golay $[24,12,8]$ : $P_{échec}≈1-(1-0.21^{100/12} \simeq 0.65 $

Hadamard $[32,6,16]$ : $P_{échec}≈1-(1-0.012)^{100/6} \simeq 0.18$

On voit que le code de Hamming est complètement inutilisable tandis que le code de Hadamard est beaucoup plus robuste sur un canal très bruité. 


# 3) Correction des bursts : l'entrelacement

Très souvent dans un canal de communication réel les erreurs arrivent par paquets (des "bursts"), toutes au même endroit ; comme les rayures sur un CD. 
L'entrelacement est une opération qui change l'ordre des symboles à l'émission pour
les remettre en ordre à la réception. Ceci permet de diluer les bursts sur plusieurs paquets encodés. On va s'intéresser à l'**entrelacement en blocs**. Pour cet entrelacement, on écrit les symboles issus du codeur à l'émission dans une matrice mémoire ligne par ligne et on les relit colonne par colonne. A la réception, l'opération inverse est effectuée pour rétablir l'ordre initial. 


On considère un code $[n,k,d]$. Un long message à transmettre $x$ est divisé en paquets de longueur $k$ avant d'être envoyé. On suppose que les erreurs arrivent systématiquements par bursts de taille $D$. Sans entrelacement, le message peut être non-déchiffrable dès que $D > t$ (où $t$ est le taux de correction). 
On considère maintenant un entrelacement par blocs de longueur $q >0$. On regroupe le message codé par paquets de longueur $q*n$ (donc $q$ blocs de taille $n$) et on les écrit dans une matrice $n \times q$ ligne par ligne . On envoie ensuite par le canal de transmission les coefficients de la matrice, colonne par colonne.

1) On suppose qu'une erreur de type "burst" de longueur $D$ arrive lors de la transmission. Quels sont les bits affectés et comment sont-ils répartis dans les blocs ? En déduire la taille maximale d'un burst qu'on peut systématiquement corriger.


3) **Inconvénients de l'entrelacement.** Quels inconvénients possibles voyez-vous à l'utilisation d'un entrelacement par blocs ?

4) Ecrire une fonction python ``entrelace(message, n,q)`` qui entrelace un message (une ``str`` de caractères) par des blocs $q \times n$. On supposera que le message est de longueur un multiple de $qn$ pour simplifier. Si ce n'est pas le cas, la fonction rajoutera des ``'0'`` à la fin du message pour que sa longueur soit un multiple de $qn$. La fonction numpy ``np.ravel()`` pourra être pratique à utiliser.


## **Corrigé.**
1) Supposons dans un premier temps que $D \leq qt$. On peut supposer que le burst arrive au début du bloc (c'est le pire des cas possibles). Comme le message est envoyé colonne par colonne, les erreurs sont réparties sur les $t$ premières colonnes de la matrice $n \times q$, puisque $D \leq qt$. Les étoiles rouges représentent les endroits où arrivent les erreurs dans la matrice décrivant l'entrelacement:
$$
\begin{array}{c}
\begin{pmatrix}
{\color{red} *} & {\color{red} *} & \cdots & {\color{red} *} &        &        \\
{\color{red} *} & {\color{red} *} & \cdots & {\color{red} *} &        &        \\
\vdots          & \vdots          & \ddots & \vdots          & \ddots &        \\
{\color{red} *} & {\color{red} *} & \cdots & {\color{red} *} &        &        
\end{pmatrix}\\[4pt]
\underbrace{\hphantom{{\color{red} *}\quad{\color{red} *}\quad \cdots \quad {\color{red} *}}}_{t \text{ colonnes}}
\end{array}
$$
Chaque ligne représente un mot de code. On en déduit que chaque mot de code a au plus $t$ erreurs lors de la réception, si un burst de taille $D \leq qt$ arrive. Par conséquent, l'entrelacement en blocs de taille $q$ permet de corriger des bursts de taille $qt$. Si $D \geq qt$, on voit que ce n'est plus possible car certaines lignes auront plus de $t$ erreurs.

2. L'entrelacement permet certes de corriger des bursts de grande taille efficacement, mais il ralentit aussi la vitesse de transmission : Il faut attendre d'avoir reçu les $q$ blocs pour commencer à décoder le message. En effet, le mot de code encodé dans la ligne $1$ n'est reçu entièrement qu'une fois que tous les blocs (les colonnes) ont été transmis. Il y a donc un désavantage par exemple dans des contextes où il est nécessaire de décoder très rapidement (le streaming par exemple).

3. Voir code plus bas

In [53]:
def entrelace(message,n,q):
    #on suppose que le message est une chaîne de caractères
    L=len(message)
    r=L%(n*q)
    if r!=0:
        message+='0'*(n*q-r) # on rallonge le message pour que sa longueur soit un multiple de q.
    message=np.array(list(message)) #on le transforme en array numpy
    nb_morceaux=len(message)//(n*q)
    message_entrelace=[]
    for i in range(nb_morceaux):
        matrice = np.reshape(message[i*n*q: (i+1)*n*q],(n,q))
        U=np.ravel(matrice.transpose()).tolist()
        message_entrelace+=U
    return ''.join(message_entrelace)

In [54]:
#petit test :
entrelace('abcdefghijklmnopqrstuvwxyz',3,3)

'adgbehcfijmpknqlorsvytwzux0'