Tout fichier informatique est constitué d'octets. Un octet peut prendre des valeurs de 0 à 255. L'entropie de l'information est un paramètre statistique qui montre la probabilité d'occurrence de certains octets dans un fichier.
Vous pouvez évaluer visuellement le degré d'entropie à l'aide d'un histogramme - la distribution de la probabilité de répéter les mêmes octets dans un fichier. A partir de l'entropie du fichier, nous pouvons deviner quel type de fichier se trouve devant nous, en ne voyant que son histogramme.
Pour démonstration, prenons trois fichiers de types différents et comparons leurs histogrammes. Soit le premier un fichier texte (*. TXT). Son histogramme est représenté sur la figure:
Le fichier texte ne contient que du texte. Chaque caractère du texte est codé avec certains octets conformément à la table de codage. Bien qu'il existe un grand nombre de types de codage, il est évident qu'il existe un nombre limité de caractères alphanumériques, qui est généralement inférieur à 255. Par conséquent, seules certaines zones sont occupées sur le premier histogramme, et certains octets ne le sont pas du tout.
Le fichier suivant sera au format PDF:
Ce fichier contient tous les octets possibles, car le PDF est encodé différemment des fichiers texte. Il stocke de nombreuses informations de service: formatage, polices, images, etc. Mais son histogramme montre que certains des octets se produisent avec une probabilité approximativement égale, tandis que d'autres - beaucoup plus souvent que d'autres. D'où les multiples rafales nettes sur l'histogramme, et en général il a un aspect plutôt "déchiqueté", bien qu'il occupe toute la largeur disponible.
Et le dernier fichier est zippé au format 7Z:
Cet histogramme a deux caractéristiques principales: d'une part, tous les octets se retrouvent dans le fichier zippé avec une probabilité plus ou moins égale (un bord supérieur assez plat), et d'autre part, il n'y a pratiquement pas d'espace libre au-dessus de l'histogramme, ce qui indique une absence quasi totale de redondance un tel fichier. Par conséquent, nous pouvons conclure que l'algorithme de l'archiveur "mélange" d'une manière particulière les octets du fichier afin d'obtenir leur distribution uniforme maximale.
Ainsi, l'entropie en informatique, comme en physique, est une mesure du désordre dans le système, en l'occurrence, le désordre dans la répartition des octets dans le fichier. L'entropie vous permet de juger du degré de compression du fichier et - indirectement - de son type.