Teoría de la información

                     Clase 2

                                

Vamos a intentar sacarle jugo a la fórmula de la entropía de una variable aleatoria. En todo caso hablaremos de variables aleatorias discretas, que pueden tomar un número finito, o al menos numerable, de valores... sin embargo la extrapolación a variables continuas, es muy sencilla y no añade dificultad conceptual alguna.

En la fórmula de la entropía de Shannon, puede suceder que uno de los posibles valores xi tenga asociada una probabilidad pi=1. Como la suma de todas las probabilidades es la unidad, eso quiere decir que los demás "posibles sucesos" tienen probabilidad cero(no son posibles).

Una variable así nos está diciendo que se va a realizar el valor xi con seguridad. A una variable aleatoria de este tipo la denominaremos degenerada, por no aportar aleatoriedad alguna.

Qué sucede con la entropía de una variable aleatoria degenerada?

El logaritmo de la probabilidad es cero(pues log21=0), por lo que la entropía de dicha variable es nula.

Una v.a. nos está ofreciendo una cierta información; es como cuando un médico dice que alguien tiene un 88% de posibilidades de vencer una enfermedad. No da tanta información como cuando dice con seguridad qué se va a curar; o que no tiene cura... pero da más información que si habla de un 50% de posibilidades. La variable aleatoria degenerada no deja aleatoriedad: da la información máxima posible, y tiene entropía nula, según acabamos de ver.

Este hecho es el primer indicio de que si pensábamos que la entropía era una medida de la información que me ofrece una variable aleatoria, estábamos equivocados.

De hecho, es un muy buen indicador de lo contrario. Cuanto más baja sea la entropía de una v.a., más información nos estará dando, hasta llegar a la entropía nula en el caso de información puntual, fiel y no probabilística(en el sentido de que la ofrece con probabilidad 1). O sea: "la entropía es el grado de desinformación, que aporta la v.a."

Si el médico me dice que tengo una probabilidad del 100% de curarme de mi enfermedad(variable aleatoria degenerada) me aporta de principio la máxima información. En el extremo opuesto, si me dice que tengo un 50% de probabilidades de curación(máxima aleatoriedad) no me aporta información alguna, y mi futura curación (realización del experimento asociado a la variable aleatoria) en cambio aportará toda la información que la variable no aportaba.

La entropía de la variable, es la medida esperada de la información que aportará la realización del evento asociado a la variable. Por eso es que una entropía alta implica que la propia variable aporta una información pequeña. El resto de la información hasta la certeza, vendrá de la materialización práctica del evento.

Vayamos a uno de los casos más sencillos de variable aleatoria: la realización de un experimento con dos posibles resultados, de probabilidad p y (1-p). El lanzamiento de una moneda(con posibles resultados 0 (cara) y 1 (cruz), o de un dado con resultados 0 (impar) ó 1 (par).

La entropía de esta variable, aplicando la fórmula de la definición es:

H[X]= -p·log2(p) - (1-p)·log2(1-p)

En el caso general, tenemos infinitas distribuciones diferentes con este esquema dependiendo del valor de p, que recorre los reales en el intervalo [0,1].

Un poco de cálculo nos convencerá de que el valor máximo de la entropía es para p=0,5, y los mínimos para p=0 y p=1, para los cuales la entropía vale cero. Ver gráfica:

                                                          

En efecto, en ambos casos tenemos una variable degenerada; y la máxima entropía se da cuando la distribución es uniforme: todos los valores tienen la misma probabilidad de ocurrir y la variable en sí no nos aporta información alguna de cuál puede ser el que se dé en el evento.

Ahora sabemos que el máximo de entropía es para la distribución uniforme, además es muy sencillo evaluarla:

Si tenemos una v.a. X que toma valores {x1,x2,...,xn} con probabilidades (p1,p2,...,pn), si hay equiprobabilidad entonces pi = 1/n, para cualquier n, y para todo i :

H[X]=  -(1/n)·log2(1/n) - (1/n)·log2(1/n) -...- (1/n)·log2(1/n)  =  log2(n)     Recordemos que el log(1/x) = - log(x)

Esta es la mayor entropía que puede tener una variable aleatoria de n estados. 

Esta fórmula:

                        H[X]= log2(n)

es idéntica a la fórmula física que expresa la entropía de un sistema en función de su número de estados, salvo por la presencia de la constante de Boltzmann. Tanto en el caso físico como aquí, la elección del valor numérico de la constante depende de las unidades en las que estemos trabajando. En nuestro caso hemos elegido el asunto al dar base 2 a los logaritmos empleados, y la unidad es el bit.

Ejemplo:

Así, una variable con 8 estados, si es uniformemente distribuida, y por lo tanto aporta la menor información posible; tiene una entropía de H=log28=3 bits.

Habiendo ocho estados, son precisamente 3 los bits necesarios para nombrarlos a todos:

                                            000,001,010,011,100,101,110 y 111 

                                                                        Jesús M. Landart y Cristián Antiba

Dejar Mensajes !!!:

Ver Más !!!