Clase 2

Vamos a intentar sacarle jugo a la fórmula de la entropía de una variable
aleatoria. En todo caso hablaremos de variables aleatorias discretas, que
pueden tomar un número finito, o al menos numerable, de valores... sin
embargo la extrapolación a variables continuas, es muy sencilla y no añade
dificultad conceptual alguna.
En la fórmula de la entropía de Shannon, puede suceder que uno de los
posibles valores xi tenga asociada una probabilidad pi=1.
Como la suma de todas las probabilidades es la unidad, eso quiere decir que
los demás "posibles sucesos" tienen probabilidad cero(no son
posibles).
Una variable así nos está diciendo que se va a realizar el valor xi
con seguridad. A una variable aleatoria de este tipo la denominaremos degenerada,
por no aportar aleatoriedad alguna.
Qué sucede con la entropía de una variable aleatoria degenerada?
El logaritmo de la probabilidad es cero(pues log21=0), por lo que la entropía de dicha variable es nula.
Una v.a. nos está ofreciendo una cierta información; es como cuando un médico
dice que alguien tiene un 88% de posibilidades de vencer una enfermedad. No da
tanta información como cuando dice con seguridad qué se va a curar; o que no
tiene cura... pero da
más información que si habla de un 50% de posibilidades. La variable
aleatoria degenerada no deja aleatoriedad: da la información máxima posible,
y tiene entropía nula, según acabamos de ver.
Este hecho es el primer indicio de que si pensábamos que la entropía era una
medida de la información que me ofrece una variable aleatoria, estábamos
equivocados.
De hecho, es un muy buen indicador de lo contrario. Cuanto más baja sea la
entropía de una v.a., más información nos estará dando, hasta llegar a la
entropía nula en el caso de información puntual, fiel y no probabilística(en
el sentido de que la ofrece con probabilidad 1). O sea: "la entropía es
el grado de desinformación, que aporta la v.a."
Si el médico me dice que tengo una probabilidad del 100% de curarme de mi
enfermedad(variable aleatoria degenerada) me aporta de principio la máxima
información. En el extremo opuesto,
si me dice que tengo un 50% de probabilidades de curación(máxima
aleatoriedad) no me aporta información alguna, y mi futura curación
(realización del experimento asociado a la variable aleatoria) en cambio
aportará toda la información que la variable no aportaba.
La entropía de la variable, es la medida esperada de la información que
aportará la realización del evento asociado a la variable. Por eso es que una entropía alta implica que la propia
variable aporta una información pequeña. El resto de la información hasta
la certeza, vendrá de la materialización práctica del evento.
Vayamos a uno de los casos más sencillos de variable aleatoria: la realización
de un experimento con dos posibles resultados, de probabilidad p y (1-p). El
lanzamiento de una moneda(con posibles resultados 0 (cara) y 1 (cruz), o de un
dado con resultados 0 (impar) ó 1 (par).
La entropía de esta variable, aplicando la fórmula de la definición es:
H[X]= -p·log2(p) - (1-p)·log2(1-p)
En el caso general, tenemos infinitas distribuciones diferentes con este
esquema dependiendo del valor de p, que recorre los reales en el intervalo
[0,1].
Un poco de cálculo nos convencerá de que el valor máximo de la entropía es
para p=0,5, y los mínimos para p=0 y p=1, para los cuales la entropía vale
cero. Ver gráfica:

En efecto, en ambos casos tenemos una variable degenerada; y la máxima
entropía se da cuando la distribución es uniforme: todos los valores tienen
la misma probabilidad de ocurrir y la variable en sí no nos aporta información
alguna de cuál puede ser el que se dé en el evento.
Ahora sabemos que el máximo de entropía es para la distribución uniforme,
además es muy sencillo evaluarla:
Si tenemos una v.a. X que toma valores {x1,x2,...,xn}
con probabilidades (p1,p2,...,pn), si hay
equiprobabilidad entonces pi = 1/n, para cualquier n, y para todo i
:
H[X]= -(1/n)·log2(1/n) - (1/n)·log2(1/n)
-...- (1/n)·log2(1/n) = log2(n)
Recordemos que el log(1/x) = - log(x)
Esta es la mayor entropía que puede tener una variable aleatoria de n
estados.
Esta fórmula:
H[X]= log2(n)
es idéntica a la fórmula física que expresa la entropía de un sistema en
función de su número de estados, salvo por la presencia de la constante de Boltzmann.
Tanto en el caso físico como aquí, la elección del valor numérico de la
constante depende de las unidades en las que estemos trabajando. En nuestro
caso hemos elegido el asunto al dar base 2 a los logaritmos empleados, y la
unidad es el bit.
Ejemplo:
Así, una variable con 8 estados, si es uniformemente distribuida, y por lo
tanto aporta la menor información posible; tiene una entropía de H=log28=3
bits.
Habiendo ocho estados, son precisamente 3 los bits necesarios para
nombrarlos a todos:
000,001,010,011,100,101,110 y 111
Jesús M. Landart y Cristián Antiba
Ver Más !!!