INFORMACIÓN
WHAT IS IT?
Este modelo calcula el contenido de información de Shannon (H) de cualquier texto.
El contenido de información de Shannon generalmente se expresa por el número promedio de bits necesarios para almacenar o comunicar un símbolo en un mensaje. Esta medida de contenido de información cuantifica la incertidumbre involucrada en la predicción del valor de un evento futuro (o variable aleatoria).
HOW IT WORKS
Esta herramienta acepta texto como entrada y calcula la frecuencia con la que ocurre cada palabra. Se construye una «tabla de frecuencias». El análisis es bastante burdo, «The» se considera una palabra diferente de «the«. Después de calcular las frecuencias, se construye una segunda tabla, llamada
«tabla de probabilidad». Esta tabla contiene la probabilidad de encontrar una palabra en particular en el texto si se le diera una sola palabra al azar del texto.
La probabilidad de cada palabra se calcula dividiendo el recuento de frecuencia de cualquier palabra por el total de palabras del mensaje. Las probabilidades de la tabla de probabilidad se utilizan para construir la suma que es H. Esto se hace tomando la suma de probabilidad de cada elemento por el logaritmo de la probabilidad y multiplicando por 1 negativo. En otras palabras, suma de – p log p sobre todos los elementos del mensaje.
Referencias y lecturas complementarias
1.- En el código se declara la extensión Table. La descripción (en inglés) puede verse en NetLogo Table Extension.