La ley de Zipf revisitada

La ley de Zipf es una ley empírica, que dicta como una serie grande de datos pueden ser aproximados con una distribución de probabilidades muy sencilla. Por ejemplo, en una determinada lengua la frecuencia de aparición de distintas palabras debe seguir una distribución que puede aproximarse por

Pn ∼ 1 / na

donde Pn representa la frecuencia de la n-ésima palabra más frecuente y el exponente a es un número real positivo, en general ligeramente superior a 1. Revisitamos en esta entrada este tema, que ya fue objeto de varias más en el pasado: La misteriosa ley de Zipf y La ley de Zipf para la seña, esta última en la que analizamos si la ley se cumplía para el lenguaje de los sordos.

George Kingsley Zipf

Esta ley fue enunciada por George Kingsley Zipf (1902–1950), en varios artículos desde 1935. Zipf era lingüista y filólogo, estudió en la Universidad de Harvard, y también en las Universidades de Bonn y Berlín. De hecho, fue el director del Departamento de Lengua Alemana de Harvard.

La ley, de manera simple, nos dice que la segunda palabra más usada de un idioma aparecerá la mitad de veces que la palabra más usada, la tercera palabra más usada un tercio de veces que la más usada, la cuarta palabra más usada un cuarto de veces que la más usada, y así sucesivamente.

Uno de los últimos trabajos de Zipf, en 1949, fue el análisis del Ulyses de James Joyce, contando las veces que las distintas palabras que aparecen en la misma. Al colocarlas por orden decreciente de frecuencias, observó que la más frecuente aparecía 8000 veces; la décima, 800; la centésima, 80, y la milésima sólo 8. Hoy en día esto se puede hacer muy rápidamente con un ordenador, y con una precisión casi total; a mano, llevaría sin duda a unos cuantos errores.

Zipf fue una persona que se preocupaba por el comportamiento humano, definiéndose a si mismo como “un estadísico de la ecología humana”. Una explicación para su ley era que en un escrito las palabras más cortas eran más frecuentes que las largas, y que las más conocidas tenían un mayor peso, de manera que el lenguaje funcionaba con una especie de ley del mínimo esfuerzo, un principio que por cierto es muy popular en la física.

Este principio de mínimo esfuerzo fue enunciado por el filósfo francés Guillaume Ferrero, en un artículo de 1894 en la «Revue Philosophique de la France et de l’Étranger». Exactamente cincuenta años más tarde, en 1949, Zipf escribió el ensayo “Human Behaviour and the Principle of Least Effort: An Introduction to Human Ecology”.

Llevados por nuestra curiosidad, hemos querido verificar con un programa la ley de Zipf, con varias obras: El Quijote en español, inglés y francés , y La Comunidad del Anillo en inglés. Estos son los gráficos correspondientes:

El Quijote en español

 

El Quijote en inglés

 

El Quijote en francés

 

La Comunidad del Anillo

También incluimos el gráfico con las 10.000 palabras más frecuentes de la base de datos de Google Books en inglés. Todo confirma el acierto de Zipf.

 

____

Manuel de León (CSIC, Fundador del ICMAT, Real Academia de Ciencias, Real Academia Canaria de Ciencias) y Xavier Rivas (Universitat Politècnica de Catalunya).

Compartir:

2 comentarios

  1. Buenos días
    Me encuentro actualmente realizando una investigación matemática acerca de la Ley de Zipf, y me gustaría saber si es posible qué programa utilizaron a la hora de obtener los datos de la gráfica del Quijote, por ejemplo, para poder probar que se cumplía en ellos dicha ley.
    Muchas gracias y un cordial saludo.

Deja un comentario