La Estructura de los Diccionarios: Jerarquías, Leyes de Escala y Regla de Miller

Supongo que, como casi todo el mundo, pensaba ingenuamente que un diccionario poseía una estructura muy elemental consistente en un mero ordenamiento de los vocablos a definir por orden alfabético. Nada más lejos de la realidad. De hecho, atesoran una estructura matemática muy rica y jerárquica, con vistas a ser productos altamente eficientes y económicos a la hora de transmitir la información que contienen. Lo sorprendente resulta ser que ni sus propios arquitectos lo sabían. ¿Cuáles son las estructuras subyacentes a los diccionarios? Vamos a tratar de explicarla sucintamente, así como su sorprendente similitud  con las de las taxonomías jerárquicas.

 

 

Diccionarios (Fuente: Flickr)

 

La primera noticia sobre este descubrimiento, apareció tanto en Sciencedaily, como en Terradaily. El autor es Mark Changizi y el título del trabajo original:

 

Changizi, M. A. 2008. Economically organized hierarchies in WordNet and the Oxford English Dictionary. Cognitive Systems Research (In Press).

 

Leídas ambas, y a falta del artículo científico original, ni corto ni perezoso, le envié un mail a Changizi. La razón estriba en que lo que había descubierto coincidía con un trabajo mío sobre la estructura de las taxonomías biológicas y edafológicas. Demasiadas coincidencias (no se ha publicado, pero se encuentra aceptado, a falta de pequeñas modificaciones que debo realizar ahora por recomendación de los referees). Sorprendentemente, a la media hora ya me había contestado (igual que los “españolitos” de excelencia que se creen Dioses, cuando salen en las noticias). Seguidamente, en otro mail, le conté mis pesquisas y le hice dos preguntas adicionales:

 

 

Volvió a contestarme inmediatamente mandándome el trabajo original (de pago) y otros relacionados con el tema. Yo le envié mi documento. Quedamos en intercambiar opiniones cuando los leyéramos. La verdad es que estas cosas solo me ocurren con los científicos de yanquilandia (ya os contaré varias experiencias). De los españoles y europeos mejor no hablar.  Pero a lo que vamos:

 

La Estructura de un Diccionario

La estructura de un diccionario al uso posee un patrón muy rico que tiene por objeto:

 

 

Y lo intrigante es que ambos objetivos y resultados también se presentan en las taxonomías, utilizándose en ambas las leyes de escala (distribuciones potenciales) y la Regla de Miller, de la que ya os hable en este post:Psicología Cognitiva, Números Mágicos, Regla de Miller y Taxonomía de Suelos”.

 

Los Diccionarios poseen la forma de una pirámide invertida. En la base (como está al revés coincide con la cúspide), aparecen un gran número de palabras complejas (nivel jerárquico inferior), mientras que en el vértice del triángulo (nivel jerárquico superior) un minúsculo número de palabras muy simples que no se definen. A estas últimas, Mark las denomina atómicas. En medio, nos encontramos con varios niveles jerárquicos de vocablos, cuyo número es inversamente proporcional al rango que ocupan en ella. Aunque el trabajo no lo menciona explícitamente, tal estructura se ajusta a una ley potencial. Las escasas palabras atómicas en la cúspide sirven de ladrillos para construir otras más numerosas en el nivel jerárquico inferior, y así sucesivamente hasta el rango de 7, a partir del cual no se generaba economía adicional alguna. Mark comprobó, utilizando el afamado Diccionario Oxford, así como el electrónico Wordnet (Universidad de Princeton), que de haberse realizado tan solo con dos niveles jerárquicos, el Oxford, por ejemplo, contendría al menos un 30% de páginas adicionales para dar cuenta del mismo contenido (número de palabras a definir).

 

Reitero que se trata de un patrón fractal, como ya apunté al hablar de las taxonomías en el siguiente post: ¿Es la Mente Fractal?: Dedicado a Eusebio Sempere.  Ya os describí, que la regla de Miller añade otra constricción al número de posibilidades de elaborar un diccionario o una taxonomía eficiente. Todo parece apuntar que nuestra memoria reciente no es capaz de manejar más de 7 palabros y/o constructos mentales a la vez. Lo intrigante, es que lo que el autor denominó “número mágico 7” transciende a nuestras capacidades de la memoria reciente, para aparecer también en otros dominios de las neurociencias, y no conocemos la razón. 

 

Resumiendo, los seres humanos, como defiende Changizi, por evolución cultural, seleccionan constructos adaptados a nuestras estructuras mentales. Tal actividad es inconsciente. Sin embargo, las regularidades matemáticas generadas son muy ricas. Y yo apostillo, estas son muy semejantes a la manera en la que la naturaleza se auto-organiza, ya que de no ser así, probablemente nuestra mente solo percibiera ruido del mundo exterior. Ya iremos abundando sobre el tema.

 

Juan José Ibáñez

 

 

 

Mark Changizi. Fuente: Su página Web

 

Resumen del trabajo original:

 

Good definitions consist of words that are more basic than the defined word. There are, however, many ways of satisfying this desideratum. For example, at one extreme, there could be a small set of atomic words that are used to define all other words; i.e., there would be just two hierarchical levels. Alternatively, there could be many hierarchical levels, where a small set of atomic words is used to define a larger set of words, and these are, in turn, used to define the next hierarchically higher set of words, and so on to the top-level of very specific, complex words. Importantly, some possible organizations are more economical than others in the amount of space required to record all the definitions. Here I ask, How economical are dictionaries? I present a simple model for an optimal set of definitions, predicting on the order of seven hierarchical levels. I test the model via measurements from WordNet and the Oxford English Dictionary, and find that the organization of each possesses the signature features expected for an economical dictionary. _ 2008 Elsevier B.V. All rights reserved.

 

Terradaily:

Decoding The Dictionary: Study Suggests Lexicon Evolved To Fit In The Brain

by Staff Writers; Troy NY (SPX) May 01, 2008

The latest edition of the Oxford English Dictionary boasts 22,000 pages of definitions. While that may seem far from succinct, new research suggests the reference manual is meticulously organized to be as concise as possiblea format that mirrors the way our brains make sense of and categorize the countless words in our vast vocabulary.

 

Dictionaries are built like an inverted pyramid. The most complex words (e.g., “albacore” and “antelope”) sit at the top and are defined by words that are more basic, and thus lower on the pyramid. Eventually all words are linked to a small number of words – called “atomic words,” (such as “act” and “group”) – that are so fundamental they cannot be defined by simpler terms. The number of levels of definition it takes to get from a word to an atomic word is called the “hierarchical level” of the word.

 

Dictionaries have often been thought of as a frustratingly tangled web of words where the definition of word A refers users to word B, which is defined using word C, which ends up referring users back to word A,” said Mark Changizi, assistant professor of cognitive science at Rensselaer Polytechnic Institute. “But this research suggests that all words are grounded in a small set of atomic words – and it’s likely that the dictionary’s large-scale organization has been driven over time by the way humans mentally systematize words and their meanings.”

 

The number of levels of definition it takes to get from a word to an atomic word is called the “hierarchical level” of the word. Changizi’s research, which was published online this week and will appear in the June print edition of the Journal of Cognitive Systems Research, indicates that the dictionaries we use every day utilize approximately the optimal number of hierarchical levels – and provide a visual roadmap of how the lexicon itself has culturally evolved over tens of thousands of years to help lower the overall “brain space” required to encode it, according to Changizi.

 

Many other human inventions – such as writing and other human visual signs – have been designed either explicitly or via cultural selection over time so as to minimize their demands on the brain, Changizi said. By conducting a series of calculations based on the estimation that the most complex words in the dictionary total around 100,000 different terms, and that the number of atomic words range from 10 to 60, Changizi was able to devise three signature features present in the most efficient dictionaries – as well as in their human counterpart, the brain.

 

Most importantly, he discovered that the total number of words across all the definitions in the dictionary (and thus the size of the dictionary) changes in relation to the total number of hierarchical levels present. Optimal dictionaries should have approximately seven hierarchical levels, according to Changizi. “The presence of around seven levels of definition will reduce the overall size of the dictionary, so that it is about 30 percent of the size it would be if there were only two hierarchical levels,” Changizi said.

 

Additionally, users will find that there are progressively more words at each successive hierarchical level, and that each hierarchical level contributes mostly to the definitions of the words just one level above their own, according to Changizi, who put his three predictions to the test by studying actual dictionaries. The Oxford English Dictionary and WordNet – a large, online lexical database of English, developed at Princeton University - were found to possess all three signatures of an economically organized dictionary, and thus were organized in such a way as to economize the amount of dictionary space required to define the lexicon, according to Changizi.

 

“Somehow, over centuries, these revered reference books have achieved near-optimal organization,” Changizi said. “That optimality can likely be attributed to the fact that cultural selection pressures over time have shaped the organization of our lexicon so as to require as little mental space and energy as possible.”

 

Changizi believes his research has potential applications in the study of childhood learning, where scientists could analyze how students learn vocabulary words and possibly develop ways to optimize that learning process.

Etiquetas:

Si te gustó esta entrada anímate a escribir un comentario o suscribirte al feed y obtener los artículos futuros en tu lector de feeds.

Comentarios

Felicitaciones por el blog.

He entrado por los mundos pequeños y he acabado con la estructura de los diccionarios.

Muy buenos los temas y bien explicados.

He conectado el artículo con nuestro blog

¡Gracias!

Eduardo

Muchas Gracias Eduardo,

Viniendo de un sitio Web de matemáticas es un honor. He visto vuestro(tu) sitio y me parece muy interesante. Lo visitaré con frecuencia.

Un cordial saludo

Juanjo Ibáñez

Hola.

Soy programador y tengo que hacer un diccionario de una forma algo apresurada. Necesito, si es posible, alguna bibliografía para sin tener que profundizar mucho en teorias, leyes etc, acometer mi tarea.

Muy agradecido de ante mano

[...] son difíciles de memorizar.  También en otro post os narramos un caso que mostraba como la elaboración de los diccionarios corrientes se basaban en una jerarquización subyacente de siete…. Más aun estudios recientes dicen haber demostrado que esta limitación, entorno al siete, [...]

Escribe un comentario

(requerido)

(requerido)


*