Ley De la Geografía y el Análisis Geoespacial: Las Distribuciones de Cola Larga

 gauss-vs-pareto-grande

Fuente Colaje Imágenes Google

El tema que vamos a analizar someramente hoy no puedo calificarlo, ya que acabo de publicar sobre él un par de artículos en los que he tomado una clara posición. La historia puedo resumirla brevemente así, si bien es enormemente larga. Tras un congreso sobre fractales y medios porosos heterogéneos, organizado por el grupo denominado Pedofract, al que pertenezco desde tiempos inmemoriales, debía redactar un artículo (aunque  finalmente fueron dos), si bien no sabía ni por dónde empezar. Los resultados obtenidos en mis estudios sobre edafodiversidad y biodiversidad son bastante contundentes. Sin embargo, usualmente trabajo sobre cartografías digitalizadas, y esta vez resultaban ser las de los denominados Sistemas de Tierra o Land Systems. Los sistemas de tierra, son el producto de combinar (superponer digitalmente) una gran variedad de mapas de distintos recursos naturales y generalmente a diferentes escalas de resolución, con vistas a proponer unidades operativas en materias de gestión territorial. En otras palabras, con independencia da las bondades y debilidades de su utilidad, los polígonos resultantes son absolutamente artificiales, encontrándose sesgados por las cartografías de base disponibles y los propósitos perseguidos. Cada polígono es un pastiche caracterizado, con mayor o menor acierto, por los mapas de las variables consideradas (relieve, vegetación, litología, usos del suelo, pendientes, etc., etc.)  Para mi asombro, en lugar de arrojarme por el precipicio, detecté atónito que los resultados de su distribución conforme al tamaño de los polígonos de los distintos land sytems, se ajustaban mucho mejor que los que habíamos detectado hasta ahora en las indagaciones acerca de la distribución espacial de unidades de vegetación, suelos, etc., etc. En materia de ecología, no se trata de un descubrimiento personal, sino que hablamos, por ejemplo del pilar, de la denominada Teoría de la Biogeografía Insular y el incremento del número de especies conforme aumenta el área de muestreada, como ya hemos comentado en nuestra bitácora.

Aquel cálido verano en que debía abordar el estudio, unos terribles antecedentes previos personales acaecidos a lo largo de los dos últimos años me obnubilaban la mente. Y así, navegando por Internet sin aparente rumbo durante varias horas topé con los trabajos de Bin Jiang, experto en información geoespacial en una universidad de Suecia. Leyendo asombrado  a Bin, topé con Chris Anderson, quien, además de acuñar los vocablos Long tail, había revolucionado muchos ámbitos del comercio y especialmente ayudado a engendrar la gran economía del comercio on-line. (Amazón, Neflix, etc., etc.). Abajo os dejo algunos enlaces.

Pues bien, resulta que topaba con estudios, estadísticas y comentarios, muchos de los cuales, tenían palmarios paralelismos con los detectados durante 30 años de indagaciones personales. Laeconomía de las colas largas las vivimos actualmente todos nosotros sin saberlo. La ventaja para mí de los estudios realizados por Bin estribaba en que él es que es un analista de información geoespacial y la geografía. Al parecer, él igual que yo, topábamos siempre, al utilizar sistemas de información que geográfica con el mismo patrón. Permitirme que se lo explique traduciendo un fragmento del abstract de mi publicación (2020):

Algunos geógrafos consideran que hay muchas más cosas / objetos pequeños que grandes, a lo largo de varios órdenes de magnitud en el espacio geográfico, como para poder considerarla una  ley. Además, algunos geógrafos sostienen que el “pensamiento gaussiano” clásico y sus herramientas estadísticas deberían ser reemplazados por un “pensamiento Paretiano” y las suyas. En esta revisión se han analizado los temas anteriores así como los problemas inherentes a las pruebas de bondad de ajuste en estadística, la falta de datos adecuados y los tipos de mapas cognitivos que utilizamos en nuestra civilización, apoyando la conjetura de que deberíamos incluir el pensamiento Parietano en nuestras investigaciones, como mínimo la misma manera lo hacemos con el de Gauss sobre el que se basa gran parte  de las herramientas estadísticas que utilizamos.

La estadista de la que solemos hacer uso se basa en las curvas de distribución normal o de Gauss (ver imagen de la entradilla). Hablamos de  Carl Friedrich Gauss frente a los desarrollos de Vilfredo Pareto. Como puede observarse, los estadísticos clásicos de media, mediana, moda, y varianza carecen de sentido en las distribuciones de colas largas. Por ejemplo, la moda se encuentra a gran distancia de la media. Por lo tanto, carece a menudo de fundamento el “forzar” los datos hacia la distribución normal (normalización). Bin Jiang detecto lo mismo tanto en cartografías de recursos naturales como en las urbanas, entre otras. Lo extraño, según su experiencia y la mía, estriba en encontrar distribuciones de colas largas, no apareciendo la “normal” ni en fantasía.  Para haceros una idea de lo que es una distribución de Pareto, podéis realizar el siguiente “rompedor experimento” en vuestra casa o despacho.  Se agarra una botella, preferentemente vacía por razones obvias, y la tiráis con fuerza al suelo hasta que estalle en una plétora de pedacitos. Luego recogéis los fragmentos, contando su número en función de su tamaño. ¡Y ya está!: aparecerá una distribución de cola larga con muchos pequeños trocitos de vidrio y muy pocos grandes ¿Qué ocurre si tales datos los intentáis ajustar a las distribuciones de Gauss y Pareto?: ¡Pareto, Pareto y Pareto!.

El dilema entre el pensamiento gausiano imperante y el de Paretto al acecho, ha comenzado a recibir mucha atención. Sin embargo, el debate más caliente acaece en ámbitos como las ciencias sociales, economía, finanzas e incluso política, mientras que en las ciencias de los recursos naturales “porca misera” apenas se le ha prestado atención. Por ejemplo la distribución de la riqueza en el mundo, el número de palabras usadas en textos de diferentes idiomas, etc., etc., se ajustan a las aludidas distribuciones de colas largas.

Resumiendo, la ciencia actual se enfrenta a un serio problema al pensar que la distribución normal y sus estadísticas son canónicas, mientras que las de colas largas no, cuando en verdaderamente los datos se obstinan en demostrar lo contrario.

Este será pues posiblemente el primer post de una nueva categoría que vamos a crear en nuestra bitácora “pensamiento parietano vs pensamiento gausiano”, como se señala en el enlace, si bien no estoy de acuerdo con todo su contenido.

Hay mucho que contar sobre este asunto. Probar ahora vosotros, aunque os avanzo que generalmente, si estudiamos un fenómeno haciendo replicas como placas Petri o parcelas de campo para probar la eficacia de los fármacos o pesticidas respectivamente, es usual detectar distribuciones normales. Ahora bien, al estudiar fenómenos normales, es decir no replicados, las distribuciones de colas largas son casi la regla.

Os dejo con información adicional. Como podréis percataros, no es frecuente detectar estudios de ciencias experimentales y naturales, basándose en otros llevados a cabo en ciencias humanas, sociales y económicas ¿no?. Hoy os muestro una excepción.

Juan José Ibáñez

Continúa…………

Exploring the scaling law of geographical space: Gaussian versus Paretian thinking (2020)

Larga cola Wikipedia

La larga estela o larga cola (en el original en inglés The Long Tail) fue una expresión popularizada por Chris Anderson en un artículo de la revista Wired de octubre de 2004 para describir determinados tipos de negocios y modelos económicos tales como Amazon o Netflix.12 Anderson elaboró el concepto en su libro The Long Tail: Why the Future of Business Is Selling Less of More.34 El término larga cola se utiliza normalmente en estadística en relación con distribuciones de riqueza o con el uso del vocabulario.

La larga cola es un modelo de negocio que desmitifica modelos tradicionales en los que se enseñaba que los productos que se deben vender son los que tienen mayor rotación.

Índice

La larga cola en estadística

La larga cola es el nombre coloquial para una bien conocida característica de las distribuciones estadísticas (Zipf, Ley de potenciasdistribuciones de Pareto y en general distribuciones de Lévy). La característica es también conocida como heavy tailspower-law tails, o las colas de Pareto. Estas distribuciones son semejantes al gráfico que acompaña estas líneas.

En estas distribuciones una amplia frecuencia o gran frecuencia de «transacciones» es seguida por una baja frecuencia o baja amplitud de la población que disminuye gradualmente. En muchos casos, los acontecimientos de baja frecuencia o escasa amplitud —la larga cola, representada aquí por la porción amarilla del gráfico— pueden abarcar la mayor parte del gráfico.

La evolución social y la larga cola de Chris Anderson

Internet y el entorno digital han cambiado las leyes de distribución y las reglas del mercado. Para Chris Anderson, la reducción del coste de almacenamiento y distribución permiten que ya no sea necesario focalizar el negocio en pocos productos. Según Anderson, ahora existen dos mercados:

1. El mercado de masas: centrado en el alto rendimiento de pocos productos y que según Chris Anderson ya se está quedando atrás.

2. El nicho de mercados: se basa en la suma o acumulación de todas las pequeñas ventas de muchos productos, que pueden igualar o superar al primero.

Ambos mercados son los que se encuentran representados en el gráfico de The Long Tail, son la cabeza y la cola del gráfico, respectivamente.

Otras Fuentes en Internet

DATOS GRANDES, COLAS LARGAS

FRANCIS GARCIA EGEA

¿Qué es el «Long Tail»?

Chris Anderson, editor jefe de Wired Magazine, escribió un artículo a finales del 2004 hablando sobre “Long Tail ” (“larga cola” en castellano). El artículo llamado “The Long Tail” tuvo una repercusión muy grande sobre el modelo económico entonces implantado en internet. En este artículo Anderson nos explica que internet y el entorno digital han cambiado las reglas y leyes de distribución del mercado.

El término “larga cola” se utiliza normalmente en estadística en relación con distribuciones de riqueza.

Si miramos una gráfica de los productos que ofrece una empresa, podremos ver que unos pocos representan el mayor ingreso, seguido por una larga cola que contiene el resto de productos que aportan entre todos menos ingresos que los productos principales. Pongamos un ejemplo: una empresa con 100 productos. 20 de ellos representan el 80% de los ingresos y el “Long Tail” serían los otros 80 productos que representan el 20% restantes de ingresos. Hasta ahora las empresas descuidaban esos productos que estaban en la larga cola y se centraban en los “productos estrella”.

Lo que nos dice C. Anderson es que con la aparición de internet y las nuevas tecnologías se han visto reducidos los costes de almacenamiento y distribución.

El alto coste de almacenaje en las tiendas físicas hace imposible acogerse al “ Long Tail ”, así que, por ejemplo, una tienda de música física tendría expuestos en sus estanterías únicamente los discos de más interés para la mayoría de los consumidores, mientras que una tienda de música on-line podría exponer tanto los álbumes de gran demanda como los álbumes menos demandados. Un ejemplo de empresas que pueden disponer de catálogos de productos mucho más amplios son Amazon o Netflix.

Según Chris Anderson hay dos tipos de mercados, el mercado de masas y el nicho de mercados.

El mercado de masas es el mercado centrado en el alto rendimiento de unos pocos productos y que, según él, se está quedando atrás superado por el nicho de mercados que se basa en la suma o acumulación de todas las pequeñas ventas de muchos productos, que pueden igualar o superar al primero.

Además, la larga cola está relacionada con el principio de Pareto, siendo ésta una conocida característica de las distribuciones estadísticas.

El principio de Pareto o del 80/20, siempre aplicada al marketing, dice que un 80% de las ventas es generado por un 20% de los productos o dicho de otra manera, que el 20% de los productos generan un 80% de los ingresos.

Lo que importa destacar de la relación entre el “Long Tail” y el principio de Pareto es precisamente la diferencia que hay entre ellos.: el foco. Mientras que según Pareto tenemos que enfocar nuestras ventas en el 20% de los productos que aportan el 80% de los ingresos, la larga cola ve oportunidades en la diversidad del 80% de productos “restantes”. Por tanto, podemos concluir que una excelente estrategia cuando la competencia es fuerte o somos una pequeña empresa, puede ser centrarnos en la larga cola y sobrevivir con estos productos en un nicho de mercado a veces “dejado de lado”.

 Mterial de Interés

From Gaussian to Paretian Thinking: Causes and Implications of Power Laws in Organizations

Geospatial Analysis Requires a Different Way of Thinking: The Problem of Spatial Heterogeneity

Bin Jiang, Department of Technology and Built Environment, Division of Geomatics; University of Gävle, SE-801 76 Gävle, Sweden

 Pierpaolo Andriani and Bill McKelvey; Organization Science; Vol. 20, No. 6 (Nov. – Dec., 2009), pp. 1053-1071 (19 pages); Published By: INFORMS; https://www.jstor.org/stable/25614715 y en accesao abierto https://www.researchgate.net/publication/220521037_From_Gaussian_to_Paretian_Thinking_Causes_and_Implications_of_Power_Laws_in_Organizations

Compartir:

Deja un comentario