web analytics

‘Covid-19’

Las matemáticas de la pandemia

Nos hacemos eco en Matemáticas y sus fronteras de la más reciente publicación de la colección ¿Qué sabemos de?, una empresa conjunta del Consejo Superior de Investigaciones Científicas y la Editorial Catarata. Se trata de Las matemáticas de la pandemia, obra de Manuel de León y Antonio Gómez Corral.

 

Las matemáticas juegan un papel destacado en la comprensión de las pandemias y en cómo combatirlas; nos ayudan a prevenirlas, a predecirlas y a controlarlas. De hecho, la emergencia de SARS-CoV-2 ha llenado los medios de términos técnicos cuyo origen y correcta interpretación están ligados a conceptos matemáticos.

El libro fue surgiendo desde la necesidad de explicarle al ciudadano de dónde salían esos conceptos que los medios y los políticos repetían una y otra vez: aplanar la curva, factor de reproducción, inmunidad de rebaño. Todos esos conceptos vienen de las matemáticas, pero están, como ocurre muchas veces con nuestra disciplina, ocultos.

Por ejemplo, el modelo SIR (Susceptibles, Infectados, Recuperados), surgido de la lucha contra la malaria, predice la evolución de los contagios mediante ecuaciones diferenciales;  en concreto, las que aparecen en la portada del libro junto a una descripción gráfica de cómo los individuos transitan entre los tres compartimentos o subpoblaciones básicos de susceptibles, infectados o recuperados. Es un modelo conceptualmente sencillo que debemos a los trabajos pioneros de Ronald Ross, Alexander McKendrick y William Kermack. Por supuesto, este modelo ha sido mejorado con nuevos compartimentos para incluir mortalidad, asintomáticos, periodos de cuarentena e incluso la vacunación anhelada en estos momentos frente al coronavirus SARS-CoV-2.

Pero las ecuaciones diferenciales no son los únicos instrumentos: las series temporales de una gran utilidad para conocer la evolución de una epidemia; o los procesos de Markov que, desde la actualidad, anticipan el futuro. Y decir que su inventor, Andrey Markov sólo tenía en mente su aplicación al acalorado debate que mantenía en aquellos momentos con el también matemático Pavel Nekrasov sobre la existencia o no del libre albedrío. Markov hizo su análisis sobre el Eugene Onegin de Alexander Pushkin.

También analizamos las leyes de Mendel a la luz de de las cadenas de Markov, y recordamos una aportación poco conocida para los matemáticos pero de gran relevancia de Godfrey Harold Hardy a la genética (el principio de Hardy–Weinberg). O los procesos de Galton-Watson, surgidos al analizar la potencial desaparición de los apellidos de la aristocracia inglesa, y que constituyen los procesos más famosos y aplicados a la transmisión vertical de una enfermedad o de la herencia genética entre padres e hijos. Y, cómo no, los problemas de la distancia social en el mundo pequeño, con la aportación de la teoría de redes a la transmisión de una epidemia.

Estos instrumentos matemáticos nos hacen saber en la práctica cuándo se producirá el número máximo de contagios para alertar a los hospitales o evitar desplazamientos y reuniones, decidir si una vacuna será útil o no, o conocer las reglas del contagio y la construcción de cortafuegos para proteger a la ciudadanía.

Si hemos conseguido acercar todo esto a los lectores para que comprendan mejor lo que estamos viviendo con esta pandemia (que no es la primera ni, desgraciadamente, será la última que padezca la humanidad), serán ellos los que nos los harán saber.

 

Sobre los autores

Manuel de León

Matemático, profesor de investigación del CSIC y fundador del Instituto de Ciencias Matemáticas. Ha sido miembro del Comité Ejecutivo de la Unión Matemática Internacional (IMU) y del Consejo Internacional de la Ciencia (ICSU). Es académico numerario de la Real Academia de Ciencias y correspondiente de la Real Academia Canaria de Ciencias y la Real Academia Galega de Ciencias.

 

Manuel de León

Antonio Gómez Corral

Matemático y profesor titular de la Universidad Complutense de Madrid. Sus intereses científicos se centran en las aplicaciones de los procesos estocásticos a problemas biológicos.

 

Antonio Gómez Corral

_________

Manuel de León (Instituto de Ciencias Matemáticas CSIC, Real Academia de Ciencias) y Antonio Gómez Corral (Universidad Complutense de Madrid).

 

Etiquetas: , , , ,
Categorias: Covid-19

Teoría de grupos y virus

Las matemáticas, incluso más abstractas, permiten aplicaciones directas a numerosos campos, entre ellos la Biología y la Medicina. Se ha visto en esta pandemia de la Covid-19 la utilidad de los modelos epidemiológicos (SIR y derivados, cadenas de Markov, series temporales) basados en las ecuaciones diferenciales, la Estadística y los procesos estocásticos, pero no son los únicos.

Reidun Twarock

En esta entrada vamos a describir el trabajo realizado por la investigadora Reidun Twarock, nacida en Alemania pero que trabaja como bióloga matemática en la Universidad de York. Su trabajo trata de responder a la dificultad para encontrar remedios para las enfermedades que provocan. Este problema viene de la enorme capacidad de los virus para mutar, cambiando las estructuras que se usan para diseñar las drogas que los ataquen. El trabajo de Twarock y su equipo ha servido para conocer mejor esas estructuras, determinar sus limitaciones y conocer cómo se forman los virus, cómo evolucionan y cómo infectan a los organismos vivos que los albergan.

Como comentaba la propia Twarock en una reciente entrevista en 2019: “Mi trabajo sobre la estructura de los virus ha permitido una profunda comprensión de los ciclos de vida virales que sólo se podría lograr a través de la lente de la geometría viral. Un resultado muy emocionante es el descubrimiento del código de ensamblaje de los virus que ha anulado el paradigma existente en el ensamblaje de los virus y ha abierto nuevas vías para la intervención antiviral.”

Papillomavirus

En esa misma entrevista, cuenta cómo comenzó a interesarse por los virus: “En una conferencia de Física Matemática en París en 2002, asistí a una charla sobre virus icosaédricos por el biofísico Robijn Bruinsma de la UCLA. Como la simetría icosaédrica no es cristalográfica, me di cuenta de que las técnicas matemáticas en las que estaba trabajando en ese momento podrían desarrollarse aún más para aplicaciones en virología. Sin embargo, yo estaba demasiado involucrada con otros proyectos para actuar inmediatamente sobre esta observación. Trabajando con el matemático Walter Mazorchuk en la Universidad de Uppsala el verano siguiente, tuve la oportunidad de visitar al virólogo Lars Liljas en el Biomedicum. Llamó mi atención sobre el rompecabezas estructural de los virus cancerígenos que luego abordé en los próximos meses con mi formación en simetrías no cristalográficas y mosaicos aperiódicos. Este fue el comienzo de la Virología Matemática.”

Lo que sigue es un resumen de los principales resultados matemáticos y sus consecuencias para nuestra comprensión de los virus y la terapia antiviral, resumen recogido desde su artículo “Viruses and Geometry: Group, Graph and Tiling Theory Open Up Novel Avenues for Anti-Viral Therapy”, publicado en London Mathematical Society Impact150 Stories 1 (2016) 63-68. En concreto, el interés de Twarock está en el estudio de

1. Extensiones afines de grupos de Coxeter no cristalográficos y geometría del virus.

2. Teoría del mosaico viral en virología y bio-nanotecnología.

3. Cómo las transiciones de retículos proporcionan información sobre transiciones estructurales importantes para la infección.

4. Cómo nuevas aplicaciones de la teoría de grafos sirven para cambiar de paradigma en nuestra comprensión de cómo se ensamblan los virus.

5. Cómo nuevos modelos matemáticos para el ensamblaje de virus sustentan el desarrollo de una terapia antiviral.

En cada uno de estos apartados, la autora desarrolla las ideas que hay detrás y los artículos en donde se encuentran los resultados.

 

Una teselación de Penrose

Twarock conocía bien desde su tesis doctoral el mosaico de Penrose, y examinando la estructura del paporvaviridae, observó que mientras los virus icosaédricos agrupan sus proteínas en cápsides de cinco y seis, con un máximo de 12 grupos de 5, en este caso, hay 72 grupos de 5. El modelo de Twarock se asemejaba a un mosaico de Penrose envuelto alrededor de una esfera. Su descubrimiento permitió considerar no sólo la superficie del virus, como hasta entonces, sino su estructura tridimensional. Recordemos que estos patrones de las cápsides permiten ser generados como en las teselaciones simplemente preservando simetrías. La nueva visión tridimensional de Twarock supuso un avance extraordinario.

Concluimos esta entrada con una reflexión sobre la práctica inexistencia de investigadores y grupos de investigación con las características de Twarock, es decir, poseedores de una formación matemática sólida en campos como la biología y, en particular, la virología. Twarock originalmente estudió física y matemáticas en las universidades de Colonia y Bath, nada muy diferente a los bien establecidos dobles grados de varias de nuestras universidades. Su doctorado tampoco fue en biología, sino en modelos de confinamiento en mecánica cuántica, en la Universidad Técnica de Clausthal. Algo falta en nuestro sistema científico si no somos capaces de emular este tipo de investigación multidisciplinar.

Y les dejamos con una conferencia de Reidun Twarock

Imagen de previsualización de YouTube

___________

Manuel de León (CSIC, Fundador del ICMAT, Real Academia de Ciencias, Real Academia Canaria de Ciencias, Real Academia Galega de Ciencias) y Antonio Gómez Corral (Universidad Complutense de Madrid)

Etiquetas: , ,
Categorias: Covid-19

El Teorema del Mosquito y la Teoría de los Eventos

Hemos contado en varias entradas anteriores cómo Sir Ronald Ross descubrió el papel clave de los mosquitos en la transmisión de la malaria, por lo que consiguió el Premio Nobel de Fisiología o Medicina en 1902, pero son menos conocidos sus intentos de desarrollar lo que él llamó una “teoría de los eventos”.

 

Sir Ronald Ross en su laboratorio

Ross no debería haber sido seguramente el único en llevarse ese Nobel. Cuando volvió de la India, donde dio sus primeros pasos para entender la malaria, visitó en Londres al médico Patrick Manson, quien había descubierto cómo las filarias, unas lombrices parasitarias microscópicas, podían pasar a los mosquitos a través de la sangre que extraían de personas contagiadas. Y fue Manson quien dijo a Ross que los mosquitos podían contagiarse también de esta manera y transmitir las filarias. Esto sirvió como punto de partida para que Ross desarrollara su modelo de infección para la malaria, y su famosa ecuación (el Teorema del Mosquito) para buscar el control de la enfermedad controlando la población de mosquitos. Pero Ross tenía un punto débil, su preparación matemática, que había sido autodidacta. Esto le planteó muchas dificultades.

Sir Patrick Manson

Uno de los integrantes de la expedición en 1901 a Sierra Leona de Ross para poner en práctica su teoría, fue Anderson McKendrick, con quien debatió las matemáticas del modelo. McKendrick tuvo la fortuna de aliarse con William Kermack, más ducho en matemáticas, a causa de un hecho infausto. Kermack era químico y en un experimento en su laboratorio una explosión fortuita le dejó ciego. En su estancia en el hospital, usando su enorme capacidad memorística, se hacía leer artículos y libros, en particular de matemáticas, con lo que al darle el alta, pudo poner ese conocimiento al servicio de su trabajo en común con McKendrick, del que surgió el modelo SIR.

Pero Ross tenía en la cabeza teorías mucho más ambiciosas, lo que él denominó la teoría de los eventos. Tal y como explica Adam Kucharski en su reciente libro “Las reglas del contagio”, Ross pensaba que había dos tipos de eventos:

(a)   Aquellos que afectan a un individuo de manera independiente; por ejemplo, un accidente.

(b)  Aquellos que dependen de lo que ya ha ocurrido a otros, como en una epidemia.

En el primer caso, la curva correspondiente tendrá un crecimiento en relación con la probabilidad de que ocurra ese evento con una pendiente que se irá suavizando ya que el universo de individuos es reducido. En el segundo caso, habrá un crecimiento rápido, exponencial (pensemos en una enfermedad contagiosa), hasta alcanzar una meseta ya que habrá alcanzado a toda la población susceptible; en este caso, la curva tendrá forma de S (de hecho, esta es la forma de la llamada curva logística, introducida por el matemático belga Pierre François Verhulst en 1838 y años siguientes; fue A.J. Lotka quién señaló la similitud de las ecuaciones de Ross con la ecuación logística en su libro Elements of Physical Biology de 1925).

Queriendo profundizar en estas ideas, y consciente de sus limitaciones matemáticas, Ross pidió ayuda a una matemática notable, Hilda Hudson, quien publicó su primer trabajo de investigación a los diez años en la revista Nature. En la serie de tres artículos An application of the theory of probabilities to the study of a priori pathometry, Parts I, II and III”, publicados en Proceedings of the Royal Society A, en 1916 y 1917, Hilda Hudson y Ross desarrollaron lo que denominaron la medida a priori del dolor (“pathometry” en su acepción inglesa), también denominada por el propio Ross como “teoría de eventos” o “epidemiología constructiva”.

El primer artículo es debido solo a Ross (para los otros dos ya pudo contar con la ayuda de Hilda Hudson) y en su introducción se puede encontrar algo importante y de la máxima actualidad como es lo siguiente:

“Es algo sorprendente que se haya hecho tan poco trabajo matemático sobre el tema de las epidemias y, de hecho, sobre la distribución de las enfermedades en general. El tema no sólo es de importancia inmediata para la humanidad, sino que está fundamentalmente relacionado con los números, mientras que vastas masas de estadísticas han estado esperando durante mucho tiempo un examen adecuado. Pero, más aún, muchos y, de hecho, los principales problemas de la epidemiología de los que dependen en gran medida las medidas preventivas, como la tasa de infección, la frecuencia de los brotes y la pérdida de inmunidad, apenas pueden resolverse por ningún otro método que no sea el del análisis.”

Y continúa sus argumentos con

“Por ejemplo, las enfermedades por infecciones pueden clasificarse en tres grupos: (1) enfermedades como la lepra, la tuberculosis y el cáncer, que fluctúan comparativamente poco de mes a mes, aunque pueden aumentar o disminuir lentamente en el curso de los años; (2) enfermedades como el sarampión, la escarlatina, la malaria y la disentería, que, aunque están constantemente presentes en muchos países, se recrudecen en epidemias a intervalos frecuentes; y (3) enfermedades como la peste o el cólera, que desaparecen por completo después de períodos de epidemias agudas.”

La pregunta que formulada está hoy en el corazón de las hipótesis básicas e iniciales de cualquier modelo de epidemias:

¿A qué se deben estas diferencias?

Como recuerda Paul E. M. Fine en su artículo de 1975, Tropical Disease-A Challenge for Epidemiology”, probablemente estos artículos sean la mayor contribución desde la medicina tropical a la epidemiología contemporánea. Fine también analizó la reclamación de Ross sobre su prioridad en sus métodos, lo que es verdad. Es sin duda la primera aproximación al estudio de las epidemias a priori y no a posteriori, como habían hecho los investigadores hasta entonces.

Desgraciadamente, el estudio de Ross no continuaría adelante. Una de las razones se debió a que Hilda Hudson fuese reclutada en 1916 por el ejército británico para desarrollar modelos aeronáuticos con motivo de la Primera Guerra Mundial, siendo galardonada por ese trabajo con una Orden del Imperio Británico. Pero la segunda de las razones resulta ser decepcionante para un innovador: Ross tuvo que enfrentarse al desánimo que le produjo que las autoridades sanitarias ignoraran su trabajo. Como cuenta Adam Kucharski en su libro, las ideas de Ross fueron décadas después no sólo utilizadas en epidemiología, sino en otras áreas como la publicidad, las finanzas, la propagación de rumores, las redes sociales, Internet, etc., es decir, ámbitos donde los brotes de enfermedades, de desinformación, de violencia, de contagio financiero o de relaciones personales se propagan o se desvanecen influidos por leyes aleatorias ocultas que tratan de ser sometidas por las matemáticas.

___________

Manuel de León (CSIC, Fundador del ICMAT, Real Academia de Ciencias, Real Academia Canaria de Ciencias, Real Academia Galega de Ciencias) y Antonio Gómez Corral (Universidad Complutense de Madrid)

Etiquetas:
Categorias: Covid-19, General

Las reglas del contagio

Capitán Swing acaba de publicar el último libro de Adam Kucharski, “Las reglas del contagio. Cómo surgen, se propagan y desaparecen las epidemias”.  Aquí van algunos comentarios tras su lectura, que recomiendo a todos los seguidores de Matemáticas y sus fronteras.

 

Aunque la edición de este libro podría parecer oportunista en la actual pandemia de la Covid-19, nada más lejos de la realidad. La edición británica estaba ya lista en febrero, cuando la pendemia estaba lejos de ser la pesadilla que ahora padecemos. Y este libro no está dedicado especialmente a ella, sino que va mucho más allá.

Es cierto que el autor recuerda como la ciencia ha ido poco  apoco tomando más conocimiento de la propagación de las enfermedades. En particular, los trabajos fundacionales de Ronald Ross sobre la malaria, y el papel de los mosquitos en la misma, que le valieron el segundo premio Nobel de Medicina o Fisiología de la historia; o la creación del modelo SIR por Anderson Gray McKendrick y William Ogilvy Kermack; o la recreación de la labor detectivesca de John Snow para demostrar que el cólera era causado por el consumo de aguas contaminadas con materias fecales en Londres en el año 1854.

Pero si las matemáticas nos enseñan como se comporta una epidemia y además como podemos controlarla, esos modelos, ¿no podrían servir para otros fines? Y así, Kucharski nos muestra como podemos usarlos para investigar como se pueden transmitir las ideas, o como se puede influir en el sentido de voto en unas elecciones, o como una noticia falsa se puede propagar a través de las redes sociales. A menudo nos referimos a algunos sucesos con el calificativo de virales: este libro justifica el nombre. Y puestos a hablar de fenómenos virales, Kucharski hace un repaso inquietante a los virus informáticos, y nos enseña el peligro en el que vivimos porque los programas informáticos (como los virus biológicos) contienen cadenas de otros programas, y es más, los propios virus informáticos pueden mutar (tal y como lo hacen los biológicos) y pasar a ser incontrolables.

Pero también se pueden usar estas enseñanazas en el buen camino. ¿Cómo evitar que se propaguen estallidos de violencia? ¿Cómo conseguir que los ciudadanos sigan buenas prácticas? ¿Cómo evitar delitos y asesinatos? ¿Cómo usar los datos que compartimos sobre nosotros mismos para que puedan servir para mejorar nuestra salud y nuestro bienestar general? Porque continuamente estamos compartiendo datos, sin saberlo muchas veces, y no siempre estos son usados en nuestro beneficio.

Recomiendo entusiásticamente la lectura de este libro. La lectura es muy ágil y realmente apasionante. Cuando lo vaya leyendo y entre en internet, en sus cuentas de correo, en su redes sociales, bien con su móvil, bien con su ordenador, no dejará de sentir algo de desazón.

 

Adam Kucharski

 

Sobre el autor

Reproducimos la ficha biográfica que aporta la editorial.

Adam Kucharski es profesor asociado y miembro del Departamento de Epidemiología de Enfermedades Infecciosas de la Escuela de Higiene y Medicina Tropical de Londres. Su investigación utiliza modelos matemáticos y estadísticos para comprender los brotes de enfermedades y los efectos del comportamiento social y la inmunidad en la transmisión y el control. De 2013 a 2017 obtuvo un Premio de Desarrollo Profesional del Consejo de Investigación Médica en Bioestadística. Gran parte de su trabajo consiste en desarrollar nuevos enfoques matemáticos y estadísticos para comprender la dinámica de los brotes de enfermedades infecciosas, y está particularmente interesado en cómo combinar diferentes fuentes de datos para descubrir la dinámica de transmisión y el impacto de las intervenciones. Esta investigación cubre infecciones de transmisión directa como la gripe y el ébola, así como los arbovirus como el dengue y el virus del Zika. La participación pública también es una parte importante de su trabajo: además de organizar eventos en escuelas, museos y festivales, ha trabajado en varios proyectos que vinculan la ciencia ciudadana con la recopilación de datos a gran escala. Es miembro de TED y ganador en 2016 del Premio Rosalind Franklin a la Mejor Conferencia y del Premio Wellcome Trust Science Writing 2012. Ha escrito para medios como The Observer, Financial Times, Scientific American y New Statesman.

Y para que ustedes lo conozcan mejor, les dejo con esta conferencia

Imagen de previsualización de YouTube

__________

Manuel de León (CSIC, Fundador del ICMAT, Real Academia de Ciencias, Real Academia Canaria de Ciencias, Real Academia Galega de Ciencias)

 

Etiquetas: , , ,
Categorias: Covid-19

Abracadabra, el poder curativo del triángulo

Según la RAE, abracadabra se define como “palabra cabalística a la que se atribuyen efectos mágicos.” Es una palabra que vemos mucho en los espectáculos de magia tanto en directo como en televisión o internet, y el mago la pronuncia antes de ejecutar su número. Pero más que efectos mágicos, la palabra tenía supuestos efectos curativos.

 

 

La primera vez que aparece esta palabra es en la obra Liber Medicinalis (De Medicina Praecepta Saluberrima), del médico romano Quinto Sereno Sammonico (en latín, Quintus Sammonicus Serenus). En esa época, los remedios médicos solían venir escritos en versos, por dos motivos: uno porque así podían incluir metáforas y acertijos que el lector debía interpretar, y otro, porque en verso es más fácil recordar la receta.

Quinto fue un médico famoso en su época, sin embargo no se conocen muchos detalles de su vida. Nació en Pérgamo y murió en el 212 a.C. Parece ser que fue tutor de dos emperadores romanos, Geta y Caracalla (Geta era el hermano menor, y ambos gobernaron a a la vez por decisión de su padre Septimio Severo), aunque fue asesinado por el segundo; Caracalla estaba celoso de la popularidad de su hermano y decidió asesinarlo junto a muchos de sus amigos y partidarios. Pero existe una cierta confusión entre las dos personas que llevaban el nombre de Sereno Samónico, padre e hijo, y según algunas fuentes el asesinado fue el padre.

En el libro de Samónico, que fue muy popular durante la Edad Media y del que se apreciaba la calidad de sus versos, se recogen muchas recetas de siglos anteriores no solo romanas sino egipcias y griegas sobre todo tipo de enfermedades. La que nos ocupa ahora es la malaria, que fue un auténtico azote en la Antigua Roma. De hecho, la propia palabra malaria viene del latín, mal’aria, que es la contracción de mala aria, o sea, mal aire. La fiebre tenía su propia diosa, con tres templos en la ciudad de Roma. Los romanos nunca asociaron la malaria con los mosquitos.

Esta era la receta que recomendaba Quinto Sereno:

Inscribis chartae, quod dicitur Abracadabra:

Saepius et subter repetas, sed detrahe summae,

Et magis atque magis desint elementa figuris:

Singula quae semper rapies et coetera figes,

Donec in angustam redigatur litera conum.

His lino nexis collum redimire memento.

Es decir, había que escribir la palabra ABRACADABRA en un trozo de papiro y repetirla en las líneas de abajo, eliminado la última letra en cada paso, hasta que solo quedara una letra. El resultado era algo así:

 

Y lo que quedaba, enrollado como un cono, como dice Quinto en los último versos, se colgaba del cuello con un hilo de lino. A los nueve días, se arrojaba el talismán por encima del hombro a un río cuyo curso de agua apuntara al este. La idea del remedio se basaba en que a la vez que desaparecían las letras, también lo hacía la enfermedad.

Volvemos a encontrarnos con esta palabra en el Diario de la peste, de Daniel Defoe, que narra como un testigo de primera mano la peste que asoló Londres en 1665, aunque entonces Defoe tenía 5 años y probablemente usara las notas de uno de sus tíos. Defoe escribe lo siguiente:

Pero más allá de todo esto había aún otra locura,  que  puede  servir  para  dar  una  idea del humor perturbado de la clase baja de la época; sucedió que seguían a una especie de mistificadores aún peor que los mencionados. Porque  aquellos  ladrones  despreciables  sólo les mentían para hurgarles los bolsillos y sacarles  dinero,  y  en  esos  casos  la  maldad  -cualquiera que fuese- se radicaba en el engañador, no en el engañado. Pero en los casos que voy a citar, la impiedad correspondía a la víctima, o a ambas partes por igual. El asunto consistía en usar talismanes, filtros, exorcismos,  amuletos  y  yo  no  sé  qué  preparados, para  fortificar  con  ellos  el  cuerpo  contra  la peste. Como si la plaga no viniera de la mano de Dios sino que fuese una especie de posesión  por  un  espíritu  maligno,  que  debía  ser aventado con cruces, signos del zodíaco, papeles  atados  con  cierto  número  de  nudos, sobre los cuales se escribían ciertas palabras o se dibujaban ciertos signos, particularmente la palabra Abracadabra, dispuesta en forma de triángulo o pirámide.

 

Daniel Defoe

Afortunadamente, ya no estamos en esos tiempos, y sabemos que no hay amuletos mágicos que nos protejan de una epidemia, salvo aquellos que nos va proporcionando la ciencia.

__________

Manuel de León (CSIC, Fundador del ICMAT, Real Academia de Ciencias, Real Academia Canaria de Ciencias, Real Academia Galega de Ciencias)

Etiquetas: , , , , ,
Categorias: Covid-19, General

Series temporales

Las técnicas matemáticas para evaluar la extensión y el impacto de una epidemia y ayudar a su control son muy variadas. Hemos comentado en este blog sobre modelos como el modelo SIR y sus variantes, o aquellos donde se usan cadenas de Markov. En ellos se mezclan herramientas determinísticas, construidas desde ecuaciones diferenciales, con estocásticas, basadas en la teoría de probabilidad y los procesos estocásticos. Pero existen otras técnicas matemáticas que demuestran ser muy útiles, son las series temporales.

 

Serie temporal sobre la incidencia de la Covid-19 en España. Fuente: Santiago García Cremades

 

Una serie temporal no es más que una colección de datos que tradicionalmente son recogidos en instantes de tiempo equidistantes (por ejemplo, los litros de lluvia recogidos cada día en un determinado lugar), aunque ésta sea sólo una de las diferentes situaciones con las que tratar en la práctica. Hay por lo tanto un aspecto clave y es precisamente la evolución de estos datos con el tiempo, no tratamos con sucesos aleatorios. Con una serie temporal se trata de analizar lo que ha ocurrido en el pasado, pero también poder predecir el futuro.

Los desarrollos teóricos del análisis de series temporales comenzaron con el estudio de los procesos estocásticos. La primera aplicación a datos puede atribuirse al trabajo de G. U Yule y J. Walker en las décadas de 1920 y1930. Es en esa época cuando se introduce la media móvil, de la que hablaremos a continuación, y posteriormente Herman Wold introduce su modelo ARMA (AutoRegressive Moving Average) para series estacionarias, aunque la explotación completa del modelo tuvo que esperar a los años 1970, cuando aparece un libro clásico en el tema, “Time Series Analysis”, escrito por G. E. P. Box y G. M. Jenkins.

George Udny Yule

Un aspecto clave en una serie temporal es conseguir los datos (y garantizar que estos sean fiables), organizarlos temporalmente de la manera adecuada, examinar las tendencias (crecimiento o decrecimiento) e identificar datos que parezcan discordantes. Otro aspecto importante es la existencia de estacionalidad en los datos, porque esa propiedad es una información relevante.

Esta imagen es una representación gráfica típica de una serie temporal, con los valores o datos en el eje de ordenadas y el tiempo en el eje de abscisas:

Esta otra se refiere a periodos plurianuales y podemos encontrarla actualizada en la web embalses.net.

Los datos se representan mediante una variable X, que depende del tiempo t, y se suele descomponer en tres contribuciones que se combinan y conducen, por ejemplo, a la relación

Xt = Tt + Et + It,

donde la contribución Tt representa la tendencia, Et es la parte estacional e It es la parte aleatoria. En concreto, Et se denomina a veces señal, e It es el ruido. Esta descomposición está vinculada a un modelo aditivo. En general, tendríamos que referirnos a una función genérica de esas tres componentes, es decir,

Xt = f(Tt,Et,It).

Por ejemplo, esa función podría ser el producto de las variables y tendríamos una serie multiplicativa

Xt = Tt · Et · It .

En cualquier caso, lo que tratamos de conseguir al analizar una serie temporal es identificar si existen patrones de regularidad o no. Si no existieran, estaríamos ante un proceso aleatorio y no podríamos extraer mucha información.

Observar los datos para aprender sobre el modelo

A veces, la propia representación gráfica nos da mucha información y la visualización de los datos es un gran aliado a la hora de identificar el patrón de comportamiento. Pensemos, por ejemplo, en que representamos temperaturas mensuales en un proceso de cambio climático. Habrá fluctuaciones que mostrarán una tendencia creciente. Aunque esto es muy intuitivo, se pueden desarrollar métodos matemáticos que son bastante precisos a la hora de predecir temperaturas en instantes futuros.

Al representar los datos pretendemos, en un primer momento, descartar o no discontinuidades aparentes en la serie. En el caso de observar, por ejemplo, un cambio repentino de nivel de los datos puede ser aconsejable analizar la serie dividiéndola primero en segmentos homogéneos. Si hubiera observaciones extrañas, éstas deberían estudiarse cuidadosamente para verificar si hay alguna justificación para descartarlas; por ejemplo, si una observación ha sido grabada incorrectamente o responde efectivamente a las dinámicas de la serie temporal. La inspección del gráfico también debería sugerir la posibilidad de representar los datos como una realización del proceso (volvamos al ejemplo anterior con una descomposición lineal)

Xt = Tt + Et + It,

donde el ruido aleatorio podría ser (débilmente) estacionario, en el sentido de que E[It] no depende de t y Cov(It, It+s) no depende de t, para cada s. Con esta propiedad se pretende que el valor promedio del ruido aleatorio registrado en un cierto instante no dependa del instante de observación y que el grado de correlación entre los ruidos observados en dos instantes de tiempo no dependa de esos instantes de tiempo, sino del tiempo transcurrido entre ellos. Cuando las fluctuaciones de la estacionalidad y el ruido aumentan con el nivel del proceso, es aconsejable realizar una transformación, por ejemplo, logarítmica de los datos para que los datos resultantes sean más compatibles con el modelo.

Supongamos que la relación Xt = Tt + Et + It es el modelo apropiado, posiblemente después de una transformación preliminar de los datos. En tal caso, el objetivo sería estimar y extraer las componentes deterministas Tt y Et, con la esperanza de que el residuo estocástico It sea una serie estacionaria en el tiempo. Entonces, podríamos usar la teoría de los procesos estacionarios para encontrar un modelo probabilístico satisfactorio para It, no sólo para estudiar sus propiedades, sino también para usarlo junto a Tt y Et con el fin de predecir y simular Xt.

Otro enfoque, desarrollado ampliamente por G. E. P. Box y G. M. Jenkins (1976), consiste en aplicar operadores de diferenciación repetidamente a la serie Xt hasta que las observaciones diferenciadas se asemejen a la realización de alguna serie temporal estacionaria Wt. Entonces se usaría la teoría de los procesos estacionarios para el modelado, el análisis y la predicción de Wt y, por lo tanto, del proceso original.

Algunos elementos sencillos

La tendencia de una serie temporal puede estudiarse, a nivel preliminar, con lo que llamamos filtros o funciones que transforman la serie original en otra que nos da más información sobre la dada. Uno de esos filtros, probablemente el más simple, es la llamada media móvil. Por ejemplo, si damos tres valores consecutivos, Xt-1, Xt, Xt+1, la media móvil es

m(Xt) = (Xt-1 + Xt + Xt+1) / 3.

Pero ésta es solo una de las múltiples posibilidades. También podemos suavizar la serie tomando diferencias consecutivas, y esto lo podemos hacer recursivamente. Estos procesos de filtrado nos darán la información sobre la tendencia de la serie temporal.

El promedio móvil y el suavizado espectral son esencialmente métodos no paramétricos para la estimación de tendencias (o señales) y no para la construcción de modelos. La elección del filtro de suavizado requiere una buena dosis de juicio subjetivo y se recomienda que se pruebe una variedad de filtros para tener una buena idea de la tendencia subyacente. El suavizado exponencial, dado que se basa sólo en un promedio móvil de valores pasados, a menudo se usa para pronosticar, mientras que el valor suavizado en el momento actual es utilizado como el pronóstico del siguiente valor.

Otro método más expeditivo es determinar una recta (con generalidad, un polinomio) de regresión por el método de mínimos cuadrados, que nos daría una información gráfica como ésta:

 

Otra técnica de análisis en series temporales consiste en analizar sus cambios a lo largo del tiempo mediante las denominadas tasas de variación, que surgen de la comparación de los valores de la serie en dos periodos de tiempo distintos, por ejemplo,

∆Xt = Xt - Xt-1

y la tasa relativa

mt = ∆Xt / Xt-1

que nos irá dando razón de su crecimiento o decrecimiento.

Para observar la estacionalidad, se puede emplear el coeficiente de autocorrelación, que no es más que el coeficiente de correlación de dos variables, pero ahora aplicado a los pares consecutivos de los valores de la serie

(X1, X2), (X2, X3), …, (Xt-1, Xt), (Xt, Xt+1), …

Esto nos da el coeficiente de correlación de orden 1; si tomamos pares separados por dos unidades, obtenemos el de orden 2 y, así sucesivamente, hasta que el número de datos lo permita.

Métodos de estudio

Por supuesto, estos elementos son sólo los más simples, como pretenden mostrar nuestros comentarios, de todos los usados en una amplia variedad de modelos de series temporales ARMA, ARIMA, SARIMA, modelos multivariantes y espacio-tiempo, entre otros, que podemos encontrar exhaustivamente estudiados en un buen número de monografías. Nosotros nos inclinamos por todo un clásico: el texto de J.P. Brockwell y R.A. Davis titulado “Introduction to Time Series and Forecasting”, publicado por Springer en sus sucesivas ediciones en los años 1996, 2002 y 2016.

En numerosas ocasiones, se pueden encontrar implementaciones en R de modelos de series temporales aplicadas a una variedad de ámbitos, como es el modelo SIR de epidemia. Bajo el término R (“The R Project for Statistical Computing”) se conoce un entorno de software libre para la computación estadística y gráfica, que compila y se ejecuta en una amplia variedad de plataformas UNIX, Windows y MacOS. La comunidad científica hace uso extensivo de este software y es común que los científicos pongan a disposición de sus colegas, de manera altruista, los códigos desarrollados en sus trabajos.

Son tantos los modelos de series temporales y tan variadas las técnicas de análisis que no podemos concluir esta entrada sin poner de manifiesto que la literatura sobre series temporales y su tratamiento analítico alude a una clasificación en:

  • Métodos de dominio de frecuencia, donde se incluyen el análisis espectral y el análisis wavelet.
  • Métodos de dominio de tiempo, que incluyen análisis de autocorrelación y correlación cruzada.

De manera paralela, la clasificación de las técnicas de análisis de series temporales conduce a:

  • Los métodos paramétricos, donde se asume que el proceso estocástico estacionario subyacente tiene una determinada estructura que puede describirse utilizando un pequeño número de parámetros; por ejemplo, utilizando un modelo autorregresivo o de media móvil. Su objetivo entonces es estimar los parámetros del modelo que describe el proceso estocástico.
  • Los métodos no-paramétricos, orientados a estimar explícitamente la covarianza o el espectro del proceso sin asumir que el proceso tiene una estructura particular.

Los métodos de análisis de series temporales también se pueden dividir en lineales y no lineales, como ya hemos comentado, y univariantes y multivariantes, en referencia a la dimensionalidad del proceso.

Métodos específicos versus métodos robustos

Habiendo nombrado el modelo SIR se nos viene a la cabeza el uso de las series temporales que nuestro colega Santiago García Cremades y el grupo de investigación de la Universidad Miguel Hernández, en Elche, están haciendo para predecir el número de fallecidos por SARS-CoV-2 en España. Ellos han constatado que los modelos SIR no sirven para describir las dinámicas de propagación de SARS-CoV-2 y no se debe a sus virtudes, que son muchas, sino a circunstancias ajenas al propio modelo, como son el confinamiento, las limitaciones de movilidad y, ante todo, la imprecisión de los datos diarios ofrecidos por las autoridades sanitarias.

Es muy oportuno el símil que, como buen divulgador, Santiago García Cremades hace para El Confidencial sobre el valor de las series temporales como un método de predicción robusto. En concreto, contrapone los modelos SIR con el análisis de la serie temporal comparando entre un microscopio y un telescopio, dos herramientas que permiten ver lo cercano (microscopio = modelos SIR) con un detalle específico y lo lejano (telescopio = series temporales) con un detalle más generalista.

Pero, vamos a lo importante: ¿qué se prefiere hoy frente a SARS-CoV-2, un método específico o un método robusto?

En las circunstancias actuales, un método robusto basado en series temporales y análisis multivariante tendrá mejores prestaciones que un método específico basado en los modelos SIR.

Los motivos son diversos, pero quizás no haya que escribir aquí muchos detalles matemáticos para que el lector de este blog lo comprenda. Brevemente, digamos que los modelos SIR se construyen sobre una colección de hipótesis que se mantienen invariables a lo largo del tiempo y que conducen a predicciones muy ajustadas, pero que se convierten en imprecisas cuando se modifican las hipótesis con el trascurso del tiempo. Para determinar las hipótesis o parámetros del modelo SIR es crucial disponer de un buen conocimiento de los episodios previos de la enfermedad – cosa que no ocurre con SARS-CoV-2 – y asegurar su validez en el tiempo. Por el contrario, las series temporales permiten “actualizar” las hipótesis a lo largo del tiempo con nuevos datos y, como consecuencia, aprender de la evolución de la pandemia con el paso del tiempo, sin necesidad (mejor dicho, con menor necesidad, si comparamos con los modelos SIR) de comprender los motivos que generan las fluctuaciones de los datos.

_____

Manuel de León (Instituto de Ciencias Matemáticas CSIC, Real Academia de Ciencias) y Antonio Gómez Corral (Universidad Complutense de Madrid)

Etiquetas: ,
Categorias: Covid-19

La ley de los grandes números y el libre albedrío

Bajo el nombre de ley de los grandes números son conocidos aquellos resultados del Cálculo de Probabilidades sobre la estabilidad a largo plazo de las realizaciones de una familia de variables aleatorias. Tradicionalmente, la primera ley de los grandes números es atribuida al matemático suizo Jacob Bernoulli (Basel, 1654 – Basel, 1705), aunque su demostración fuera publicada en 1713 por su sobrino Nicholas como parte de su libro póstumo Ars Conjectandi (El Arte de Hacer Conjeturas). Formalmente, se refiere a una sucesión de variables aleatorias independientes e idénticamente distribuidas con varianza finita y asegura que el promedio de las n primeras observaciones (variables aleatorias) se acerca a la media teórica cuando el número n de repeticiones tiende hacia infinito.

 

Para llevar la contraria a algunos de nuestros colegas, tenemos la satisfacción de puntualizar aquí que, previamente a la contribución de Jacob Bernoulli, el matemático italiano Gerolamo Cardano (Pavia, 1501 – Roma, 1576) ya había enunciado esta ley, de manera más intuitiva, en el sentido de que repetir un ensayo muchas veces mejora la probabilidad de un suceso.

La relación con la definición frecuentista de probabilidad

Pongamos un ejemplo sencillo. Supongamos que pretendemos conocer la probabilidad del suceso “obtener 3” en el lanzamiento de un dado equilibrado y que, para ello, repetimos una y otra vez, de manera independiente y bajo idénticas condiciones, el lanzamiento de un dado registrando un 1 si se observa como resultado “3”, y un 0 en el caso de obtener otros resultados; es decir, la variable aleatoria asociada a cada repetición toma los valores 1 y 0 con probabilidades 1/6 y 5/6, respectivamente. La frecuencia de aparición del resultado “3” durante los primeros n lanzamientos equivale al cociente entre la suma de los 1’s asociados a los n lanzamientos y el número n de lanzamientos. Cuando el número de lanzamientos es suficientemente grande, la aparición porcentual del suceso “obtener 3” será muy cercana a la probabilidad teórica 1/6 del suceso, gracias a que la media de la variable aleatoria asociada a un único lanzamiento (es decir, 1 x 1/6 + 0 x 5/6) coincide con la probabilidad 1/6 del suceso.

Jakob Bernouilli

Dos tipos de convergencias estocásticas de sucesiones de variables aleatorias – la convergencia en probabilidad (ley débil) y la convergencia casi segura (ley fuerte) – permiten dar el aspecto formal moderno a un resultado tan famoso que, hasta la década de 1930, fue empleado como definición frecuentista de la noción de probabilidad de un suceso.

A partir de 1930, la definición axiomática de espacio de probabilidad, formulada por el matemático ruso Andrey Nikolaevich Kolmogorov (Tambov, 1903 – Moscú, 1987) encajaría los problemas probabilísticos en el contexto de la Teoría de la Medida. Ese hecho resultó crucial y ha significado el desarrollo de un importante número de resultados que, inspirados en las primeras leyes de los grandes números, están orientados hacia la generalización de la hipótesis de independencia entre variables aleatorias, entre otros aspectos.

Una lucha que transcendió más allá de las matemáticas

El teorema de Jacob Bernouilli fue conocido como el “Teorema de Oro” o “Teorema de Bernouilli” hasta que, en 1837, Simeon Denis Poisson (Loiret, 1781-Sceaux, 1840) lo citó con su nombre actual, que es el que ha prevalecido hasta nuestros días. Posteriormente, Chebyshev, es decir, Pafnuti Lvóvich Chebyshov (Okátovo, 1821 – San Petersburgo, 1894) publicó una nueva prueba que su discípulo Andrei Markov mejoró notablemente.

 

Pavel Nekrasov

Lo que no es tan conocido en la historia de las leyes de los grandes números es la polémica que Andrei Markov mantuvo con su colega matemático Pavel Nekrasov (1853 – 1924), de la Universidad de Moscú, desde 1905 en San Petersburgo.

Pavel Nekrasov había estudiado primero Teología en un seminario ortodoxo y fue uno de los matemáticos rusos influenciados por la religión, lo que le provocó muchos problemas a pesar de que, tras la Revolución de Octubre, intentara sin mucho éxito una aproximación al marxismo.

La disputa entre Andrei Markov y Pavel Nekrasov se desarrolló en torno a la ley de los grandes números. La demostración dada por Pavel Nekrasov se basaba en la hipótesis de independencia entre los sucesos aleatorios (en el anterior ejemplo, cada vez que lanzo el dado se asume la independencia entre los sucesos observados), mientras que Andrei Markov probó que esa hipótesis no era necesaria. En otras palabras, el teorema era cierto incluso cuando hubiese dependencia entre las variables aleatorias (bajo ciertas condiciones).

Andrei Markov despreciaba el trabajo de Pavel Nekrasov diciendo que sus obras “eran un abuso de las matemáticas”. Es evidente que no había mucha amistad entre ellos, aunque para entender mejor la agresividad de estos comentarios tendríamos que destacar que Andrei Markov no era precisamente conocido por ser un “hombre de paz” y que, por el contrario, era de un carácter molesto, incluso con sus amigos, y despiadado con sus rivales.

Pero el fondo de la cuestión tenía trasfondo teológico porque la pelea versaba sobre la existencia o no del libre albedrío. Pavel Nekrasov y Andrei Markov, como la mayoría de los matemáticos rusos, creían que las matemáticas afectaban a la religión, pero sus aproximaciones y conclusiones eran opuestas. Si por un lado Pavel Nekrasov era zarista y ortodoxo, por el otro lado Andrei Markov era antizarista y ateo.

La cuestión era:

¿Podía la teoría de probabilidades dar una respuesta a esta cuestión de si tenemos libertad en nuestros actos o están estos predeterminados por Dios?

Según Pavel Nekrasov, la ley de los grandes números no era capaz de explicar  las regularidades estadísticas observadas en la vida social. En concreto, argumentaba que los actos voluntarios tenían que ser considerados como eventos independientes desde el punto de vista de la probabilidad. Así que la gente actuaba con libre albedrío, de acuerdo con la doctrina ortodoxa.

Mostrando su disconformidad con esta visión, Andrei Markov se lanzó a buscar un ejemplo en el que se observara dependencia y, a pesar de ello, se cumpliera la ley de los grandes números. El ataque a los argumentos de su rival fue el estudio del poema en verso Eugene Onegin de Alexander Pushkin, que dio lugar al descubrimiento de las cadenas de Markov, tal y como hemos descrito en una de nuestras recientes entradas.

Como hemos visto, las relaciones de Andrei Markov con la iglesia ortodoxa no eran muy buenas. De hecho, cuando Leon Tolstoi fue excomulgado, Andrei Markov pidió el mismo trato. Le fue concedido de manera inmediata.

_____

Manuel de León (Instituto de Ciencias Matemáticas CSIC, Real Academia de Ciencias) y Antonio Gómez Corral (Universidad Complutense de Madrid)

Etiquetas: , , ,
Categorias: Covid-19

La propagación de una epidemia usando cadenas de Markov (IV)

Las cadenas de Markov se han revelado de una enorme utilidad en numerosos campos, en particular, en la predicción y el control del desarrollo de una epidemia. En esta entrada vamos a considerar dos situaciones diferentes, referidas al virus VIH del SIDA y al virus SARS-CoV-2 de la Covid-19, analizadas mediante dos modelos sencillos.

Andrey Markov

Como habíamos comentado en entradas anteriores, una cadena de Markov es un proceso estocástico o conjunto de variables aleatorias (en cantidad discreta o continua, según el contexto) caracterizadas por la propiedad Markoviana, es decir, se refleja que el valor o estado de la variable asociada a un instante concreto de tiempo determina el siguiente estado del sistema en estudio, pero éste no depende de los estados asociados a las variables aleatorias anteriores. En otras palabras, “el futuro depende del pasado, pero sólo a través del presente”.

Las aplicaciones de las cadenas de Markov en el estudio de epidemias se desarrollan en paralelo a aquéllas realizadas desde el uso de ecuaciones diferenciales. El lector habitual de este blog puede observar ese paralelismo en dos de nuestras recientes entradas. En concreto, el modelo SIR en la entrada Las matemáticas del coronavirus Covid-19 es construido en el contexto determinístico, mientras que nuestros comentarios en la entrada Las matemáticas contra la malaria y el modelo SIR destacaban el papel crucial de Anderson Grey McKendrick en la formulación estocástica del modelo SIR.

Es importante incidir sobre las diferencias fundamentales entre el mundo determinista y el mundo estocástico, tanto para identificar la herramienta matemática usada como para entender el objeto en estudio. A pesar de que hablamos en ambos casos de ecuaciones diferenciales, éstas son concebidas de manera diferente:

  • En el contexto determinista, las ecuaciones diferenciales regulan la evolución de los números de susceptibles, de infectados y de recuperados – equivalentemente, sus proporciones – en cada instante de tiempo t, concibiendo estos números como funciones de t (el tiempo), de modo que cada uno de estos números es una función real de variable real.
  • En el contexto estocástico, las ecuaciones diferenciales involucran a la distribución de probabilidad conjunta de los números de susceptibles, de infectados y de recuperados en el instante de tiempo t, concibiendo estos números como variables aleatorias y tenemos, en el caso del modelo SIR, tres variables aleatorias asociadas (los números de susceptibles, infectados y recuperados) a cada instante de tiempo t.

Como consecuencia de lo anterior, la solución del sistema de ecuaciones diferenciales en un contexto determinista permite dibujar los números de susceptibles, de infectados y de recuperados en función del tiempo y la curva representando a uno de estos números, por ejemplo, el número de infectados I(t) en el instante t, sobre unos ejes cartesianos es única como función real de t. Por el contrario, cuando se resuelve el sistema de ecuaciones diferenciales en el contexto estocástico se obtiene la distribución de probabilidad conjunta de los números de susceptibles, de infectados y de recuperados en cada instante de tiempo t. Si, por ejemplo, nos centramos en el número de infectados I(t) en el instante t, entonces es posible dibujar la probabilidad de que I(t) = i como una curva como función de t, para cada valor i entre 0, 1, …, N, siendo N el tamaño total de la población. Esas curvas, y tenemos una para cada valor i, expresan cómo de verosímiles son cada uno de los valores posibles de la variable aleatoria I(t). Informalmente hablando, esto equivale a lo siguiente:

Si fuéramos capaces de reproducir un número n grande de situaciones prácticas de la propagación de una epidemia de tipo SIR entre los individuos de una población y contabilizásemos, en un instante de tiempo t concreto, la frecuencia relativa de aparición de cada valor i entre esas n situaciones, esas frecuencias relativas serían una estimación de la probabilidad de que I(t) = i, tanto más precisa cuanto mayor sea el número grande n de situaciones observadas.

Andrey Kolmogorov

En este punto, la llave que formaliza el comportamiento asintótico que, cuando n tiende hacia infinito, subyace en nuestro comentario es uno de los resultados fundamentales de la Teoría de la Probabilidad moderna, las leyes de los grandes números, que permiten acceder a la definición axiomática de probabilidad – formulada por el matemático ruso Andrey Nikolaevich Kolmogorov (Tambov, 1903 – Moscú, 1987) – desde la noción de probabilidad frecuentista vigente hasta principios de 1930. Para ello es necesario aludir a la convergencia en probabilidad (ley débil) o a la convergencia casi segura (ley fuerte).

Una vez hecha, quizás no muy brevemente, esta puntualización sobre modelos deterministas versus modelos estocásticos, nos centramos en el contexto estocástico y comentamos sobre dos modelos de epidemias basados en cadenas de Markov. Hemos usado dos artículos científicos en los que el lector interesado en profundizar más allá de este blog podrá encontrar más detalles y bibliografía.

 

La epidemia del VIH/SIDA

En el artículo titulado “Modelo estocástico para la epidemia del VIH/SIDA”, de Erick Manuel Delgado-Moya y Aymée Marrero-Severo, se construye una sencilla cadena de Markov de la siguiente forma:

Se definen, como en las variantes del modelo SIR, cuatro posibles estados para un individuo de la población en cuestión: S (susceptible), I (infectado), N (individuo muerto por muerte natural) y E (individuo muerto a causa de la enfermedad). Como unidad de tiempo se emplea el año, generando entonces una cadena de Markov en tiempo discreto cuando el estado de un individuo es registrado, por ejemplo, el día 1 de marzo de cada año, si éste se sometiera a pruebas diagnósticas con una periodicidad anual. Las probabilidades asociadas a la evolución del estado de un individuo entre dos etapas consecutivas, es decir, desde una revisión diagnóstica y la siguiente, se denotan por

α: probabilidad de mantenerse en el estado de susceptible.

β: probabilidad de mantenerse en el estado de infectado.

μ: probabilidad de muerte natural.

γ: probabilidad de, estando en el estado susceptible, pasar al estado de infectado.

ε: probabilidad de muerte por la enfermedad, dado que está en el estado infectado.

 

Debemos recordar que, para obtener una matriz de transición, se deben cumplir las relaciones

α+γ+μ= 1   y  β+μ+ ε = 1.

Las probabilidades anteriores están ligadas a las transiciones

de modo que la matriz de transición viene dada por

 

Sin entrar en los detalles del estudio de Erick Manuel Delgado-Moya y Aymée Marrero-Severo, una cuestión interesante está asociada a cómo influir para mejorar los resultados en el tratamiento terapéutico de un paciente. Tendríamos, por tanto, que influir sobre el parámetro ε, que se suele parametrizar como una función o índice de eficacia. Claro que, si reducimos la mortalidad con el tratamiento, también podríamos estar contribuyendo a aumentar el número de infectados.

Ciclo de replicación del virus del SIDA

Surge entonces un interesante problema vinculado al control del número de infectados que, en el caso del SIDA, se puede abordar desde la abstinencia, la reducción de las prácticas sexuales o el uso de barreras profilácticas (preservativos), así como desde los beneficios de un adecuado tratamiento terapéutico. Como un procedimiento alternativo al realizado por los autores, mencionamos que es posible abordar el problema de control – resultante desde la introducción de costes – usando la teoría de la decisión Markoviana que combina cadenas de Markov con técnicas de Optimización Matemática.

La lucha contra el coronavirus SARS-CoV-2 de la Covid-19

Describimos ahora, de manera concisa, el modelo diseñado en el reciente artículo “COVID-19: Estimating spread in Spain solving an inverse problem with a probabilistic model”, de Marcos Matabuena, Carlos Meijide-García, Pablo Rodríguez-Mier y Víctor Leborán. Con nuestros comentarios no pretendemos reproducir su contenido, sino poner de manifiesto cómo es posible partir de un modelo sencillo, basado en una cadena de Markov, y generar una variante más avanzada prescindiendo de los principios Markovianos.

Previamente, es obligado hacer dos observaciones necesarias para entender cómo describir una cadena de Markov en tiempo continuo desde elementos más sencillos. En concreto, una cadena de Markov en tiempo continuo, denotada por {X(t): t0}, podemos describirla a través de combinar dos elementos:

  • La sucesión de estados visitados, {Xn: n=0,1,…}, que resulta ser una cadena de Markov en tiempo discreto, denominada cadena encajada, y tiene una matriz de transición específica.
  • La sucesión de tiempos de permanencia en los estados visitados que, en el supuesto de que el proceso acceda al estado i, implica que el tiempo de permanencia en ese estado es una variable aleatoria exponencial de parámetro α(i), de manera que el tiempo medio de permanencia en el estado i es 1/α(i), y no depende de los estados anteriormente visitados antes de acceder a i, ni del estado que se visitará cuando el proceso abandone i.

El lector avanzado dentro de la teoría de procesos estocásticos observará que la anterior descripción se refiere a una cadena de Markov en tiempo continuo regular y no de cualquiera, pero esta descripción es suficiente para nuestro objetivo en este ejemplo.

En este caso, el modelo de Marcos Matabuena, Carlos Meijide-García, Pablo Rodríguez-Mier y Víctor Leborán contiene las siguientes variables:

S(t):  número de individuos susceptibles en el instante t

I1(t): número de individuos infectados que están incubando el virus en el instante t

I2(t):  número de individuos infectados que han pasado el periodo de incubación, pero no muestran síntomas de la enfermedad en el instante t

I3(t):  número de individuos infectados que han pasado el periodo de incubación y presentan síntomas en el instante t

R1(t): número de individuos recuperados que son todavía capaces de infectar a otros en el instante t

R2(t): número de individuos recuperados que no son capaces de infectar a otros en el instante t

M(t): número de fallecidos acumulados hasta el instante t

Entonces, I(t) = I1(t) + I2(t) +I3(t) representa el número total de infectados en el instante de tiempo t, y R(t) = R1(t) + R2(t) es el número de recuperados.

El siguiente gráfico es una representación esquemática de las transiciones entre los siete compartimentos o subpoblaciones que las variables anteriores generan:

Representación esquemática tomada desde el artículo de Marcos Matabuena, Carlos Meijide-García, Pablo Rodríguez-Mier y Víctor Leborán, arxiv.org/abs/2004.13695

 

Si queremos alimentar la sopa de letras surgida desde el modelo SIR, entonces la anterior figura es un ejemplo de otra variante del modelo SIR.

El modelo construido para las anteriores variables aleatorias sirve a los autores para extraer interesantes conclusiones para España, con comentarios específicos sobre sus Comunidades Autónomas, aunque no lo hagan directamente desde una cadena de Markov en tiempo continuo, sino un proceso inspirado en ella. En concreto, usan una matriz de transición de la cadena encajada de la forma

Sin embargo, la experiencia de los autores y la literatura existente ha llevado a éstos a reemplazar la hipótesis de exponencialidad sobre los tiempos de permanencia por otras distribuciones de probabilidad que hacen que el proceso estocástico (S(t), I1(t), I2(t), I3(t), R1(t), R2(t), M(t)) no sea Markoviano, pero sí se ajuste mejor a la incidencia del virus SARS-CoV-2 sobre la población española. Aparentemente, la dependencia de los estados de destino en las transiciones en la siguiente tabla (por ejemplo, el tiempo de permanencia en el estado I3 depende del estado final de transición R1 y M) nos lleva a sospechar que el proceso (S(t), I1(t), I2(t), I3(t), R1(t), R2(t), M(t)) no conserva, ni tan siquiera, las virtudes de un proceso de Markov determinista por partes (piecewise-deterministic Markov process). El modelo resultante no es estacionario y tiene una estructura de dependencia compleja.

Las distribuciones usadas por Marcos Matabuena, Carlos Meijide-García, Pablo Rodríguez-Mier y Víctor Leborán.

 

Para el resto de detalles, de tanta actualidad en los días que vivimos, remitimos al lector al artículo original de los autores.

_____

Manuel de León (Instituto de Ciencias Matemáticas CSIC, Real Academia de Ciencias) y Antonio Gómez Corral (Universidad Complutense de Madrid)

Etiquetas: , , ,
Categorias: Covid-19

De cómo la poesía dio lugar a las cadenas de Markov (III)

Comentábamos en una entrada previa sobre Andrei Markov que su interés al crear las cadenas que hoy llevan su nombre no tenía conexión alguna con posibles aplicaciones, excepto las que desarrolló en literatura por su gran afición a la poesía. Ese interés tan peculiar sigue vigente, como veremos, en nuestros días.

 

Alexander Pushkin

 

De la poesía a las cadenas de Markov

De hecho, el trabajo de Andrei Markov se centró sobre la obra en verso “Eugene Onegin”, de Alexander Pushkin. Andrei Markov dedicó horas, muchas horas, a analizar las secuencias de vocales y consonantes. Y en enero de 1913 presentó sus resultados a la Academia de Ciencias, resultados que no fueron tan importantes para la poesía como sí lo fueron para las matemáticas y sus aplicaciones. A continuación, reproducimos un resumen muy breve del análisis de Andrei Markov. Los lectores de este blog que quieran más detalles sobre esta cuestión pueden seguir el enlace para acceder a un interesante artículo firmado por Brian Hayes.

Andrei Markov no entró en la estructura en sí misma del poema, sino que eliminando puntuaciones, espacios, etc. recogió las 20.000 primeras letras del poema de Alexander Pushkin y organizó éstas en 200 bloques de 10 x10 letras, contando vocales y consonantes en cada fila y cada columna (8.638 vocales y 11.362 consonantes). Calculó medias y varianzas para obtener las medidas de dispersión. A continuación, clasificó pares de letras sucesivas y encontró 1.104 pares de vocales y 3.827 consonantes dobles; el resto serían 15.069 pares de vocal y consonante, o de consonante y vocal.

Ahora podríamos calcular la probabilidad de que una letra elegida arbitrariamente sea una vocal,

8.638/20.000 = 0,43.

Si asumiéramos que todas las letras hubieran sido dispuestas de manera independiente unas de otras, la probabilidad de encontrar dos vocales consecutivas sería

0,43 x 0,43 = 0,19.

Pero la realidad, con lo que hemos contado, es que esa probabilidad debería ser tres veces mayor.

Desde esta observación, la conclusión es clara: las letras no son independientes en el poema y en cada una se observa una dependencia de la letra anterior.

 

Manuscrito de Pushkin

De las cadenas de Markov a la poesía

Cerramos el círculo “cadenas de Markov versus poesía” con algunos ejemplos de cómo este desarrollo probabilístico puede ser usado para crear poesía. Para no ser pretenciosos, vamos a calificarlo como “generar poesía”, pues poca seguridad hay sobre la belleza del resultado final de la composición.

Uno de los instrumentos más interesantes es un generador de poesía llamado Markomposition. Su funcionamiento se inicia cuando, a petición suya, introducimos una frase y el programa, aplicando de manera aleatoria cadenas de Markov, va produciendo el poema.

Recordemos la idea básica de una cadena de Markov: tenemos diferentes estados y las probabilidades de pasar de unos a otros. Para ver cómo se puede aplicar a la literatura, crearíamos estados de modo que cada uno de ellos sea una palabra o una frase, y estableceríamos la probabilidad de pasar de una palabra a otra, o de una palabra a una frase, etc.

En Markomposition se dan algunas instrucciones básicas para su manejo. Por ejemplo, y aunque sea una obviedad, la calidad de lo que obtengamos dependerá no solo de la calidad de los estados posibles, sino también de la variedad de secuenciaciones; es decir, si cada palabra tuviera un solo sucesor, solo habría un poema, así que cuanta mayor variedad en las disposiciones de las palabras introduzcamos, más opciones tendremos de obtener composiciones diferentes. Otra de las variables a considerar se refiere a que debemos fomentar una cierta repetición, base del ritmo poético.

Marie Chatfield Rivas

En la página web de Markomposition, la autora, Marie Chatfield, comenta que ha usado el Proyecto Gutenberg, una biblioteca digital con 60.000 libros electrónicos gratuitos. En particular, para los ejemplos que allí muestra, ha empelado las obras en inglés

  • Poems, de Emily Dickinson
  • The Divine Comedy, de Dante Alighieri
  • Grimm’s Fairy Tales
  • The Sonnets, Triumps, and Other Poems, de Francesco Petrarca
  • The Declaration of Independence of the United States of America
  • Hamlet, Prince of Denmark, de William Shakespeare

Invitamos a que el lector cree su propia biblioteca digital y genere sus propios poemas markovianos.

Otro proyecto similar es el desarrollado por Alexander Raichev, de Auckland, Nueva Zelanda. El lector puede acceder a esta herramienta a través de este enlace. Alexander Raichev llama a su método “Markov, a Game of Poems”, que adaptó como un ejercicio de un libro de texto sobre computación, Exercise 13.8 de Think Python, Downey 2012. En la página de internet se describe con detalle el método y se dan algunas normas para obtener resultados más interesantes.

¡No todo es rigurosidad matemática alrededor de las cadenas de Markov y sus aplicaciones, también hay tiempo para la poesía!

_____

Mario Castro Ponce (Universidad Pontificia Comillas), Manuel de León (Instituto de Ciencias Matemáticas CSIC, Real Academia de Ciencias) y Antonio Gómez Corral (Universidad Complutense de Madrid)

Etiquetas: ,
Categorias: Covid-19

Cadenas de Markov y las leyes de Mendel (II)

En esta entrada, más técnica de lo habitual, vamos a emplear uno de los problemas más clásicos y famosos de la Biología, el descubrimiento de las leyes de la herencia, para explicar a nuestros lectores el uso de las cadenas de Markov en Biología Matemática. En nuestros comentarios aparecerán el monje checo Johann Mendel y otros dos eminentes matemáticos británicos, Godfrey Harold Hardy y Ronald Aylmer Fisher.

Gregor (Johann) Mendel (Heinzendorf, 1822 – Brünn, 1884)

 

Los guisantes de Johann de Mendel

El término Leyes de Mendel fue por primera vez empleado a raíz de que el holandés Hugo de Vries, el alemán Carl Correns y el austríaco Erich von Tschermak redescubrieran, de manera independiente y casi simultánea en 1900, los postulados del monje agustino sobre la herencia, como ya mostramos en la entrada Mendel, el de los guisantes. Estos postulados están basados en los experimentos realizados entre los años 1856 y 1863 por Johann Mendel sobre la variabilidad de las plantas de guisantes, y aparecen descritos en el artículo titulado “Versuche über pflanzenhybriden” (“Experimentos sobre la hibridación de las plantas”), que presentó en dos sesiones de la Sociedad de Historia Natural de Brno en 1865 y publicó en la revista Verhandlungen des Naturforschenden Vereines in Brünn en 1866. La traducción al inglés de este trabajo forma parte del documento “Mendel’s Principles of Heredity: A Defence” (“Los Principios Mendelianos de la Herencia: Una Defensa”) escrito por el británico William Bateson en 1902 con la intención de clarificar el papel de Johann Mendel como precursor de la Genética moderna.

Johann Mendel explicó sus observaciones y su patrón de la herencia tomando como sistema modelo a los guisantes de jardín (Pisum sativum) y sus características fenotípicas, aprovechando que estas plantas tienen un rápido ciclo de vida, producen un elevado número de semillas – fáciles de catalogar por su forma (en concreto, color y rugosidad) – y se pueden reproducir por autofecundación, además de que también son fáciles de cruzar o aparear de forma controlada. En concreto, al cruzar plantas nacidas de semillas lisas con plantas nacidas de semillas rugosas, observó que las plantas híbridas obtenidas siempre generaban semillas lisas, lo cual le llevó a acuñar los términos dominante y recesivo para referirse a los rasgos “semilla lisa” y “semilla rugosa”, respectivamente. De manera semejante llegó a catalogar el rasgo “semilla amarilla” como dominante y el rasgo “semilla verde” como recesivo.

Desde un primer experimento, Johann Mendel observó que, con independencia del carácter fenotípico en estudio,

la autofecundación de las plantas nacidas desde semillas híbridas producía en la primera generación semillas que tenían bien el rasgo dominante o el rasgo recesivo en proporciones aparentemente aleatorias,

y concluyó que

las semillas con el rasgo dominante eran obtenidas aproximadamente tres veces más frecuentemente que las semillas con el rasgo recesivo.

En un segundo experimento, analizó las semillas generadas por las plantas crecidas desde semillas obtenidas en la primera generación y concluyó que

entre las plantas crecidas desde semillas de la primera generación con el carácter dominante, aquéllas que por autofecundación dieron lugar a semillas con el rasgo dominante o con el rasgo recesivo eran aproximadamente dos veces más que aquéllas que sólo daban lugar a semillas con el rasgo dominante.

Hasta este punto, poco parece haber sobre cadenas de Markov, ni tan siquiera probabilidades en nuestros comentarios sobre los trabajos de Johann Mendel, pero no nos dejemos engañar como ahora veremos.

Para hacer evidente la conexión entre la herencia de los caracteres fenotípicos y las cadenas de Markov, hacemos énfasis primero sobre los dos siguientes postulados hechos por Johann Mendel, donde aparece la noción de probabilidad:

  1. El carácter o rasgo (dominante o recesivo) de una semilla es la consecuencia de los factores ocultos, denotados por A (dominante) y a (recesivo), de manera que existen tres combinaciones posibles o factores AA, Aa y aa. Las semillas con las combinaciones AA y Aa tienen el rasgo A dominante, mientras que las semillas con la combinación aa tienen el rasgo a recesivo.
  2. Los granos de polen y los gametos transmiten sólo uno de los dos rasgos con idénticas oportunidades o probabilidades.

Como consecuencia, el cruce de dos linajes puros AA y aa conduce a híbridos con los factores Aa y el rasgo A dominante, mientras que los gametos de híbridos con los factores Aa transmiten el rasgo A con probabilidad ½ y el rasgo a con probabilidad ½.

La siguiente tabla resume los posibles resultados del proceso de autofecundación de un híbrido Aa y sus probabilidades, en función de los rasgos A y a transmitidos por los gametos masculinos (fila) y femeninos (columna):

Es sencillo comprobar la propiedad Markoviana en la evolución de los factores AA, Aa y aa en las futuras generaciones. Por ejemplo, comenzando con N semillas híbridas Aa y asumiendo que cada planta da lugar por autofecundación sólo a 4 semillas, los números medios de semillas AA(n+1), Aa(n+1) y aa(n+1) en la generación n+1 pueden evaluarse desde los correspondientes números medios en la generación anterior n:

AA(n+1) = Aa(n) + 4 AA(n),

Aa(n+1) = 2 Aa(n),

aa(n+1) = Aa(n) + 4 aa(n).

En la terminología genética moderna, los rasgos son denominados alelos y los factores son llamados genotipos.

 

Las mejoras en las leyes de la herencia de Mendel

Los biólogos de la época, recelosos de los resultados de Johann Mendel, se preguntaban por qué el rasgo dominante no se hacía más frecuente de generación en generación. El genetista británico Reginald Punnett formuló esa pregunta a uno de sus compañeros de cricket en Cambridge, el matemático Godfrey Harold Hardy, quien publicó en 1908 el artículo titulado “Mendelian proportions in a mixed population” (“Proporciones Mendelianas en una población mezclada”) con una solución del problema bajo la hipótesis de que, en el caso de una población de tamaño infinito, la elección de la pareja sexual de un individuo sería aleatoria.

Godfrey Harold Hardy (Surrey, 1877 – Cambridge, 1947)

Al igual que Johann Mendel, Godfrey Harold Hardy centró su interés en una población diploide, es decir, con dos alelos, A y a, donde A es dominante y a es recesivo, y se interesó en determinar las frecuencias p(n), 2q(n) y r(n) de los genotipos AA, Aa y aa, respectivamente, en la generación n, con p(n)+2q(n)+r(n)=1. Para ello, asumió que ninguno de los genotipos incrementaba su mortalidad o decrecía su fertilidad en comparación con los otros dos genotipos. Las frecuencias en la generación n+1 pueden computarse desde las frecuencias en la generación n, observando que un individuo elegido aleatoriamente en la generación n transmite el alelo A con probabilidad p(n)+ q(n), bien porque el genotipo es AA y el alelo A se transmite con probabilidad 1, o porque el genotipo es Aa y el alelo A se transmite con probabilidad ½; de manera análoga, el alelo a se transmite con probabilidad q(n)+r(n).

El modelo resultante, conocido como ley de Hardy-Weinberg debido a que los resultados obtenidos por Godfrey Harold Hardy fueron también derivados ese mismo año 1908 por el médico alemán Wilhelm Weinberg (Stuttgart, 1862 – Tübingen, 1937), nos conduce a una actualización de la tabla de Johann Mendel para las frecuencias de los genotipos AA, Aa y aa en la generación n+1 en función de las frecuencias de los alelos A y a transmitidos por el padre (fila) y la madre (columna).

De nuevo, es posible observar la propiedad Markoviana en las expresiones de las frecuencias de los genotipos AA, Aa y aa en la generación n+1, que vienen dadas por  


La ley de Hardy-Weinberg falla cuando se pretende capturar el fenómeno de la evolución genética en una población diploide finita, donde la tendencia aleatoria juega un papel relevante.

 

El modelo de Wright-Fisher

El estadístico y biólogo británico Ronald Aylmer Fisher y el genetista estadounidense Sewall Green Wright (Melrose, 1889 – Madison, 1969) serían los primeros en proponer un modelo matemático que incorporaba aleatoriedad en poblaciones diploides finitas sin mutación.

En el supuesto de una población diploide de tamaño N y genotipos AA, Aa y aa de los alelos A y a, el número Xn de alelos A en la generación n puede ser visto como una variable aleatoria – dado que el número total de alelos es 2N en cualquier generación, el número de alelos a en la generación n es  2N – Xn– y la sucesión de números {Xn : n {0, 1, …  }} resulta ser una cadena de Markov en tiempo-discreto sobre el espacio de estados S = {0, 1, … , 2N }  con probabilidades de transición en una etapa homogéneas en el tiempo

Esta expresión es obtenida teniendo en cuenta que los 2N alelos de la generación n+1 son obtenidos desde los 2N alelos de la generación anterior como si desarrollásemos 2N intentos independientes de Bernoulli, donde las respectivas probabilidades de obtener un alelo A (“éxito” en el intento de Bernoulli) y un alelo a (“fracaso”) son i/2N y (2N-i)/2N, en el supuesto Xn = i. Después de un número finito de generaciones, la población termina siendo homocigótica como consecuencia de que la absorción en alguno de los estados {0, 2N} es segura. En el contexto de la cadena de Markov, los estados 0 y 2N son absorbentes y equivalen a una población homocigótica de genotipos aa y AA, respectivamente, y son alcanzados en un número medio finito de generaciones.

Las probabilidades de fijación (absorción) en los alelos a (estado 0) y A (estado 2N) vienen dadas por

donde T = inf {n: Xn{0,2N}} equivale a la generación en la que, por primera vez, la población es homocigótica.

En el año 1922, Ronald Aylmer Fisher publicó el artículo titulado “On the dominance ratio” (“Sobre el cociente de dominancia”) donde combinó las leyes de Mendel y el principio de selección natural de la teoría de la evolución de Charles Darwin, explicando entonces las dos situaciones antagónicas de coexistencia de genotipos y de extinción de uno de los genotipos. Su modelo puede ser visto como una evolución del modelo de Godfrey Harold Hardy, donde se asume que los individuos con genotipos AA, Aa y aa tienen diferentes mortalidades antes de alcanzar la edad adulta.

Ronald Aylmer Fisher (Londres, 1890 – Adelaida, 1962)

Tomando p(n), 2q(n) y  r(n)  como las frecuencias de los genotipos AA, Aa y aa entre los individuos adultos de la generación n, las frecuencias de estos genotipos entre los individuos nacidos en la generación n+1 son (p(n)+q(n))2, 2(p(n)+q(n))(q(n)+r(n)) y (q(n)+r(n))2, de modo que las frecuencias de los genotipos entre los individuos adultos en la generación n+1 tienen la forma

 

donde s(n)=α(p(n)+q(n))2+2β(p(n)+q(n))(q(n)+r(n))+γ(q(n)+r(n))2, en el supuesto de que α, β y γ representen las probabilidades de que un individuo con los genotipos AA, Aa y aa, respectivamente, complete el proceso de maduración.

La ausencia de selección natural equivale a la elección α=β=γ y nos lleva a las ecuaciones escritas por Godfrey Harold Hardy.

La principal aportación de Ronald Aylmer Fisher se refiere a una expresión para el incremento entre las frecuencias alélicas de A sobre los individuos adultos de dos generaciones sucesivas, que le permitió observar que existen, al menos, dos estados estables donde las frecuencias alélicas del alelo A permanecen constantes: f = 0 (población homocigótica del genotipo aa); y f = 1 (población homocigótica del genotipo AA). Dicho de otra forma,

en una población diploide (con alelos A y a) infinita con apareamiento aleatorio sin mutación y selección natural,

(a) El alelo a desaparecerá progresivamente, en el supuesto de que el genotipo AA tenga mejores oportunidades selectivas para sobrevivir (es decir,  α>β y α>γ).

(b) Los tres genotipos AA, Aa y aa podrán coexistir permanentemente en la población cuando el genotipo Aa tenga una ventaja selectiva sobre los genotipos AA y aa (es decir,  β>α y β>γ).

En el año 1930, Ronald Aylmer Fisher publicaría el libro “The Genetical Theory of Natural Selection” (“La Teoría Genética de la Selección Natural”) con una amplia repercusión en la comunidad científica. Junto a Sewall Green Wright y el genetista y biólogo evolutivo británico John Burdon Sanderson Haldane (Oxford, 1892 – Bhubaneswar, 1964), Ronald Aylmer Fisher es hoy considerado uno de los fundadores de la Genética de Poblaciones como la corriente científica que concilia la metodología biométrica del matemático y estadístico británico Karl Pearson (Londres, 1857 – Surrey, 1936) con la Genética Mendeliana dirigida por William Bateson. Sin embargo, no hay que olvidar quién y cómo comenzó esta historia, con el monje Johann Mendel experimentando con guisantes en los jardines de su abadía.

Es el momento de concluir esta entrada, atípica por lo denso de sus contenidos, donde las matemáticas se mezclan con la genética. Más detalles matemáticos, todavía a nivel divulgativo, sobre este apasionante recorrido desde las leyes de la herencia de Johann Mendel hasta la actualidad pueden encontrarse en el capítulo 4 del libro Las Matemáticas de la Biología (Editorial Catarata, 2019). El lector ávido de detalles sobre el uso de cadenas de Markov, en particular, en Epidemiología quizá quiera contactar con los autores, quienes estarán encantados de compartir con él materiales sencillos sobre su investigación matemática.

_____

Manuel de León (Instituto de Ciencias Matemáticas CSIC, Real Academia de Ciencias) y Antonio Gómez Corral (Universidad Complutense de Madrid)

Etiquetas: , ,
Categorias: Covid-19