El verdadero potencial del big data en la lucha contra la COVID-19
En esta pandemia es necesaria una mayor colaboración entre expertos en datos de todo el mundo con el objetivo de lograr mejores modelos estadísticos y vacunas. Una experta de la Universidad Carlos III de Madrid analiza las posibilidades de esta tecnología.
Rosa Elvira Lillo - Agencia Sinc
Durante los últimos tiempos, nos hemos estado jactando de que los datos son el petróleo del siglo XXI y así lo han confirmado empresas e instituciones de toda índole, cuando las decisiones que han tomado basadas en evidencias cuantitativas les han reportado más beneficios que las que eran tomadas por otras metodologías más tradicionales.
Se está acuñando, cada vez con más fuerza, que estamos ante una nueva revolución industrial porque el dato, a diferencia de lo que pasaba con anterioridad, se ha incrustado en cada proceso de la cadena de producción de cualquier actividad.
El auge del big data ha conseguido despertar vocaciones analíticas y ha contribuido a la formación de grupos de trabajo multidisciplinares que aportan soluciones integradas a multitud de problemas, sobre todo en el ámbito financiero y empresarial. A pesar de ello, grupos de trabajo más residuales ya llevamos tiempo aplicando todo el conocimiento que puede aportar el tratamiento masivo de datos a la Sanidad, la medicina, la genética y la epidemiología, con los consiguientes beneficios que ello supone para la sociedad en su conjunto.
La pandemia desencadenada por la COVID-19 está poniendo en evidencia que resulta esencial contar con datos. Y cuando escribo datos, quiero decir DATOS en mayúsculas. Datos que ayuden a que los modelos estadísticos que existen ya en la literatura para entender la expansión del virus se alimenten de información veraz para que todas las curvas que se nos están presentando últimamente en los medios de comunicación sean fiables.
Para ello, tenemos que echar mano de las simulaciones, de los algoritmos de predicción que posibilitan que se puedan ensayar distintos escenarios en función de distintas decisiones. El ejemplo de Corea del Sur es un espejo estupendo hacia el que mirar porque la utilización correcta de la aleatorización estructurada junto con la aplicación de modelos bien entrenados ha conducido a un control de los contagios muy eficiente.
Iniciativas de la comunidad científica
Me enorgullezco de todas las iniciativas que la comunidad científica relacionada con datos estamos llevando a cabo y cómo la integración de diferentes tipos de datos nos está permitiendo hacer un seguimiento exhaustivo de la evolución de la pandemia y estimar el número de contagios reales.
Por poner algunos ejemplos, el Comité Español de Matemáticas está coordinando a los distintos grupos de trabajo interesados en este para sumar iniciativas y transmitir al Gobierno una única voz con aportaciones científicas. La Sociedad de Española de Estadística e Investigación Operativa también está promoviendo la colaboración entre los miembros para aunar sinergias. Por su parte, Esteban Moro, investigador del MIT Media Lab y profesor en el departamento de Matemáticas de la UC3M, ha publicado un mapa de cómo la distancia social está cambiando la forma de moverse en New York utilizando geolocalizaciones.
Desde la Comisión Europea se han lanzado de forma urgente propuestas de tipo IMI (Iniciativa de Medicamentos Innovadores) para activar la investigación de la pandemia desde un punto de vista multidisciplinar. Es muy amplio el abanico de iniciativas y a pesar de que cada pequeño grano de arena cuenta, lo ideal sería que todo el efecto de este conocimiento se multiplicara articulando una coordinación efectiva.
Colaboración mundial
Por una parte, es esencial entender esta pandemia de manera global y, para ello, es necesario potenciar toda la colaboración posible entre expertos de distintos países, cobrando especial énfasis los consorcios ya establecidos antes del brote del virus.
Asimismo, es necesario entender la realidad y el mapa haciendo zoom en cada país y, dentro del mismo, descendiendo a unidades de estudio más pequeñas, como comunidades autónomas, ciudades, barrios… Es importante tener una foto actualizada, lo más fidedigna posible, para poder entender la incidencia mayor del virus en determinados ámbitos o la velocidad de contagio a diferentes escalas, en función de factores que solo se explican si los datos son analizados con gran agilidad y, por supuesto, por las personas adecuadas.
No es tiempo de intrusismo en el mundo de los datos. No quisiera que volviera tomar auge la famosa frase de Mark Twain de 1907: “Hay tres tipos de mentiras: mentiras, malditas mentiras y estadísticas”.
Sería de enorme ayuda que fuera el momento de la unidad de todos, no solo en el ámbito sanitario como estamos viendo estos días, sino también desde el punto de vista de la cesión de datos.
En este punto, soy consciente de la confrontación que se puede originar entre privacidad y bien común o entre público y privado.
Hace unos meses, la discusión estaba servida con la noticia de que el INE iba a aprovechar nuestras geolocalizaciones para poder estimar de forma más fiable y barata el censo.
¿Opinamos ahora lo mismo si la cesión de nuestros datos de posición pudiera ayudar a realizar un confinamiento más inteligente y a un aplanamiento de la curva? Si en estos momentos se pudiera contar con todos los datos de las empresas de telefonía y de las transacciones bancarias, se podría, gracias al potencial del big data, tener un mapa mucho más real del impacto del coronavirus en nuestra economía y una foto más clara del efecto del confinamiento.
He dejado para el final la importante labor de los datos como herramienta de trabajo para encontrar una solución vía medicamentos y vacunas que mermen la grave incidencia de este virus. En este aspecto hay dos confluencias importantes: una es la escasa información sobre el comportamiento del virus que se tenía a priori. La otra es que cada vez cobra más fuerza la existencia de un componente genético que determina pronósticos diferentes a nivel individual en la afección del virus.
Avanzar en este campo y con estas premisas requiere, como ya he comentado antes, de la cooperación máxima entre biólogos, genetistas, químicos y científicos de datos que ahonden en la comprensión conjunta del comportamiento del virus.
Cualquier avance en la componente genética del virus requiere de una capacidad de computación, de análisis y de desarrollo de nuevos modelos de selección de variables que hacen especialmente útiles las iniciativas para aunar todo el potencial posible de computación, como la que se ha llevado a cabo en EE UU donde se han conectado supercomputadores provenientes del estado, conjuntamente con los de empresas privadas y universidades.
La ayuda de los datos en este punto constituye un ejemplo muy ‘humanista’ de la importancia del big data en nuestro entorno que se explicará a posteriori en nuestros cursos como un caso de estudio de éxito.
Pero este punto de inflexión en nuestras vidas debe servir también como reflexión para extraer conocimiento y buenas prácticas.
En primer lugar, aunque sea muy repetitivo con respecto a todo lo publicado, urge revalorizar la ciencia como un bien para todos y en todos los momentos y, por tanto, no debe estar tan descuidada por los dirigentes políticos.
Los datos tienen pasado, presente y mucho futuro. Por tanto, es muy importante que se dispongan plataformas colaborativas donde puedan albergarse datos de situaciones pasadas de los que podamos disponer y aprender los científicos para poder integrarlos en modelos estadísticos que resuman la complejidad de la pandemia que estamos viviendo.
Más acción y menos egocentrismo
Esto nos permitirá que la próxima ocasión el virus no nos pille tan desprevenidos. Hubiera sido muy importante haber aprendido más y mejor del ébola en su momento para enfrentar la COVID-19 con mejores estrategias. Estas plataformas deberían tener datos a nivel mundial, pero empecemos por casa y creemos entornos de trabajo accesibles en España.
Es momento de la acción y de abandonar los egocentrismos que caracterizan al mundo de la ciencia, la colaboración presente y futura de las personas y de los equipos que pueden su experiencia en la comprensión de este fenómeno es fundamental.
El trabajo en equipo tan valorado en nuestras empresas debe ser en estos momentos la única forma de trabajo que ayuda a la validación y testeo de los avances hechos con datos.
Rosa Elvira Lillo es catedrática de Estadística e Investigación Operativa en la Universidad Carlos III de Madrid y directora del UC3M Santander Big Data Institute.
Durante los últimos tiempos, nos hemos estado jactando de que los datos son el petróleo del siglo XXI y así lo han confirmado empresas e instituciones de toda índole, cuando las decisiones que han tomado basadas en evidencias cuantitativas les han reportado más beneficios que las que eran tomadas por otras metodologías más tradicionales.
Se está acuñando, cada vez con más fuerza, que estamos ante una nueva revolución industrial porque el dato, a diferencia de lo que pasaba con anterioridad, se ha incrustado en cada proceso de la cadena de producción de cualquier actividad.
El auge del big data ha conseguido despertar vocaciones analíticas y ha contribuido a la formación de grupos de trabajo multidisciplinares que aportan soluciones integradas a multitud de problemas, sobre todo en el ámbito financiero y empresarial. A pesar de ello, grupos de trabajo más residuales ya llevamos tiempo aplicando todo el conocimiento que puede aportar el tratamiento masivo de datos a la Sanidad, la medicina, la genética y la epidemiología, con los consiguientes beneficios que ello supone para la sociedad en su conjunto.
La pandemia desencadenada por la COVID-19 está poniendo en evidencia que resulta esencial contar con datos. Y cuando escribo datos, quiero decir DATOS en mayúsculas. Datos que ayuden a que los modelos estadísticos que existen ya en la literatura para entender la expansión del virus se alimenten de información veraz para que todas las curvas que se nos están presentando últimamente en los medios de comunicación sean fiables.
Para ello, tenemos que echar mano de las simulaciones, de los algoritmos de predicción que posibilitan que se puedan ensayar distintos escenarios en función de distintas decisiones. El ejemplo de Corea del Sur es un espejo estupendo hacia el que mirar porque la utilización correcta de la aleatorización estructurada junto con la aplicación de modelos bien entrenados ha conducido a un control de los contagios muy eficiente.
Iniciativas de la comunidad científica
Me enorgullezco de todas las iniciativas que la comunidad científica relacionada con datos estamos llevando a cabo y cómo la integración de diferentes tipos de datos nos está permitiendo hacer un seguimiento exhaustivo de la evolución de la pandemia y estimar el número de contagios reales.
Por poner algunos ejemplos, el Comité Español de Matemáticas está coordinando a los distintos grupos de trabajo interesados en este para sumar iniciativas y transmitir al Gobierno una única voz con aportaciones científicas. La Sociedad de Española de Estadística e Investigación Operativa también está promoviendo la colaboración entre los miembros para aunar sinergias. Por su parte, Esteban Moro, investigador del MIT Media Lab y profesor en el departamento de Matemáticas de la UC3M, ha publicado un mapa de cómo la distancia social está cambiando la forma de moverse en New York utilizando geolocalizaciones.
Desde la Comisión Europea se han lanzado de forma urgente propuestas de tipo IMI (Iniciativa de Medicamentos Innovadores) para activar la investigación de la pandemia desde un punto de vista multidisciplinar. Es muy amplio el abanico de iniciativas y a pesar de que cada pequeño grano de arena cuenta, lo ideal sería que todo el efecto de este conocimiento se multiplicara articulando una coordinación efectiva.
Colaboración mundial
Por una parte, es esencial entender esta pandemia de manera global y, para ello, es necesario potenciar toda la colaboración posible entre expertos de distintos países, cobrando especial énfasis los consorcios ya establecidos antes del brote del virus.
Asimismo, es necesario entender la realidad y el mapa haciendo zoom en cada país y, dentro del mismo, descendiendo a unidades de estudio más pequeñas, como comunidades autónomas, ciudades, barrios… Es importante tener una foto actualizada, lo más fidedigna posible, para poder entender la incidencia mayor del virus en determinados ámbitos o la velocidad de contagio a diferentes escalas, en función de factores que solo se explican si los datos son analizados con gran agilidad y, por supuesto, por las personas adecuadas.
No es tiempo de intrusismo en el mundo de los datos. No quisiera que volviera tomar auge la famosa frase de Mark Twain de 1907: “Hay tres tipos de mentiras: mentiras, malditas mentiras y estadísticas”.
Sería de enorme ayuda que fuera el momento de la unidad de todos, no solo en el ámbito sanitario como estamos viendo estos días, sino también desde el punto de vista de la cesión de datos.
En este punto, soy consciente de la confrontación que se puede originar entre privacidad y bien común o entre público y privado.
Hace unos meses, la discusión estaba servida con la noticia de que el INE iba a aprovechar nuestras geolocalizaciones para poder estimar de forma más fiable y barata el censo.
¿Opinamos ahora lo mismo si la cesión de nuestros datos de posición pudiera ayudar a realizar un confinamiento más inteligente y a un aplanamiento de la curva? Si en estos momentos se pudiera contar con todos los datos de las empresas de telefonía y de las transacciones bancarias, se podría, gracias al potencial del big data, tener un mapa mucho más real del impacto del coronavirus en nuestra economía y una foto más clara del efecto del confinamiento.
He dejado para el final la importante labor de los datos como herramienta de trabajo para encontrar una solución vía medicamentos y vacunas que mermen la grave incidencia de este virus. En este aspecto hay dos confluencias importantes: una es la escasa información sobre el comportamiento del virus que se tenía a priori. La otra es que cada vez cobra más fuerza la existencia de un componente genético que determina pronósticos diferentes a nivel individual en la afección del virus.
Avanzar en este campo y con estas premisas requiere, como ya he comentado antes, de la cooperación máxima entre biólogos, genetistas, químicos y científicos de datos que ahonden en la comprensión conjunta del comportamiento del virus.
Cualquier avance en la componente genética del virus requiere de una capacidad de computación, de análisis y de desarrollo de nuevos modelos de selección de variables que hacen especialmente útiles las iniciativas para aunar todo el potencial posible de computación, como la que se ha llevado a cabo en EE UU donde se han conectado supercomputadores provenientes del estado, conjuntamente con los de empresas privadas y universidades.
La ayuda de los datos en este punto constituye un ejemplo muy ‘humanista’ de la importancia del big data en nuestro entorno que se explicará a posteriori en nuestros cursos como un caso de estudio de éxito.
Pero este punto de inflexión en nuestras vidas debe servir también como reflexión para extraer conocimiento y buenas prácticas.
En primer lugar, aunque sea muy repetitivo con respecto a todo lo publicado, urge revalorizar la ciencia como un bien para todos y en todos los momentos y, por tanto, no debe estar tan descuidada por los dirigentes políticos.
Los datos tienen pasado, presente y mucho futuro. Por tanto, es muy importante que se dispongan plataformas colaborativas donde puedan albergarse datos de situaciones pasadas de los que podamos disponer y aprender los científicos para poder integrarlos en modelos estadísticos que resuman la complejidad de la pandemia que estamos viviendo.
Más acción y menos egocentrismo
Esto nos permitirá que la próxima ocasión el virus no nos pille tan desprevenidos. Hubiera sido muy importante haber aprendido más y mejor del ébola en su momento para enfrentar la COVID-19 con mejores estrategias. Estas plataformas deberían tener datos a nivel mundial, pero empecemos por casa y creemos entornos de trabajo accesibles en España.
Es momento de la acción y de abandonar los egocentrismos que caracterizan al mundo de la ciencia, la colaboración presente y futura de las personas y de los equipos que pueden su experiencia en la comprensión de este fenómeno es fundamental.
El trabajo en equipo tan valorado en nuestras empresas debe ser en estos momentos la única forma de trabajo que ayuda a la validación y testeo de los avances hechos con datos.
Rosa Elvira Lillo es catedrática de Estadística e Investigación Operativa en la Universidad Carlos III de Madrid y directora del UC3M Santander Big Data Institute.