Cada vez se dan a conocer nuevos proyectos basados en inteligencia artificial que, con la información de los pacientes logran mejorar, en diferentes patologías, el diagnóstico o el tratamiento y se acercan cada día más a una Medicina Personalizada. Pero para realmente poder avanzar en este sentido, es necesario poder contar con un mayor número de datos sanitarios que puedan estar estructurados y que cuenten con la calidad y seguridad necesarios.
Con esta idea de fondo se plantea el llamado Data Lake Sanitario. Se trata de un repositorio de datos a nivel nacional cuyo objetivo es conseguir una capacidad de respuesta en tiempo real para la identificación y mejora del diagnóstico y tratamiento, identificación de factores de riesgo, análisis de tendencias, identificación de patrones, predicción de situaciones de riesgo sanitario y programación de recursos para su atención.
Cabe recordar que la Comisión Europea presentaba la propuesta para la puesta en marcha de la creación del Espacio Europeo de Datos Sanitarios (EEDS). Este será un ecosistema específico para la salud formado por reglas, normas y prácticas comunes, infraestructuras y un marco de gobernanza común. De esta forma, en España, el Gobierno también proponía un repositorio de datos nacional que recoja la información de los diferentes sistemas de información existentes y permita el procesamiento y análisis masivo de datos. Un proyecto que se espera esté terminado para el año 2025.
La propuesta de un Data Lake Sanitario
La creación de un Data Lake Sanitario forma parte del Plan de Recuperación, Transformación y Resiliencia Económica (PRTR), la hoja de ruta marcada en 2021 para reconstruir y transformar la economía española tras la pandemia de la COVID-19. En concreto, el Data Lake Sanitario está recogido en el componente 18. Según el mismo, la definición de usos se establecerá en fases posteriores del proyecto y se prevé la posibilidad de incorporar a los proveedores sanitarios privados. La Secretaría de Estado de Digitalización e Inteligencia Artificial es la responsable del proyecto para la constitución del Espacio Nacional de Datos de Salud, que actúa a través de la Secretaría General de Administración Digital. Este proyecto se lleva a cabo en colaboración con el Ministerio de Sanidad y en conjunto con comunidades y ciudades autónomas.La situación actual
Para lograr este propósito, el Gobierno aprobó en diciembre de 2022 la distribución territorial de 28 millones de euros de fondos europeos. Para llevar a cabo la distribución del crédito se tuvo en cuenta una cantidad fija y otra variable en función del volumen de población, para asegurar que todas mantienen un nivel suficiente de recursos tecnológicos y organizativos que permitan hacer disponibles los datos para el desarrollo del Espacio Nacional de Datos de Salud. Asimismo, para asegurar un adecuado seguimiento de los proyectos, las Comunidades Autónomas y Ceuta y Melilla deberán proporcionar la información relativa a las diferentes actividades de inversión que se propongan financiar con cargo a los fondos en el sistema integrado para la gestión, así como información sobre las previsiones para el cumplimiento de los objetivos estratégicos del Plan de Recuperación. Tal y como informan desde la Secretaría de Estado de Digitalización e Inteligencia Artificial (SEDIA), este proyecto está sometido al cumplimiento a diciembre de 2023 del objetivo marcado por la Unión Europea, que consiste en la operatividad del Data Lake sanitario a escala estatal y la incorporación de las 17 Comunidades Autónomas y las Ciudades Autónomas de Ceuta y Melilla con el objetivo de permitir el análisis masivo de datos sanitarios. Una vez que este Data Lake esté operativo, se podrán abordar casos de uso definidos en el marco de los Grupos de Trabajo creados a tal fin entre el Ministerio de Sanidad, Comunidades Autónomas y Secretaría de Estado de Digitalización e Inteligencia Artificial y aprobados por la Comisión de Salud Digital. Así, en estos momentos, se está trabajando en la licitación de este proyecto con la determinación de cumplir el objetivo CID marcado por Europa y en el análisis de dos casos de uso ya aprobados por la Comisión de Salud Digital.El paraguas del Espacio Europeo de Datos Sanitarios
Para entender el funcionamiento del Data Lake Sanitario en España, en primer lugar, hay que conocer cómo se está trabajando a este respecto en Europa. Así, hay que recordar que el Espacio Europeo de Datos Sanitarios promoverá un mejor intercambio y acceso a diferentes tipos de datos sanitarios (historias clínicas electrónicas, datos genómicos, registros de pacientes, etc.), no sólo para apoyar la prestación de asistencia sanitaria transfronteriza, sino también para la investigación sanitaria y la elaboración de políticas en el ámbito de la salud. Para que esto sea una realidad, es necesario establecer unos principios de gobernanza, calidad del dato, interoperabilidad y principios FAIR (que los datos sean fáciles de encontrar, accesibles, interoperables y reutilizables) que están en la misma base de la definición del ENDS (Espacio Nacional de Datos de Salud), con el que se interconectará de forma segura. En concreto, desde la SEDIA, junto con el Consejo Interterritorial del Sistema Nacional de Salud, se aportará la estandarización y normalización necesaria para que la información sea accesible e interoperable con el Espacio Europeo de Datos Sanitarios, y poder integrar con ello una gran estructura de información a nivel europeo puesta a disposición de la investigación y la creación de políticas que redunden en la mejora de la salud de todos los ciudadanos europeos. Igualmente, hay que recordar que, con el fin de liberar todo el potencial de los datos sanitarios, la Comisión Europea ya presentó un proyecto de un reglamento para crear este EEDS. De esta forma, el mismo plantea que las personas tomen el control de sus propios datos sanitarios, que se usen para mejorar la prestación de asistencia sanitaria, la investigación, la innovación y la elaboración de políticas, y que permita a la UE aprovechar plenamente el potencial que ofrece el intercambio, el uso y la reutilización de los datos sanitarios seguros y protegidos. Este reglamento se basa en el Reglamento general de protección de datos (RGPD), la propuesta de Ley de Gobernanza de Datos, el proyecto de Ley de Datos y la Directiva sobre redes y sistemas de información. Normas todas que tienen en cuenta el carácter sensible de los datos sanitarios. Así lo hacía constar Juan del Llano, presidente de la Fundación Gaspar Casal, tal y como lo recogía en un artículo de fondo sobre las características de este reglamento. En concreto, adelantaba que una de las principales preocupaciones de estos repositorios de datos, y que suelen poner sobre la mesa los expertos en diferentes foros, es la regulación del uso secundario de los datos. Es decir, que el dato que el médico recoge en la historia clínica o incluso que el paciente registra en dispositivos en casos de telemonitorización, pueda ser posteriormente usado para hacer un perfil más concreto del paciente que permita anticipar eventos de salud, realizar trabajos de investigación que posibiliten mejorar el conocimiento en áreas como la Oncología o las enfermedades raras o incluso para hacer un seguimiento más amplio de la población, que permita poner medidas más ajustadas en materia de Salud Pública. Sobre esta cuestión, Juan del Llano aporta que el Reglamento plantea que, aunque los datos sanitarios ya están siendo recogidos y tratados utilizando medios electrónicos, en muchos casos el acceso a los mismos no se facilita para satisfacer otras finalidades de interés general. Por esta razón, con carácter general, se pretende establecer una regulación amplia que facilite los usos secundarios de los datos sanitarios, para, por ejemplo, la elaboración de estadísticas, el desarrollo de actividades formativas y de investigación, el uso de algoritmos de inteligencia artificial o la Medicina Personalizada. Pese a ello, sí que se plantea declarar incompatibles algunos usos secundarios, como son la adopción de decisiones perjudiciales para las personas físicas, entendiendo por tales no sólo las que produzcan efectos jurídicos sino, en general, las que les afecten de manera significativa. A este respecto, se destacan específicamente las modificaciones relativas a los contratos de seguro como, por ejemplo, el incremento de las primas que se han de abonar. Lo mismo ocurre con la realización de actividades de publicidad o comercialización dirigidas a profesionales sanitarios, organizaciones del sector o personas físicas. También con la puesta a disposición de los datos a terceros que no se contemplen en el permiso de datos que se otorgue. Asimismo, tampoco se contempla el desarrollo de productos y servicios perjudiciales, incluyendo particularmente las drogas ilícitas, las bebidas alcohólicas, los productos del tabaco o los bienes o servicios que contravengan el orden público o la moral.Usos previos de datos sanitarios
“Anualmente el Sistema Nacional de Salud, según datos oficiales, atiende 234 millones de consultas médicas de atención primaria, 83 millones de consultas hospitalarias, 4 millones de ingresos hospitalarios y 23 millones de urgencias. Y los datos generados en estas interacciones son una valiosísima fuente de información que actualmente no se está explotando convenientemente. Por un lado, porque son datos confidenciales, y por otro porque la gestión es descentralizada a través de las comunidades autónomas”, señala Amaia Brugos, gestora de referencia de los fondos Next Generation EU en Zabala Innovation. Para contextualizar lo que supondrá el Data Lake Sanitario en este contexto tan amplio, cabe tener en cuenta iniciativas previas en España sobre el uso de datos sanitarios. Precisamente, en el marco del programa 4YFN-MWC, el contexto del Data Lake Sanitario fue uno de los temas protagonistas. Así, Daniel Prieto, profesor de farmacología en Oxford University; Eva Aurin, gerente eHealth de Telefónica y Miguel Ángel Armengol de la Hoz, responsable del Área de Big Data, PMC-FP, explicaron cómo habían existido experiencias previas de las que poder aprender en Europa. En concreto, la Agencia Europea de Medicamentos (EMA) y la Red Europea de Regulación de Medicamentos trabajan en un centro de coordinación para proporcionar pruebas oportunas y fiables sobre el uso, la seguridad y la eficacia de los medicamentos de uso humano, incluidas las vacunas, a partir de bases de datos sanitarias del mundo real en toda la Unión Europea (UE). El nuevo centro, el Data Analysis and Real World Interrogation Network (DARWIN EU) ofrece evidencia de la práctica clínica real de toda Europa sobre enfermedades, poblaciones y usos y rendimiento de los medicamentos. En este caso, se trata de un repositorio de almacenamiento de datos anónimos en bruto y de manera virtual que, después de un procesamiento con herramientas de Big data, puede ofrecer datos válidos de forma casi inmediata, para incidir en la eficacia de la atención sanitaria. Ello puede influir en la mejora de diagnósticos y tratamientos, la reducción de costes, la anticipación de episodios con alertas inteligentes, la optimización de recursos, el impulso de la Medicina personalizada o la aplicación de modelos predictivos para anticipar necesidades sanitarias. En la misma línea, en España ya se está empezando a trabajar con datos sanitarios en grandes hubs como Madrid o Málaga. Como explicaba Miguel Ángel Armengol de la Hoz, “hemos hablado suficiente del potencial riesgo que supone para la privacidad del paciente el compartir datos. Sin embargo, hay que empezar a hablar del daño que supone para su salud no hacerlo”. Sobre la experiencia previa trabajando con datos sanitarios en España, hablaba para EL MÉDICO Ismael Said, médico internista y coordinador del Grupo de Trabajo de Medicina Digital de la Sociedad Española de Medicina Interna, que ha sido nombrado nuevo chairman of the ‘Telemedicine, Innovative Technologies and Digital Health Working Group’ en la European Federation of Internal Medicine (EFIM). “Aun con la heterogeneidad de sistemas de información sanitaria que tenemos en España, el avance en digitalización de la historia clínica electrónica ha sido bastante rápido en los últimos 15 años y los profesionales españoles conocemos bien las posibilidades que ofrece la interoperabilidad entre diferentes historias clínicas”. De hecho, el experto recordaba que en algunas regiones hemos sido pioneros en esa digitalización, incluso en comparación con otros países europeos.Ventajas y desventajas a tener en cuenta
Teniendo en cuenta todo este contexto, la pregunta que cabe hacerse es lo que realmente va a aportar este Data Lake Sanitario y si, en contrapartida, puede suponer algunas desventajas. Sobre esta cuestión también opina para EL MÉDICO, Julio Jesús Sánchez, gerente de Proyectos de Sanidad y Transformación Digital en Telefónica España y portavoz de la Asociación de Salud Digital (ASD). “Se esperan muchas ventajas. No en vano se llaman a los datos el petróleo del futuro”. Entre otras cuestiones, destaca que la agregación de datos sanitarios es un activo muy importante para la investigación científica. “Adicionalmente, los datos del Data Lake serán el combustible para la creación de algoritmos de inteligencia artificial, que mejorarán la Sanidad por el camino de conseguir diagnósticos y tratamientos más eficaces. Además, tener consolidados los datos sanitarios de los ciudadanos es la base para poder desarrollar una Medicina más preventiva, personalizada, participativa y de precisión”. Respecto a las desventajas, el experto solo señala las dificultades de pasar de la teoría a la práctica. “Es un proyecto de país de gran envergadura y, lógicamente, necesita una importante inversión”. En esta línea, Ana Puche, urgencióloga y especialista en Medicina Familiar y Comunitaria, publicaba un artículo para el blog de salud de Mapfre, con algunas reflexiones a este mismo respecto, destacando que el Data Lake Sanitario facilitará la continuidad de su asistencia y evitará las duplicidades (o multiplicidades) de información, ayudando a disminuir los errores que pudieran generarse de no disponer de dicha información. Por otro lado, al poder incluir y analizar datos globales, podrá servir para buscar cambios de ritmo de enfermedades a nivel nacional o regional. Esto tendría un papel muy importante a la hora de detectar picos de incidencia de ciertas enfermedades. Algo útil, por ejemplo, para adelantarse a nuevas posibles pandemias. En cuanto a los inconvenientes, la experta señala la necesidad de buscar un buen sistema para almacenar unos datos tan sensibles de forma segura. No obstante, los datos sanitarios son una información privada y especialmente sensible que puede afectar a muchos ciudadanos. Asimismo, es necesario plantear una infraestructura flexible, ya que los datos sanitarios no son una información estanca, sino que crecen a gran velocidad y de forma importante.El manejo de la información
Por su parte, Ismael Said agrega que es previsible que, gracias a este Data Lake estatal, mejore la distribución de los recursos sanitarios y se adecúen a las necesidades detectadas en tiempo real. “Tanto a nivel de la microgestión, de la gestión clínica específicamente, es difícil que los profesionales podamos tener acceso al uso secundario de los datos, dadas las reticencias actuales para hacer uso de datos masivos, tanto para la investigación sanitaria como para la medición de resultados en salud”. Por ello, según Said “la situación ideal sería que cada profesional pudiera acceder a los datos relativos a su actividad clínica, y poder así conocer cómo es su desempeño y cómo mejorarlo”. De esta forma, según el experto, con un Data Lake bien estructurado, con datos clínicos bien codificados, “la posibilidad de medir resultados en salud a nivel de pequeñas muestras de pacientes sería muy fácil y la investigación clínica se potenciaría de forma exponencial”. Pese a ello, señala que considera “poco probable que la legislación y la cultura de gobernanza de los datos clínicos cambie a pesar del desarrollo de este macroproyecto tecnológico”.Papel de los profesionales sanitarios
Otra de las preguntas es cuál será el papel de los profesionales sanitarios en el futuro del Data Lake Sanitario. Tal y como insisten desde la SEDIA, los profesionales tienen un papel fundamental tanto en su fase de concepción como ya está ocurriendo en el seno del Grupos de Trabajo creados a tal fin entre el Ministerio de Sanidad, Comunidades Autónomas y Secretaría de Estado de Digitalización e Inteligencia Artificial, como en su fase de operación. El objetivo final va a ser apoyar la investigación sanitaria y la elaboración de políticas en el ámbito de la salud. Es por ello que se espera proporcionar recursos que faciliten el desarrollo e implantación de proyectos de procesamiento masivo de datos por parte de las Comunidades Autónomas, Ministerio, centros y unidades de investigación. La compartición de estos recursos, accesibles desde un único punto de entrada, hará posible, por ejemplo, el entrenamiento de modelos de inteligencia artificial con una cantidad de información imposible de alcanzar desde una fuente aislada, con lo que la precisión de dichos modelos abrirá caminos imposibles de abordar en la actualidad. Todo ello siempre protegiendo plenamente los datos de los ciudadanos, de acuerdo con el marco legal europeo. Por su parte, el portavoz de la ASD, Julio Jesús Sánchez, insiste en que los profesionales sanitarios son el origen de los datos. Por ello, recoger los mismos de forma correcta y segura también es asumir una nueva responsabilidad. “No hay calidad del dato sin contar con los profesionales sanitarios, y no se puede hacer nada útil con los datos sin calidad. Por otro lado, los profesionales sanitarios serán los usuarios de las herramientas que se obtengan a partir del Data Lake. “En primer lugar, dispondrán agregada y de una manera ubicua la información de sus pacientes”. Además, contarán con los algoritmos de inteligencia artificial como nuevas herramientas a su servicio en el diagnóstico y tratamiento de sus pacientes. “Todo esto formará parte de la Historia Clínica Inteligente, donde la información de los pacientes no sólo estará integrada, sino que los algoritmos la enriquecerán continuamente”. Para que todo esto sea una realidad, será necesario trabajar en la capacitación digital de los profesionales sanitarios. Sin embargo, será necesario ir un paso más allá y que los servicios sanitarios se nutran con nuevos perfiles como los ingenieros de datos y científicos de datos para su función de investigación científica. “Estos serán los equipos interdisciplinares de perfiles sanitarios y técnicos que podrán sacar el máximo valor a los datos del Data Lake”, según el portavoz de la ASD.Documentación y fuentes
- https://espanadigital.gob.es/lineas-de-actuacion/data-lake-sanitario
- https://portal.mineco.gob.es/es-es/comunicacion/Paginas/data-lake-sanitario.aspx
- https://www.lamoncloa.gob.es/presidente/actividades/Documents/2021/151121_PERTE-Memoria-explicativa.pdf
- https://health.ec.europa.eu/publications/proposal-regulation-european-health-data-space_en
- https://www.digitales.es/wp-content/uploads/2022/07/EEDS_Espacio-Sanitario-de-Datos-Europeos.pdf
- 4YFN-MWC
- https://fundaciongasparcasal.blog/2023/04/24/ue-y-data-lake-sanitario/
- https://www.salud.mapfre.es/enfermedades/reportajes-enfermedades/data-lake-sanitario-espana/
- https://www.zabala.es/noticias/data-lake-sanitario/
- Secretaría de Estado de Digitalización e Inteligencia Artificial
- Asociación de Salud Digital
- Sociedad Española de Medicina Interna