Directorate General for Research & Innovation

Analysis of research data in health: opportunities within reach

9 febr.

The generation and storage of data is omnipresent nowadays. The costs have fallen drastically and the health sector is not alien to this. To illustrate this, it is worth having a look at the following graph created by the National Institutes of Health about the human genome, which shows the evolution of the cost of sequencing a genome: Cost per genome

As can be seen, since 2007, the cost of sequencing a genome has fallen dramatically. Having one’s own genome sequenced is now possible and in the future it may become commonplace. Bearing in mind that a copy of the human genome is made up of aproximately 3 million base pairs (3 million adeninines, thymines, citosines or guanines arranged sequentially in 23 chromosomes ) it is easy to infer that, also within this field, the quantity of data generated in the coming years will be massive.

This tendency is repeated in other areas of health care: among other, clinical history data in electronic format, medical imaging, primary care data or that of drug consumption are obtained and stored in registries, in general, structured and interlinked. The potential of this data for carrying out research in order to provide better health care is notable, in the way of faster and more accurate diagnoses, improved therapeutic approaches and a better management of the system.

To analyse the challenges and opportunities at a European level, a work session organised by the Directorate-General for Research and Innovation of the European Commission was held in Luxembourg with representatives from AQuAS. The points discussed have been gathered in the article Making sense of big data in health research: Towards an EU action plan, published in the Genome Medicine magazine and of open access. As explained in the article, using this information to provide better healthcare is a challenge but a great opportunity at the same time.

Nevertheless, a big effort is required to transform this data into knowledge and specific actions. However much the costs of generating and storing data may drop, the management of information, its interpretation, and the generation of knowledge needs considerable investment and resources. This means having adequate information systems as well as the economic and human resources so that the data can be treated efficiently and the protection of individual rights guaranteed. In addition, the participation, commitment and effective communication of all the agents of the system is needed (including the scientific community, patients, citizens, the administration, and so on) to guarantee that this data is used efficiently, responsibly and that it promotes research which is efficient and of quality.

Catalonia, because of the size of its population, the fact that it has an integrated health system and the work done over many years, is well positioned to be able promote the reuse of health data for research. At an international level, some comparable projects exist and new projects exist with the goal of integrating and consolidating data from different sources, with some very ambitious and attractive programmes. The PADRIS Programme, presented last 12 January, aims to centralise and make the data generated in health available to researchers in research centres in Catalonia and universities so as to provide better healthcare with a maximum guarantee in security and privacy. The work to be done is considerable. The resources needed too. The opportunities to provide better research and better healthcare are within reach.

Post written by Xavier Serra-Picamal, researcher at the Karolinska Institutet (Sweden).

* TERMCAT (the centre for terminology in the Catalan language) has recently dealt with the question of how to say data scientist in Catalan. The subject is very much a current issue!

Analítica de datos en investigación en salud: oportunidades al alcance

9 febr.

La generación y almacenaje de datos es ya omnipresente. Los costes han disminuido de forma drástica y el ámbito sanitario no es ajeno. Para ilustrarlo, vale la pena ver el siguiente gráfico, elaborado por el Instituto americano de investigación sobre el genoma humano (National Human Genome Research Institute), y que muestra la evolución del coste de secuenciación de un genoma:

Cost per genome

Como se observa, desde 2007, lo que cuesta secuenciar un genoma ha disminuido enormemente. Tener el propio genoma secuenciado ya es posible y en un futuro posiblemente sea frecuente. Teniendo en cuenta que una copia del genoma humano está formado por aproximadamente 3 millones de pares de bases (3 millones de adeninas, timinas, citosinas o guaninas dispuestas secuencialmente en 23 cromosomas) es fácil deducir que, también en este ámbito, la cantidad de datos que se generarán en los próximos años será ingente.

La tendencia se replica en otros aspectos de la atención sanitaria: datos de historiales clínicos en formato electrónico, imagen médica, datos de atención primaria o de consumo de fármacos, entre otros, son obtenidos y almacenados en registros, generalmente estructurados y entrelazados. El potencial de estos datos para hacer investigación que sirva para proveer una mejor asistencia sanitaria es notoria, en forma de diagnósticos más rápidos y detallados, mejores abordajes terapéuticos y una mejor gestión del sistema.

Para analizar los retos y oportunidades a nivel europeo, se hizo una sesión de trabajo organizada por la Dirección General por la Investigación e Innovación de la Comisión Europea en Luxemburgo, con presencia de AQuAS. Los puntos que se discutieron se han recogido en el artículo Making sense of big data in health research: Towards an EU action plan, publicado en la revista Genome Medicine, y que se puede consultar en abierto. Tal como se recoge en el artículo, utilizar esta información con el fin de proveer una mejor atención sanitaria es un reto y una gran oportunidad al mismo tiempo.

Hace falta, sin embargo, un gran esfuerzo a fin de que estos datos se transformen en conocimiento y acciones concretas. Por más que los costes de generación y almacenaje bajen, la gestión de la información, interpretación, y generación de conocimiento necesitan de una gran inversión y recursos. Eso implica dotarse de sistemas de información y recursos económicos y humanos adecuados, a fin de que los datos se traten de manera eficiente, garantizando la preservación de los derechos individuales. Además, es necesaria la participación, implicación y comunicación de todos los agentes del sistema (incluyendo la comunidad científica, pacientes, ciudadanos, administración…) para garantizar que el uso de estos datos sea eficiente, responsable y fomente una investigación eficiente y de calidad

Cataluña, por el número de habitantes, el hecho de disponer de un sistema sanitario integrado y por el trabajo hecho durante años, está en una buena posición para fomentar la reutilización de datos de salud para la investigación. A nivel internacional, existen algunos proyectos equiparables, y existen nuevos proyectos para poder integrar y consolidar datos de diferentes fuentes, con algunos programas muy ambiciosos y atractivos. El programa PADRIS que se presentó el pasado 12 de enero, nace con el objetivo de centralizar y poner al alcance de los investigadores de los centros de investigación de Cataluña y universidades los datos que se generan en salud con el fin de ofrecer una mejor atención sanitaria con las máximas garantías de seguridad y privacidad. El trabajo para hacer es grande. Los recursos necesarios también. Las oportunidades para ofrecer una mejor investigación y una mejor atención sanitaria están al alcance.

Entrada elaborada por Xavier Serra-Picamal, investigador en el Karolinska Institutet (Suecia).

*Recientemente, el TERMCAT (centro de terminología de la lengua catalana) ha tratado la cuestión sobre cómo se puede decir data scientist en catalán. ¡El tema es muy actual!

Analítica de dades en recerca en salut: oportunitats a l’abast

9 febr.

La generació i emmagatzematge de dades és ja omnipresent. Els costos han disminuït de forma dràstica i l’àmbit sanitari no n’és aliè. Per il·lustrar-ho, val la pena veure el següent gràfic, elaborat per l’Institut americà de recerca sobre el genoma humà (National Human Genome Research Institute), i que mostra l’evolució del cost de seqüenciació d’un genoma:

Cost per genome
Com s’observa, des de 2007, el que costa seqüenciar un genoma ha disminuït enormement. Tenir el propi genoma seqüenciat ja és possible i en un futur possiblement sigui freqüent. Tenint en compte que una còpia del genoma humà està format per aproximadament 3 milions de parells de bases (3 milions d’adenines, timines, citosines o guanines disposades seqüencialment en 23 cromosomes) és fàcil deduir que, també en aquest àmbit, la quantitat de dades que es generaran en els propers anys serà ingent.

La tendència es replica en altres aspectes de l’atenció sanitària: dades d’historials clínics en format electrònic, imatge mèdica, dades d’atenció primària o de consum de fàrmacs, entre d’altres, són obtingudes i emmagatzemades en registres, generalment estructurats i entrellaçats. El potencial d’aquestes dades per a fer recerca que serveixi per proveir una millor assistència sanitària és notòria, en forma de diagnòstics més ràpids i acurats, millors abordatges terapèutics i una millor gestió del sistema.

Per analitzar els reptes i oportunitats a nivell europeu, es va fer una sessió de treball organitzada pel Directorat General per la Recerca i Innovació de la Comissió Europea a Luxemburg, amb presència d’AQuAS. Els punts que es van discutir s’han recollit a l’article Making sense of big data in health research: Towards an EU action plan, publicat a la revista Genome Medicine, i que es pot consultar en obert. Tal i com es recull en l’article, utilitzar aquesta informació per tal de proveir una millor atenció sanitària és un repte i una gran oportunitat alhora.

Cal, però, un gran esforç per tal que aquestes dades es transformin en coneixement i accions concretes. Per més que els costos de generació i emmagatzematge baixin, la gestió de la informació, interpretació i generació de coneixement necessiten d’una gran inversió i recursos. Això implica dotar-se de sistemes d’informació i recursos econòmics i humans adequats, per tal que les dades es tractin de manera eficient, garantint la preservació dels drets individuals. A més, és necessària la participació, implicació i comunicació de tots els agents del sistema (incloent la comunitat científica, pacients, ciutadans, administració…) per garantir que l’ús d’aquestes dades sigui eficient, responsable i fomenti una recerca eficient i de qualitat

Catalunya, pel nombre d’habitants, el fet de disposar d’un sistema sanitari integrat i per la feina feta durant anys, està en una bona posició per fomentar la reutilització de dades de salut per a la recerca. A nivell internacional, existeixen alguns projectes equiparables, i existeixen nous projectes per poder integrar i consolidar dades de diferents fonts, amb alguns programes molt ambiciosos i atractius. El programa PADRIS que es va presentar el passat 12 de gener, neix amb l’objectiu de centralitzar i posar a l’abast dels investigadors dels centres de recerca de Catalunya i universitats les dades que es generen en salut per tal d’oferir una millor atenció sanitària amb les màximes garanties de seguretat i privacitat. La feina per fer és gran. Els recursos necessaris també. Les oportunitats per oferir una millor recerca i una millor atenció sanitària són a l’abast.

Entrada elaborada per Xavier Serra-Picamal, investigador al Karolinska Institutet (Suècia).

*Recentment, el TERMCAT (centre de terminologia) ha tractat la qüestió sobre com es pot dir data scientist en català. El tema és ben actual!