Skip to main content
Cadernos de Saúde Pública logoLink to Cadernos de Saúde Pública
editorial
. 2024 Jun 21;40(6):e00087624. doi: 10.1590/0102-311XEN087624
View full-text in Portuguese, Spanish

From secondary data to Population Data Science: remembering 40 years of scientific production within CSP pages

Cláudia Medina Coeli 1
PMCID: PMC11192569  PMID: 38922223

It was a great joy accepting the invitation to write this editorial. A special opportunity to celebrate together with Marilia Sá Carvalho, Luciana Dias de Lima, Luciana Correia Alves and the entire CSP community the 40th anniversary of this important editorial project, in which I had the honor of working for nine years as Coeditor-in-Chief. Having as main research focus the development of techniques and the use of secondary databases, reviewing the scientific production of this topic within CSP allowed me to recall articles that were fundamental references for my education and development of my research projects.

The first CSP issue appeared in 1985. Internationally the sale of personal computers (PCs) 1 was gaining momentum, followed in the early 1990s by the opening of access to the World Wide Web (WWW) 2 to the public. These advances were significant for popularizing information technologies.

Administrative databases began to be used as secondary data sources in Public Health research 3 . In the 1990s, and in the first decade of the 2000s, Data Centers were implemented in Australia, Canada, and the United Kingdom. In these organizations, administrative databases are linked continuously, and the resulting anonymized datasets can be accessed by researchers to develop their projects 4 .

In the same period, Brazil created the Brazilian Health Informatics Department (DATASUS, acronym in Portuguese) 5 in 1991, which contributed significantly to accessibility to the Brazilian administrative databases. The model adopted for data dissemination was, however, different from the Data Center mentioned above. Two access modalities were made available: one through an online tabulator, which allows to create tables of the main national Health Information Systems; the other by the dissemination of unidentified microdata. The databases were initially distributed on monthly compact discs (CDs), and later made available for online downloads. Information on births, deaths, notifiable diseases, primary care, outpatient and hospital care, health facilities and public budget began to be made available not only to researchers, but also to the population at large. This Open Data model is unique for its innovation, data variety, time and territorial coverage of the databases, and inclusive access. Digital format information of interest to health care also began to be made available by different institutions such as the Brazilian Institute of Geography and Statistics (IBGE, acronym in Portuguese), the Brazilian National Supplementary Health Agency (ANS, acronym in Portuguese), the Brazilian Health Regulatory Agency (Anvisa, acronym in Portuguese), as well as state and municipal Health Departments.

Even before digital dissemination, administrative data, especially on mortality, were used in Brazil for Public Health research. However, the ease of access provided by the adhesion of Brazilian institutions to the open data model encouraged this type of use. By consulting PubMed, I identified 461 articles published in CSP that used administrative data, of which 86 addressed quality-related topics. Among the latter, the article stemming form Claudia Risso de Araujo Lima’s thesis stands out 6 . Claudia, who was a member of the DATASUS team, was one of those responsible for implementing the health information dissemination policy in Brazil. Published in 2009, her article continues to be referenced (96 citations in the Scopus database). Her major contribution is to review quality dimensions in the evaluation of Brazilian health information systems.

Publishing articles that assess the quality of both information systems and processes for linking databases meets a growing demand for the adoption of good practices in conducting and reporting studies that use secondary data 7 , 8 . An editorial 9 and a perspective paper 10 reinforce CSP’s editorial policy of promoting the responsible use of administrative databases in research.

CSP has also published four methodological articles presenting computational routines for database processing. Three solutions focused on record linkage 11 , 12 , 13 and the fourth, the Microdatasus 14 package, optimizes the download and pre-processing of microdata made available by DATASUS. In 2000, Reclink was published as a free but closed-source software 11 . The new OpenReclink version was published in 2015 as open source 12 . EPPD 13 and Microdatasus 14 are also open source, in compliance with CSP’s editorial policy of adhering to open science 15 .

Information technologies saw a rapid expansion in these 40 years. Advances in the capacity to capture, process, store, communicate and analyze data occurred successively, with incremental advances in each area stimulating advances in the others. Currently, we can process large amounts of information in real time. Unstructured data in different formats, such as texts in documents or social networks, images, and sensor outputs, are new sources for secondary use in research. Moreover, techniques developed by Information Science such as data mining, machine learning, and large language models (LLMs) were introduced into health research. These innovations led to the creation of a new disciplinary field, called Population Data Science 16 , 17 which, through the organization, integration, linkage, and analysis of individual and contextual data, intends to generate population level evidence valuable for society. Articles on the development or application of record linkage techniques have been published in CSP since the 2000s. Recently, with the greater dissemination in Public Health of Information Science techniques, articles using data mining, text and machine learning have been published.

In addition to technical issues, Population Data Science seeks models for managing information access that balance the right to personal information protection with the potential benefits to society of using administrative databases in research, a topic addressed by more than one article published in CSP 18 , 19 , 20 .

Over the course of 40 years, CSP has published articles addressing the main topics of Population Data Science, promoting good practices in the use of secondary data in research of interest to society. Consistent with its mission, it proved to be a crucial vehicle for circulating ideas and methods in this field.

__________

  • 1.McCracken H. TIME's Machine of the Year, 30 years later. [09/May/2024]. https://techland.time.com/2013/01/04/times-machine-of-the-year-30-years-later .
  • 2.Redator Rock Content Conheça a história da Internet, sua finalidade e qual o cenário atual. [09/May/2024]. https://rockcontent.com/br/blog/historia-da-internet/
  • 3.Boslaugh S. Secondary data sources for public health: a practical guide. Cambridge: Cambridge University Press; 2007. [Google Scholar]
  • 4.Coeli CM, Pinheiro RS, Camargo KR., Jr Conquistas e desafios para o emprego das técnicas de record linkage na pesquisa e avaliação em saúde no Brasil. Epidemiol Serv Saúde. 2015;24:795–802. [Google Scholar]
  • 5.Ministério da Saúde . Departamento de Informática do SUS. Trajetória 1991-2002. Brasília: Ministério da Saúde; 2002. [Google Scholar]
  • 6.Lima CRA, Schramm JMA, Coeli CM, Silva MEM. Revisão das dimensões de qualidade dos dados e métodos aplicados na avaliação dos sistemas de informação em saúde. Cad Saúde Pública. 2009;25:2095–2109. doi: 10.1590/s0102-311x2009001000002. [DOI] [PubMed] [Google Scholar]
  • 7.Leonelli S. A pesquisa científica na Era do Big Data: cinco maneiras que mostram como o Big Data prejudica a ciência, e como podemos salvá-la. Rio de Janeiro: Editora Fiocruz; 2022. [Google Scholar]
  • 8.Christen P, Schnell R. Thirty-three myths and misconceptions about population data from data capture and processing to linkage. Int J Popul Data Sci. 2023;8:2115–2115. doi: 10.23889/ijpds.v8i1.2115. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 9.Coeli CM. A qualidade do linkage de dados precisa de mais atenção. Cad Saúde Pública. 2015;31:1349–1350. doi: 10.1590/0102-311XED010715. [DOI] [PubMed] [Google Scholar]
  • 10.Coeli CM, Pinheiro RS, Carvalho MS. Neither better nor worse, simply different. Cad Saúde Pública. 2014;30:1363–1365. doi: 10.1590/0102-311xpe010714. [DOI] [PubMed] [Google Scholar]
  • 11.Camargo KR, Jr, Coeli CM. Reclink: aplicativo para o relacionamento de bases de dados, implementando o método probabilistic record linkage. Cad Saúde Pública. 2000;16:439–447. doi: 10.1590/s0102-311x2000000200014. [DOI] [PubMed] [Google Scholar]
  • 12.Camargo KR, Jr, Coeli CM. Going open source: some lessons learned from the development of OpenRecLink. Cad Saúde Pública. 2015;31:257–263. doi: 10.1590/0102-311x00041214. [DOI] [PubMed] [Google Scholar]
  • 13.Brustulin R, Marson PG. Inclusão de etapa de pós-processamento determinístico para o aumento de performance do relacionamento (linkage) probabilístico. Cad Saúde Pública. 2018;34:e00088117. doi: 10.1590/0102-311X00088117. [DOI] [PubMed] [Google Scholar]
  • 14.Saldanha RF, Bastos RR, Barcellos C. Microdatasus pacote para download e pré-processamento de microdados do Departamento de Informática do SUS (DATASUS) Cad Saúde Pública. 2019;35:e00032419. doi: 10.1590/0102-311X00032419. [DOI] [PubMed] [Google Scholar]
  • 15.Carvalho MS. Aberto, por quê. Cad Saúde Pública. 2015;31:221–222. doi: 10.1590/0102-311xed010215. [DOI] [PubMed] [Google Scholar]
  • 16.McGrail K, Jones K, Akbari A, Bennett T, Boyd A, Carinci F. A position statement on population data science the science of data about people. Int J Popul Data Sci. 2018;3:415–415. doi: 10.23889/ijpds.v3i1.415. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 17.Coeli CM. Ciência de dados populacionais. Epidemiol Serv Saúde. 2022;31:e2022119. doi: 10.1590/S2237-96222022000300001. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 18.Ventura M. Lei de acesso à informação, privacidade e a pesquisa em saúde. Cad Saúde Pública. 2013;29:636–638. [PubMed] [Google Scholar]
  • 19.Ventura M, Coeli CM. Para além da privacidade direito à informação na saúde, proteção de dados pessoais e governança. Cad Saúde Pública. 2018;34:e00106818. doi: 10.1590/0102-311X00106818. [DOI] [PubMed] [Google Scholar]
  • 20.Keinert TMM, Cortizo CT. Dimensões da privacidade das informações em saúde. Cad Saúde Pública. 2018;34:e00039417. doi: 10.1590/0102-311X00039417. [DOI] [PubMed] [Google Scholar]
Cad Saude Publica. 2024 Jun 21;40(6):e00087624. [Article in Portuguese] doi: 10.1590/0102-311XPT087624

De dados secundários à Ciência de Dados Populacionais: recordando 40 anos da produção científica nas páginas de CSP

Cláudia Medina Coeli 1

Foi com grande alegria que aceitei o convite para escrever este editorial. Uma oportunidade especial para celebrar junto a Marilia Sá Carvalho, Luciana Dias de Lima, Luciana Correia Alves e toda a comunidade de CSP os 40 anos deste importante projeto editorial, no qual tive a honra de atuar por nove anos como Coeditora-Chefe. Tendo como meu foco principal em pesquisa o desenvolvimento de técnicas e o uso de bases de dados secundários, rever a produção científica desse tema em CSP me permitiu recordar artigos que foram referências fundamentais para minha formação e desenvolvimento de meus projetos de pesquisa.

O primeiro número de CSP nasceu em 1985. No contexto internacional, a venda de computadores pessoais (PC) 1 ganhava momento, sendo seguida, no início dos anos 1990, pela abertura ao público do acesso à World Wide Web (WWW) 2 . Esses avanços foram significativos para a popularização das tecnologias de informação.

Bases administrativas passaram a ser empregadas como fontes de dados secundários na pesquisa em Saúde Coletiva 3 . Nos anos 1990 e na primeira década dos anos 2000, Centros de Dados foram implantados na Austrália, Canadá e Reino Unido. Nessas organizações, bases administrativas são vinculadas continuamente, e os conjuntos de dados anonimizados resultantes podem ser acessados por pesquisadores para o desenvolvimento de seus projetos 4 .

No Brasil, foi criado, em 1991, o Departamento de Informática do Sistema Único de Saúde (DATASUS) 5 , que contribuiu significativamente para a acessibilidade às bases administrativas brasileiras. O modelo adotado para a disseminação de dados foi, contudo, diferente do Centro de Dados mencionado anteriormente. Foram disponibilizadas duas modalidades de acesso. A primeira é por meio de um tabulador online que permite criar tabelas dos principais sistemas de informações em saúde nacionais. A segunda consiste na disseminação de microdados não-identificados. Inicialmente, as bases eram distribuídas em compact discs (CDs) mensais, sendo, posteriormente, disponibilizadas para transferências online. Informações sobre nascimentos, óbitos, doenças e agravos de notificação, atenção básica, cuidados ambulatoriais e hospitalares, estabelecimentos de saúde e orçamento público passaram a ser disponibilizados não apenas para pesquisadores, mas também para toda a população. Esse modelo de dados abertos é singular por sua inovação, variedade de dados, abrangência temporal e territorial das bases e acesso inclusivo. Informações em formato digital de interesse para a saúde também passaram a ser disponibilizados por diferentes instituições como o Instituto Brasileiro de Geografia e Estatística (IBGE), a Agência Nacional de Saúde Suplementar (ANS), a Agência Nacional de Vigilância Sanitária (Anvisa), além das secretarias de saúde de estados e municípios.

Mesmo antes da disseminação digital, dados administrativos, especialmente sobre mortalidade, eram utilizados no Brasil para a pesquisa em saúde coletiva. Contudo, a facilidade de acesso proporcionada pela adesão de instituições brasileiras ao modelo de dados abertos incentivou esse tipo de uso. Por meio da consulta ao PubMed, identifiquei 461 artigos publicados em CSP que usaram dados administrativos, dos quais 86 abordaram temas relacionados à qualidade. Destacam-se, entre esses, o artigo que é fruto da tese de Claudia Risso de Araujo Lima 6 . Claudia, que foi membro da equipe do DATASUS, foi uma das responsáveis pela implementação da política de disseminação de informações sobre saúde no Brasil. Publicado em 2009, seu artigo continua sendo referenciado até hoje (96 citações na base Scopus). Sua grande contribuição é realizar uma revisão sobre dimensões de qualidade na avaliação de sistemas de informação em saúde do Brasil.

A publicação de artigos que avaliam a qualidade, sejam dos sistemas de informação, sejam de processos para a vinculação de bases, atende a uma crescente demanda para a adoção de boas práticas na condução e relato de estudos que usam dados secundários 7 , 8 . Um editorial 9 e um artigo de perspectivas 10 reforçam a política editorial de CSP de valorização do uso responsável de bases administrativas na pesquisa.

CSP também publicou quatro artigos metodológicos que apresentam rotinas computacionais para o processamento de bases de dados. Três soluções foram voltadas para o relacionamento de dados (record linkage) 11 , 12 , 13 , enquanto a última, o pacote Microdatasus 14 , otimiza o download e o pré-processamento de microdados disponibilizados pelo DATASUS. O software Reclink foi publicado em 2000, como software livre de código fechado 11 . A nova versão OpenReclink foi publicada em 2015, já com código aberto 12 . Também são de código aberto o EPPD 13 e o Microdatasus 14 , atendendo à política editorial de CSP de adesão à ciência aberta 15 .

Nesses 40 anos, houve uma expansão acelerada das tecnologias de informação. Avanços na capacidade de captação, processamento, armazenamento, transmissão e análise de dados foram ocorrendo sucessivamente, com avanços incrementais em cada área, estimulando o avanço nas demais. Atualmente, é possível processar grandes quantidades de informações em tempo real. Dados não estruturados que apresentam diferentes formatos, como textos em documentos ou redes sociais, imagens e saídas de sensores, são novas fontes para uso secundário em pesquisas. Adicionalmente, ocorre a introdução na pesquisa em saúde de técnicas desenvolvidas pela Ciência da Informação como a mineração de dados, o aprendizado de máquinas e os modelos de linguagem ampla (large language models - LLM). Essas inovações levaram à criação de um novo campo disciplinar, denominado Ciência de Dados Populacionais 16 , 17 , que, por meio de organização, integração, vinculação e análise de dados individuais e contextuais, objetiva gerar evidências ao nível populacional com valor para a sociedade. Os artigos sobre o desenvolvimento ou aplicação de técnicas de record linkage são publicados em CSP desde os anos 2000. Recentemente, com a maior disseminação na Saúde Coletiva das técnicas desenvolvidas pela Ciência da Informação, foram publicados artigos usando mineração de dados, texto e aprendizado de máquina.

Além das questões técnicas, a Ciência de Dados Populacionais busca modelos de gestão de acesso à informação que equilibrem o direito à proteção de informações pessoais com os benefícios potenciais da utilização das bases administrativas na pesquisa, tema tratado em mais de um artigo publicado em CSP 18 , 19 , 20 .

Ao longo de 40 anos, CSP publicou artigos abordando os principais tópicos da Ciência de Dados Populacionais, valorizando as boas práticas no emprego de dados secundários em pesquisas de interesse para a sociedade. Coerentemente com sua missão, mostrou-se um veículo crucial para a circulação de ideias e métodos desse campo.

Cad Saude Publica. 2024 Jun 21;40(6):e00087624. [Article in Spanish] doi: 10.1590/0102-311XES087624

De los datos secundarios a la Ciencia de Datos Poblacional: recordando los 40 años de producción científica en CSP

Cláudia Medina Coeli 1

Me complació mucho la invitación a escribir este editorial. Esta es una gran oportunidad para celebrar junto a Marilia Sá Carvalho, a Luciana Dias de Lima, a Luciana Correia Alves y a toda la comunidad CSP el 40º aniversario de este importante proyecto editorial, en el que tuve el honor de participar durante nueve años como Coeditora en Jefe. Teniendo como foco principal estudios sobre el desarrollo de técnicas y el uso de bases de datos secundarias, revisar la producción científica en esta temática en CSP me permitió recordar artículos fundamentales en mi formación y desarrollo de mis proyectos de investigación.

La primera edición de CSP se publicó en 1985. En el contexto internacional, cobraba impulso la venta de computadoras personales (PC) 1 , seguida de la apertura al público del acceso a la World Wide Web (WWW) a principios de los 1990 2 . Estos avances resultaron en la popularización de las tecnologías de la información.

Las bases administrativas comenzaron a utilizarse como fuentes de datos secundarias en la investigación en Salud Pública 3 . En los años 1990, y en la primera década de los 2000, se implementaron Centros de Datos en Australia, en Canadá y en Reino Unido. En estas organizaciones, las bases administrativas están continuamente vinculadas, y los conjuntos de datos anonimizados resultantes pueden ser accedidos por los investigadores para desarrollar sus proyectos 4 .

En 1991 Brasil creó el Departamento de Informática del Sistema Único de Salud (DATASUS) 5 , lo que implicó un gran aporte a la accesibilidad en las bases administrativas brasileñas. Pero adoptó un modelo para la difusión de datos distinto del Centro de Datos mencionado anteriormente. En el modelo estaban habilitadas dos modalidades de acceso. La primera se daba por un tabulador en línea que permitía crear tablas de los principales Sistemas de Información Sanitaria nacionales. La segunda consistía en la difusión de microdatos no identificados. Al principio, las bases se distribuían en discos compactos (CD) mensuales y, posteriormente, se pusieron a disposición para descarga en línea. Los datos de nacimientos, defunciones, enfermedades y enfermedades de declaración obligatoria, atención primaria, atención ambulatoria y hospitalaria, centros de salud y presupuesto público comenzaron a ponerse a disposición no solo a los investigadores, sino también a toda la población. Ese modelo de Datos Abiertos es innovador por la variedad de datos, la cobertura temporal y territorial de bases de datos y el acceso inclusivo. La información en formato digital en torno a la salud también fue puesta a disposición por varias instituciones como el Instituto Brasileño de Geografía y Estadística (IBGE), la Agencia Nacional de Salud Suplementaria (ANS), la Agencia Nacional de Vigilancia Sanitaria (Anvisa), además de los departamentos de salud de estados y municipios.

Incluso antes de la difusión digital, los datos administrativos, especialmente sobre mortalidad, se utilizaban en Brasil en los estudios de Salud Pública. Sin embargo, el acceso proporcionado por la adhesión de las instituciones brasileñas al modelo de datos abiertos fomentó este tipo de uso. En una búsqueda en PubMed, encontré 461 artículos publicados en CSP que utilizaban datos administrativos; de los cuales 86 abordaban temas relacionados con la calidad. Entre estos últimos, se destaca el artículo que es resultado de la tesis de Claudia Risso de Araujo Lima 6 . Claudia, ex miembro del equipo de DATASUS, fue una de las responsables de implementar la política de difusión de información de salud en Brasil. Su artículo publicado en 2009 sigue siendo un referente (96 citas en la base de datos Scopus). Su gran aporte fue realizar una revisión de las dimensiones de calidad en la evaluación de los sistemas de información de salud en Brasil.

La publicación de artículos que evalúan la calidad de sistemas de información o de procesos de vinculación de bases de datos responde a una creciente demanda de adopción de buenas prácticas en la realización y reporte de estudios que utilizan datos secundarios 7 , 8 . Un editorial 9 y un artículo de perspectivas 10 refuerzan la política editorial de CSP de valorar el uso responsable de las bases administrativas en la investigación.

CSP también publicó cuatro artículos metodológicos que presentan rutinas computacionales para el procesamiento de bases de datos. Tres soluciones estaban dirigidas a la vinculación de registros 11 , 12 , 13 , mientras que la última, el paquete Microdatasus 14 , optimiza la descarga y el preprocesamiento de los microdatos puestos a disposición por DATASUS. El software Reclink se lanzó en 2000 como software libre, pero de código cerrado 11 . La nueva versión de OpenReclink se publicó en 2015, ya con código abierto 12 . EPPD 13 y Microdatasus 14 también son de código abierto en cumplimiento con la política editorial de CSP de adhesión a la ciencia abierta 15 .

En estos 40 años ha habido una creciente expansión de las tecnologías de la información. Los avances en la capacidad de capturar, procesar, almacenar, transmitir y analizar datos se produjeron sucesivamente, con avances en cada área estimulando el progreso en las demás. Actualmente, es posible procesar grandes cantidades de información en tiempo real. Los datos no estructurados que presentan diferentes formatos, como textos en documentos o redes sociales, imágenes y salidas de sensores, son nuevas fuentes de uso secundario en la investigación. Además, existe la introducción en la investigación en salud de técnicas desarrolladas por la Ciencia de la Información como la minería de datos, el aprendizaje automático y los modelos lingüísticos de gran tamaño (large language models -LLM). Estas innovaciones posibilitaron la creación de un nuevo campo, la Ciencia de Datos Poblacionales 16 , 17 , que mediante la organización, integración, vinculación y análisis de datos individuales y contextuales pretende generar evidencia a nivel poblacional con valor para la sociedad. Los artículos sobre el desarrollo o la aplicación de técnicas de vinculación de registros se han publicado en CSP desde los años 2000. Con la recién difusión en Salud Pública de las técnicas desarrolladas por la Ciencia de la Información, se han publicado artículos utilizando minería de datos, texto y aprendizaje automático.

Además de las cuestiones técnicas, la Ciencia de Datos Poblacionales busca modelos de gestión de acceso a la información que equilibren el derecho a la protección de la información personal con los potenciales beneficios para la sociedad del uso de bases administrativas en la investigación, un tema abordado en más de un artículo ya publicado en CSP 18 , 19 , 20 .

A lo largo de estos 40 años CSP ha publicado artículos que abordan los principales temas de la Ciencia de Datos Poblacionales, valorando las buenas prácticas con el uso de datos secundarios en la investigación de interés para la sociedad. En consonancia con su misión, demostró ser una herramienta esencial en la circulación de ideas y métodos en este campo.


Articles from Cadernos de Saúde Pública are provided here courtesy of Escola Nacional de Saúde Pública Sergio Arouca, Fundação Oswaldo Cruz

RESOURCES