Skip to main content
Colombia Médica : CM logoLink to Colombia Médica : CM
. 2023 Mar 30;54(1):e2035300. doi: 10.25100/cm.v54i1.5300
View full-text in Spanish

Automated extraction of information from free text of Spanish oncology pathology reports

Extracción automatizada de información en español de texto libre de informes de patología oncológica

Diana Marcela Mendoza-Urbano 1, Johan Felipe Garcia 2, Juan Sebastian Moreno 2,3, Juan Carlos Bravo-Ocaña 4, Alvaro José Riascos 2,3,5, Angela Zambrano Harvey 6, Sergio I Prada 7,8,
PMCID: PMC10443791  PMID: 37614525

Abstract

Background:

Pathology reports are stored as unstructured, ungrammatical, fragmented, and abbreviated free text with linguistic variability among pathologists. For this reason, tumor information extraction requires a significant human effort. Recording data in an efficient and high-quality format is essential in implementing and establishing a hospital-based-cancer registry

Objective:

This study aimed to describe implementing a natural language processing algorithm for oncology pathology reports.

Methods:

An algorithm was developed to process oncology pathology reports in Spanish to extract 20 medical descriptors. The approach is based on the successive coincidence of regular expressions.

Results:

The validation was performed with 140 pathological reports. The topography identification was performed manually by humans and the algorithm in all reports. The human identified morphology in 138 reports and by the algorithm in 137. The average fuzzy matching score was 68.3 for Topography and 89.5 for Morphology.

Conclusions:

A preliminary algorithm validation against human extraction was performed over a small set of reports with satisfactory results. This shows that a regular-expression approach can accurately and precisely extract multiple specimen attributes from free-text Spanish pathology reports. Additionally, we developed a website to facilitate collaborative validation at a larger scale which may be helpful for future research on the subject.

Key words: National Program of Cancer Registries, artificial intelligence, ontology learning, data science, cancer pathology reports, regular expressions, algorithm


Remark

1) Why was this study conducted?
This study was conducted from the need for effective extraction and analysis of tumor characteristics from oncology reports recorded in the such registry.
2) What were the most relevant results of the study?
An algorithm using artificial intelligence to process natural language was developed. As a result, an adequate concordance with human evaluation about the most critical parameters in determining tumor frequencies, topography, and morphology was achieved.
3) What do these results contribute?
This study presents a tool for classifying oncological diseases and a notification system that facilitates the implementation of a cancer registry.

Introduction

Cancer registries collect, store, analyze, and access cancer data of a given population 1 . They record patient demographics, cancer characteristics, treatment information, and patient outcomes to monitor and identify cancer prevention and control methods. Information comes from healthcare databases, including electronic health records, diagnostics imaging, laboratory tests, and pathology reports which result in structured variables and unstructured data 2 . Usually, the most relevant information for cancer cases is included in the pathology report. Those reports follow a pre-established format in an unstructured text that is ungrammatical, fragmented, and abbreviated, with linguistic variability amongst pathologists 3 . In this scenario, the extraction task requires a time-consuming and laborious effort that humans manually perform.

Natural Language Processing is a subfield of artificial intelligence that combines linguistic, statistical, and computational techniques to analyze and represent human language in a machine-readable format 4 . Natural Language Processing has demonstrated the potential to automatize healthcare information extraction processes 5 , 6 .

Studies using Natural Language Processing applications to extract information from cancer pathology reports have been published in English, Dutch, French, German 7 , and Italian 8 and are mainly focused on extracting a single characteristic 8 or a few of them 9 . A similar effort has been performed regarding data extractions from radiological 10 and public health reports in Spanish 11 . Using additional techniques like deep learning, another artificial intelligence subfield, researchers have extracted features from lung cancer-free text in clinical records in Spanish 12 . To do this, they follow a three-step process that includes using Natural Language Processing for name entity recognition. However, their model uses supervised learning techniques (i.e., deep learning), requiring the manual annotation of seven features (cancer entity, stage, dates, events, family members, treatment and drug) in 14,759 sentences. Further refinements 13 , using deep learning techniques and annotated texts, are pursued by the authors to extract eleven similar features.

In this project, we aimed to implement an algorithm to automatically extract 20 key cancer characteristics in oncology pathology reports written in Spanish from a hospital-based cancer registry.

Material and Methods

Dataset

Fundación Valle del Lili is a non-profit, highly complex University Hospital in Cali, Colombia; its hospital-based cancer registry includes patients diagnosed with cancer from January 1 2014 to November 13 2019 ( 14 . Data are stored in a computer platform owned by the institution, which meets the 2016 Facility Oncology Registry Data Standards (FORDS) recommendations 15 .

We obtained a text corpus of cancer pathology reports from the hospital-based cancer registry. The corpus consisted of unstructured text from 22322 anonymized pathology reports of cancer cases diagnosed from January 1, 2014, to November 13, 2019. Each report included three sections as free-text: pathology diagnosis, macroscopic and microscopic description (Table 1).

Table 1. Spanish Pathology report examples in free text.

Macroscopic description Microscopic description Diagnosis
Tres fragmentos de mucosa gástrica. Se procesa todo en 1 canastilla Mucosa gástrica antral infiltrada por glándulas malignas Mucosa gástrica antral. Biopsia Adenocarcinoma bien diferenciado
Se recibe en un tubo con EDTA, aproximadamente 4 ml de médula ósea Población patológica: 48% de blastos mieloides CD34+, CD117+, CD33+, CD13+, cMPOdim, CD56 parcial, HLA-DR+. Proliferación de blastos mieloides del 48% compatibles con leucemia mieloide aguda con cambios relacionados a mielodisplasia
Se recibe rotulado como “dorso lumbar izquierda”, fragmento de piel de 5.5x4.5x3.0 cm Melanoma nodular fase de crecimiento vertical Nivel de Clark IV Espesor de Breslow 1.5 cm Dorso lumbar izquierdo. Lesión. Biopsia: Los hallazgos histológicos observados muestran melanoma nodular
“mama derecha” se reciben 11 fragmentos de tejido, el mayor de 1.6x0.2cm. Se procesa todo en 3 canastillas. 5. Patrón morfológico y tipo histológico: Carcinoma invasivo, tipo indeterminado Mama derecha. Biopsia Trucut: Carcinoma invasivo, tipo indeterminado score de Nottingham 3 (9/9)
“Tumor colon derecho”: siete fragmentos de tejido blanquecino y blando, el mayor de 0.2x0.2 cm. Se procesa todo en una canastilla. La totalidad de la muestra corresponde a una lesión neoplásica maligna de origen epitelial Mucosa de colon. Colonoscopia. Lesión. Biopsia: Adenocarcinoma

Descriptors to extract from pathology reports

Twenty cancer essential characteristics were extracted from oncology pathology reports embedded in the hospital-based cancer registry. These descriptors of interest were included in the "Cancer identification" module. In addition, the recommendations of the 2016 Facility Oncology Registry Data Standards15 were adapted to the Mandatory Notification Record established by the Instituto Nacional de Salud of Colombia 16 in the 247 Resolution of 2014.

We divide each extracted descriptor into four groups according to its clinical relevance and the kind of values they could take.

Primary descriptors

Topographic (which identifies the anatomical site where the malignancy was found), and morphologic (which determines the microscopic type of the tumor cells) variables contain the most relevant information in the pathology report as they constitute the base of case classification. Both descriptors take values in the form of free text.

Complementary descriptors

These descriptors contain valuable information concerning the primary tumor identified with the main descriptors. They can be classified into different categories, as shown in Table 2.

Table 2. Descriptors extracted from each oncology pathology report. The first column shows the descriptor name and defintion, the second the type of values it can take, and the third a description of these values.
Descriptor name and definition Value Meaning
Main descriptors Topography: Identifies the anatomical site where malignancy was found Free text As Pathologist wrote
Morphology: Identifies the microscopic type of tumor cells Free text As Pathologist wrote
Complementary descriptors Laterality: Identifies the side of a paired organ or the body side on which the tumor originated 0 Non paired organ
1 Right side
2 Left side
9 Paired organ, unknown side
Behavior: Describes the tumor's clinical behavior 0 Benign
1 Borderline
2 In situ
3 Invasive
Grade: Describes the tumor's resemblance to normal tissue 1 Well-differentiated
2 Moderately differentiated
3 Poorly differentiated
4 Undifferentiated
5 T cells
6 B cells
8 NK cells
9 Unknown
Method of Assessment for Solid Tumors: Records the diagnostic method used to diagnose solid cancer 0 Not a solid tumor
1 Positive histology
2 Positive cytology
9 Unknown
Method of Assessment for hematological Tumors: Records the diagnostic method used to diagnose hematological cancer 0 Not a hematological tumor
3 Positive histology plus
Diagnostic Procedure: Records the diagnostic procedure performed to confirm cancer 1 The biopsy is not the primary site
2 Biopsy primary site
3 Exploration
5 Surgery
9 Unknown
Lymphovascular Invasion: Indicates the presence or absence of tumor cells in lymphatic channels or blood vessels 0 Absent
1 Present
8 Nonapplicable
9 Unknown
Surgical Margins: Records if the tumor margins presented the macroscopic or microscopic compromise 0 Without residual tumor
1 With residual tumor; NOS
2 Microscopic residual tumor
3 Macroscopic residual tumor
9 Unknown
Liver metastasis: Identifies whether the liver is an involved metastatic site 0 Absent
1 Present
8 Nonapplicable
9 Unknown
Lung metastasis: Identifies whether the lung is an involved metastatic site 0 Absent
1 Present
8 Nonapplicable
9 Unknown
Brain metastasis: Identifies whether the brain is an involved metastatic site 0 Absent
1 Present
8 Nonapplicable
9 Unknown
Bone metastasis: Identifies whether the bone is an involved metastatic site 0 Absent
1 Present
8 Nonapplicable
9 Unknown
Distant lymphatic nodes metastasis: Identifies whether any distant lymphatic nodes are found to contain metastasis 0 Absent
1 Present
8 Nonapplicable
9 Unknown
Other metastasis: Identifies whether a different anatomical region to the liver, lung, brain, bone and distant lymphatic nodes is an involved metastatic site 0 Absent
1 Present
8 Nonapplicable
9 Unknown
Special Descriptors TNM: Records the TNM stratification registered by the Pathologist Free text As Pathologist wrote
Tumor size: Records the most accurate measurement of a solid primary tumor Numeric Two or three dimensions
Examined lymphatic nodes: Records the exact number of regional lymph nodes examined by the Pathologist Numeric Numeric
Positive lymphatic nodes: Records the exact number of regional lymph nodes examined by the Pathologist and found to contain cancer Numeric Numeric

Metastasis-related descriptors

These descriptors identify if the mentioned organ is a metastatic site and evaluate the pulmonary, bone, liver, brain, and distant lymph nodes compromise, as well as other metastasis. Descriptors scoring was: 0: NOT a metastatic site, 1: it is a metastatic site, 8: nonapplicable, 9: unknown.

Special descriptors

The descriptors in this group have different possible values and provide complementary information that might not be present or even applicable in many pathology reports. These descriptors are: number of lymphatic nodes examined, number of positive for malignancy lymphatic nodes sectioned near the tumor, the tumor size and the tumor, lymphatic nodes, and metastasis (TNM)-based staging.

Each descriptor could take up to two values: nonapplicable (NA) and unknown or unreported (NR). Nonapplicable was used when the descriptor did not apply to the procedure or cancer type reported; for example, it does not make sense to assess the residual tumor and surgical margins in the case of a biopsy. Unreported was used when the descriptor applied to the case but was not mentioned in the report.

Construction of the algorithm

Descriptors from the pathology report text were extracted using Natural Language Processing techniques, particularly the matching of regular expressions and the fuzzy matching of strings.

This project was developed in Python, and a module containing an algorithm for extracting each descriptor was implemented. Each algorithm loosely obeyed the following steps (Figure 1):

Figure 1. Algorithm: the figure shows the process followed to identify and retrieve the relevant characteristics of the oncology pathology report. The algorithm is feed with three types of data: microscopic, macroscopic and diagnosis data. It then follows a four step process in which the data is sorted (step 1), characteristics are identified inside the text (step 2) and finally, they are retrieved (step 3) and parsed or tokenized into grammatical parts (step 4).

Figure 1

  1. Choice of pathology sections and their order for description search.

  2. Identify the marker that introduced the value of the descriptor (in case it was explicitly stated). For instance, the tumor size was usually preceded by the phrase "Tamaño del tumor".

  3. Identifying keywords directly related to the descriptor in case the value was tacitly mentioned in the text.

  4. Extraction of relevant text.

  5. Analyzation of the value of the such text.

The following paragraphs describe the algorithms for each kind of descriptor in more detail.

Primary descriptors: Topography and morphology

For each variable, a thesaurus was built based on the corresponding section of the International Classification of Diseases for Oncology (‎‎ICD-O) Spanish translation 17 ‎‎. This thesaurus identified the main keywords in every topography and morphology category. Those keywords (e.g., "carcinoma") were searched in the diagnosis section of the pathology report text first, followed by other sections. Once a match was found, a secondary search for relevant modifiers for the keyword (e.g. " ductal", "papillary" etc.) was performed in nearby words.

Complementary descriptors

This group of descriptors offered complementary information on the performed examination and the results found. All were calculated after topography and morphology were determined. Each descriptor had a few possible values, depending on whether the cancer was established as a solid tumor or a hematologic malignancy (such distinction can be made based on topography or morphology).

Laterality was implemented as a lateral topography computation, first by verifying if the organ was paired and then its side among the modifiers found. Behavior was found in the diagnosis section, usually close to the morphology and in some cases, implied by it. Due to the data nature, the predetermined value was malignancy when was not explicitly stated.

The Grade was determined from three possible sources: 1. A keyword for differentiation explicitly stated or near the morphology declaration, for instance: well-differentiated (i.e., "bien diferenciado"). 2. A global grade number or a numerical score for a specified set of topographies. For instance, Nottingham scored in breast cancer. 3. For hematological malignancies, the kind of lymphocyte involved was either explicitly stated or derived from a biological marker.

The assessment method and the Diagnostical procedure substantially depended on the distinction between solid and hematologic. The examination type complements this information, and the keywords search among microscopic or macroscopic descriptions.

The examination of residual tumor and surgical margins only proceeded when a surgical procedure was performed and was specified as micro or macro depending on the residual tumor size. When evaluated, the presence or absence of lymphovascular invasion was usually explicitly stated in the microscopic description.

Metastases-related descriptors

Six descriptors study the spread of cancer according to compromised organs. These were calculated simultaneously following a two-step procedure: first, identification of each metastasis mentioned in the report and extraction from the surrounding texts. Then, a mention for each specified organ was searched in the texts; if no organ was found but metastases were mentioned in a non-negative manner, these were classified as "other Metastases".

Two special conditions were taken into account in this algorithm: first, exclusion of cancer in the primary organ as a possible metastatic site, and second, differentiation between regional and distant lymphatic nodes.

Especial descriptors

These were determined based on the applicability rules of the descriptor and some manipulation of numbers reported. Finally, the TNM staging was extracted by a global search based on regular expressions, considering repetition and scares code statements.

For instance, the TNM code could be distributed in a paragraph first indicating the T value and a couple of sentences after stating the N and M values.

The tumor size was searched solely when the resection was performed. For extraction, the context of every number that resembled a measure (e.g. "1.2 cm") was inspected to establish if the tumor was mentioned. The number of lymphatic nodes examined and positive nodes were calculated from a context inspection of the numbers present in the diagnosis or in the microscopic description of the pathology.

Algorithm evaluation

During the algorithm's development, a team of experts in our institution selected a subset of pathology reports and executed a manual extraction of descriptors for such reports. This human team included a general physician, a pathologist, and an hemato-oncologist. Reports for manual extraction were carefully chosen to ensure the inclusion of a wide range of pathology reports. Special attention was given to including representatives of every database, most of the common cancer types and stages, and every kind of procedure.

In order to assess and improve the algorithm's performance, the manual and algorithmic information extraction was compared in three incremental cycles (first 20 reports, then 42, and finally 140). After each evaluation cycle, possible algorithm error sources were identified, and many suggestions for improvement were made and implemented.

The metrics used for measuring the algorithm's performance depended on the kind of values that each descriptor could take:

The values were considered free text for the main primary descriptors, and a fuzzy matching score was calculated. This score is based on the Levenshtein distance between the text extracted by the algorithm and the human team; this distance measures the number of edits (adding, erasing, or replacing a character) needed to transform a word into another. The distance is scaled to obtain a score that ranges from 0 to 100. Therefore a score of 100 means that the words in both texts are identical, and a score of 0 means that both texts have no characters in common.

The values were split into a small number of classes for the other descriptors. Hence we used four common metrics for a multiclass classification problem: the overall accuracy and the macro averaged precision, recall, and f-score.

The overall accuracy measures the fraction of reports correctly classified among all reports, where correctly means that human and algorithmic extraction coincide.

Accuracy= Number of reports correctly classifiedTotal of reports evaluated

For each possible value of the descriptor, we compute the precision, recall and f-score in a one versus the rest strategy according to the next formulae:

Precision= Number of reports correctly assigned to the classNumber of reports assigned to the class by the algorithm
Recall= Number of reports correctly assigned to the classNumber of reports assigned to the class by the human team
F-Score= 2 * Precision * RecallPrecision + Recall

The precision measures how good the algorithm is at differentiating this class from the others, and the recall measures how good the algorithm is at capturing all the instances of the same class. Since those two objectives are complementary, the f-score is a compromise between both.

Finally, the arithmetic mean of each metric is taken over all the possible values of a descriptor. This is known as the macro average.

In addition, for the special descriptors, where the nonapplicable or non-reported values represent a significant proportion, a categorical analysis was performed between reported, non-reported, and nonapplicable classes before proceeding to the analysis of the reported values.

In order to perform a larger-scale validation of the algorithm, a website (available at one of our institutional computer platforms) for the algorithm was developed, with open access to all interested external users who may voluntarily participate in its evaluation and improvement (https://centrodeinvestigacionesclinicas.fvl.org.co:8001/polls/ERP2014%2033.0/).

Results

This section summarises the comparison between the human and algorithmic descriptors extraction for the pathology reports chosen for validation. The evaluation was performed as described in the previous section.

Primary descriptors

The validation was performed in 140 pathological reports. Topography was identified by both the human and the algorithm in all reports. The human identified morphology in 138 reports and by the algorithm in 137.

A fuzzy matching score was calculated between the values on the reports where both the human and algorithm extracted the descriptor. Table 3 summarizes the distribution of that score calculated for each descriptor. Notice that the matching score is above 90.0 for three-quarters of cases in the Morphology text.

Table 3. Summary statistics for the fuzzy matching score between human and algorithmic extraction of free text descriptors. The table displays the number of reports validated and the mean, standard deviation and quartiles of the score.

Descriptor Count Mean std Min 25% 50% 75% Max
Topography 140 68.27 25.22 0.0 45.0 77.0 90.0 100.0
Morphology 137 89.45 10.64 31.0 90.0 90.0 95.0 100.0

Complementary descriptors

Precision, recall, and f-score were calculated for each possible value of the descriptor and then averaged. The overall precision corresponds to the fraction of reports where the manual and algorithmic extraction for the descriptor match. Table 4 summarises the algorithm's precision, recall, and accuracy for each categorical descriptor in the validation subset of 42 reports.

Table 4. Performance measures of the extraction algorithm when applied to categorical characteristics. Precision measures the number of correctly classified reports among the total number of reports assigned to the class by the algorithm. Recall, measures the number of reports correctly classified among the number of true (i.e., human classified) reports in that class. The f-score is the harmonic mean of precision and recall. For multiclass characteristics precision, recall and f-score are averaged over classes (macro average). Overall accuracy is the number of reports correctly classified among the total number of reports evaluated.

Descriptor Macro Precision (%) Macro Recall (%) Macro f-score (%) Overall Accuracy % (n/N)
Complementary descriptors Laterality 66.2 50.0 52.9 64.3 (27/42)
Behavior 57.1 92.7 58.6 85.7 (36/42)
Grade 70.3 64.8 79.6 76.2 (32/42)
Method of Assessment for Solid Tumors 78.6 94.8 78.4 85.7 (36/42)
Method of Assessment for Hematological Tumors 100 100 100 100 (42/42)
Diagnostic Procedure 95.0 83.7 87.2 90.5 (38/42)
Lymphovascular Invasion 82.5 91.2 83.9 85.7 (36/42)
Surgical Margins 94.4 77.2 82.8 90.5 (38/42)
Pulmonary Metastasis 100 100 100 100 (42/42)
Osseous Metastasis 92.8 50.0 96.3 92.9 (39/42)
Hepatic Metastasis 75.0 66.7 83.3 97.6 (41/42)
Brain Metastasis 50.0 50.0 100 97.6 (41/42)
Distant Lymph Nodes Metastasis 50.0% 97.6 98.8 97.6 (41/42)
Other Metastasis 98.8 75.0 82.7 97.6 (41/42)
Special descriptors Examined Regional Nodes 92.3 100 96.0 41.7 (5/12)
Positive Regional Nodes 92.3 100 96.0 58.3 (7/12)
Tumor Size 85.7 75.0 80.0 50.0 (6/12)
TNM-based Staging 100 75.0 85.7 100 (3/3)

Special descriptors

The analysis is executed in two steps for these descriptors. First, we measured the algorithm performance in differentiating reported values from unreported and nonapplicable. Afterward, we measured the precision of the reported values. Figure 2 shows confusion matrices colored by f-score for each descriptor.

Figure 2. Confusion matrices between human and algorithmic extraction for the nonapplicable (NA), non-reported (NR) and reported (R) values in the special descriptors. The fill colour indicates the contribution of each entry to the f-score.

Figure 2

Discussion

Here we present an effort to combine Natural Language Processing developments with human effort to optimize the information extraction results for the tumor module of our hospital-based cancer registry.

Data extraction using a regular-expressions approach can extract multiple specimen attributes from free-text pathology reports in Spanish with acceptable accuracy and precision. In cases selected for validation, the average fuzzy matching score was 68.3 for topography and 89.5 for morphology. Complementary descriptors presented precision and recall between 50% and 100% and F-score between 52.9% and 100%. Among the reported cases, precision ranged from 92.3% to 100%, recall from 75% to 100%, and F-score between 80% and 96%.

These developments could assist in accurately extracting information from hospital cancer registries that face the challenge of handling enormous volumes of information. Based on the algorithmic extraction of descriptors, statistical analyses of these pathology reports are now feasible.

Although the precision of the model is high, other metrics, such as recall, show there's room for improvement. The recall shows that the rules created via regular expressions were not enough to capture a significant number of characteristics of the tumors. This may be caused by underlying language patterns that doctors are unaware of because (1) they are infrequent or (2) they may be too complex to identify. These two obstacles seem insuperable using regular expressions and fuzzy matching of strings since all the potential cases would have to be included, many of which are unknown by pathologists. This is the most critical limitation of regular expressions.

Nevertheless, other methodologies in Natural Language Processing could prove to be more accurate in these cases; this tool is an approach that could significantly increase the recall of this application via machine learning models. Machine learning models in text data can identify underlying patterns that humans cannot, overcoming the limitations of prior knowledge constraints. Deep learning methodologies, such as recurrent neural networks, word2vec, and transformers, can capture the meaning of words/terms from their context, understanding context as the language around them. With enough data, these models could leverage information in the text, such as longevity, location within the text, and order of occurrence, to deduce complex correlations and extract the characteristics more accurately. Further research would go in this direction, where learning models are trained to overcome the limitations caused by complexity or infrequent linguistic patterns.

Applying the algorithm in pathology reports with unstructured or structured texts may aid institutions in hospital cancer registry implementation. The extracted data will allow a tumor (ICD-O-M) classification according to location, size, lymphovascular involvement, lymph node compromise, metastasis, and determining staging with TNM.

Limitations to the algorithm include the human supervision required for data extraction. The algorithm improves when essential malignancy data is recorded in pathology reports with cancer protocol templates. Further studies are needed to demonstrate the algorithm reach in a larger corpus of information.

Acknowledgments:

We thank Maria Elizabeth Naranjo for her valuable help.

References

  • 1.Ruiz A, Facio Á. Hospital-based cancer registry A tool for patient care, management and quality. A focus on its use for quality assessment. Rev Oncol. 2004;6(2):104–113. doi: 10.1007/BF02710038. [DOI] [Google Scholar]
  • 2.Kreimeyer K, Foster M, Pandey A, Arya N, Halford G, Jones SF. Natural language processing systems for capturing and standardizing unstructured clinical information A systematic review. J Biomed Inform. 2017;73:14–29. doi: 10.1016/j.jbi.2017.07.012. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 3.Alawad M, Gao S, Qiu JX, Yoon HJ, Blair Christian J, Penberthy L. Automatic extraction of cancer registry reportable information from free-text pathology reports using multitask convolutional neural networks. J Am Med Informatics Assoc. 2020;27(1):89–98. doi: 10.1093/jamia/ocz153. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 4.Nadkarni PM, Ohno-Machado L, Chapman WW. Natural language processing an introduction. J Am Med Inform Assoc. 2011;18(5):544–551. doi: 10.1136/amiajnl-2011-000464. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 5.Meystre S, Savova G, Kipper-Schuler KC, Hurdle JF. Extracting information from textual documents in the electronic health record: a review of recent research. Yearb Med Inf. 2007:128–144. [PubMed] [Google Scholar]
  • 6.Velupillai S, Suominen H, Liakata M, Roberts A, Shah AD, Morley K. Using clinical Natural Language Processing for health outcomes research Overview and actionable suggestions for future advances. J Biomed Inform. 2018;88:11–19. doi: 10.1016/j.jbi.2018.10.005. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 7.Burger G, Abu-Hanna A, de Keizer N, Cornet R. Natural language processing in pathology A scoping review. J Clin Pathol. 2016;69:jclinpath–jclin2016. doi: 10.1136/jclinpath-2016-203872. [DOI] [PubMed] [Google Scholar]
  • 8.Hammami L, Paglialonga A, Pruneri G, Torresani M, Sant M, Bono C. Automated classification of cancer morphology from Italian pathology reports using Natural Language Processing techniques A rule-based approach. J Biomed Inform. 2021;116:103712–103712. doi: 10.1016/j.jbi.2021.103712. [DOI] [PubMed] [Google Scholar]
  • 9.Aalabdulsalam A, Garvin J, Redd A, Carter M, Sweeny C, Meystre S. Automated Extraction and Classification of Cancer Stage Mentions fromUnstructured Text Fields in a Central Cancer Registry. AMIA Jt Summits Transl Sci Proc. 2018;2017:16–25. [PMC free article] [PubMed] [Google Scholar]
  • 10.Koza W, Filippo D, Cotik V, Stricker V, Muñoz M, Godoy N. Automatic Detection of Negated Findings in Radiological Reports for Spanish Language Methodology Based on Lexicon-Grammatical Information Processing. J Digit Imaging. 2019;32(1):19–29. doi: 10.1007/s10278-018-0113-8. [DOI] [PMC free article] [PubMed] [Google Scholar]
  • 11.Villena F, Dunstan J. Obtención automática de palabras clave en textos clínicos una aplicación de procesamiento del lenguaje natural a datos masivos de sospecha diagnóstica en Chile. Rev Med Chil. 2019;147(10):1229–1238. doi: 10.4067/s0034-98872019001001229. [DOI] [PubMed] [Google Scholar]
  • 12.Solarte-Pabón O, Blazquez-Herranz A, Torrente M, Rodríguez-Gonzalez A, Provencio M, Menasalvas E. Extracting Cancer treatments from clinical text written in spanish: a deep learning approach; IEEE 8th Int Conf Data Sci Adv Anal DSAA 2021; 2021. [Google Scholar]
  • 13.Solarte-Pabón O, Torrente M, Provencio M, Rodríguez-Gonzalez A, Menasalvas E. Integrating speculation detection and deep learning to extract lung cancer diagnosis from clinical notes. Appl Sci. 2021;11(2):865–865. doi: 10.3390/app11020865. [DOI] [Google Scholar]
  • 14.Parra-Lara LG, Mendoza-Urbano D, Zambrano Á, Valencia-Orozco A, Bravo-Ocaña JC, Bravo-Ocaña LE. Methods and Implementation of a Hospital-Based Cancer Registry in a Major City in a Low-to Middle-Income Country The Case of Cali, Colombia. Cancer Causes Control. 2022;33(3):381–392. doi: 10.1007/s10552-021-01532-z.. [DOI] [PubMed] [Google Scholar]
  • 15.American College of Surgeons Facility oncology registry data standards (FORDS): Revised for 2016. 2017. https://www.facs.org/quality-programs/cancer-programs/national-cancer-database/ncdb-call-for-data/fordsmanual/
  • 16.Instituto Nacional de Salud Fichas y Protocolos. 2022. https://www.ins.gov.co/buscador-eventos/Paginas/Fichas-y-Protocolos.aspx
  • 17.Fritz A, Percy C, Jack A, Shan K. Clasificación internacional de enfermedades para oncología (CIE-O) Rev Esp Salud Publica. 2003;77(5):659–659. [Google Scholar]
Colomb Med (Cali). 2023 Mar 30;54(1):e2035300. [Article in Spanish]

Extracción automatizada de información en español de texto libre de informes de patología oncológica


Contribución del estudio

1) ¿Por qué se realizó este estudio?
Nuestro Registro de Cáncer de base Hospitalario es implementado en Enero de 2014. Este estudio fue realizado por la necesidad de extracción efectiva y análisis de características tumorales de reportes de oncología almacenados en el egistro.
2) ¿Cuáles fueron los resultados más relevantes del estudio?
Se desarrolló un algoritmo usando inteligencia artificial para procesar lenguaje natural. Se consiguió concordancia adecuada con respecto a la evaluación humana en relación a los parámetros críticos para determinar frecuencias, topografía y morfología de los tumores.
3¿Qué aportan estos resultados?
Este estudio presenta una herramienta para clasificar enfermedades oncológicas y un sistema de notificación que facilita la implementación de un registro de cáncer.

Introducción

Los registros de cáncer recolectan, almacenan, analizan y acceden a información de cáncer de una determinada población 1. Estos guardan datos demográficos, características del cáncer, información de tratamiento y desenlaces del paciente para monitorizar e identificar prevenciones de cáncer y métodos de control. La información viene de bases de datos de cuidados de la salud, incluyendo registros electrónicos, imágenes diagnósticas, exámenes de laboratorio y reportes de patología, los cuales resultaron en variables estructuradas y datos no estructurados 2. Usualmente la información más relevante para casos de cáncer está incluida en el reporte de patología. Esos reportes siguen un formato preestablecido en un texto no estructurado que no tiene gramática, es fragmentado, abreviado y con variabilidad lingüística entre patólogo 3) . En este escenario, la tarea de extracción requiere de un esfuerzo tedioso que los humanos realizan manualmente.

El Procesamiento de Lenguaje Natural es un campo de la inteligencia artificial que combina técnicas lingüísticas, estadísticas y computacionales para analizar y representar el lenguaje humano en un formato legible por máquinas 4. El Procesamiento de Lenguaje Natural ha demostrado potencial para automatizar procesos de extracción de información del sector de la salud 5,6. Se han publicado estudios que usan aplicaciones de Procesamiento de Lenguaje Natural para extraer información de reportes de patología de cáncer en Inglés, Holandés, Francés, Alemán 7, e Italiano 8 y están principalmente enfocados en extraer características sencillas 8 o sólo unas cuantas 9. Se ha realizado un esfuerzo similar referente a la extracción de datos de reportes radiológicos 10 y de salud pública en Español 11. Usando técnicas adicionales como el “deep learning”, otro subcampo de la inteligencia artificial, los investigadores han extraído características de registros clínicos de texto libre de cáncer de pulmón, en Español 12. Para hacer esto, siguen un proceso de tres pasos que incluye el uso de Procesamiento de Lenguaje Natural para reconocimiento de la entidad. Sin embargo, su modelo usa técnicas de aprendizaje supervisadas (e.j. deep learning), lo que requiere anotar manualmente siete características (entidad del cáncer, estadio, fechas, eventos, miembros familiares, tratamiento y fármacos) en 14,759 frases. Otros autores buscan posteriores afinamientos 13, usando técnicas de “deep learning”, para extraer once características similares.

En este proyecto apuntamos a implementar un algoritmo que automáticamente extrajera 20 características claves del cáncer en reportes de patología oncológica, escritos en Español, de un registro de cáncer hospitalario.

Materiales y Métodos

Base de datos

La Fundación Valle del Lilí es un Hospital Universitario de alta complejidad, sin ánimo de lucro, ubicado en Cali, Colombia; su registro de cancer de base hospitalario incluye pacientes diagnosticados con cáncer desde el 1ro de Enero del 2014 14. Los datos están almacenados en una plataforma digital propiedad de la institución, que se ajusta a las recomendaciones del Facility Oncology Registry Data Standards (FORDS) 2016 15.

Obtuvimos un corpus de texto de reportes de patología oncológica del registro de cáncer intrahospitalario. El corpus consistía de texto no estructurado de 22,322 reportes de patología oncológica, anonimizados, diagnosticados desde el 1 de enero del 2014 hasta el 13 de noviembre del 2019. Cada reporte incluía tres secciones de texto libre: diagnóstico patológico, descripción macroscópica y microscópica (Tabla 1).

Tabla 1. Ejemplos de texto libre de reportes de patología en Español.

Descripción macroscópica Descripción microscópica Diagnóstico
Tres fragmentos de mucosa gástrica. Se procesa todo en 1 canastilla Mucosa gástrica antral infiltrada por glándulas malignas Mucosa gástrica antral. Biopsia Adenocarcinoma bien diferenciado
Se recibe en un tubo con EDTA, aproximadamente 4 ml de médula ósea Población patológica: 48% de blastos mieloides CD34+, CD117+, CD33+, CD13+, cMPOdim, CD56 parcial, HLA-DR+. Proliferación de blastos mieloides del 48% compatibles con leucemia mieloide aguda con cambios relacionados a mielodisplasia
Se recibe rotulado como “dorso lumbar izquierda”, fragmento de piel de 5.5x4.5x3.0 cm Melanoma nodular fase de crecimiento vertical Nivel de Clark IV Espesor de Breslow 1.5 cm Dorso lumbar izquierdo. Lesión. Biopsia: Los hallazgos histológicos observados muestran melanoma nodular
“mama derecha” se reciben 11 fragmentos de tejido, el mayor de 1.6x0.2cm. Se procesa todo en 3 canastillas. 5. Patrón morfológico y tipo histológico: Carcinoma invasivo, tipo indeterminado Mama derecha. Biopsia Trucut: Carcinoma invasivo, tipo indeterminado score de Nottingham 3 (9/9)
“Tumor colon derecho”: siete fragmentos de tejido blanquecino y blando, el mayor de 0.2x0.2 cm. Se procesa todo en una canastilla. La totalidad de la muestra corresponde a una lesión neoplásica maligna de origen epitelial Mucosa de colon. Colonoscopia. Lesión. Biopsia: Adenocarcinoma

Descriptores a extraer de reportes de patología

Se extrajeron veinte características claves del cáncer descrito en reportes de patología oncológicos almacenados en el registro de cáncer hospitalario. Se incluyeron estos descriptores de interés en el módulo de “Identificación del Cáncer”. Se adaptaron las recomendaciones del FORDS 2016 al Registro de Notificación Obligatoria establecidos por el Instituto Nacional de Salud de Colombia 16 en la Resolución 247 del 2014.

Dividimos cada descriptor extraído en cuatro grupos de acuerdo con su relevancia clínica y el tipo de valor que podían tomar.

Descriptores principales

Las variables topografía (identifica la localización anatómica donde se encontró la malignidad) y morfología (determina el tipo microscópico de las células tumorales) contienen la información más relevante en el reporte patológico ya que constituyen la base de la clasificación del caso. Ambos descriptores toman valores en la forma de texto libre

Descriptores complementarios

Estos descriptores contienen información valiosa relacionada al tumor primario (identificado con los descriptores primarios). Pueden ser clasificados en diversas categorías como se muestra en la Tabla 2.

Tabla 2. Descriptores extraídos de cada reporte de patología oncológica. La primera columna muestra el nombre del descriptor y su definición, la segunda el tipo de valor que puede tomar, la tercera la descripción de esos valores.
Nombre del descriptor y definición Valor Significado
Descriptores principales Topografía. Identifica el sitio anatómico donde se encontró la malignidad Texto libre Como escribió el patólogo
Morfología. Identifica el tipo de células tumorales microscópicamente Texto libre Como escribió el patólogo
Descriptores complementarios Lateralidad Identifica el lado de un órgano par o el lado del cuerpo de donde se originó el tumor 0 Órgano impar
1 Lado derecho
2 Lado izquierdo
9 Órgano par, lateralidad desconocida
Comportamiento Describe el comportamiento clínico tumoral 0 Benigno
1 Limítrofe
2 In situ
3 Invasivo
Grado Describe la similitud tumoral con el tejido normal 1 Bien diferenciado
2 Moderadamente diferenciado
3 Pobremente diferenciado
4 No diferenciado
5 Células T
6 Células B
8 Células NK
9 Desconocido
Método de Evaluación del Tumor Sólido Registra el método diagnóstico usado para diagnosticar el cáncer sólido 0 No tumor sólido
1 Histología positiva
2 Citología positiva
9 Desconocido
Método de Evaluación para Tumores Hematológicos Registra el método diagnóstico usado para diagnosticar el cáncer hematológico 0 No tumor hematológico
3 Histología positiva
Procedimiento diagnóstico Registra el procedimiento diagnóstico realizado para confirmar el cáncer 1 La biopsia no es el sitio primario
2 La biopsia es el sitio primario
3 Exploración
5 Cirugía
9 Desconocido
Invasión linfovascular Indica la presencia o ausencia de células tumorales en canales linfáticos o vasos sanguíneos 0 Ausente
1 Presente
8 No aplica
9 Desconocido
Márgenes quirúrgicas Registra si las márgenes del tumor presentaron el compromiso macroscópico o microscópico 0 Sin compromiso residual
1 Con tumor residual; NOS
2 Tumor microscópico residual
3 Tumor macroscópico residual
9 Desconocido
Metástasis hepáticas Identifica si el hígado es un sitio con compromiso metastásico 0 Ausente
1 Presente
8 No aplica
9 Desconocido
Metástasis pulmonar Identifica si el pulmón es un sitio con compromiso metastásico 0 Ausente
1 Presente
8 No aplica
9 Desconocido
Metástasis cerebral Identifica si el cerebro es un sitio con compromiso metastásico 0 Ausente
1 Presente
8 No aplica
9 Desconocido
Metástasis ósea Identifica si el hueso es un sitio con compromiso metastásico 0 Ausente
1 Presente
8 No aplica
9 Desconocido
Metástasis de nódulos linfáticos distales Identifica si los nódulos linfáticos distales son un sitio con compromiso metastásico 0 Ausente
1 Presente
8 No aplica
9 Desconocido
Otras metástasis Identifica si hay compromiso metastásico diferente al hígado, pulmón, cerebro y nódulos linfáticos distantes 0 Ausente
1 Presente
8 No aplica
9 Desconocido
Descriptores especiales TNM Registra la estadificación TNM registrada por el Patólogo Texto libre Como escribió el patólogo
Tamaño tumoral Registra la medida más precisa de un tumor sólido primario Numérico Dos o tres dimensiones
Nódulos linfáticos examinados Registra el número exacto de nódulos linfáticos examinados por el patólogo Numérico Numérico
Nódulos linfáticos positivos Registra el número exacto de nódulos linfáticos regionales examinados por el Patólogo, en los que se encontrara cáncer Numérico Numérico

Descriptores relacionados a la metástasis

Estos descriptores identifican si el órgano mencionado es un sitio metastásico y evalúan el compromiso pulmonar, óseo, hepático, cerebral y de nódulos linfáticos distales, así como otras metástasis. La puntuación de los descriptores fue: 0: NO sitio metastásico; 1: sitio metastásico; 8: no aplica; 9: desconocido.

Descriptores especiales

Este grupo de descriptores tienen diferentes posibles valores y proveen información complementaria que puede no estar presentes o incluso no ser aplicables en una cantidad considerable de reportes patológicos. Estos descriptores son: Número de nódulos linfáticos examinados, número de nódulos linfáticos seccionados cerca al tumor positivos, el tamaño del tumor y la clasificación según Tumor, nódulos Linfáticos y Metástasis (TNM).

Cada descriptor podía tomar hasta dos valores diferentes: No aplica (NA) y desconocido o no reportado (NR). El No aplica se usaba cuando el descriptor no aplicaba al procedimiento o tipo de cáncer reportado; por ejemplo, no tiene sentido evaluar el tumor residual y márgenes en caso de una biopsia. No reportado se usaba cuando el descriptor aplicaba pero no lo mencionaban en el reporte.

Construcción del algoritmo

Los descriptores del texto de reporte de patología fueron extraídos usando técnicas de Procesamiento de Lenguaje Natural, particularmente el procesamiento de expresiones regulares y la coincidencia aproximada de cadenas.

Este proyecto fue desarrollado en Python, y se implementó un módulo que contenía un algoritmo para extraer cada descriptor. Cada algoritmo seguía en cierta medida los siguientes pasos (Figura 1):

Figura 1. Algoritmo: la figura muestra el proceso aplicado para identificar y recuperar las características relevantes del reporte de patología oncológico. El algoritmo se alimenta de tres tipos de datos: microscópico, macroscópico y datos de diagnóstico. Luego, sigue un proceso de cuatro pasos en el que los datos se sortean (paso 1), luego se identifican las características en el texto (paso 2) para finalmente ser traídos (paso 3) y analizados o “monetizados” en partes gramaticales (paso 4).

Figura 1

  1. Elección de las secciones de patología y su orden para cada búsqueda de la descripción.

  2. Identificar el marcador que introdujo el valor del descriptor (en caso de ser explícito). Por ejemplo, al tamaño tumoral usualmente lo precedía la frase “Tamaño del tumor”.

  3. Identificar palabras clave directamente relacionadas al descriptor en caso de que el valor estuviera tácitamente mencionado en el texto.

  4. Extracción de texto relevante.

  5. Análisis del valor de dicho texto.

Los siguientes párrafos describen los algoritmos para cada tipo de descriptor en mayor detalle.

Descriptores principales

Topografía y morfología

Para cada variable se armó un diccionario basado en la sección correspondiente de la Clasificación Internacional de Enfermedades para Oncología (CIE-O) 17‎‎. Estos diccionarios identificaron las palabras clave en todas las categorías de topografía y morfología. Se buscaron esas palabras clave (e.j. “carcinoma”) primero en la sección de diagnóstico del texto de reporte de patología, continuando con otras secciones. Una vez se encontraba el igual, se hacía una búsqueda secundaria de modificadores cerca a la palabra, relevantes para dicha palabra clave (e.j. “ductal”, “papilar”, etc.).

Descriptores complementarios

Este grupo de descriptores ofrecía información complementaria a la búsqueda realizada y los resultados encontrados. Todos fueron calculados posterior a que se determinaran la topografía y morfología. Cada descriptor tenía unos cuantos posibles valores, dependiendo de si el cáncer se había establecido como un tumor sólido o malignidad hematológica (cuya distinción se puede hacer en base a la topografía y morfología).

La lateralidad se implementó como computación tomográfica lateral, primero verificando si el órgano era par y después su lado con respecto a los modificadores encontrados. El comportamiento se encontró en la sección de diagnóstico, usualmente cerca a la morfología, en algunos casos implícito en esta. Dada la naturaleza de los datos, el valor predeterminado era malignidad si no estaba descrito explícitamente.

El grado se determinaba de tres posibles fuentes: 1. Una palabra clave para la diferenciación escrita explícitamente o cercano a la declaración de morfología, por ejemplo: bien diferenciado. 2. Un número de grado global o un valor numérico para un grupo especificado de topografías. Por ejemplo, la puntuación de Nottingham en cáncer de mama. 3. Para malignidades hematológicas, el tipo de linfocito implicado era explícito o se determinaba por un marcador biológico.

El método de evaluación y el procedimiento diagnóstico dependían sustancialmente de la distinción entre sólido y hematológico. El tipo de evaluación complementa esta información, y la búsqueda de palabras clave entre descripciones microscópicas o macroscópicas.

La evaluación de tumor residual y márgenes quirúrgicas sólo procedía cuando se realizaba un procedimiento quirúrgico y se especificaba como micro o macro dependiendo del tamaño tumoral residual. La presencia o ausencia de invasión linfovascular usualmente era explícito en la evaluación de la descripción microscópica.

Descriptores relacionados a metástasis

Seis descriptores estudian la propagación del cáncer de acuerdo con los órganos comprometidos. Estos fueron calculados simultáneamente siguiendo un procedimiento de dos pasos: primero, identificar cada metástasis mencionada en el reporte y extraer de textos aledaños. Luego, se buscaba una mención por cada órgano especificado en los textos; si no se encontraba un órgano pero se mencionan metástasis en una forma NO negativa, se clasificaban como “otras metástasis”.

Se tenían en cuenta dos condiciones especiales en este algoritmo: primero, la exclusión de cáncer en el órgano primario como un posible sitio metastásico, y segundo, la diferenciación entre nódulos linfáticos regionales y distantes.

Descriptores especiales

Estos se determinaron basándose en la aplicabilidad de reglas del descriptor y algo de manipulación de los números reportados. Finalmente, se extraía la clasificación TNM con una búsqueda global basada en expresiones regulares, considerando repetición y declaraciones de código.

Por ejemplo, el código TNM puede estar distribuido en un párrafo primero indicando el valor T y unas frases después declarar el valor de N y M.

El tamaño tumoral sólo se buscaba cuando se hacía resección. Para extraerlo, se inspeccionaba el contexto de cada número que parecía una medida (e.j. 1.2 cm) para establecer si se mencionaba el tumor. El número de nódulos linfáticos evaluados y nódulos positivos se calculaba desde un contexto de inspección de los números presentes en el diagnóstico o en la descripción microscópica de la patología.

Evaluación del algoritmo

Durante el desarrollo del algoritmo, un grupo de expertos en nuestra institución seleccionaron un subgrupo de reportes de patología y ejecutaron una extracción manual de los descriptores de dichos reportes. Este equipo humano incluía un médico general, un patólogo y un hemato-oncólogo. Los reportes para extracción manual fueron cuidadosamente elegidos para asegurar la inclusión de una gran gama de reportes de patología. Se prestó atención especial a incluir representantes de cada base de datos, la mayoría de cánceres y estadios comunes y cada tipo de procedimiento.

Para evaluar y mejorar el algoritmo, se comparó la extracción manual y algorítmica en tres ciclos progresivos (primero 20 reportes, luego 42 y por último 140). Después de cada ciclo, se identificaban posibles errores en el algoritmo y se hacían e implementaban muchas sugerencias para su mejora.

La métrica usada para medir el desempeño del algoritmo dependía del tipo de valores que tomara cada descriptor:

Los valores se consideraban texto libre para el descriptor primario, y se calculaba un puntaje de coincidencia parcial. Este puntaje se basa en la distancia de Levenshtein entre el texto extraído por el algoritmo y el equipo humano; esta distancia mide el número de ediciones (adiciones, sustracciones o reemplazos de caracteres) necesarios para transformar una palabra en otra. La distancia se escala para obtener un puntaje que varía entre 0 a 100. Donde un puntaje de 100 significa que la palabra en ambos textos es idéntica, y 0 significa que los textos no tienen caracteres en común.

Para los otros descriptores, se separaban los valores en un número pequeño de clases. Así, usamos cuatro métricas comunes para un problema de clasificación multiclase: la precisión general y la precisión macro promedio, capacidad de recordar (referido como recordar), y puntaje f.

La precisión general mide la fracción de reportes correctamente clasificados entre todos los reportes, donde “correctamente” significa que la extracción humana y algorítmica coinciden.

Accuracy= Number of reports correctly classifiedTotal of reports evaluated

Para cada valor posible del descriptor, computamos la precisión, recordar y puntaje f en una estrategia de uno contra el resto según la siguiente fórmula:

Precision= Number of reports correctly assigned to the classNumber of reports assigned to the class by the algorithm
Recall= Number of reports correctly assigned to the classNumber of reports assigned to the class by the human team
F-Score= 2 * Precision * RecallPrecision + Recall

La precisión mide qué tan bueno es el algoritmo diferenciando una clase de las demás, y el recordar mide qué tan bueno es el algoritmo capturando todas las instancias de la misma clase. Ya que ambos objetivos son complementarios, el puntaje f es un resultado de ambos.

Finalmente, el promedio aritmético de cada métrica se toma sobre todos los valores posibles de un descriptor. Esto se conoce como promedio macro.

Adicionalmente, para los descriptores especiales donde los valores no aplicables o no reportados representan una proporción significativa, se realizó un análisis categórico entre clases reportadas, no reportadas y no aplicables antes de proceder al análisis de los valores reportados.

Para realizar una validación a gran escala del algoritmo, se desarrolló una página web para el mismo (disponible en una de nuestras plataformas institucionales), de acceso abierto para todo usuario externo interesado, que desee participar voluntariamente en su evaluación y mejora (https://oncologia-web-app-dev.uc.r.appspot.com/polls/).

Resultados

Esta sección resume la comparación entre la extracción de descriptores humanos y algorítmicos para los reportes de patología elegidos para validación. Se realizó la evaluación como fue descrito en la sección previa.

Descriptores primarios

Se realizó la validación en 140 reportes patológicos. La topografía se identificó por humano y algoritmo en todos los reportes. El humano identificó la morfología en 138 reportes y el algoritmo en 137.

Un puntaje de coincidencias parciales se calculó entre los valores en los reportes donde tanto humano como algoritmo extrajeron el descriptor. La Tabla 3 resume la distribución de dicho puntaje calculado para cada descriptor. Nótese que el puntaje de procesamiento fue superior a 90,0 en tres cuartos de los casos para el texto de Morfología.

Tabla 3. Resumen estadístico para el puntaje de coincidencias parciales entre la extracción humana y algorítmica de descriptores en texto libre. La tabla muestra el número de reportes validados y la media, desviación estándar y cuartiles del puntaje.

Descriptor Conteo Media DE Mín 25% 50% 75% Máx
Topografía 140 68.27 25.22 0.0 45.0 77.0 90.0 100
Morfología 137 89.45 10.64 31.0 90.0 90.0 95.0 100

Descriptores complementarios

Se calculó la precisión, recordar y puntaje f para cada valor posible del descriptor y luego fueron promediados. La precisión global corresponde a la fracción de reportes donde la extracción manual y algorítmica del descriptor concuerda. La Tabla 4 resume la precisión, recordar y exactitud para cada descriptor categórico en el subgrupo de validación de 42 reportes.

Tabla 4. Medidas del desempeño de extracción algorítmica cuando se aplica a características categóricas. La precisión mide el número de reportes correctamente clasificados entre el número total de reportes asignados a la clase por el algoritmo. “Recordar”, mide el número de reportes correctamente clasificados entre el número de reportes verdaderos (e.j. clasificados por humanos) en esa misma clase. El puntaje f es la media armoniosa de precisión y recordar. Para características multiclase, precisión, recordar y el puntaje f se promediaban sobre las clases (promedio macro). La exactitud global es el número de reportes correctamente clasificados entre el número total de reportes evaluados.

Descriptor Precisión macro (%) Recordar macro (%) Puntaje-f macro (%) Exactitud global. % (n/N)
Descriptores complementarios Lateralidad 66.2 50.0 52.9 64.3 (27/42)
Comportamiento 57.1 92.7 58.6 85.7 (36/42)
Grado 70.3 64.8 79.6 76.2 (32/42)
Método de Evaluación de Tumores Sólidos 78.6 94.8 78.4 85.7 (36/42)
Método de Evaluación de Tumores Hematológicos 100 100 100 100 (42/42)
Procedimiento diagnóstico 95.0 83.7 87.2 90.5 (38/42)
Invasión linfovascular 82.5 91.2 83.9 85.7 (36/42)
Márgenes quirúrgicas 94.4 77.2 82.8 90.5 (38/42)
Metástasis pulmonares 100 100 100 100 (42/42)
Metástasis óseas 92.9 50.0 96.3 92.9 (39/42)
Metástasis hepáticas 75.0 66.7 83.3 97.6 (41/42)
Metástasis cerebrales 50.0 50.0 100 97.6 (41/42)
Metástasis a nódulos linfáticos distales 50.0 97.6 98.8 97.6 (41/42)
Otras metástasis 98.8 75.0 82.7 97.6 (41/42)
Descriptores especiales Nódulos regionales examinados 92.3 100 96.0 41.7 (5/12)
Nódulos regionales positivos 92.3 100 96.0 58.3 (7/12)
Tamaño tumoral 85.7 75.0 80.0 50.0 (6/12)
Estadificación TNM 100 75.0 85.7 100 (3/3)

Descriptores especiales

Para estos descriptores, se ejecutó el análisis en dos pasos. Primero, se midió el desempeño del algoritmo para diferenciar valores reportados de los no reportados o no aplicables. A continuación, medimos la precisión de los valores reportados. La Figura 2 muestra matrices de confusión por puntaje f para cada descriptor.

Figura 2. Matrices de confusión entre extracción humana y algorítmica para los valores No aplicable (NA), no reportado (NR) y reportado (R) en los descriptores especiales. El color lleno indica la contribución de cada entrada al puntaje f.

Figura 2

Discusión

Aquí presentamos un esfuerzo para combiner el desarrollo del Procesamiento de Lenguaje Natural con el esfuerzo humano para optimizar los resultados de extracción de información para el módulo “tumor” de nuestro registro hospitalario de cáncer.

La extracción de datos usando el abordaje de expresiones regulares puede extraer múltiples atributos del espécimen de reportes de patología en texto libre en español, con exactitud y precisión aceptables. En los casos seleccionados para validación, el puntaje promedio de coincidencias parciales fue 68.3 para topografía y 89.5 para morfología. Los descriptores complementarios mostraron precisión y tasa de verdaderos positivos entre 50% y 100% y un puntaje f entre 52.9% y 100%. Entre los casos reportados, la precisión varió entre 92.3% y 100%, la tasa de verdaderos positivos entre 75% a 100% y el puntaje f entre 80% a 96%.

Estos desarrollos podrían asistir en extraer información veraz de registros de cáncer hospitalarios en los que se impone el desafío de manejar volúmenes enormes de información. Basado en la extracción algorítmica de descriptores, ahora es factible el análisis estadístico de estos tipos de reportes patológicos.

Aunque la precisión del modelo es alta, otras métricas como exhaustividad muestran que hay oportunidad de mejora. La exhaustividad muestra que las reglas creadas mediante las expresiones regulares no fueron suficientes para capturar un número significativo de características tumorales. Esto puede estar causado por la existencia de patrones de lenguaje subyacentes que los doctores no tienen presente porque (1) son infrecuentes o (2) pueden ser muy complejos para identificar. Estos dos obstáculos parecen insuperables usando expresiones regulares y coincidencias parciales de cadenas ya que todos los casos potenciales necesitarían ser incluidos, muchos de los cuales son desconocidos para los patólogos. Esta es la limitación más crítica de las expresiones regulares. Sin embargo, otras metodologías del Procesamiento de Lenguaje Natural podrían demostrar ser más exactas en estos casos; esta herramienta es un acercamiento que podría incrementar significativamente la exhaustividad de esta aplicación por medio de modelos de aprendizaje de máquinas.

Los modelos de aprendizaje de máquinas en datos de texto pueden identificar patrones subyacentes que los humanos no, superando la limitación de brechas en el conocimiento. Las metodologías de deep learning como redes neuronales recurrentes, word2vec y transformers pueden capturar el significado de palabras/términos en su contexto; entendiendo el contexto como el lenguaje a su alrededor. Con suficientes datos, estos modelos pueden aprovechar información en el texto, como longevidad, ubicación en el texto y orden de ocurrencia, para deducir correlaciones complejas y extraer las características de manera precisa. Creemos que la investigación en un futuro estará encaminada a esto, donde los modelos de aprendizaje serán entrenados para sobreponerse a las limitaciones generadas por patrones lingüísticos complejos o infrecuentes.

Aplicar el algoritmo en reportes de patología con textos estructurados o no estructurados podría ayudar a las instituciones a implementar los registros de cáncer hospitalarios. Los datos extraídos clasifican un tumor (CIE-O-M) según ubicación, tamaño, compromiso linfovascular, compromiso de nódulos linfáticos, metástasis y estadificar con el TNM.

Las limitaciones del algoritmo incluyen que requiere supervisión humana para la extracción de información. El algoritmo mejora cuando se registra información esencial de la malignidad en reportes patológicos con plantillas de protocolos de cáncer. Se necesitan estudios para demostrar el alcance del algoritmo en un corpus extenso de información.


Articles from Colombia Médica : CM are provided here courtesy of Universidad del Valle

RESOURCES