Skip to main content
Public Health Weekly Report logoLink to Public Health Weekly Report
. 2023 Mar 2;16(8):215–229. doi: 10.56786/PHWR.2023.16.8.1

Characterization of COVID-19 Diagnosis Based on Whole Genome Sequencing in Gyeongbuk Region

Haesun YUN 1, Jeonjoo Park 2, Hagyeong Chae 3, Hyo-Jin Kim 1, Seong Hee Oh 1, Yong-Pyo Lee 1, Gyeong Ran Moon 1, Chang-kyu Sohn 4, Chang-il Lee 5, Wooyoung Choi 1,*
PMCID: PMC12480386  PMID: 41334066

Abstract

In order to analyze the differences between the results of coronavirus disease 2019 (COVID-19) diagnostic tests in Gyeongbuk, Republic of Korea, this study was performed full length genome analysis of severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) used by Ion Torrent Genexus Integrated Sequencer and dedicated analysis program. Full-length genomic sequences of the SARS-CoV-2 were obtained from specimen of 13 confirmed cases of COVID-19. As a result of the analysis, the Omicron sub-lineages were BA.1.1 (n=5), BA.2 (n=4), and BA.2.3 (n=4). In detail, R61C or R61H were confirmed in the E gene, meanwhile L142W and 166–178 nucleotide sequences were deleted in the ORF1ab NSP3 region. In the analysis using a computer program, mutations in the E gene region (R61H) were not useful as a target region for COVID-19 Real-time RT-PCR. Amino acid mutation (L142W) and nucleotide deletion (166–178) in the ORF1ab NSP3 region have been identified to affect diagnosis of COVID-19 with specific diagnostic kits. Thus, these results suggest that the detailed lineage and genetic mutations of the SARS-CoV-2 using the whole genome sequencing could be a critical tool for the COVID-19 diagnosis.

Keywords: Coronavirus Disease-19, Severe acute respiratory syndrome coronavirus 2, Whole genome sequencing, SARS-CoV-2 variant, Molecular diagnostic test


Key messages

① What is known previously?

There are only a few studies on the correlation between severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) mutation and gene detection.

② What new information is presented?

SARS-CoV-2 mutations may affect sensitivity of gene detection depending on diagnostic kits.

③ What are implications?

Continuous monitoring is necessary through analysis of whole genome of SARS-CoV-2.

Introduction

Since the outbreak of respiratory pneumonia of unknown origin in Wuhan, Hubei Province, China in December 2019, it has been rapidly spreading worldwide beyond community boundaries through person-to-person transmission. The culprit is one of the coronaviruses that has been identified as a new strain that is genetically different from the already-known severe acute respiratory syndrome (SARS) coronavirus. Additionally, the genetic lineage of the current coronavirus disease 2019 (COVID-19) virus is becoming more and more diverse following the global spread. The World Health Organization Technical Advisory Group on SARS-CoV-2 Virus Evolution classified the omicron variant as a variant of concern in November 2021 [1,2], which was re-classified into 390 sub-strains. Among these, BA.5, BA.4, and BA.2 were further re-classified into 140, 20, and 172 sub-strains, respectively (October 2022) [3,4]. In the Republic of Korea (ROK), BA.4/BA.5 and BA.2.75 were identified in May and July 2022, respectively. As of November 2022, the detection rate of BA.5 (including BF.7, BQ.1, and BQ.1.1) and BA.2.75 (including BN.1) sub-strains was 85.1% and 11.6%, respectively [5].

Division of Laboratory Diagnosis Analysis, Gyeongbuk Regional Center for Disease Control and Prevention conducts diagnostic tests and genetic analysis for patients confirmed with COVID-19, thereby contributing to scientific quarantine based on the analysis and diagnosis of the COVID-19 epidemic in the region. In our lab, domestic manufacturer reagents that detect E and ORF1ab genes or E and RdRp genes are used for the gene detection test, and the COVID-19 mutation screening test, specific gene (S gene) sequencing analysis, and whole genome analysis are used for genetic analysis.

Most of the commercially available COVID-19 gene diagnostic reagents in the ROK detect specific regions (E, ORF1ab, RdRp, etc.) of the expression of COVID-19 viral gene using real-time reverse transcription polymerase chain reaction (real time RT-PCR). Typically, the cycle threshold (Ct) values of the target gene (2 or 3) within the same sample are consistent when the same gene detection reagent is used; however, despite using the same reagent, different Ct values were identified for the COVID-19 virus detected in some of the recently confirmed cases of COVID-19 in the Gyeongbuk region.

Based on these results, detailed strains of mutations were identified in this study using whole genome analysis of the COVID-19 virus isolated from confirmed patients of COVID-19 who showed different Ct values of the specific gene for COVID-19 in the detection test. In addition, based on the identified gene mutation, its effect on the gene detection test was analyzed using a computer program as a reference when selecting a genetic diagnostic reagent.

Methods

1. Target for Whole Genome Analysis

Clinical samples (oral and nasopharyngeal smears) were obtained from 13 patients suspected with COVID-19 who visited a screening clinic (public health center), in Gunwi-gun, Cheongdo-gun, and Uiseong-gun in the Gyeongbuk region, following direct contact with a patient diagnosed with COVID-19 between February and March 2022.

2. COVID-19 Diagnostic Test

Viral genes were extracted from the clinical samples of 13 patients confirmed with COVID-19. A diagnostic reagent from a domestic manufacturer (company B), which can simultaneously detect both the E and ORF1ab genes of the COVID-19 virus, was used to identify positive cases, according to the criteria for the reagent manufacturer’s internal control (IC); and positive outcomes were determined using real-time RT-PCR (Applied BiosystemsTM 7500 Fast Real-Time PCR System, ThermoFisher Scientific).

3. Whole Genome Analysis and Registration of GISAID

Viral RNA extracted from patients with COVID-19 were quantified using TaqManTM 2019 nCoV Assay kit v1 (Applied BiosystemsTM), and whole genome analysis was conducted using the whole genome analysis reagents (ThermoFisher Scientific), GenexusTM Integrated Sequencer (Ion Torrent Genexus System, ThermoFisher Scientific), and Ion AmpliSeqTM SARS-CoV-2 Insight Research Assay GX. The obtained COVID-19 genome was compared and analyzed for sublineage and genome sequence analysis using SARS-CoV-2-Panglin and CLC Main Workbench (Version 21.0.3, QIAGEN). The full-length genome sequence obtained was registered in the Global Initiative on Sharing Avian Influenza Data (GISAID) [3,4].

4. In silico Analysis

A virtual experiment using a computer program was performed to determine whether the COVID-19 gene obtained from 13 confirmed patients of COVID-19 could be detected using diagnostic reagents (A, B, C, D, E) from 5 domestically licensed and commercially available diagnostic reagents by Division of Emerging Infectious Diseases, Korea Disease Control and Prevention Agency.

Results

1. COVID-19 Diagnostic Test

The number of patients confirmed with COVID-19 that underwent the COVID-19 gene detection test was 9 at the Gunwi-gun Public Health Center, 1 at the Cheongdo-gun Public Health Center, and 3 at the Uiseong-gun Public Health Center in Gyeongsangbuk-do. Our study included 6 males and 7 females aged 9–65 years, with a mean age of 33 years. When gene detection was performed using the reagent from Company B, the six samples (numbers 1 to 6) obtained from Gunwi-gun showed no amplification or a significant increase in the Ct value of the E gene compared with that the ORF1ab gene. For the three samples obtained from Gunwi-gun, one sample from Cheongdo-gun, and three samples from Uiseong-gun, the ORF1ab gene was not amplified or the Ct value increased compared with that of the E gene (Table 1).

Table 1. Characteristics of Ct values of SARS-CoV-2 in Gyeongbuk region.

No. Age Sex Region Value of Ct GISAID accession number Characteris-tics
ORF1ab E
1 65 F GW 18.08 - hCoV-19/South_Korea/KDCA33801/2022 Not detected E gene or Ct value increasement of E gene
2 55 M GW 23.1 34.31 hCoV-19/South_Korea/KDCA33847/2022
3 56 M GW 23.68 31.37 hCoV-19/South_Korea/KDCA33848/2022
4 43 F GW 20.52 26.58 hCoV-19/South_Korea/KDCA33846/2022
5 35 F GW 20.05 28.65 hCoV-19/South_Korea/KDCA33845/2022
6 9 F GW 21.24 31.23 hCoV-19/South_Korea/KDCA33844/2022
7 38 F GW 19.15 16.61 hCoV-19/South_Korea/KDCA42754/2022 Not detected ORF1ab or Ct value increasement of ORF1ab
8 10 M GW 19.07 16.71 hCoV-19/South_Korea/KDCA42756/2022
9 39 M GW 22.06 19.11 hCoV-19/South_Korea/KDCA42800/2022
10 39 F CD 19.36 16.46 hCoV-19/South_Korea/KDCA42801/2022
11 12 M US - 20.06 hCoV-19/South_Korea/KDCA43171/2022
12 14 M US 38.23 19.01 hCoV-19/South_Korea/KDCA43172/2022
13 14 F US 38.14 18.91 hCoV-19/South_Korea/KDCA43173/2022

Ct=cycle threshould; SARS-CoV-2=severe acute respiratory syndrome coronavirus 2; GISAID=Global Initiative on Sharing Avian Influenza Data; -=not detected; GW=Gunwi-gun; CD=Cheongdo-gun; US=Uiseong-gun.

2. Whole Genome Analysis

Following whole genome analysis of the COVID-19 virus, it was confirmed that both BA.1 and BA.2 strains were prevalent simultaneously in Gyeongsangbuk-do during February–March 2022. The full-length sequence of the COVID-19 viral genome obtained from 13 patients in Gyeongbuk Province showed 97% coverage and a depth of ≥2,600×. Furthermore, all mutant sublineages were of the omicron variant, and there were 5, 4, and 4 cases of BA.1.1, BA.2, and BA.2.3, respectively (Pangolin version 4.1.3). The 13 full-length genome sequences obtained were registered in the GISAID (Table 2).

Table 2. Distribution of SARS-CoV-2 variants and main amino acid mutations of COVID-19 patients.

No. GISAID Pango
Lineage
Pangolin version Main amino acid
mutationsTarget region
Main amino acid mutations of
COVID-19 Patients
1 GRA BA.2.3 4.1.3 T9I, R61C on E gene T9I, R61C
2 BA.1.1 4.1.3 T9I, R61H on E gene T9I, R61H
3 BA.1.1 4.1.3
4 BA.1.1 4.1.3
5 BA.1.1 4.1.3
6 BA.1.1 4.1.3
7 BA.2 4.1.3 T24I, L142W, G171V, G489S on NSP3 T24I, L142W, G171V, G489S
8 BA.2 4.1.3
9 BA.2 4.1.3 T24I, L142W, G489S on NSP3 T24I, L142W, G489S
10 BA.2 4.1.3 T24I, F25L, E26N, D28M, E29K, R30G, I31L, D32I, V34Y, N36M, E37R, K38del, C39del, Y42L, T43P, V44I, E45Q, G47N, T48S, L142W, G171V, G489S on NSP3 T24I, F25L, E26N, D28M, E29K, R30G, I31L, D32I, V34Y, N36M, E37R, K38del, C39del, Y42L, T43P, V44I, E45Q, G47N, T48S, L142W, G171V, G489S
11 BA.2.3 4.1.3 166–178 deletion on NSP3 166-178 deletion
12 BA.2.3 4.1.3
13 BA.2.3 4.1.3

SARS-CoV-2=severe acute respiratory syndrome coronavirus 2; COVID-19=coronavirus disease 2019; GISAID=Global Initiative on Sharing Avian Influenza Data; C=cysteine; D=aspartic acid; del=deletion; E=glutamic acid; F=phenylalanine; G=glycine; I=isoleucine; K=lysine; L=leucine; M=methionine; N=asparagine; NSP3=multi-domain non-structural protein 3; P=proline; Q=glutamine; R=arginine; S=serine; T=threonine; V=valine; W=tryptophan; Y=tyrosine.

A common T9I mutation was identified in the E gene region using whole genome analysis of COVID-19 viral samples obtained from the six confirmed cases (No. 1–6), in which the E gene was not amplified or the Ct value was increased compared to the Ct value of the ORF1ab gene. Among these, R61C mutation was confirmed in case 1 (BA.2.3) and R61H mutation was confirmed in cases 2 to 6 (BA.1.1). In contrast, whole genome analysis of COVID-19 viral samples obtained from cases 7 to 10 (BA.2), whose ORF1ab gene was not amplified or Ct value was increased, revealed that T24I, L142W, and G489S mutations were commonly identified in the NSP3 gene region. Moreover, several additional mutations were identified in case 10 (BA.2). In cases 11 to 13 (BA.2.3), consecutive gene deletions (166 to 178) were detected in the NSP3 gene (Table 2).

The results of the whole genome analysis showed total reads of at least 97% and a coverage depth (CD) of at least 2,600×, thus, indicating good information. Major mutations (R61C and R61H on the E gene, and L142W and G171V on the NSP3 gene) were identified with a CD of ≥1,121× and a mutation frequency of ≥93% (Table 3).

Table 3. Characteristics of SARS-CoV-2 whole genome analysis and frequency of gene mutation on E and NSP3 region.

No. Mapped reads Consensus Reads mapped to reference/total reads (%) Depth of coverage Genome coverage (%) E gene NSP3
R61C R61H L142W G171V
Coverage Frequency (%) Coverage Frequency (%) Coverage Frequency (%) Coverage Frequency (%)
1 606,419 29,849 99.50 3,042 99.80 1,788 99.2 - - - - - -
2 1,554,483 29,855 98.70 7,798 99.80 - - 2,684 93.3 - - - -
3 1,482,940 29,855 98.80 7,439 99.80 - - 3,564 98.5 - - - -
4 1,398,424 29,822 98.40 7,015 99.70 - - 2,038 98.6 - - - -
5 1,883,778 29,855 98.40 9,449 99.80 - - 3,172 98.2 - - - -
6 1,513,983 29,855 98.40 7,595 99.80 - - 2,930 98.3 - - - -
7 1,316,138 29,603 98.80 6,602 99.00 - - - - 3,963 97.3 1,121 98.7
8 1,119,320 29,795 98.90 5,615 99.60 - - - - 4,125 97.7 1,258 98.3
9 1,091,099 29,710 98.40 5,473 99.40 - - - - 3,993 98 - -
10 3,570,992 29,843 98.80 17,913 99.80 - - - - 18,048 97.8 5,822 98.5
11 528,461 29,212 97.90 2,651 97.70 - - - - - - - -
12 1,332,872 29,549 98.40 6,686 98.80 - - - - - - - -
13 1,371,159 29,515 99.00 6,878 98.70 - - - - - - - -

SARS-CoV-2=severe acute respiratory syndrome coronavirus 2; -=not applicable; C=cysteine; G=glycine; H=histidine; L=leucine; R=arginine; V=valine; W=tryptophan.

3. In Silico Analysis of the Target Gene

Based on the 13 full-length genome information obtained, mutations were identified in the target gene detection sites of five diagnostic reagents commercially available in the ROK. Computer program-based analysis was performed to determine whether these mutations can be detected using specific diagnostic reagents. Mutations in the E gene could be detected, whereas the partial mutations of the NSP3 in the ORF1ab gene in cases 7–10 and 11–13 with partial regional deletions could not be detected using the diagnostic reagents of Company B. In addition, it was difficult to detect S and E genes using diagnostic reagents from Companies A and E (Table 4).

Table 4. Comparision of SARS-CoV-2 diagnostic reagents using software-based analysis.

No. Type of kit Target gene Detectable targets Undetectable target Kit interpretation (positive)
1–6 A RdRp, S, E, N RdRp, E, N S Ct≤40
B ORF1ab, E ORF1ab, E None Ct≤38
C RdRp, E RdRp, E None Ct≤36
D RdRp, E RdRp, E None Ct≤38
E ORF1ab, S, E, N ORF1ab, S, N E Ct≤38
7–10 A RdRp, S, E, N RdRp, E, N S Ct≤40
B ORF1ab, E E ORF1ab Ct≤38
C RdRp, E RdRp, E None Ct≤36
D RdRp, E RdRp, E None Ct≤38
E ORF1ab, S, E, N ORF1ab, S, N E Ct≤38
11–13 A RdRp, S, E, N RdRp, E, N S Ct≤40
B ORF1ab, E E ORF1ab Ct≤38
C RdRp, E RdRp, E None Ct≤36
D RdRp, E RdRp, E None Ct≤38
E ORF1ab, S, E, N ORF1ab, S, N E Ct≤38

SARS-CoV-2=severe acute respiratory syndrome coronavirus 2; E=envelope; N=nucleoprotein; ORF1ab= open reading frame 1ab; RdRp=RNA-dependent RNA polymerase; S=spike; Ct=cycle threshould.

Discussion

Using full-length genomic analysis of the COVID-19 virus from clinical samples of patients with COVID-19, the sub-strains of variants as well as the prominent strain in the ROK were analyzed and the sites of genetic mutations were identified in the entire viral genome. In silico analysis results based on full-length genome information of the COVID-19 virus showed that the R61C or R61H mutation in the E gene did not affect genetic diagnosis because it was not the target gene location of the diagnostic reagents of Company B examined in this study. This indicates that the gene detection sensitivity may be lowered due to a region other than the target E gene or other causes. In addition, due to the effect of the NSP3 L142W mutation in the ORF1ab gene identified in some samples, the Ct value of ORF1ab gene increased when using the diagnostic test reagents from Company B. However, the same genes were not detected when using the same reagents from Company B because of the genetic defect in the 166–178 region of the ORF1ab gene.

Garg et al. [6] performed real-time RT-PCR on five clinical samples using the gene detection test method they developed using seven types of COVID-19 diagnostic reagents and reported that samples with weak positives were sometimes reported as negative depending on the type of reagent used. Furthermore, 354 patients hospitalized with COVID-19 were randomly selected to compare the Ct value results via real-time RT-PCR with three diagnostic reagents (Sansuer Biotech, GeneFinderTM, TaqPathTM) using the same PCR equipment and nucleic acid extraction conditions. They observed no statistically significant difference between detection reagents; however, the reagent from Sansuer Biotech had slightly superior performance. For improvement, determination of the cut-off Ct value and rapid primer development according to the emergence of new mutations were suggested [7]. A Dutch research team identified the detection values of ORF1ab and E gene as 20.7 and 30.2, respectively, using a diagnostic reagent that detects two target genes; they reported five unique mutations in the ORF1ab region of the virus, thus, emphasizing the importance of using gene region analysis for molecular diagnosis [8].

Since the diagnostic reagents compared in this study have more than two target genes, the influence of diagnostic tests for specific genetic mutations can be minimized using diagnostic reagents with different targets if unexpected results are obtained from one diagnostic reagent (such as when only one of the target genes is determined to be positive). The diagnostic reagents approved by the Ministry of Food and Drug Safety disclose their target genes and criteria [9] to ensure that the diagnostic reagents with fewer mutations in the target gene can be selected based on the gene mutation information of the COVID-19 virus obtained using whole genome analysis (Table 4). Furthermore, as various mutations have occurred in the COVID-19 omicron strain along with the unpredictable genetic mutations and deletion patterns, the results obtained by monitoring the emergence of continuous genetic mutations using whole genome analysis of COVID-19 may be used to improve the molecular diagnostics for COVID-19.

Acknowledgments

We acknowledge to staff in the Division of Emerging Infectious Diseases in Korea Disease Control and Prevention Agency for the additional analysis of in silico and gene mutation sites based on the full-length genome sequence of the SARS-CoV-2.

Declarations

Ethics Statement: Not applicable.

Funding Source: None.

Conflict of Interest: The authors have no conflicts of interest to declare.

Author Contributions: Conceptualization: HSY, WYC. Data curation: HSY, GRM. Formal analysis: HJK, SHO. Investigation: JJP, HGC, YPL, Methodology: HSY, HGC. Resources: JJP, CIL. Software: HGC, SHO. Supervision: WYC, CKS. Validation: HSY. Visualization: HSY. Writing – original draft: HSY. Writing – review & editing: WYC.

REFERENCES

Jugan Geongang Gwa Jilbyeong. 2023 Mar 2;16(8):215–229. [Article in Korean]

전장유전체 분석 기반 경북권 코로나19 진단검사 특이사례 분석

윤 혜선 1, 박 정주 2, 채 하경 3, 김 효진 1, 오 성희 1, 이 용표 1, 문 경란 1, 손 창규 4, 이 창일 5, 최 우영 1,*

Abstract

경북지역 코로나바이러스감염증-19(코로나19) 의심 환자의 진단검사 시 특정 제조사 진단 시약을 사용한 유전자 검출 검사에서 표적 검출 유전자(E 및 ORF1ab)의 Ct 값(cycle threshold value)이 서로 상이하여 전장유전체 염기서열 분석 및 컴퓨터 프로그램을 활용하여 원인을 분석하고자 하였다. 코로나19 확진자 13명의 검체로부터 코로나19 바이러스의 전장유전체 염기서열 정보를 분석한 결과 오미크론 세부계통이 BA.1.1 (5명), BA.2 (4명), BA.2.3 (4명)이었다. 세부적으로 E 유전자 영역에서 R61C 또는 R61H 변이를 확인하였고, ORF1ab NSP3 유전자 영역에서 변이(L142W)와 166–178 염기서열 결손을 확인하였다. 컴퓨터 프로그램을 활용한 인실리코 분석에서 E 유전자 부위(R61H)의 변이는 특정 제조사 진단 시약의 검출 표적 부위가 아니였으나, ORF1ab NSP3 유전자 영역의 변이(L142W)와 염기서열 결손(166–178)은 특정 유전자 검출 시약으로 코로나19 진단검사 수행 시 영향을 주는 부위로 확인되었다. 따라서 코로나19 바이러스 전장유전체 분석 결과를 바탕으로 바이러스 변이 감시에 활용할 뿐만 아니라 바이러스 유전자 진단에 미치는 영향을 분석할 수 있으므로 지속적인 연구가 필요할 것으로 판단된다.

Keywords: 코로나바이러스감염증-19, 코로나19 바이러스, 전장유전체 분석, 유전자 변이, 유전자 검출검사


핵심요약

① 이전에 알려진 내용은?

코로나바이러스감염증-19(코로나19) 바이러스 변이와 유전자 검출 시약의 상관관계에 대한 연구는 많지 않은 상황으로 본 연구에서는 진단 시약 검출시약별로 검출 감도를 조사하였다.

② 새로이 알게 된 내용은?

코로나19 바이러스 변이는 코로나19 진단 시약에 따라서 표적 유전자 검출 감도에 영향을 줄수 있다.

③ 시사점은?

코로나19 바이러스 전장 유전체 분석을 통하여 지속적인 바이러스 감시가 필요한 상황이다.

서 론

2019년 12월 중국 후베이성 우한에서 원인을 알 수 없는 호흡기 폐렴 사례가 발생한 이후로 사람과 사람 사이의 전파를 통해 지역사회 감염을 넘어 전 세계로 급속하게 펴져 나갔다. 이 원인 바이러스는 코로나 바이러스 중 하나이며, 기존의 알려진 Severe acute respiratory syndrome (SARS) 코로나 바이러스와는 유전적으로 상이한 신종임이 밝혀졌으며, 전 세계적 확산에 따라 현재 코로나바이러스감염증-19 원인 병원체(severe acute respiratory syndrome coronavirus-2, SARS-CoV-2)의 유전적 계통이 점점 다양해지고 있다. 세계보건기구(World Health Organization, WHO) 긴급자문위원회(Technical Advisory Group on SARS-CoV-2 Virus Evolution)는 2021년 11월 오미크론 변이 바이러스를 주요 변이 바이러스(Variant of Concern)로 분류하였다[1,2]. 또한 오미크론은 390개의 세부계통으로 재분류되었으며, 이 중에 BA.5는 140개, BA.4는 20개, BA.2는 172개의 세부계통으로 재분류 되었다(2022년 10월) [3,4]. 국내에서는 지난 2022년 5월과 7월에 BA.4/BA.5 및 BA.2.75가 각각 확인되어 2022년 11월을 기준으로 BA.5 세부계통(BF.7, BQ.1, BQ.1.1 포함) 검출률이 85.1%, BA.2.75 세부계통(BN.1 포함) 검출률은 11.6%이다[5].

경북권질병대응센터 진단분석과에서는 코로나19 확진자에 대한 유전자 검출 검사 및 유전자 분석을 실시하여 권역 내 코로나19 유행주 분석 및 진단분석에 기반한 과학적 방역에 기여하고 있다. 유전자 검출 검사를 위하여 E와 ORF1ab 유전자 또는 E와 RdRp 유전자 등을 검출하는 국내 제조사 시약을 사용하고 있다. 유전자 분석으로 코로나19 변이 바이러스 선별검사(real-time reverse transcription polymerase chain reaction, real-time RT-PCR), 특정 유전자(S gene) 염기서열 분석 및 전장유전체 분석을 실시하고 있다.

국내 시판 중인 코로나19 유전자 진단 시약 대부분은 코로나19 바이러스 유전자의 특정 부위(E, ORF1ab, RdRp 등)를 실시간 역전사 중합효소연쇄반응(real-time RT-PCR) 기법을 이용하여 해당 표적 유전자를 실시간으로 검출한다. 동일한 유전자 검출 시약을 사용했을 경우, 동일 검체 내 표적 유전자(2개 또는 3개)의 Ct 값(cycle threshold value)이 일반적으로 일정한 값이 확인되나, 최근 경북권역 내 일부 코로나19 확진자에서 검출된 코로나19 바이러스 유전자가 동일 유전자 검출 시약을 사용하였음에도 서로 다른 Ct 값이 확인되었다.

이러한 결과를 토대로 하여, 본 연구에서는 코로나19 유전자 검출 검사를 수행하였을때 코로나19 특정 유전자 Ct 값이 상이한 검체에 대해 코로나19 바이러스의 전장유전체 분석을 통하여 변이 세부 계통을 확인하였다. 또한 확보한 유전자 변이를 바탕으로 유전자 검출 검사에 미치는 영향을 컴퓨터 프로그램을 이용하여 분석함으로써 유전자 진단 시약 선택 시 참고할 수 있도록 제안하고자 하였다.

방 법

1. 분석 대상

2022년 2–3월 동안 경북지역 군위군, 청도군 및 의성군 일대에서 코로나19 확진자와 접촉하여 선별진료소(보건소)를 내원하여 코로나19가 확진되었던 13명의 임상 검체(구‧비인두 도말)을 확보하여 분석하였다.

2. 코로나19 진단 검사

코로나19 확진자 13명의 임상 검체로부터 바이러스 유전자를 추출하여 코로나19 바이러스의 E 유전자와 ORF1ab 유전자를 동시에 검출 가능한 국내 제조회사(B사) 진단시약을 사용하여 Real-time RT-PCR기법(Applied BiosystemsTM 7500 Fast Real-Time PCR System, ThermoFisher Scientific)을 활용하여 시약 제조사 기준 internal control (IC) 및 양성 판정 기준에 따라 양성으로 확인하였다.

3. 전장유전체 정보 분석 및 GISAID 등록

코로나19 확진자로부터 추출한 바이러스 유전자를 TaqManTM 2019 nCoV Assay kit v1 (Applied BiosystemsTM)을 사용하여 정량하고 GenexusTM Integrated Sequencer (Ion Torent Genexus System, ThermoFisher Scientific)와 Ion AmpliSeqTM SARS-CoV-2 Insight Research Assay GX 등 전장유전체 분석 시약(ThermoFisher Scientific)을 사용하여 전장유전체 분석을 실시하였다. 확보한 코로나19 전장유전체는 SARS-CoV-2-Panglin과 CLC Main Workbench (Version 21.0.3, QIAGEN)를 사용하여 세부계통과 유전체 염기서열을 비교 분석하였다. 확보한 전장유전체 서열을 Global Initiative on Sharing Avian Influenza Data (GISAID) 데이터베이스에 등록하여 등록 번호를 확보하였다[3,4].

4. 인실리코 분석

컴퓨터 프로그램을 이용하여 수행하는 가상 실험을 실시하여 13명 코로나19 확진자로부터 확보한 코로나19 유전자가 국내 허가 및 시판 중인 5개 사의 진단시약(A, B, C, D, E)으로 검출 가능한지 분석하였다(질병관리청 신종병원체분석과).

결 과

1. 코로나19 진단

본 연구의 분석 대상인 코로나19 확진자는 경상북도 군위군보건소에서 9명, 청도군보건소에서 1명, 의성군보건소에서 3명으로 총 13명이었다. 성별 분포는 남성 6명, 여성 7명이었으며, 연령은 9–65세로 평균 33세이었다. B사 진단 시약을 사용하여 유전자 검출 검사한 결과 군위군에서 확보한 6명(1–6번)은 ORF1ab 유전자의 Ct 값과 비교 시 E 유전자가 증폭되지 않거나 Ct 값이 현저하게 증가되는 현상을 확인하였다. 군위군에서 확보한 3명, 청도군에서 확보한 1명과 의성군에서 확보한 3명에서는 E 유전자의 Ct 값과 비교 시 ORF1ab 유전자가 미증폭 되거나 Ct 값이 증가되는 현상을 확인하였다(표 1).

표 1. 경북지역 코로나19 확진자의 유전자 검출 검사 결과.

연번 나이 성별 거주지역 유전자 진단 결과(Ct 값) GISAID 등록 번호 주요 특성
ORF1ab E
1 65 군위 18.08 - hCoV-19/South_Korea/KDCA33801/2022 E gene 미증폭 또는 Ct 값 증가
2 55 군위 23.1 34.31 hCoV-19/South_Korea/KDCA33847/2022
3 56 군위 23.68 31.37 hCoV-19/South_Korea/KDCA33848/2022
4 43 군위 20.52 26.58 hCoV-19/South_Korea/KDCA33846/2022
5 35 군위 20.05 28.65 hCoV-19/South_Korea/KDCA33845/2022
6 9 군위 21.24 31.23 hCoV-19/South_Korea/KDCA33844/2022
7 38 군위 19.15 16.61 hCoV-19/South_Korea/KDCA42754/2022 ORF1ab gene 미증폭 또는 Ct 값 증가
8 10 군위 19.07 16.71 hCoV-19/South_Korea/KDCA42756/2022
9 39 군위 22.06 19.11 hCoV-19/South_Korea/KDCA42800/2022
10 39 청도 19.36 16.46 hCoV-19/South_Korea/KDCA42801/2022
11 12 의성 - 20.06 hCoV-19/South_Korea/KDCA43171/2022
12 14 의성 38.23 19.01 hCoV-19/South_Korea/KDCA43172/2022
13 14 의성 38.14 18.91 hCoV-19/South_Korea/KDCA43173/2022

Ct=cycle threshould; GISAID=Global Initiative on Sharing Avian Influenza Data; -=not detected.

2. 전장유전체 분석

코로나19 바이러스 전장유전체 정보 분석을 통하여 2022년 2–3월 동안 경상북도에서는 오미크론 세부변이 BA.1 계통과 BA.2 계통이 동시에 유행하는 것을 확인하였다. 경북지역 13명에서 확보한 코로나19 바이러스의 전장유전체 염기서열은 커버리지(coverage) 97%, depth 2,600x 이상으로 모두 변이 세부계통은 오미크론형이고 5명은 BA.1.1, 4명은 BA.2로 나머지 4명은 BA.2.3으로 확인(Pangolin version 4.1.3)되었다. 확보한 13건의 전장유전체 염기서열은 GISAID 데이터베이스에 등록하여 등록번호를 확보하였다(표 2).

표 2. 코로나19 바이러스 오미크론 세부계통 및 분석 대상의 주요 변이 부위.

연번 GISAID 팽고 계통 판골린 버전 타켓 부위 주요 변이 분석 대상의 주요 변이
1 GRA BA.2.3 4.1.3 T9I, R61C on E gene T9I, R61C
2 BA.1.1 4.1.3 T9I, R61H on E gene T9I, R61H
3 BA.1.1 4.1.3
4 BA.1.1 4.1.3
5 BA.1.1 4.1.3
6 BA.1.1 4.1.3
7 BA.2 4.1.3 T24I, L142W, G171V, G489S on NSP3 T24I, L142W, G171V, G489S
8 BA.2 4.1.3
9 BA.2 4.1.3 T24I, L142W, G489S on NSP3 T24I, L142W, G489S
10 BA.2 4.1.3 T24I, F25L, E26N, D28M, E29K, R30G, I31L, D32I, V34Y, N36M, E37R, K38del, C39del, Y42L, T43P, V44I, E45Q, G47N, T48S, L142W, G171V, G489S on NSP3 T24I, F25L, E26N, D28M, E29K, R30G, I31L, D32I, V34Y, N36M, E37R, K38del, C39del, Y42L, T43P, V44I, E45Q, G47N, T48S, L142W, G171V, G489S
11 BA.2.3 4.1.3 166–178 deletion on NSP3 166-178 deletion
12 BA.2.3 4.1.3
13 BA.2.3 4.1.3

GISAID=Global Initiative on Sharing Avian Influenza Data; C=cysteine; D=aspartic acid; del=deletion; E=glutamic acid; F=phenylalanine; G=glycine; I=isoleucine; K=lysine; L=leucine; M=methionine; N=asparagine; NSP3=multi-domain non-structural protein 3; P=proline; Q=glutamine; R=arginine; S=serine; T=threonine; V=valine; W=tryptophan; Y=tyrosine.

ORF1ab 유전자의 Ct 값과 비교 시 E 유전자가 증폭되지 않거나 Ct 값이 증가되는 현상을 보인 1–6번 확진자에서 확보한 샘플로 코로나19 전장유전체 분석 결과, E 유전자 부위에서 공통적으로 T9I 변이가 확인되었고 이들 중 1번(BA.2.3)에서는 R61C 변이가 2-6번(BA.1.1)에서는 R61H변이가 확인되었다. 한편 ORF1ab 유전자가 미증폭 되거나 Ct 값이 증가되는 현상을 보인 7–10번(BA.2) 환자에서 확보한 코로나19 바이러스 전장유전체 분석 결과에서는 NSP3 유전자 부위에 T24I, L142W, G489S 변이가 공통적으로 확인되었고 이외에도 10번(BA.2)에서는 추가적으로 변이가 다수 확인되었다. 11–13번(BA.2.3)에서는 NSP3 유전자 부위에 연속적으로 유전자가 결손(166–178)되어 있었다(표 2).

전장유전체 정보 분석 결과는 total reads 97% 이상, coverage의 depth (CD) 2,600× 이상으로 확보한 전장유전체 정보는 양호하였고, 주요 변위(E gene상에서 R61C, R61H, 그리고 NSP3상에서 L142W, G171V) 위치는 CD는 1,121× 이상, 변이 빈도율(frequency)은 93% 이상으로 확인되었다(표 3).

표 3. 코로나19 전장유전체 분석 특성 및 주요 변이 발생 빈도.

연번 맵핑된 리드 콘센서스 맵핑된 리드/
전체
리드(%)
커버리지 정도 게놈
커버리지(%)
E gene NSP3
R61C R61H L142W G171V
커버리지 빈도(%) 커버리지 빈도(%) 커버리지 빈도(%) 커버리지 빈도(%)
1 606,419 29,849 99.50 3,042 99.80 1,788 99.2 - - - - - -
2 1,554,483 29,855 98.70 7,798 99.80 - - 2,684 93.3 - - - -
3 1,482,940 29,855 98.80 7,439 99.80 - - 3,564 98.5 - - - -
4 1,398,424 29,822 98.40 7,015 99.70 - - 2,038 98.6 - - - -
5 1,883,778 29,855 98.40 9,449 99.80 - - 3,172 98.2 - - - -
6 1,513,983 29,855 98.40 7,595 99.80 - - 2,930 98.3 - - - -
7 1,316,138 29,603 98.80 6,602 99.00 - - - - 3,963 97.3 1,121 98.7
8 1,119,320 29,795 98.90 5,615 99.60 - - - - 4,125 97.7 1,258 98.3
9 1,091,099 29,710 98.40 5,473 99.40 - - - - 3,993 98 - -
10 3,570,992 29,843 98.80 17,913 99.80 - - - - 18,048 97.8 5,822 98.5
11 528,461 29,212 97.90 2,651 97.70 - - - - - - - -
12 1,332,872 29,549 98.40 6,686 98.80 - - - - - - - -
13 1,371,159 29,515 99.00 6,878 98.70 - - - - - - - -

-=not applicable; C=cysteine; G=glycine; H=histidine; L=leucine; R=arginine; V=valine; W=tryptophan.

3. 표적 유전자 인실리코 분석

확보한 13건의 전장유전체 정보를 바탕으로 국내 시판 중인 5종의 진단시약이 표적 유전자의 검출 부위 변이를 확인할 수 있는가를 컴퓨터 프로그램 기반으로 분석한 결과 E 유전자 부위 변이는 B사 진단시약 사용 시 검출 가능한 것으로 확인되었고, ORF1ab 유전자 영역의 NSP3 유전자 부분 변이와 일부 영역 결손이 확인된 7–10번 및 11–13번의 샘플의 경우 B사 진단시약으로 검출이 어려운 것으로 확인되었다. 추가적으로 A사와 E사 진단시약을 사용할 경우 S와 E 유전자의 검출이 어려운 것으로 확인되었다(표 4).

표 4. 인실리코 유전자 분석 프로그램을 이용한 검출 가능 시약 비교.

연번 진단시약 검출 표적 유전자 검출 가능 유전자 검출 불가 유전자 양성 판정 기준(Ct 값)
1–6 A RdRp, S, E, N RdRp, E, N S ≤40
B ORF1ab, E ORF1ab, E 없음 ≤38
C RdRp, E RdRp, E 없음 ≤36
D RdRp, E RdRp, E 없음 ≤38
E ORF1ab, S, E, N ORF1ab, S, N E ≤38
7–10 A RdRp, S, E, N RdRp, E, N S ≤40
B ORF1ab, E E ORF1ab ≤38
C RdRp, E RdRp, E 없음 ≤36
D RdRp, E RdRp, E 없음 ≤38
E ORF1ab, S, E, N ORF1ab, S, N E ≤38
11–13 A RdRp, S, E, N RdRp, E, N S ≤40
B ORF1ab, E E ORF1ab ≤38
C RdRp, E RdRp, E 없음 ≤36
D RdRp, E RdRp, E 없음 ≤38
E ORF1ab, S, E, N ORF1ab, S, N E ≤38

Ct=cycle threshould; E=envelope; N=nucleoprotein; ORF1ab= open reading frame 1ab; RdRp=RNA-dependent RNA polymerase; S=spike.

결 론

코로나19 확진자의 임상 검체로부터 코로나19 바이러스의 전장유전체 분석을 통하여 변이 세부계통 확인 및 국내 유행주를 분석하고 바이러스 전체유전자 영역을 대상으로 유전자 변이가 발생하는 부위를 확인하였다. 코로나19 바이러스의 전장유전체 정보를 바탕으로 인실리코 분석 결과 E 유전자 부위의 R61C 또는 R61H 변이는 본 연구에서 비교한 B사 진단 시약의 표적 유전자 위치가 아니므로 유전자 진단에 영향을 미치지 않았다. 표적인 E 유전자 이외 영역 또는 다른 원인 등에 의해 해당 유전자 검출 감도가 낮아지는 것으로 추정된다. 또한 일부 검체에서 확인된 ORF1ab 유전자 부분의 NSP3 L142W 변이에 따른 영향으로 B사 진단검사 시약으로 유전자 검출 시 Ct 값이 증가되었고, ORF1ab 유전자 부분의 166–178 영역 유전자 결손으로 동일한 B사 진단검사 시약으로 유전자 검출이 안 된 것으로 판단된다.

Garg 등[6]은 5개의 임상 검체를 7종류의 코로나19 진단시약과 자체 개발한 유전자 검출 검사법으로 Real-time RT-PCR을 실시하여 약양성인 검체에서는 진단시약 종류에 따라 음성으로 판정되는 경우가 있음을 보고하였다. 병원에 입원한 코로나19 환자 중 354명을 무작위로 선정하여 핵산 추출 조건을 동일하게 하고 한 개의 PCR 장비를 사용하여 3개 진단 시약(Sansuer Biotech, GeneFinderTM, TaqPathTM)으로 Real-time RT-PCR 실시 후 Ct 값을 비교한 결과 검출 시약 간에 통계적으로 차이가 없었으나 Sansuer Biotech 진단 시약의 성능이 조금 더 좋은 것으로 보고하였고 개선을 위한 필수 사항으로 cut-off Ct 값의 결정과 새로운 변이 출현에 따른 신속한 프라이머 개발을 제시하였다[7]. 네덜란드 연구팀은 2개의 표적 유전자를 검출하는 진단시약으로 ORF1ab와 E 유전자의 Ct 값을 각각 20.7과 30.2로 확인하였고 바이러스의 ORF1ab 영역에 5개의 독특한 변이가 있음을 보고하면서 분자진단법에 활용되는 유전자 영역 분석의 중요성을 강조하였다[8].

본 연구에서 비교한 진단시약은 표적 유전자가 2가지 이상이므로 한가지 진단시약에서 예상하지 못한 결과(표적 유전자 중 한가지만 양성으로 판정되는 경우 등)가 도출될 경우, 표적이 다른 진단시약을 사용하여 특정 유전자 변이에 따른 진단검사 영향을 최소화 할 수 있었다. 식품의약품안전처에 허가받은 진단시약은 표적 유전자 및 판정기준을 공개하고 있으므로[9] 전장유전체 분석을 통하여 확보한 코로나19 바이러스의 유전자 변이 정보를 바탕으로 표적 유전자 영역에 변이가 적은 진단시약을 선택하는데 활용할 수 있다(표 4). 또한 최근 코로나19 오미크론 세부 변이가 다양하게 발생하고 유전자 변이 및 결손 양상 역시 예측할 수 없이 발생하고 있는 상황으로 코로나19 바이러스 전장유전체 정보 분석을 통하여 지속적인 유전자 변이의 출현에 대한 모니터링 결과는 분자진단법의 개선에 활용할 수 있을 것으로 기대한다.


Articles from Public Health Weekly Report are provided here courtesy of Korea Disease Control and Prevention Agency

RESOURCES