Abstract
目的
研究人工智能(AI)用于辅助临床乳腺浸润性导管癌(IDC)Ki-67评分的不同方法并比较其结果。
方法
收集100例真实临床IDC诊断病例,包括HE、免疫组化Ki-67染色的切片和诊断结果。将病理切片扫描成全片数字化图像(whole slide image, WSI),并使用AI对其进行评分。AI评分方式分为两种,一种为AI纯自动计数,使用Ki-67自动诊断的评分系统对WSI进行全片计数;第二种是AI半自动计数,需要人工选择区域计数,然后用智能显微镜进行自动计数。病理医生的诊断结果作为纯人工计数的结果。将全人工(病理诊断结果)、AI半自动、AI全自动此3种计数所得的Ki-67分数进行两两比较,分别按差异高低进行归类,差异高低分为3档:相差≤10%、相差>10%~<30%和相差≥30%,并且使用组内相关系数 (intra-class correlation coefficient,ICC)对其进行相关性的评价。
结果
全自动AI计数1例Ki-67的时间为5~8 min,而半自动AI方法为2~3 min,全人工计数则需要1~3 min。两种AI计数方法相比较,Ki-67分数的相差全部在10%以内(占比100%),ICC指数高达0.992。全人工计数和AI半自动相比,相差≤10%的有60例(占比60%),相差>10%~<30%的例数为37例(占比37%),而≥30%的只有3例(占比3%),ICC指数为0.724;全人工计数和AI全自动相比,相差≤10%的有78例(占78%),相差>10%~<30%的例数为17例(占比17%),而≥30%的有5例(占比5%),ICC指数为0.720。ICC数值示,两种AI方法之间差异不大、可重复性很好,AI和人工计数之间的可重复性可接受。
结论
AI全自动方法的优势在于更节省人力,病理医生只需在最后核对诊断结果。而半自动的方法更符合临床病理医生的诊断习惯,整体耗时较AI全自动方法少。此外,AI方法虽然可重复性较高,但不能完全取代病理医生,而应作为有力的辅助工具看待。
Keywords: 乳腺浸润性导管癌, Ki-67, 人工智能, 自动计数, 全片数字化图像
Abstract
Objective
To study the different methods of artificial intelligence (AI)-assisted Ki-67 scoring of clinical invasive ductal carcinoma (IDC) of the breast and to compare the results.
Methods
A total of 100 diagnosed IDC cases were collected, including slides of HE staining and immunohistochemical Ki-67 staining and diagnosis results. The slides were scanned and turned into whole slide image (WSI), which were then scored with AI. There were two AI scoring methods. One was fully automatic counting by AI, which used the scoring system of Ki-67 automatic diagnosis to do counting with the whole image of WSI. The second method was semi-automatic AI counting, which required manual selection of areas for counting, and then relied on an intelligent microscope to conduct automatic counting. The diagnostic results of pathologists were taken as the results of pure manual counting. Then the Ki-67 scores obtained by manual counting, semi-automatic AI counting and automatic AI counting were pairwise compared. The Ki-67 scores obtained from the manual counting (pathological diagnosis results), semi-automatic AI and automatic AI counts were pair-wise compared and classified according to three levels of difference: difference ≤10%, difference of >10%−<30% and difference ≥30%. Intra-class correlation coefficient ( ICC) was used to evaluate the correlation.
Results
The automatic AI counting of Ki-67 takes 5−8 minutes per case, the semi-automatic AI counting takes 2−3 minutes per case, and the manual counting takes 1−3 minutes per case. When results of the two AI counting methods were compared, the difference in Ki-67 scores was all within 10% (100% of the total), and the ICC index being 0.992. The difference between manual counting and semi-automatic AI was less than 10% in 60 cases (60% of the total), between 10% and 30% in 37 cases (37% of the total), and more than 30% in only 3 cases (3% of the total), ICC index being 0.724. When comparing automatic AI with manual counting, 78 cases (78% of the total) had a difference of ≤10%, 17 cases (17% of the total) had a difference of between 10% and 30%, and 5 cases (5%) had a difference of ≥30%, the ICC index being 0.720. The ICC values showed that there was little difference between the results of the two AI counting methods, indicating good repeatability, but the repeatability between AI counting and manual counting was not particularly ideal.
Conclusion
AI automatic counting has the advantage of requiring less manpower, for the pathologist is involved only for the verification of the diagnosis results at the end. However, the semi-automatic method is better suited to the diagnostic habits of pathologists and has a shorter turn-over time compared with that of the fully automatic AI counting method. Furthermore, in spite of its higher repeatability, AI counting, cannot serve as a full substitute for pathologists, but should instead be viewed as a powerful auxiliary tool.
Keywords: Breast invasive ductal carcinoma, Ki-67, Artificial intelligence, Automatic counting, Whole slide image
乳腺浸润性导管癌(breast invasive ductal carcinoma, IDC)是女性最常见[1-2],也是死亡率最高的恶性肿瘤之一[2-3]。乳腺癌病理常见的生物学标志物包括由单克隆抗体Ki-67识别的抗原(Ki-67)、雌激素受体(estrogen receptor, ER)、孕激素受体(progeterone receptor, PR)和人表皮生长因子受体-2(human epidermal growth factor receptor-2, HER-2)[4],而其中的Ki-67评分对乳腺癌的诊断和治疗有很大意义[5]。Ki-67是一种没有组织特异性且仅表达于增殖细胞中的细胞周期相关的核蛋白,可作为准确推测肿瘤细胞增殖状态的依据。而Ki-67指标还和临床病理特征和分子分型密切相关,既可以当做乳腺癌患者预后和个体化治疗的参考指标[6-7],又可以帮助区分腔内乳腺癌亚型和确定最佳治疗方案[8-9]。此外,有文献表示在三阴性乳腺癌中的高Ki-67评分患者的治疗效果更好[10]。由此可见,Ki-67对乳腺癌的诊断、治疗和预后意义重大。因此,国际乳腺癌Ki-67工作组(International Ki67 in Breast Cancer Working Group, IKWG)推荐在临床中常规使用免疫组化Ki-67染色[11]。
尽管Ki-67评分在IDC诊疗中十分重要,但其评分结果在实验室和观察者间的可重复性却很低[12-13],而且诊断过程对于病理学家来说也十分耗时耗力。基于此,我们尝试引入计算机辅助诊断的方法来解决这些难题,人工智能(artificial intelligence, AI)和机器视觉的方法可以用来自动识别和判断肿瘤细胞和基质组织中的生物标志物分布和强度[14],定量组织病理学中的Ki-67的增殖评分[15],而此前也有研究证明了在病理中使用AI辅助诊断有助于提高淋巴结转移检测和乳腺癌Ki-67评分的准确性[16]。
我们之前研究过基于IDC的全片数字化图像(whole slide image, WSI)开发一种可以进行全片精确Ki-67自动计数的评分系统,并且将自动计数和医生的诊断结果做了初步的比较(基于10张“金标准”的WSI图像)[17]。为了更进一步地比较在实际应用中AI计数和人工计数两种方法计数结果的差异,本研究对100例真实临床IDC病例进行了测试,分别比较了全人工、AI半自动和AI全自动计数3种方法的差异。
1. 对象与方法
1.1. 对象
收集100例IDC诊断病例,包括HE、Ki-67染色的切片和诊断结果。将病理切片扫描成WSI(扫描设备为滨松光学的NanoZoomer 2.0HT),并使用AI对其进行评分。AI评分方式分为两种,一种为AI纯自动计数,使用前文中提到的Ki-67自动诊断的评分系统对WSI进行全片计数;第二种是AI半自动计数,需要人工选择区域计数,然后用智能显微镜(宁波舜宇的ARM-50显微分析仪)进行自动计数。全人工计数的结果是直接取用四川大学华西医院病理科的诊断结果,再分别两两比较全人工、AI半自动和AI全自动3种计数方式所得的Ki-67分数,并评价其一致性。本研究方案获四川大学华西医院生物医学伦理审查委员会批准(2020年审456号)。
1.2. AI全自动计数方法
AI全自动计数使用Ki-67自动诊断的评分系统对WSI进行全片计数,全自动计数完全由计算机自动完成,不用人工调整其放大倍率,而所用模型是基于高倍镜下(400倍)的数字图像训练而成。Ki-67自动诊断系统评分的步骤分别为:①识别IDC区域; ②HE染色和免疫组化Ki-67染色数字切片配准;③将HE染色上的IDC区域转移至Ki-67染色;④计数Ki-67阳性率。其中①所用到的AI模型为二分类的分类识别模型,二分类分别为IDC区域和非IDC区域,训练基于高倍镜下(400倍)的WSI图像,patch尺寸为128×128,迭代次数为50,识别IDC过程由AI自动完成,无需人工干预。步骤②进行配准时,为保证配准的准确性,本研究中都是尽量使用连续切片分别进行HE和Ki-67的染色。配准过程由AI自动完成,配准完成后可进行步骤③。步骤②和③中尽量不对其进行人工干预,但是极少数切片可能存在组织明显错位的情况,此时也可对其进行人工微调。步骤④所用模型为检测模型,分别检测Ki-67阳性的IDC细胞(红色)、阴性的IDC细胞(蓝色)和间质细胞(绿色),检测完成后自动诊断评分系统会根据阴阳细胞的比值给出精确的Ki-67最终评分。见图1。
图 1.
The workflow for the Ki-67 automatic diagnosis system
Ki-67自动诊断的评分系统工作流程
The system of Ki-67 automatic diagnosis developed by our team[18] was used for automatic counting of the WSI. A: Automatic identification of IDC area; B: Registration of HE and Ki-67 WSI; C: Ki-67 automatic counting in IDC area. IDC: Invasive ductal carcinoma of the breast, WSI: Whole slide image.
1.3. AI半自动计数方法
AI半自动计数使用智能显微镜(ARM-50显微分析仪)进行自动计数,其步骤为: ①在高倍镜下(400倍)人工选择计数区域;② 智能显微镜自动计数(图2);③继续选择5~10个区域进行计数;④ 取其平均值作为计数结果。其中步骤①由专业的病理医生进行人工选择,本研究统一要求在高倍镜(400倍)下进行计数区域的选择。步骤②由智能显微镜进行自动计数,其本质就是将本来由病理医生完成的计数过程交由计算机辅助完成,ARM-50显微分析仪提供了两种模式进行计数的操作,一种是用鼠标点击显示界面中的计数按钮,另一种是使用外接设备脚踏板踩一下即可进行当前界面的自动计数,自动计数一个视野的时间在10~20 s之间。步骤③和④在本实验的范围内规范了Ki-67的评分标准,要求每张切片选取5~10个区域进行计数,最后取其平均值作为本例Ki-67的最终评分。半自动AI计数的方法结合了病理医生的临床经验和计算机的强大计算能力,其效率高于全自动AI的方法,但另一方面也更依赖于病理医生,使其结果更容易受到病理医生经验和水平的影响。
图 2.
Counting by intelligent microscope
智能显微镜计数
The ARM-50 intelligent microscope of Ningbo Sunny was used for counting. The area was manually selected under the HP (×400), and then computer was used for counting automatically.
1.4. 一致性评价
将全人工(病理诊断结果)、AI半自动、AI全自动计数所得Ki-67分数进行两两比较,分别按差异高低进行归类,差异高低分为3档:相差≤10%、相差>10%~<30%和相差≥30%,并且使用组内相关系数 (intra-class correlation coefficient,ICC) 对其进行相关性的评价,ICC大于0.75说明可重复性较好,低于0.4说明可重复性较差。
2. 结果
2.1. 两种AI计数方法相比较结果
全自动AI计数1例Ki-67的时间为5~8 min,而半自动AI方法为2~3 min。见表1,图3。两种AI计数方法相比较,Ki-67分数的相差全部在10%以内(占比100%),说明两种AI计数方法一致性很好。ICC指数高达0.992。说明两种AI方法之间差异不大、可重复性很好。
表 1. Consistency evaluation of the three counting methods.
三种计数方式的一致性评价
Index | Semi-automatic AI vs.
manual counting (n=100) |
Automatic AI vs. manual
counting (n=100) |
Semi-automatic AI vs.
automatic AI (n=100) |
Intra-class correlation coefficient (ICC) can be used to evaluate the repeatability and consistency of different measurement methods or evaluators for the same quantitative measurement results. Its value is between 0−1, with ICC<0.4 indicating poor repeatability, andICC>0.75 indicating good repeatability. | |||
Differ values between groups | |||
The values differ by ≤10%/case | 60 | 78 | 100 |
The values differ by 10% to 30%/case | 37 | 17 | 0 |
The values differ by ≥30%/case | 3 | 5 | 0 |
ICC | 0.724 | 0.720 | 0.992 |
图 3.
The results of counting Ki-67 in 100 cases with the three methods
100例病例用3种方法进行Ki-67计数的结果
2.2. 全人工计数和AI半自动相比较结果
全人工计数是直接使用临床病理医生的诊断结果,根据回顾性调查临床病理医生的反馈,其诊断1例Ki-67的时间通常为1~3 min。见表1,图3。全人工计数和AI半自动相比,相差≤10%的有60例(占比60%),相差>10%~<30%的例数为37例(占比37%),而≥30%的只有3例(占比3%),表明两种方法差异大的情况很少见,也说明人工和AI半自动的方法有较好的一致性。ICC指数为0.724。虽然ICC值小于0.75,却也远远高于0.4,处于可以接受范围。
2.3. 全人工计数和AI全自动相比较结果
见表1,图3。全人工计数和AI全自动相比,相差≤10%有78例(占78%),相差>10%~<30%的有17例(占比17%),而≥30%的有5例(占比5%),说明人工计数和AI全自动计数也有较好的一致性。ICC指数为0.720;虽然ICC值小于0.75,却也远远高于0.4,处于可以接受范围。
3. 讨论
本研究通过真实世界实验结果比较了全人工、AI半自动和AI全自动3种Ki-67计数方式的差异。通过3种方法进行的两两比较,我们发现Ki-67计数相差≤10%的病例分别是60%、78%和100%,说明差异小的病例占了大多数;而差异≥30%的病例只有3%、5%和0%,表明3种方法差异大的情况很少见,也说明人工和AI的方法有较好的一致性。此外,两种AI方法的相差全在10%以内,说明了两种AI方法的重复性非常好。最后,从ICC的值我们也可以看出,两种AI方法之间差异不大、可重复性很好(ICC=0.992),而AI和人工计数之间虽然ICC值小于0.75(分别为0.724和0.720),却也远远高于0.4,是可以接受的。
通过差异数值和ICC的结果可以看出,两种AI方法之间差异不大、可重复性很好,而这两种方法各有优势。全自动方法的优势在于更节省人力,病理医生甚至不需要对AI运行过程进行任何干预,只需在最后核对诊断结果。而半自动的方法更符合临床病理医生的诊断习惯,需要病理医生依靠专业知识选定合适的视野和区域,再利用AI运算快的优势进行自动计数,故半自动方法的整体耗时也较全自动方法更少。在将来临床实际的应用中,建议病理医生可以据此结合相关场景的需要酌情选择合适的AI辅助诊断模式。
同时,通过实验结果我们也发现AI和人工计数之间的可重复性并不特别理想,我们根据AI本身的特性和在临床中病理医生工作的习惯分析了造成这些差异的原因,认为主要是以下3点对计数结果造成的影响最大。
第一,病理医师在诊断Ki-67时使用的方法通常是估算而并不会对其进行绝对计数,这就造成了其计数结果可能和实际情况有所偏差,而这种偏差是人工计数所必然会带来的正常波动,是无法避免的。本次研究中我们也发现,两种AI方法与人工相比,计数差别大于30%的例数极少(分别为100例中有3例和5例),这说明了AI和人工计数的结果相差特别大的情况并不多见,故存在这样的波动也是可以接受的。
第二,目前临床当中Ki-67的计数方法尚无特别完善的标准,甚至在一些诊断的细节之处仍然存有争议。比如有些病理医生习惯低倍镜下进行大体估算,而另一些则会偏向于高倍镜下做仔细识别,但不管是用哪种方法,病理医生普遍都不会在诊断中全程用400倍HP进行观察和计数。此外,在人工计数了多个视野的Ki-67数值后,有些病理医生习惯按平均值计算得出最终结果,而另有一些则认为应该取其中的最高值发报告。这些尚未得到统一的计数习惯和方法,也是造成最终Ki-67的计数结果,尤其是人工计数结果可能在一定范围内发生偏差的重要原因。
第三,就如我们之前报道的那样,虽然AI相对于人工来说计数的重复性较高,但是有时其准确率仍然比不上那些非常有经验的病理医生[17]。所以,未来AI不会也必定不能完全替代病理医生,使用AI只能把它当成辅助诊断的工具,以此来减少病理医生大量机械性和重复性的工作,提高诊断的效率,而诊断结果还是要由病理医生来进行最终的判断。
此外,我们在相关文献中发现,国际上关于这种比较人工与AI计数Ki-67的类似研究中报道,有些相关性几乎完美[18],也有些认为一致性中等甚至不佳[19]。由此可见,此类AI应用于临床应该还有相当长的路要走,还需要更多更深入的研究。而要将AI的Ki-67诊断方法应用于临床、普及到基层,一是要解决诊断标准化的问题,统一临床诊断中病理医生的计数习惯和方法,才能更好地降低人工计数中个体化导致的差异,为开发AI诊断辅助工具提供一个合适的参考方式。其二是要明确AI不能取代病理医生,它可以帮助提高诊断效率,但是要最终提高诊断的准确率,还需对病理医生进行培养,提高他们的专业素养。
最后,我们在进一步研究计划中准备纳入更多的病例数,采用更多的计数方法(比如综合多个不同倍率的视野,平均值和最大值分别计算等),并且结合治疗效果和预后信息等,以期做出更为完善的相关性研究,为临床医生的实际工作提供参考,也希望为Ki-67诊断标准的统一提供量化性数据的支持。
* * *
利益冲突 所有作者均声明不存在利益冲突
Funding Statement
科技部重点研发计划重点专项(No. 2017YFC0113908),北京精鉴病理发展基金会(No. 2019-0007),四川省国际科技合作与交流研发项目(No. 2017HH0070、No. 2018HH0037),成都市新型产业技术研究院技术创新项目(No. 2017-CY02-00026-GX),四川大学华西医院临床研究孵化项目(No. 2020HXFH029)和四川大学华西医院学科卓越发展1·3·5 工程项目(No. ZYGD18012)资助
Contributor Information
杨 邓 (Yang DENG), Email: 718527585@qq.com.
骥 包 (Ji BAO), Email: baoji@scu.edu.cn.
References
- 1.BARISONI L, HODGIN J B Digital pathology in nephrology clinical trials, research, and pathology practice. Curr Opin Nephrol Hypertens. 2017;26(6):450–459. doi: 10.1097/MNH.0000000000000360. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 2.PILLERON S, SARFATI D, JANSSEN-HEIJNEN M, et al Global cancer incidence in older adults, 2012 and 2035: A population-based study. Int J Cancer. 2019;144(1):49–58. doi: 10.1002/ijc.31664. [DOI] [PubMed] [Google Scholar]
- 3.SIEGEL R L, MILLER K D Cancer statistics, 2020. CA Cancer J Clin. 2020;70(1):7–30. doi: 10.3322/caac.21590. [DOI] [PubMed] [Google Scholar]
- 4.ARIMA N, NISHIMURA R, OSAKO T, et al The importance of tissue handling of surgically removed breast cancer for an accurate assessment of the Ki-67 index. J Clin Pathol. 2016;69(3):255–259. doi: 10.1136/jclinpath-2015-203174. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 5.KOS Z, DABBS D J Biomarker assessment and molecular testing for prognostication in breast cancer. Histopathology. 2016;68(1):70–85. doi: 10.1111/his.12795. [DOI] [PubMed] [Google Scholar]
- 6.MILLER H C, DRYMOUSIS P, FLORA R, et al Role of Ki-67 proliferation index in the assessment of patients with neuroendocrine neoplasias regarding the stage of disease. World J Surg. 2014;38(6):1353–1361. doi: 10.1007/s00268-014-2451-0. [DOI] [PubMed] [Google Scholar]
- 7.RADEMAKERS S E, HOOGSTEEN I J, RIJKEN P F, et al Prognostic value of the proliferation marker Ki-67 in laryngeal carcinoma: Results of the accelerated radiotherapy with carbogen breathing and nicotinamide phase Ⅲ randomized trial. Head Neck. 2015;37(2):171–176. doi: 10.1002/hed.23569. [DOI] [PubMed] [Google Scholar]
- 8.MUNGLE T, TEWARY S, ARUN I, et al Automated characterization and counting of Ki-67 protein for breast cancer prognosis: A quantitative immunohistochemistry approach. Comput Methods Programs Biomed. 2017;139:149–161. doi: 10.1016/j.cmpb.2016.11.002. [DOI] [PubMed] [Google Scholar]
- 9.COATES A S, WINER E P, GOLDHIRSCH A, et al Tailoring therapies—Improving the management of early breast cancer: St Gallen International Expert Consensus on the Primary Therapy of Early Breast Cancer 2015. Ann Oncol. 2015;26(8):1533–1546. doi: 10.1093/annonc/mdv221. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 10.WANG W, WU J, ZHANG P, et al Prognostic and predictive value of Ki-67 in triple-negative breast cancer. Oncotarget. 2016;7(21):31079–31087. doi: 10.18632/oncotarget.9075. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 11.DOWSETT M, NIELSEN T O, A'HERN R, et al Assessment of Ki67 in breast cancer: Recommendations from the International Ki67 in Breast Cancer working group. J Natl Cancer Inst. 2011;103(22):1656–1664. doi: 10.1093/jnci/djr393. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 12.VARGA Z, DIEBOLD J, DOMMANN-SCHERRER C, et al How reliable is Ki-67 immunohistochemistry in grade 2 breast carcinomas? A QA study of the Swiss Working Group of Breast-and Gynecopathologists. PLoS One. 2012;7(5):e37379[2020-08-07].https://doi.org/10.1371/journal.pone.0037379. doi: 10.1371/journal.pone.0037379. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 13.POLLEY M Y, LEUNG S C, MCSHANE L M, et al An international Ki67 reproducibility study. J Natl Cancer Inst. 2013;105(24):1897–1906. doi: 10.1093/jnci/djt306. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 14.BANKHEAD P, FERN NDEZ J A, MCART D G, et al Integrated tumor identification and automated scoring minimizes pathologist involvement and provides new insights to key biomarkers in breast cancer. Lab Invest. 2018;98(1):15–26. doi: 10.1038/labinvest.2017.131. [DOI] [PubMed] [Google Scholar]
- 15.KLAUSCHEN F, WIENERT S, SCHMITT W D, et al Standardized Ki67 diagnostics using automated scoring—Clinical validation in the GeparTrio Breast Cancer Study. Clin Cancer Res. 2015;21(16):3651–3657. doi: 10.1158/1078-0432.CCR-14-1283. [DOI] [PubMed] [Google Scholar]
- 16.ACS B, RANTALAINEN M, HARTMAN J Artificial intelligence as the next step towards precision pathology. J Intern Med. 2020;288(1):62–81. doi: 10.1111/joim.13030. [DOI] [PubMed] [Google Scholar]
- 17.FENG M, DENG Y, YANG L, et al Automated quantitative analysis of Ki-67 staining and HE images recognition and registration based on whole tissue sections in breast carcinoma. Diagn Pathol. 2020;15:65[2021-02-02]. https://doi.org/10.1186/s13000-020-00957-5. doi: 10.1186/s13000-020-00957-5. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 18.R GE R, RIBER-HANSEN R, NIELSEN S, et al Proliferation assessment in breast carcinomas using digital image analysis based on virtual Ki67/cytokeratin double staining. Breast Cancer Res Treat. 2016;158(1):11–19. doi: 10.1007/s10549-016-3852-6. [DOI] [PubMed] [Google Scholar]
- 19.ST LHAMMAR G, FUENTES MARTINEZ N, LIPPERT M, et al Digital image analysis outperforms manual biomarker assessment in breast cancer. Mod Pathol. 2016;29(4):318–329. doi: 10.1038/modpathol.2016.34. [DOI] [PubMed] [Google Scholar]