Abstract
本文提出了一种新型的基于 mean-shift 聚类算法的人体外周血中白细胞五分类算法,其核心思想是用一种近似人眼的可视化模式对白细胞纹理进行提取。首先利用 mean-shift 聚类算法从白细胞灰度图像中提取一些模式点,然后用其作为区域生长算法的种子点进行区域生长,得到一系列能够在某种程度上可视化地反映纹理的区域块。最后从这些区域块中提取一组参数向量作为白细胞的纹理特征。综合该向量和白细胞形态学特征,用人工神经网络(ANN)成功地完成了对白细胞的五分类识别。用了 1 310 个白细胞图像进行测试,得到中性粒细胞、嗜酸性粒细胞、嗜碱性粒细胞、淋巴细胞、单核细胞的正确识别率分别为 95.4%、93.8%、100%、93.1%、92.4%,证明了该算法的可行性和鲁棒性。
Keywords: 白细胞纹理, 白细胞分类, mean-shift, 高鲁棒性
Abstract
A new leukocyte classification method for recognition of five types of human peripheral blood smear based on mean-shift clustering is proposed. The key idea of the proposed method is to extract the texture features of leukocytes in a visual manner which can benefit from human eyes. Firstly, some feature points are extracted in a gray leukocyte image by mean-shift. Secondly, these feature points are used as seeds of the region growing to expand feature regions which can express texture in visual mode to a certain extent. Finally, a parameter vector of these regions is extracted as the texture feature. Combing the vector with the geometric features of the leukocyte, the five typical classes of leukocytes can be recognized successfully using artificial neural network (ANN). A total number of 1 310 leukocyte images have been tested and the accurate rate of recognition for neutrophil, eosinophil, basophil, lymphocyte and monocyte are 95.4%, 93.8%, 100%, 93.1% and 92.4%, respectively, which shows the feasibility and high robustness of the proposed method.
Keywords: leukocyte texture, leukocyte classification, mean-shift, high robustness
引言
人体外周血液中白细胞的识别和分类对疾病诊断意义重大,但人工检测费时费力而且容易出错。对于一张血液涂片样本,需要从中计数 100 个白细胞并且五分类,一名训练有素的医师需要至少 15 min 才能完成[1]。因此,全自动的血液五分类仪器对于降低医师劳动强度、提高检测速度以及减少出错率很有意义。目前大多数该类仪器基于激光散射原理[2]和细胞化学鞘流技术[3],但这两种方法主要是依据白细胞体积大小的不同通过物理或化学的方法进行分类,并不能提供白细胞其他细节特征给医师参考。然而,基于细胞显微图像处理的分类算法不仅能提供分类计数信息,还能给医师提供诸如白细胞颜色、形状、纹理等更为直观有效的病理学特征。
白细胞显微图像处理过程主要包含图像分割[4]、特征提取和分类三部分[5]。图像分割方法主要有 HSV 颜色空间阈值法[6-7][HSV:色度、饱和度、亮度(hue,saturation,value)]、图像增强法、梯度矢量流(gradient vector flow,GVF)法[8]和支持向量机法(support vector machine,SVM)[9]。白细胞图像特征主要包含几何特征[10-12]、直方图特征[7, 13-14]和纹理特征[1, 11, 15]。通常特征提取在整个处理过程中起着决定性作用。一组有效的特征既可以补偿分割不足,又能减少分类器的压力。白细胞的几何特征在多数情况下很有效,但对于少数变形细胞却易出错,比如白细胞的几何特征不易区别变形的淋巴细胞和嗜碱性粒细胞,但纹理特征却能有效分辨它们。然而两种主要的纹理处理方法——灰度共生矩阵(gray level co-occurrence matrix,GLCM)[1, 16]和局部二进制模式(local binary pattern,LBP)[17]都需要根据经验人工预选取适当的参数,否则提取效果较差。因此寻找一种鲁棒性强、无参化的纹理特征提取方法显得十分重要。至于分类算法,比较常用的是 SVM[7, 12, 18-19]、人工神经网络(artificial neural network,ANN)[12, 15, 19]和决策树。
本文使用 HSV 颜色空间阈值法将白细胞从背景图像中分割出来并提取其几何特征,然后提出一种基于 mean-shift 聚类的无参数化算法提取其纹理特征,结合白细胞形态学特征和纹理特征,最后用 ANN 实现分类。
1. mean-shift 聚类算法
mean-shift 聚类算法是一种无参化算法,能定位数据中可能代表某种模式特征的最大概率密度函数点,已经成功地应用在图像平滑、图像分割和运动物体跟踪等研究中[20]。
在 d 维空间
中给定 n 个数据采样点
,
,并定义基本的 mean-shift 向量为:
![]() |
1 |
其中
是一个半径为 h 的高维球区域,y 为满足如下关系的集合:
![]() |
2 |
有
个样本点落在
区域中,mean-shift 向量
总是指向概率密度梯度方向。到
距离不同的点
对
有相同的贡献。考虑到距离
不同的点有不同的权重,因此引入核函数
,概率密度函数 f(x)则可表示为:
![]() |
3 |
如果使用圆对称核,则核函数的剖面函数
定义其满足:
![]() |
4 |
其中
是归一化常量,以保证
,
的收敛点可以由其导数零点求得,即
,其梯度表示为:
![]() |
5 |
其中
,对应的核函数
,式(5)中第一部分是以
为核函数的概率密度估计,第二部分是 mean-shift 向量指向最大概率密度梯度方向。
![]() |
6 |
mean-shift 聚类算法的实质是一个自适应的梯度上升迭代搜索峰值运算,设迭代次数为 t,用
作为搜索窗口,给定任意一个初始点
,则搜索过程如下:
1. 计算
;
2. 移动窗口并计算
;
3. 重复步骤 1 和 2 直到
< 给定值,此时认为算法收敛。
2. 基于 mean-shift 聚类的白细胞纹理特征提取和识别算法
虽然 GLCM 和 LBP 可以部分提取白细胞显微图像的纹理特征,但提取结果受预置参数影响较大。mean-shift 聚类是一种无参算法,该算法可以定位代表特征的概率密度极值点,适用于白细胞纹理特征的提取,该算法主要有以下五步。
2.1. 选择图像数据空间
彩色图像有多种数据空间可以选择,如灰度、RGB 颜色空间或 HSV 颜色空间中某些通道。对于白细胞图像的纹理特征提取,选择灰度比较有利,因为灰度图像可以有效地减少光照和白细胞染色条件变化带来的不利影响。
2.2. 寻找特征点
使用 mean-shift 聚类算法对图像进行处理,定位概率密度极值点的坐标作为特征点并取得其灰度值。因为数据量太少可能会丢失部分纹理特征,所以需要对特征区域进行扩展,扩展方法如 2.3 所述。
2.3. 扩展特征区域
细胞纹理属于自然纹理,灰度变化随机性大,虽然找到了特征点,但仍然不易精确地扩展特征区域。用区域生长法可以近似地扩展特征区域,虽然并不精确,但随后的测试表明足以满足需求。具体如下:以上述特征点为区域生长点,以低于该点灰度值 3 个灰度级为生长终止条件进行生长,最后得到一系列特征区域。
图 1 是用 mean-shift 聚类算法处理中性粒细胞、嗜酸性粒细胞、嗜碱性粒细胞、淋巴细胞和单核细胞等五类典型白细胞的过程示意图。如图 1a 所示,中性粒细胞的纹理特征为清淡的胞质中均匀分布细小一致的颗粒。如图 1b 所示,如果直接 Mesh 其灰度图,用常规的边缘提取和阈值分割不易找出所有特征颗粒。经过本算法处理后,如图 1c 所示,所有特征颗粒点都被提取并以高灰度值突出显示。该步操作为下一步特征向量提取提供了基础。对于图 1d 所示的嗜酸性粒细胞,处理后其均匀粘连不易分割的粗大颗粒依旧能被很好地标示出来,如图 1f 所示。对于图 1g 所示的嗜碱性粒细胞,纹理特征为不均匀粗大颗粒,经本算法处理后,特征区域聚集成大小不同的块,测量这些块的面积和均匀度,就能识别该细胞。而对于图 1j 所示的淋巴细胞,被处理后形成的特征区域块如图 1l 所示,不仅比图 1i 的相对均匀,而且数量也比较少,因此使得其他算法最易混淆的淋巴细胞和嗜碱性粒细胞变得容易区别。最后处理单核细胞,如图 1o 所示,其特征区域块面积和灰度都较小,主要集中在细胞核,胞质几乎没有特征点,因此易于辨识。
图 1.
Mean-shift processing of leukocytes
用 mean-shift 聚类算法处理白细胞示意图
a. neutrophil; b. Mesh of gray image of a; c. Mesh of processed image of a; d. eosinophil; e. Mesh of gray image of d; f. Mesh of processed image of d; g. basophil; h. Mesh of gray image of g; i. Mesh of processed image of g; j. lymphocyte; k. Mesh of gray image of j; l. Mesh of processed image of j; m. monocyte; n. Mesh of gray image of m; o. Mesh of processed image of m
a. 中性粒细胞;b. a 的灰度图的 Mesh 图;c. 处理后的 a 的 Mesh 图;d. 嗜酸性粒细胞;e. d 的灰度图的 Mesh 图;f. 处理后的 d 的 Mesh 图;g. 嗜碱性粒细胞;h. g 的灰度图的 Mesh 图;i. 处理后的 g 的 Mesh 图;j. 淋巴细胞;k. j 的灰度图的 Mesh 图;l. 处理后的 j 的 Mesh 图;m. 单核细胞;n. m 的灰度图的 Mesh 图;o. 处理后的 m 的 Mesh 图
总之,经过 mean-shift 聚类和区域生长算法处理后,五类白细胞图像的特征点被凸显出来,特征区域被收缩成为独立的区域块,统计这些特征区域的灰度、面积、分布密度等,即有利于分辨这五类白细胞。
2.4. 统计特征区域的特征值,组成特征向量
经测试,选用特征点平均灰度值(
)、特征区域面积(
)、特征点间距方差(v1)、
方差(v2)和特征点数量 n 等组成特征向量 I,如公式(7)~(9)所示。
![]() |
7 |
![]() |
8 |
![]() |
9 |
式(8)中,
表示相邻两个特征点之间的距离。
2.5. 分析特征向量值并用 ANN 实现白细胞分类
对图 1 中第 3 列的图像数据按照公式(7)~(9)计算后,结果如表 1 所示。
表 1. Features of five types of leukocyte.
五类白细胞的特征值
细胞类型 |
![]() |
![]() |
v1 | v2 | n |
中性粒细胞 | 101.15 | 7.71 | 25.12 | 65.32 | 153 |
嗜酸性粒细胞 | 110.47 | 3.21 | 22.39 | 45.16 | 182 |
嗜碱性粒细胞 | 152.15 | 5.37 | 19.39 | 70.55 | 126 |
淋巴细胞 | 142.57 | 7.09 | 14.95 | 51.93 | 70 |
单核细胞 | 69.61 | 12.41 | 35.94 | 33.21 | 208 |
对表 1 数据分析如下:淋巴细胞和嗜碱性粒细胞的
> 140,因为它们都具有深色颗粒块和较高的对比度,而单核细胞因颜色较淡导致
< 70;
反映了纹理粗糙度和纹理块大小,嗜酸性粒细胞
最小,表明其粗糙度高、纹理块小,而单核细胞
最大,因其纹理块大而光滑;v1 描述了纹理位置分布的均匀性,淋巴细胞具有最小值,这与人眼对其致密均匀的视觉感受一致;v2 则可度量颜色均匀度和对比度,单核细胞因对比度最小而具有最小值,可以用来和相似的淋巴细胞进行区别;最后特征点数量 n 代表纹理基元的数量,是个能很好地辨识淋巴细胞的指标,因为其虽然块大但基元数量少。总之,表 1 的数据表明特征向量 I 能有效地表达五类白细胞的纹理并互相区别。
在计算机视觉和图像处理中,ANN 作为一种分类算法已经被广泛应用。本文选用逆向传播(back propagation,BP)神经网络来进行白细胞的五分类,因为 BP 神经网络结构比较简单,能够以任意精度逼近样本,在整个网络训练达到收敛之后,进行识别的计算量较小、速度较快。
对于 BP 神经网络来说,一旦确定了样本的特征数目和输出的目标向量以后,只需要对激励函数、隐含层数目以及隐含层神经元的数目这三个参数进行选取就可以了。结合形态学特征向量和 5 个纹理特征向量,本文中输入节点数目为 6,输出节点数目为 5,激励函数选用 S 型函数,选用单个隐含层,隐含层节点数取 15。通过对神经网络进行训练并对权重做出调整,使得输出与目标向量更为接近,能更准确地对白细胞进行五分类。
3. 结果分析
为了验证本文所提方法的有效性,我们用 BC++6.0 开发了一套白细胞识别分类的软件系统,如图 2 所示。首先使用光学 100 倍油镜和 USB CCD 摄像头拍摄血涂片,采集图像经预处理和基于 HSV 颜色空间的自动阈值[21]分割后,提取形态学特征,然后再用本文提出的算法提取纹理特征,最后使用 ANN 进行识别分类。
图 2.
Software interface of leukocyte classifier
白细胞五分类软件系统界面
在进一步测试中,本文首先预测试了 150 个随机样本,证明了本方法的可行性。由于 150 个样本量较少,此时得到的准确率不能很好地反映该算法在实际应用中的分类准确率。根据大数定理,实验次数越多,事件出现的频率越接近概率。随后我们将样本数扩大到 1 310 个(包含 11 个非白细胞图像),这些样本都预先经过专家识别分类。用本文所提算法对该 1 310 个样本进行识别分类,并与专家识别分类结果进行比较。本文所用样本均来自四川美生科技有限公司。
3.1. 识别正确率测试
如表 2 所示,用常规形态学方法处理后,中性粒细胞因其多核特征明显故识别率高达 94.7%,但淋巴细胞和嗜碱性粒细胞因形态相近而 < 83%,而单核细胞的形态学特征能覆盖其他四种,所以正确率下降至 90.8%,对于非白细胞的识别率最低,因其复杂多变。
表 2. Recognition rate with geometric features.
形态学特征识别结果
细胞类型 | 总数量 | 正确数 | 正确率 |
中性粒细胞 | 452 | 428 | 94.7% |
嗜酸性粒细胞 | 128 | 117 | 91.4% |
嗜碱性粒细胞 | 15 | 12 | 80.0% |
淋巴细胞 | 335 | 278 | 83.0% |
单核细胞 | 380 | 345 | 90.8% |
其他 | 11 | 6 | 54.5% |
如表 3 所示,当形态学特征加上本文算法提取的纹理特征后,正确率有显著的提升。
表 3. Recognition rate with the proposed method.
本文算法识别结果
细胞类型 | 总数量 | 正确数 | 正确率 |
中性粒细胞 | 452 | 431 | 95.4% |
嗜酸性粒细胞 | 128 | 120 | 93.8% |
嗜碱性粒细胞 | 15 | 15 | 100.0% |
淋巴细胞 | 335 | 312 | 93.1% |
单核细胞 | 380 | 351 | 92.4% |
其他 | 11 | 10 | 91.0% |
其中嗜碱性粒细胞全部正确识别,因为其深色颗粒纹理易被本算法提取,虽然样本数比较少(因为临床获得不容易);淋巴细胞识别率也由 83.0% 提升至 93.1%,因为特征点数 n 可以很好地标示它们;而单核细胞和嗜酸性粒细胞识别率提升不太显著,这是因为幼年期单核细胞纹理很像淋巴细胞而易被误识别,而嗜酸性粒细胞初期纹理特别像中性粒细胞,这时即使人眼也比较难以识别。
如表 4 所示,列举了本文算法与文献中常见算法的对比结果,可见这些算法对嗜碱性粒细胞正确识别率相近,但对另外四种白细胞,本文算法最优。
表 4. Comparison of the counts of samples and accuracy rate.
样本数和正确率比较
当样本数扩大到 1 310 后(目前文献尚无与本文相近的大样本数),由于出现了在小样本检测时没有出现的难以识别的特殊情况,故识别率有所下降,尽管如此本文算法还是能维持较高的识别率,体现了其较好的鲁棒性。
3.2. 鲁棒性测试
一种常见的识别困难情况是纹理弱化,如图 3 所示,a 和 c 经专家分类均属于嗜碱性粒细胞,但 a 图纹理相对于标准的 c 图纹理较弱、更光滑,因此用传统的 GLCM 和 LBP 更容易将 a 识别为淋巴细胞,而采用本文方法对其处理后得到表 5,数据仍可正确识别。虽然淋巴细胞和嗜碱性粒细胞的
> 130 很相近,但淋巴细胞的特征点数目 n 要远小于嗜碱性粒细胞,而且淋巴细胞的
最大。
图 3.
Processing of basophils with different repeatability
处理纹理重复性不同的嗜碱性粒细胞
a. weak texture; b. Mesh of processed (a); c. normal texture; d. Mesh of processed (c)
a. 弱纹理;b. 处理(a)后的 Mesh 图;c. 普通纹理;d. 处理(c)后的 Mesh 图
表 5. Features of basophil vs. lymphocyte.
嗜碱性粒细胞和淋巴细胞特征向量比较
总之,针对常规纹理算法和形态学特征容易出错的情况,本算法均能正确识别,因此本算法具有较高的鲁棒性。
4. 总结
本文提出了一种新型的基于 mean-shift 聚类提取自然纹理特征的方法,成功地用于人体外周血液白细胞的自动识别和五分类,对比使用形态学特征以及基于 GLCM 和 LBP 提取纹理特征的识别算法,本算法表现出较好的鲁棒性,提高了系统的正确识别率。最后本文完成了系统软件编写,并扩大样本数到 1 310 个(包含难以识别的特例),得到中性粒细胞、嗜酸性粒细胞、嗜碱性粒细胞、淋巴细胞、单核细胞的正确识别率分别为 95.4%、93.8%、100%、93.1%、92.4%,验证了本算法较好的鲁棒性和实用性。
Funding Statement
国家 863 发展计划项目(2007AA01Z333)
References
- 1.Sabino D M U, Costa L D F, Rizzatti E G, et al A texture approach to leukocyte recognition. Real-Time Imaging. 2004;10(4):205–216. [Google Scholar]
- 2.Neugebauer U, Clement J H, Bocklitz T, et al Identification and differentiation of single cells from peripheral blood by Raman spectroscopic imaging. J Biophotonics. 2010;3(8/9):579–587. doi: 10.1002/jbio.201000020. [DOI] [PubMed] [Google Scholar]
- 3.张时民 五分类法血细胞分析仪测定原理和散点图特征. 中国医疗器械信息. 2008;14(12):1–9, 44. [Google Scholar]
- 4.Scotti F. Robust segmentation and measurements techniques of white cells in blood microscope images// 2006 IEEE Instrumentation and Measurement Technology Conference (IMTC). Sorrento, Italy: IEEE, 2006: 43-48.
- 5.Mohammed E A, Mohamed M M A, Far B H, et al Peripheral blood smear image analysis: A comprehensive review. J Pathol Inform. 2014;5(1):9. doi: 10.4103/2153-3539.129442. [DOI] [PMC free article] [PubMed] [Google Scholar]
- 6.Pavlova P E, Cyrrilov K P, Moumdjiev I N Application of HSV colour system in identification by colour of biological objects on the basis of microscopic images. Comput Med Imaging Graph. 1997;20(5):357–364. doi: 10.1016/s0895-6111(96)00058-4. [DOI] [PubMed] [Google Scholar]
- 7.Pan Chen, Park D S, Yoon S, et al Leukocyte image segmentation using simulated visual attention. Expert Syst Appl. 2012;39(8):7479–7494. [Google Scholar]
- 8.Ko B C, Gim J W, Nam J Y Automatic white blood cell segmentation using stepwise merging rules and gradient vector flow snake. Micron. 2011;42(7):695–705. doi: 10.1016/j.micron.2011.03.009. [DOI] [PubMed] [Google Scholar]
- 9.Mohammed E A, Far B H, Naugler C, et al. Application of support vector machine and k-means clustering algorithms for robust chronic lymphocytic leukemia color cell segmentation// 2013 IEEE International Conference on E-Health Networking, Applications and Services. Lisbon, Portugal: IEEE, 2013: 622-626.
- 10.Piuri V, Scotti F. Morphological classification of blood leucocytes by microscope images// 2004 IEEE International Conference on Computational Intelligence for Measurement Systems and Applications (CIMSA). Boston, USA: IEEE, 2004: 103-108.
- 11.Huang D C, Hung K D, Chan Y K A computer assisted method for leukocyte nucleus segmentation and recognition in blood smear images. J Syst Software. 2012;85(9):2104–2118. [Google Scholar]
- 12.Hiremath P S, Bannigidad P, Geeta S Automated identification and classification of white blood cells (leukocytes) in digital microscopic images. Int J Comput Appl. 2010;37(2):59–63. [Google Scholar]
- 13.Habibzadeh M, Krzyżak A, Fevens T. White blood cell differential counts using convolutional neural networks for low resolution images// 2013 International Conference on Artificial Intelligence and Soft Computing (ICAISC). Zakopane, Poland: Springer Berlin Heidelberg, 2013: 263-274.
- 14.Lina, Chris A, Mulyawan B Focused color intersection for leukocyte detection and recognition system. International Journal of Information and Electronics Engineering. 2013;3(5):498–501. [Google Scholar]
- 15.Fatichah C, Tangel M L, Widyanto M R, et al Parameter optimization of local fuzzy patterns based on fuzzy contrast measure for white blood cell texture feature extraction. Journal of Advanced Computational Intelligence & Intelligent Informatics. 2012;16(3):412–419. [Google Scholar]
- 16.Haralick R M Statistical and structural approaches to texture. Proceedings of the IEEE. 1979;67(5):786–804. [Google Scholar]
- 17.Ojala T, Pietikäinen M, Mäenpää T Multiresolution gray-scale and rotation invariant texture classification with local binary patterns. IEEE Trans Pattern Anal Mach Intell. 2002;24(7):971–987. [Google Scholar]
- 18.Habibzadeh M, Krzyżak A, Fevens T. Analysis of white blood cell differential counts using dual-tree complex wavelet transform and support vector machine classifier// 2012 International Conference on Computer Vision and Graphics (ICCVG). Warsaw, Poland: Springer Berlin Heidelberg, 2012: 414-422.
- 19.Rezatofighi S H, Khaksari K, Soltanian-Zadeh H. Automatic recognition of five types of white blood cells in peripheral blood// 2010 International Conference on Image Analysis and Recognition (ICIAR). Póvoa de Varzim, Portugal: Springer Berlin Heidelberg, 2010: 161-172.
- 20.Comaniciu D, Meer P Mean shift: A robust approach toward feature space analysis. IEEE Trans Pattern Anal Mach Intell. 2002;24(5):603–619. [Google Scholar]
- 21.Otsu N A threshold selection method from gray-level histograms. IEEE Trans Syst Man Cybern. 1979;9(1):62–66. [Google Scholar]