. 2022 Jun 25;39(3):620–626. [Article in Chinese] doi: 10.7507/1001-5515.202112046

表 2. Comparison of commonly used machine learning algorithms.

常用的机器学习算法对比

算法名称	优点	缺点
K近邻	对数据的分布无要求；直接使用训练集对数据样本进行分类，训练阶段较快	分类阶段需要逐个计算与训练样本的相似程度，计算量大且速度慢；数据不均衡时，预测偏差比较大；K值不易选择
随机森林	通过降维能够处理很高维度的数据；训练速度快；缺失资料时，仍可以维持较高的准确度	若某个变量分类较多，会对随机森林产生更大的影响；在某些噪音较大的分类或回归中产生过拟合
支持向量机	擅长解决小样本、非线性问题；无局部极小值问题；可以很好地处理高维数据集；泛化能力较强	对核函数的高维映射解释力不足，尤其是径向基函数；对缺失数据敏感；适用于二分类问题，对于多分类问题容易产生过拟合
卷积神经网络	共享卷积核，对高维数据处理无压力；自动提取特征，分类效果好	超参数具有内部依赖性，调整成本特别高；数据量要求大，硬件计算能力要求高
循环神经网络	含有隐藏层，具有记忆功能；能够很好的处理具有时序特征的数据	结构复杂，权重参数众多；容易出现梯度消失或梯度爆炸问题