表 2. Comparison of commonly used machine learning algorithms.
常用的机器学习算法对比
| 算法名称 | 优点 | 缺点 | |
| K近邻 | 对数据的分布无要求;直接使用训练集对数据样本进行分类,训练阶段较快 | 分类阶段需要逐个计算与训练样本的相似程度,计算量大且速度慢;数据不均衡时,预测偏差比较大;K值不易选择 | |
| 随机森林 | 通过降维能够处理很高维度的数据;训练速度快;缺失资料时,仍可以维持较高的准确度 | 若某个变量分类较多,会对随机森林产生更大的影响;在某些噪音较大的分类或回归中产生过拟合 | |
| 支持向量机 | 擅长解决小样本、非线性问题;无局部极小值问题;可以很好地处理高维数据集;泛化能力较强 | 对核函数的高维映射解释力不足,尤其是径向基函数;对缺失数据敏感;适用于二分类问题,对于多分类问题容易产生过拟合 | |
| 卷积神经网络 | 共享卷积核,对高维数据处理无压力;自动提取特征,分类效果好 | 超参数具有内部依赖性,调整成本特别高;数据量要求大,硬件计算能力要求高 | |
| 循环神经网络 | 含有隐藏层,具有记忆功能;能够很好的处理具有时序特征的数据 | 结构复杂,权重参数众多;容易出现梯度消失或梯度爆炸问题 |