随机森林:一种常用的集成学习方法,由许多决策树组成;通过对数据进行随机抽样、对特征进行随机选择来训练多棵树,并将它们的预测结果进行投票(分类)或平均(回归),以提升准确率并降低过拟合风险。(该术语在其他语境中也可能被字面使用,但最常见含义是机器学习算法。)
/ˈrændəm ˈfɔːrɪst/
Random forest is a popular algorithm for classification.
随机森林是一种常用的分类算法。
By averaging predictions from many decision trees, a random forest can reduce overfitting and handle high-dimensional data more robustly than a single tree.
通过对多棵决策树的预测取平均,随机森林能减少过拟合,并且通常比单棵树更稳健地处理高维数据。
“Random forest”由 random(随机的) + forest(森林)构成:把许多“树(decision trees)”组合起来就像一片“森林”。“随机”指训练过程中引入随机性(如自助采样 bootstrap、随机选取特征子集),以让各棵树差异更大,从而提高集成后的整体表现。该术语与方法在现代机器学习中因 Leo Breiman 的工作而广泛流行。