机器学习之决策树
Spark中的决策树模型参数:
model = DecisionTree.trainClassifier(trainData2, 7, Map(10 -> 4, 11 -> 40),impurity, depth, bins)
trainData2:训练集(标签向量数据)
7:分类个数
Map(10 -> 4, 11 -> 40):特征值的类型数量(比如第10个特征有4个类型值,第11个特征有40个类型值)
如果特征值为纯粹的单个数值类型可以不用映射,直接写成 Map[Int,Int]()
impurity:指定不纯度,分类中主要是gini系数和entropy标准熵。
depth:指定树的深度。
bins:指定最大节点数。