图4
概述随机森林分析和代谢物选择程序的原理图。首先,(1)使用耐药/易感标签作为样本分类,代谢物作为分类器运行RF算法。这为每个代谢物生成特征重要性,并通过5个RF模型计算平均特征重要性。接下来,(2)样本分类随机排列超过100,250和500 RF模型,创建每个代谢物的随机特征-重要性分布。最后,(3)对每个代谢物,(1)计算的特征重要性平均值与(2)和(3)的分布进行比较p值计算。具有显著高于其排列模型的平均特征重要性的代谢物(p< 0.01)对抗性/敏感分类有显著影响
