基于随机森林的煤与瓦斯突出预测方法研究

【基于随机森林的煤与瓦斯突出预测方法研究】1引言
煤炭在我国一次能源中的主导地位短期内不会发生根本性改变。随着煤炭产量的增长，近年来我国煤矿生产事故频繁发生，安全形势非常严峻。煤矿事故已经成为社会各界关注的焦点。而煤与瓦斯突出是煤矿生产过程中的一种严重自然灾害。长期以来，煤与瓦斯突出事故严重制约着我国煤矿生产和煤炭企业经济效益的提高，给煤矿安全生产和井下作业人员的生命财产安全带来了极大威胁。因此，正确预测矿井煤与瓦斯突出的规模，对于煤炭企业安全生产具有重要的现实意义。
目前关于煤与瓦斯突出的预测方法主要有：单项指标法、瓦斯地质统计法、D与K综合指标法、钻孔瓦斯涌出初速度法、钻屑指标法、R综合指标法以及灰色预测法、声发射技术和电磁辐射法等[1,2] 。煤与瓦斯突出与其影响因素之间存在着复杂的非线性关系，上述方法预测的准确性往往不高。国内也有许多学者采用非线性建模方法（比如神经网络）来建立煤与瓦斯突出预测模型，但这些方法需要大量的样本进行学习，才能获得较高的预测精度，而煤与瓦斯突出的样本往往较少[3] 。
大量研究表明，组合预测模型往往比单一预测模型的效果要好，而随机森林就是一种组合的预测方法，同时也是针对非线性、小样本的预测方法。国内用随机森林方法对煤与瓦斯突出进行预测的研究还很鲜见。因此，本文拟采用随机森林算法构建煤与瓦斯突出预测模型。
2随机森林
2.1随机森林基本原理
随机森林()是于2001年提出的一种分类和预测模型，具有较好的泛化性和准确性[4] 。它是一种非线性建模工具，是目前数据挖掘、生物信息学等领域最热门的前沿研究方法之一。随机森林分类模型[5]是由很多决策树分类模型{h(X,Ok),k=1,2,3,...}组成的组合分类模型，参数集{Ok}是独立同分布的随机向量，在给定输入变量X下, 每个决策树分类模型都有相应的投票权来选择最优的分类结果（输出变量）。
随机森林用抽样方法构造K个不同的训练集增加分类模型间的差异，从而提高组合分类模型的外推预测能力。经K轮训练，得到一个分类模型序列{h1(X),h2(X),h3(X),...,hK(X)},再用它们构建一个组合分类模型，该组合模型的最终分类结果采用简单多数投票法。最终的分类决策:
其中，H(X)表示组合分类模型，hi是单个决策树分类模型，Y表示输出变量(或称预测结果) ，H(.)为示性函数，示性函数定义为：
2.2随机森林算法