什么是数据挖掘？数据挖掘的一般过程是怎样的？ _数据挖掘

大数据时代已经到来。利用网络和生活中产生的大量数据来发现问题并创造价值，数据挖掘已成为一门新的学科和技术。那么什么是大数据挖掘，数据挖掘的过程是怎样的，它的具体算法有哪些呢？今天的文章将带你了解关于数据挖掘的那些事。来源： Labs 原创

文章插图
01、首先，数据挖掘到底是什么？
官方定义，数据挖掘（Data）是从大量的、不完整的、嘈杂的、模糊的、随机的数据中提取隐藏在其中的，人们事先不知道，但潜在有用的信息和知识的过程。
p>
通俗地说，数据挖掘就是从大量数据中找到我们想要的“东西” 。
02 这个“东西”指的是什么？
一个叫做预测任务。
换句话说，给定某个目标属性，让我们预测该目标的另一个特定属性。如果属性是离散的，通常称为“分类”，而如果目标属性是连续值，则称为“回归” 。
另一个叫做描述任务。
这是指寻找数据之间潜在的联系模式。例如，这两个数据之间存在很强的相关性，就像大数据分析中发现的一个特征：买尿布的男性通常也会买啤酒，因此商家可以将这两种产品打包出售以提高业绩。另一个非常重要的是聚类分析，这也是日常数据挖掘中非常非常常用的分析。它旨在找到密切相关的观察组，并且可以将所有数据分类为没有标签的组。用于分析或降维的适当类。
其他描述任务包括异常检测。该过程类似于聚类的逆过程。聚类将相似的数据聚合在一起，而异常检测会删除太远的点。
03 数据挖掘的一般过程包括以下几个方面：
数据预处理、数据挖掘、后处理
首先，我们来谈谈数据预处理。这样做的原因是通常的数据挖掘需要涉及的数据量比较大。这些数据可能来自不同的来源，从而产生不同的格式。部分数据中可能存在缺失值或无效值。将这些“脏”数据放入模型中很容易导致模型计算失败或可用性差，因此数据预处理是数据挖掘过程中必不可少的一步。

文章插图
至于数据挖掘和后处理，还是比较容易理解的。数据预处理完成后，我们通常会构造特征，然后将其放入特定的模型中进行计算，使用一定的标准来判断不同模型或组合模型的性能，最终确定最适合后处理的模型后处理的过程相当于找到了我们想要找到的结果，然后应用它或以合适的方式表示它。
数据挖掘涉及一系列算法，主要分为三类：分类算法、聚类算法和关联规则。这三类基本涵盖了当前商业市场对算法的所有需求。这三类中，最经典的就是以下十种算法。

文章插图
1、分类决策树算法C4.5
C4.5，是机器学习算法中的分类决策树算法。它是决策树（决策树，即决策节点的组织就像一棵倒挂的树）的核心算法。ID3的改进算法。
2、K-平均算法
K-means算法（k-means）是一种聚类算法，将n个分类对象分为k个类别（k
3、支持向量机算法
支持向量机( )算法，简称SVM，是一种监督学习方法，广泛应用于统计分类和回归分析。
4、该
算法是挖掘布尔关联规则频繁项集最有影响力的算法之一。它的核心是一种基于两阶段“频繁项集”思想的递归算法。涉及的关联规则分为单维、单层和布尔关联规则。
5、最大期望（EM）算法
最大期望 (EM, –) 算法是一种用于在依赖于不可观察的隐藏变量的概率模型中找到参数的最大似然估计的算法。最大期望值常用于机器学习和计算机视觉的数据聚合领域。