什么是机器学习?看完就明白了

说到人工智能必然要了解机器学习,从信息化软件,到电子商务,然后到高速发展互联网时代,到至今的云计算、大数据等,渗透到我们的生活、工作之中,在互联网的驱动下,人们更清晰的认识和使用数据,不仅仅是数据统计、分析,我们还强调数据挖掘、预测 。

什么是机器学习?看完就明白了

文章插图
一、什么是机器学习 1. 机器学习概念
机器学习就是对计算机一部分数据进行学习,然后对另外一些数据进行预测与判断 。
机器学习的核心是“使用算法解析数据,从中学习,然后对新数据做出决定或预测” 。也就是说计算机利用以获取的数据得出某一模型,然后利用此模型进行预测的一种方法,这个过程跟人的学习过程有些类似,比如人获取一定的经验,可以对新问题进行预测 。
我们举个例子,我们都知道支付宝春节的“集五福”活动,我们用手机扫“福”字照片识别福字,这个就是用了机器学习的方法 。我们可以为计算机提供“福”字的照片数据,通过算法模型机型训练,系统不断更新学习,然后输入一张新的福字照片,机器自动识别这张照片上是否有福字 。
机器学习是一门多领域交叉学科,涉及概率论、统计学、计算机科学等多门学科 。机器学习的概念就是通过输入海量训练数据对模型进行训练,使模型掌握数据所蕴含的潜在规律,进而对新输入的数据进行准确的分类或预测 。如下图所示:
什么是机器学习?看完就明白了

文章插图
2. 机器学习分类
我们了解了机器学习的概念,通过建立模型进行自我学习,那么学习方法有哪些呢?
(1)监督学习
监督学习就是训练机器学习的模型的训练样本数据有对应的目标值,监督学习就是通过对数据样本因子和已知的结果建立联系,提取特征值和映射关系,通过已知的结果,已知数据样本不断的学习和训练,对新的数据进行结果的预测 。
监督学习通常用在分类和回归 。比如手机识别垃圾短信,电子邮箱识别垃圾邮件,都是通过对一些历史短信、历史邮件做垃圾分类的标记,对这些带有标记的数据进行模型训练,然后获取到新的短信或是新的邮件时,进行模型匹配,来识别此邮件是或是不是,这就是监督学习下分类的预测 。
再举一个回归的例子,比如我们要预测公司净利润的数据,我们可以通过历史上公司利润(目标值),以及跟利润相关的指标,比如营业收入、资产负债情况、管理费用等数据,通过回归的方式我们回到的一个回归方程,建立公司利润与相关因此的方程式,通过输入因子数据,来预测公司利润 。
监督学习难点是获取具有目标值的样本数据成本较高,成本高的原因在于这些训练集的要依赖人工标注工作 。
(2)无监督学习
无监督学习跟监督学习的区别就是选取的样本数据无需有目标值,我们无需分析这些数据对某些结果的影响,只是分析这些数据内在的规律 。
无监督学习常用在聚类分析上面 。比如客户分群、因子降维等 。比如RFM模型的使用,通过客户的销售行为(消费次数、最近消费时间、消费金额)指标,来对客户数据进行聚类:
除此之外,无监督学习也适用于降维,无监督学习比监督学习好处是数据不需要人工打标记,数据获取成本低 。
(3)半监督学习
半监督学习是监督学习和无监督学习相互结合的一种学习方法,通过半监督学习的方法可以实现分类、回归、聚类的结合使用 。
半监督学习是最近比较流行的方法 。