回归算法( 二 )


步长小一点没事,就是运算量大,但是大了会直接略过需要的全局最小点
随机乱走看一下哪个方向是最小的,每次下山,是θ0~θn组合出来的一个值,比如上图就是θ0和θ1的值共同决定往哪个方向下山的,如果是10维就是,θ0~θ10共同决定的 。
决策树与随机森林 1. 决策树概述
能分类也能回归
一棵决策树:
一些术语:
决策树分为两个阶段:
1. 训练阶段(用训练数据集构造出一棵决策树)
2. 分类阶段(放入真实数据,得到分类结果)
2. 熵原理
熵:分子的混乱程度
A里面什么都有,很不纯,很混乱,熵很大!(每个数字出现的概率是0.1,算出来熵很大)
gini系数和熵的变化是一样的,就是公式不一样,都是越大分类效果越差
3/4. 决策树构造
我们希望,树越深,节点数增加,熵最好变小快一点,那怎样一颗决策树熵减的快呢?怎样能让决策树少决策几次,树矮一点呢?
以下是ID3算法构造决策树:
Step1:计算原本熵值
Step2:计算每一个的熵值,熵值最大,信息增益最大
5.信息增益率
ID3算法:它是有问题的,比如有一个数据,里面的值有非常多,比如ID:1,2,3,4,5,6,7,8,9,10,那么每种都只出现一次,他的熵就非常大,非常不稳定,那么先划分这个,就能让熵值一下子减小很多,但是先拿着个数据决策真的好吗?因为1,2,3,4,5,6,7,8,9,10里面每个ID只对应一个数据,那么划分完,根本没有起到划分效果呀!
衡量树的效果?评价函数:叶子结点的个数乘以总熵值,值越小越好!(类似损失函数,相当于叶子结点的不确定性越小越好,越小说明叶子结点的分类效果还不错)
C4.5:连续值离散化,比如1,2,3,4,5,6,7,8,9,10,划分成5的 。年龄值也会有ID3算法导致的问题,所以可以把年龄划分成>=30岁的和6. 决策树剪枝
决策树不能太高,太高的话分的太仔细,有些没必要用于决策的变量的也决策了,这会导致过拟合
预剪枝:变构建变剪枝
后剪枝:全部构造好了后,再进行剪枝
剪枝时使用的限制条件:
预剪枝:
1. 可以是限制决策树的高度,当决策树构造到第3层的时候,就不继续构造了,提前停止
2. 可以是限制样本的个数,比如某个节点内的样本个数小于50了,就不继续构造了,提前停止
后剪枝:
1. 选择一些节点,然后计算评价函数,然后剪枝之后,在计算一次评价函数,来看看哪个效果好,如果剪枝效果好就剪枝(α表示叶子结点个数对于评价函数的影响,如果觉得叶子结点多一点也没关系,就可以设大一点,如果希望少一点,就α小一点)
7. 随机森林
森林:构造好几颗决策树,然后每颗决策树做一次决策,然后再把每次的决策算一个平均或者算一个众数,得到最终决策
随机:
1. 数据选择随机性:随机选择的有比例的有放回的采样,采样一部分然后构建一棵树,另一棵树再重新采样,因为有放回所以会采样到重复的
2. 特征随机性:特征有很多,但是有的特征可能对结果没有影响,比如数据的ID就没有影响,那么特征随机,最后看看使用哪些特征效果最好
:有放回采样
:有放回采样n个样本一共建立分类器
8. 案例 贝叶斯算法 1. 贝叶斯算法概述 2. 贝叶斯推导 3. 贝叶斯用于拼写纠错 4. 贝叶斯用于垃圾邮件过滤支持向量机算法 时间序列AIRMA模型 神经网络基础 1. 深度学习概述
大数据时代
数据集
深度学习和机器学习的关系?机器学习里有一个部分叫神经网络,神经网络扩展和改进,就是深度学习的内容