回归算法( 二 ) _神经

步长小一点没事，就是运算量大，但是大了会直接略过需要的全局最小点
随机乱走看一下哪个方向是最小的，每次下山，是θ0~θn组合出来的一个值，比如上图就是θ0和θ1的值共同决定往哪个方向下山的，如果是10维就是，θ0~θ10共同决定的。
决策树与随机森林 1. 决策树概述
能分类也能回归
一棵决策树：
一些术语：
决策树分为两个阶段：
1. 训练阶段（用训练数据集构造出一棵决策树）
2. 分类阶段（放入真实数据，得到分类结果）
2. 熵原理
熵：分子的混乱程度
A里面什么都有，很不纯，很混乱，熵很大！（每个数字出现的概率是0.1，算出来熵很大）
gini系数和熵的变化是一样的，就是公式不一样，都是越大分类效果越差
3/4. 决策树构造
我们希望，树越深，节点数增加，熵最好变小快一点，那怎样一颗决策树熵减的快呢？怎样能让决策树少决策几次，树矮一点呢？
以下是ID3算法构造决策树：
Step1：计算原本熵值
Step2：计算每一个的熵值，熵值最大，信息增益最大
5.信息增益率
ID3算法：它是有问题的，比如有一个数据，里面的值有非常多，比如ID：1,2,3,4,5,6,7,8,9,10，那么每种都只出现一次，他的熵就非常大，非常不稳定，那么先划分这个，就能让熵值一下子减小很多，但是先拿着个数据决策真的好吗？因为1,2,3,4,5,6,7,8,9,10里面每个ID只对应一个数据，那么划分完，根本没有起到划分效果呀！
衡量树的效果？评价函数：叶子结点的个数乘以总熵值，值越小越好！（类似损失函数，相当于叶子结点的不确定性越小越好，越小说明叶子结点的分类效果还不错）
C4.5：连续值离散化，比如1,2,3,4,5,6,7,8,9,10，划分成5的。年龄值也会有ID3算法导致的问题，所以可以把年龄划分成>=30岁的和6. 决策树剪枝
决策树不能太高，太高的话分的太仔细，有些没必要用于决策的变量的也决策了，这会导致过拟合
预剪枝：变构建变剪枝
后剪枝：全部构造好了后，再进行剪枝
剪枝时使用的限制条件：
预剪枝：
1. 可以是限制决策树的高度，当决策树构造到第3层的时候，就不继续构造了，提前停止
2. 可以是限制样本的个数，比如某个节点内的样本个数小于50了，就不继续构造了，提前停止
后剪枝：
1. 选择一些节点，然后计算评价函数，然后剪枝之后，在计算一次评价函数，来看看哪个效果好，如果剪枝效果好就剪枝（α表示叶子结点个数对于评价函数的影响，如果觉得叶子结点多一点也没关系，就可以设大一点，如果希望少一点，就α小一点）
7. 随机森林
森林：构造好几颗决策树，然后每颗决策树做一次决策，然后再把每次的决策算一个平均或者算一个众数，得到最终决策
随机：
1. 数据选择随机性：随机选择的有比例的有放回的采样，采样一部分然后构建一棵树，另一棵树再重新采样，因为有放回所以会采样到重复的
2. 特征随机性：特征有很多，但是有的特征可能对结果没有影响，比如数据的ID就没有影响，那么特征随机，最后看看使用哪些特征效果最好
：有放回采样
：有放回采样n个样本一共建立分类器
8. 案例贝叶斯算法 1. 贝叶斯算法概述 2. 贝叶斯推导 3. 贝叶斯用于拼写纠错 4. 贝叶斯用于垃圾邮件过滤支持向量机算法时间序列AIRMA模型神经网络基础 1. 深度学习概述
大数据时代
数据集
深度学习和机器学习的关系？机器学习里有一个部分叫神经网络，神经网络扩展和改进，就是深度学习的内容