吴恩达ML简略总结( 二 )


此外还可以通过均值归一化对数据按比例缩放
此外除了用梯度下降算法迭代求得最优的 θ \theta θ参数外,还可以通过正规方程直接求到最优参数,
然而,正规方程也存在一定的问题,即XTX可能是奇异矩阵,即不可逆矩阵,有如下两种情况:
特征变量存在线性关系;特征变量过多导致特征变量矩阵的列数0.5时,y=1;
hθ(x)
例如:
当给定一个特征变量x1,为肿瘤的大小,则根据逻辑函数求得hθ(x)=0.7,其含义为在所给肿瘤大小特征以及参数 θ \theta θ的条件下,y=1(即为恶性肿瘤)的概率为0.7;
【吴恩达ML简略总结】决策边界
z =θ \theta θTX,根据假设函数曲线,只要zθ(x)0,则hθ(x)>0.5,取y=1
例如图
在通过训练已经确定参数的值的情况下,很容易就可以推出决策边界,在此例中z=θ0+θ1x1+θ2x2,假设通过训练后得到的参数θ0=-3,θ1=1,θ2=1;那么可以得到决策边界x1+x2=3,则x1+x21+x2>3时,y=1
正则化
通过减小代价函数的 θ \theta θ参数来简化假设函数hθ(x)
λ \ λ为对 θ \theta θ的惩罚程度,即正则化参数
使假设函数的曲线变得平滑,泛化
线性回归模型的正则化 模型的正则化 过拟合与欠拟合
过拟合,数据集特征变量过多造成拟合的假设函数波动大,具有高方差,不能泛化新的样本,不能作为一个好的预测模型,如图3
:
减少特征变量;采用正则化;
欠拟合;由于特征变量太少或训练集太少而不能很好的拟合出假设函数,具有高偏差; 支持向量机SVM 无监督学习
无监督学习是指给定的数据没有属性或者标签进行区分,数据都是一样的,通过聚类算法自行找到数据的结构并把数据分为多个簇
例如:新闻的聚类
例:
聚类: 收集1,000,000个不同基因的集合,并找到一种方法将这些基因自动分组成不同的相似或相关的不同变量组,如寿命,位置,角色等 。
非聚类:“鸡尾酒会算法”允许您在混乱的环境中查找结构 。(即在鸡尾酒会上从声音网格中识别个别声音和音乐)
K-means算法
原理:如图,需要将绿色的无标签的数据分成两类,第一步,将随机生成两个点,称为聚类中心
K均值算法是一个迭代算法,第一个是进行簇分配,第二个是移动聚类中心,即每一次内循环时都要进行簇分配,将各点分配给离该点最近的聚类中心,
将各店分配给聚类中心后,如图,再分别算出各类点(即蓝色点和红色点)的均值,把聚类中心移动到均值位置,进行下一次循环,并依次迭代直到聚类中心已经位于簇的均值点位置不再改变,此时视为已将这些无标签数据分类完成
神经网络学习
如图为房价预测中的非线性假设模型的例子,即房价并不等于房间大小,卧室数等与假设函数参数的线性组合;而是如图所示:
再举个非线性假设模型的例子,比如说要用机器学习算法做一个分类器来识别一副图像是否为一辆汽车,计算机处理后会得到一个数据矩阵(表示像素值强度的网格),简单而言当要用机器学习算法构造一个汽车识别器时,需要提供一些带标签的样本,其中一类不是汽车的图像和另一类是汽车的图像,将样本集输入至学习算法训练出一个分类器,若取图像中的两个像素点作为特征,则非汽车样本和汽车样本将会分布在坐标中的不同区域
然而一副图像不可能指取两个像素点作为特征向量,对于一个50*50的像素矩阵,如果用灰度值表示则会有2500个特征,如果用RGB表示,则有7500个特征,如果用回归模型学习这个非线性假设模型,将会非常复杂,因此需要引入神经网络算法进行分析 。