java基础巩固-宇宙第一AiYWM:为了维持生计( 二 )


【java基础巩固-宇宙第一AiYWM:为了维持生计】L1正则化与L2正则化区别:L1正则化是把w参数取绝对值再累加起来,L2正则化是把w参数求平方再累加起来
L2正则化使得w参数趋向于整体变小常见的分类问题:根据输入的特征数据来获取因变量y从而判断出分类结果逻辑回归算法和线性回归算法的比较
逻辑回归是为了找一根分割线,来将数据对应的点分为不同的类别 逻辑回归实际项目部分点总结路况四种类型:A类(严重拥堵)、B类(拥挤)、C类( 缓行)、D类(畅通) 。【路况类别粒度越细,抗干扰能力越强】

java基础巩固-宇宙第一AiYWM:为了维持生计

文章插图
模型:A类、其他类(BCD)模型:B类、其他类(ACD)模型:C类、其他类(ABD) 整体思路:用指定路段的历史拥堵情况来预测未来路况,先实现实时路况数据统计【数据源源不断的通过flume采集入或者说写入后台的MQ中(或者说将数据放入redis中),然后用去从MQ中拿数据消费数据,然后利用窗口函数(5min, 10min) #窗口长度为5,10代表每隔10min计算一次进行实时处理】,然后用统计而来的历史数据先进行模型的训练,然后进行交通路况的预测 。编程思路及其实现:你的训练集是什么样的,训练出来的模型就具备什么样的功能(规律)2.用去消费kafka中数据 构建训练集:训练集存到redis中,但是redis是基于内存的,所以给HDFS中也存一份利用redis中的数据训练模型,训练完后进行预测假设通过最近三分钟的数据来预测第10分钟后的路况(拥堵程度)
假设通过最近10分钟的数据,来预测第5分钟的拥堵情况
3.算法三:贝叶斯分类算法
常用于,比如邮件分类,垃圾邮件及非垃圾邮件 。4.算法四:KNN分类算法5.算法五:算法2.计算空间中到K个中心点的距离3.看一下空间中的样本距离哪一个中心点最近4.归完类之后,我们要重新计算K个类的新的中心点(这个类所有样本的横纵坐标取均值)5.计算空间中的样本与新的K个中心点距离6.归类7.直到新的中心的坐标与上一次中心点的坐标不再发生变化 算法在推荐系统中的应用one-hot编码:搞一个库,然后把每种组合以矩阵的形式展示或者说统计出来
巨人的肩膀
马士兵老师B站的课
吴恩达老师B站的课
舍友给的资料
XXX权威指南