图3 机器学习应用
图3是一些典型的机器学习应用 。给我1000张标记为猫的照片,得到一个识别猫的模型,并且正确率越高越好 。给我1000万盘围棋的棋局,得到一个模型 。给我信用卡的历史操作记录,得到一个反欺诈模型 。
怎么得到这个模型其实是最复杂的 。数据往往是非结构化的,有各种类型,我们没有一个得到模型的统一方式 。而且有些是分类模型(识别猫),有些是生成的模型(GAN),它们的应用场景都不一样 。
图4 得到机器学习应用1
模型的训练过程很复杂 。我们都知道给我1000张猫的图片,能得到一个识别猫的模型 。问题是能不能训练出一个比或者效果更好的模型 。真正做机器学习应用的,都需要做到图4中的过程,并不是说给我猫的图片就可以得到很好的模型 。一般的过程,包括这几个部分:
定义模型的使用场景,也就是业务逻辑 。场景定义有很多种,包括二分类,多分类 。很多时候我们在做一些银行的业务,目标是提高利润 。但这并不是机器学习业务能理解的东西 。假设这是一个营销的业务,系统会给用户发送理财产品推荐的短信 。我们把场景定义成二分类,即推荐什么样的理财产品用户的购买概率更高,对这个理财产品可以做模型预测,即买或是不买的概率 。
数据清洗 。数据清洗跟传统的大数据处理其实没什么区别,有些特征可能需要补全或者去掉 。用到的技术就是,MR()或者Spark,还会用到 Graph的领域知识 。
特征抽取 。我们要从数据里生成一些特征,特征其实也是数据的字段,但只是用于机器学习 。例如数据里可能有人的性别和年龄,但生成的特征可能是几十万维甚至几百万维的 。例如对于线性模型,我们不能将原始数据直接放进去 。怎么做特征抽取呢?这跟后面使用的模型框架有关,我们必须生成框架支持的格式 。在真正做的时候我么会定义一个特征抽取的DSL,用户通过简单的描述就可以将生成Spark任务 。对DSL我们做了一个AST的,可以支持像或者的格式 。
模型训练 。在训练的时候选择就很多了,业界已经证明的一些机器学习算法有LR、GBDT、DNN、NB(Naive Bayes)等 。还有我们自研的将离散值转连续值的算法,因为树模型对连续值支持更好 。我们可以使用不同的框架,例如就是一个很好的DNN框架 。
模型上线 。模型上线以后就是一个服务,我们可以部成一个微服务或者单机起的一个进程 。我们目前用。上线以后同样要解决例如负载均衡和高可用的问题,还有认证授权,我们使用AKSK的加密方法 。
自学习 。跟普通的应用不一样,大部分机器学习模型都是有时效性的 。例如头条里面的推荐,最近一个月大家都在关注娱乐,那么娱乐特征可能是重要的,那我们就要拿增量的数据来继续训练模型 。这里我们就需要一些SDK的功能,还要支持不同的数据源 。模型训练可能是离线的,我们从里取出数据就可以了,在自学习时可能就要接Kafka或者一些的数据 。我们模型的框架还支持 ,也就是在线更新模型权重 。
今天会花比较多时间给大家介绍两部分,第一个是机器学习的算法,第二是怎么搭建一个机器学习的平台 。
机器学习算法
图5 逻辑回归1
机器学习的算法很多,这里不能一一介绍 。主要给大家介绍逻辑回归的实现 。现在DNN很火,大家都在聊DNN、CNN、LSTM 。做图像、自然语言还有语音处理这些非结构化的数据里面会用到CNN或者LSTM 。但在我的工作场景里面,大部分都是银行的业务,我们用的最多的模型是LR(逻辑回归),包括我同事在百度凤巢做的CTR预估 。不同的机器学习算法都可以解决像二分类或者回归的问题,但实现原理和针对的数据是不一样的 。如果大家有看论文,就知道它的算法并不是用逻辑回归,而是用,等一下会介绍的实现 。但是这里面有一个问题,我们可不可以用逻辑回归来代替?答案是可以的,其实是一个蒙特卡洛搜索和一个NN神经网络,之所以不用逻辑回归是由于逻辑回归是一个线性模型,没有很强的表达能力,如果我们的特征做的足够复杂,也可以训练一下模型LR-based的模型,但肯定达不到的效果了 。
- 李青萝真的是无崖子与李秋水的亲生女儿吗
- 杨玉环与前夫寿王结婚五年为何没有孩子?
- 刘陵是一位风流公主吗?揭秘刘陵与汉武帝的关系
- WeX5之登录注销功能实现
- 耗时三年,投入数千人 华为实现ERP自主可控 公司:“有史以来复杂性最高的项目”
- 认准“鲲鹏+昇腾”这条路,欲与“天宫”试比高
- 150行代码写个低配版WPS?:手把手教你实现+附完整源码
- Scratch简单实现观察力的小游戏
- 揭秘:诗仙李白与唐玄宗杨贵妃有着怎样的交情
- 三 Silverlight 2.5D RPG游戏技巧与特效处理:动态光影