通识强化学习，初步了解强化学习的运行规则和估值方法( 三 ) _机器学习

强化学习中的智能体具有目标导向性，即智能体的所有行为都是为了实现某个特定的目标，例如最大化奖励信号。
强化学习中的智能体需要解决探索-利用的两难问题，即智能体需要在探索新动作和利用已知动作之间进行权衡，以实现最大化奖励信号的目的。
2.5.与其他机器学习方法的区别
监督学习：
它从一组带标签的训练数据集中推得函数，从而将输入映射到合适的输出，例如分类。
在监督学习中，每条样本包含一个输入对象（通常由向量表示）和一个输出值（也叫做标签），例如图像分类任务中，输入对象是图像，输出值是图像所属的类别。
监督学习在工程实践中的应用非常广泛，例如推荐系统、自然语言处理、机器人控制、医疗保健、金融贸易、游戏等领域。
3.估值方法 3.1.估值的方式
基于值函数（Value Based）：基于值函数的方法，输入是状态，输出是状态，输出是值函数的大小，然后选择值函数最大对应的动作为下一个动作，因此他直接学到的是值函数，间接学习策略。
基于策略（ Based）：基于策略的方法，输入的是状态，输出的是方法。
行动者-评论家方法（Actor-，AC）：Actor-方法是将Value based和 based两类方法各自优势结合在一起。通过构造一个全能型的agent 。既能直接输出策略，又能通过value 来实时评价。
Actor-的架构包括两个部分，即两个神经网络：
策略网络：
策略网络是强化学习中直接预测在某个环境状态下应该采取的行动的一种网络模型1 。
策略网络本质上也是神经网络，主要分为策略网络和估值网络。其中，策略网络根据当前状态选择采取的行动，而估值网络则预测在某个环境状态下所有行动的期望价值，然后通过选择Q值最高的行动执行策略。
【通识强化学习，初步了解强化学习的运行规则和估值方法】在具体实现中，策略网络通常使用简单的带有一个隐藏层的MLP，网络的输入是当前状态，输出则是当前状态下各个动作的概率。