Making decisions: Policies in reinforcement learning|做出决策:强化学习中的策略

bolin
发布于 2025-09-04 / 1 阅读
0
0

Making decisions: Policies in reinforcement learning|做出决策:强化学习中的策略

一、策略(Policy)的概念

AE77450B-173A-4F6C-8E6F-6F910268DB50.png

在强化学习中,策略(Policy) 是智能体的核心组成部分。它定义了在给定状态 s 下,智能体应该采取的动作 a。用数学表达式可以写作:

5997E273-45C8-4CD9-A5ED-22FFF47FF0C1.png

这表示策略 π 就是一个映射函数,它把环境中的状态(state)映射到某个动作(action)。

换句话说,策略回答了这样一个问题:
👉 “在当前的状态下,接下来应该做什么?”

在实际任务中,策略可能有两种形式:

  1. 确定性策略(Deterministic Policy):在相同状态下总是采取同一个动作,例如:

    5997E273-45C8-4CD9-A5ED-22FFF47FF0C1.png

    如果小车在状态 s 时总是往左走,那么这就是确定性的策略。

  2. 随机性策略(Stochastic Policy):在同一状态下可能采取不同动作,只是有一定概率分布,例如:

    C74CC85F-426B-4464-B77C-E8A85938403A.png

    比如在棋局中,有时可能 70% 概率选择走左边,30% 概率选择走右边。

在强化学习中,策略是连接 状态 → 行为 → 奖励 的关键纽带。它决定了智能体与环境交互的方式,从而影响最终能获得多少回报。


二、强化学习的目标与策略优化

在强化学习中,策略 π 的最终目标并不是简单地选择动作,而是要通过动作的连续选择 最大化长期回报(Return)

1. 强化学习的目标

强化学习的目标可以表述为:

7CF59116-92E8-4839-8C35-7B52857BB24A.png

其中:

  • π 表示最优策略;

  • Gt 表示从时间步 t 开始的回报(Return);

  • 目标是找到一个策略,使得智能体在任意状态下,都能选择能带来最大期望回报的动作。

简单来说,就是要学到一条规则:在不同状态下如何行动,才能让累计奖励最大化


2. 策略优化的过程

为了优化策略,智能体需要不断与环境交互:

  1. 观察状态 s:比如火星车在某一格子里。

  2. 根据策略 π 选择动作 a:比如决定向左走还是向右走。

  3. 获得奖励 r 和下一个状态 s’:走对了可能接近奖励,走错了可能掉进“惩罚区”。

  4. 调整策略 π:根据反馈,逐渐改进策略。

这种不断改进的过程,就是强化学习中所谓的 trial-and-error(试错学习)


3. 示例说明

D43611B0-C7B2-413A-9842-3BD10E1FDB44.png

这张图(The goal of reinforcement learning)展示了一个智能体在网格世界中(左边奖励为 100,右边奖励为 40)。

  • 策略 π 的任务就是告诉智能体在每一个格子中应该往哪走;

  • 最终目标是找到一条最优策略,让智能体从任意起点出发,都能走到最高奖励的终点(100)。

因此,策略的价值并不是在某一步做得对,而是能保证在 整个任务过程中获得最大的累计回报


三、策略在不同任务中的应用案例

514668ED-25F6-4965-B9B6-6E44873D7BD0.png

策略(Policy)不仅仅是数学公式,它的应用涵盖了许多现实任务。你上传的第三张图展示了三个典型的强化学习场景:


1. 火星车 (Mars Rover)

  • 状态 (states):火星车所在的格子,例如 [1,2,3,4,5,6]。

  • 动作 (actions):火星车能往左走或往右走。

  • 奖励 (rewards):不同格子对应不同奖励,如左边终点 100,右边终点 40,中间为 0。

  • 策略 π:告诉火星车在某个格子中是往左走还是往右走。

  • 目标:找到一条最佳路径,使火星车能够在有限步数内尽可能获得高奖励。

这就是最直观的“走迷宫”例子。


2. 直升机控制 (Helicopter)

  • 状态:直升机在空中的位置、姿态等。

  • 动作:如何移动操纵杆(上下、左右)。

  • 奖励:如果直升机飞行稳定,给予正奖励 +1;如果操作失误导致坠机,给予巨大的负奖励 -1000。

  • 策略 π:就是告诉直升机在当前状态下如何调整旋翼和操纵杆。

  • 目标:让直升机能够自主飞行并保持稳定。

这个案例展示了强化学习在 复杂动态控制系统 中的应用。


3. 国际象棋 (Chess)

  • 状态:棋盘上棋子的分布。

  • 动作:所有可能的合法走法。

  • 奖励:赢棋时 +1,和棋 0,输棋 -1。

  • 折扣因子 (γ):接近 1(如 0.995),因为国际象棋对长远规划要求高。

  • 策略 π:告诉玩家在当前局面下,哪一步走法能带来最大胜率。

  • 目标:在对弈中不断优化走法,最终提高获胜概率。

这是强化学习在 博弈与人工智能对抗 中的典型应用(AlphaZero 就是代表)。


四、马尔可夫决策过程 (MDP) 与策略的关系

做出决策:强化学习中的策略(图1).png

强化学习中的策略不仅是一个“状态到动作”的规则,还与整个 马尔可夫决策过程(Markov Decision Process, MDP) 紧密相关。

1. MDP 的基本组成

一个 MDP 通常由以下几个要素组成:

  • 状态集合 (States, S):环境可能处于的所有状态。

  • 动作集合 (Actions, A):智能体在某一状态下可以采取的所有动作。

  • 状态转移概率 (Transition, P):执行某个动作后,环境转移到下一个状态的概率分布。

  • 奖励函数 (Reward, R):动作带来的即时奖励。

  • 折扣因子 (Discount, γ):衡量未来奖励的重要程度。


2. 策略 π 在 MDP 中的作用

策略 π 充当了智能体与环境之间的桥梁:

  1. Agent 根据状态选择动作

    • 输入当前状态 s;

    • 策略 π 输出要采取的动作 a。

  2. Environment 接收动作并返回反馈

    • 给出下一个状态 s′;

    • 给出奖励 r。

  3. Agent 更新策略 π

    • 基于反馈不断改进未来的动作选择。

这种循环过程,就是强化学习最基本的交互机制。


3. 图示说明

图(Markov Decision Process)清晰地展示了这种循环:

  • Agent(智能体)使用策略 π 选择动作;

  • Environment(环境)根据动作反馈新状态和奖励;

  • 这个过程不断重复,直到智能体学到最优策略 π*。


4. 小结

策略 π 在 MDP 中的角色,就像一个“导航器”:

  • 它告诉智能体在不同状态下如何决策;

  • 通过与环境的不断交互和反馈,策略逐渐被优化,趋近于最优策略。

因此,可以说 强化学习的核心目标就是在 MDP 框架下找到最优策略 π*


五、总结

在强化学习中,策略(Policy) 是智能体决策的核心。它决定了在给定状态下采取哪一个动作,从而影响智能体能获得多少回报。

本文从多个角度阐释了策略的重要性:

  • 策略是状态到动作的映射,可以是确定性的,也可以是概率性的。

  • 强化学习的目标是通过不断试错和优化,找到一个最优策略,使得长期回报最大化。

  • 在不同的任务中,策略的表现形式各不相同:火星车的移动、直升机的操纵、棋局中的走法,都是策略的具体体现。

  • 策略是 MDP 框架的核心纽带,连接了智能体与环境的交互循环。

因此,理解和掌握策略,是学习强化学习的基础。未来更高级的主题(如价值函数、策略梯度、Actor-Critic 方法)都将基于这一核心概念展开。



评论