Continuous States and Value Functions in RL|强化学习中的连续状态与价值函数

bolin
发布于 2025-09-08 / 2 阅读
0
0

Continuous States and Value Functions in RL|强化学习中的连续状态与价值函数

一、离散与连续状态

在强化学习(Reinforcement Learning, RL)中,状态(State) 描述了智能体所处的环境信息。不同的任务和环境,会决定状态是离散的还是连续的。


离散状态(Discrete State)

在离散环境中,状态通常是有限个离散位置或情境
例如图中上方的网格环境中,智能体(小车或探测器)可以出现在格子 1~6 中的任意位置。
这种表示方式非常适合初学强化学习时的教学任务,比如“格子世界”(Grid World)。

在这种离散场景下,状态空间可以被枚举出来:

FA14DBB1-6F0D-484C-BA57-11BDE83FC393.png

智能体只需要在这几个状态之间进行移动(向左或向右),策略 π(s) 就能明确地定义在每个离散格子中采取哪种动作。


连续状态(Continuous State)

C456FE63-11CB-4DCE-BD21-255A6D3E8119.png

然而在现实世界中,大多数任务的状态并非离散,而是连续的
图中下方展示了一个带有卡车的例子,它的状态不仅仅是一个“位置编号”,而是由多个连续变量组成的向量:

9E46361A-68D1-4B69-B013-9B97CB100A65.png

这意味着状态空间是无限维、连续可变的。
例如,在自动驾驶、机械臂控制、飞行器导航等场景中,状态往往包括位置、速度、角度、角速度等连续参数。


连续状态空间的实例:自动直升机(Autonomous Helicopter)

A78EEA0C-7271-41CF-844A-2DFF587BA01D.png

图中展示了一个自动直升机的例子。
直升机的状态不仅包含二维位置,而是一个三维连续空间,还包括姿态角、角速度、线速度等复杂特征:

293F980C-01BF-4910-91F1-25C582263B2E.png

在这样的连续状态空间中,强化学习算法无法像离散状态那样简单枚举每个状态,而需要通过函数逼近(Function Approximation) 来学习价值或策略函数,例如使用神经网络来映射状态与动作的对应关系。


二、月球着陆器环境与奖励函数

强化学习中,智能体(Agent)需要在一个环境(Environment)中不断尝试行动,并根据奖励(Reward)来调整行为策略。
月球着陆器(Lunar Lander) 是一个非常经典的连续状态强化学习任务,它很好地展示了状态、动作与奖励三者之间的关系。


环境设定(Environment Setup)

30A7F683-F393-4EEA-84DB-96C2651B1652.png

如图所示,月球着陆器的任务是:
让一艘带有推进器的小型飞船,安全地降落到地面上指定的着陆区(由两面小旗标出)。

着陆器的状态可以由一个连续变量向量表示:

B946B04D-E538-4E43-952D-25AF00D1B94B.png

其中:

  • x,y:飞船的水平与垂直位置;

  • x˙,y˙​:速度分量;

  • θ,θ˙:角度与角速度;

  • l,r:左右着陆支架是否触地(布尔值)。

这种状态表示法意味着:智能体不仅要学会“落地”,还要考虑角度、速度等复杂因素,使得整个过程保持稳定。


策略目标(Goal and Policy)

强化学习的目标是学习一个策略 π(s),在任意状态 s 下选择一个动作 a=π(s),
以最大化未来的累计奖励(return)。
在着陆器任务中,这意味着要找到一个策略,使飞船既能稳稳着陆,又能尽量少消耗燃料。


奖励函数(Reward Function)

47C6BFD5-D9B6-496D-AD78-B6FFB6467342.png

在强化学习中,奖励函数 R(s) 决定了智能体学习的方向。
月球着陆器任务的奖励被精心设计,使得飞船在“更接近理想行为”时获得更高分值:

情况

奖励值(Reward)

成功到达着陆区

+100 ~ +140

向目标区移动

正向奖励

碰撞坠毁

-100

平稳着陆

+100

每个支架落地

+10

启动主引擎

-0.3

启动侧引擎

-0.03

这意味着智能体需要在速度控制燃料使用之间进行权衡。
如果燃料消耗太多会被扣分,但不使用推进器又可能导致坠毁。


强化学习的目标(RL Objective)

4FB95472-A7C2-4EC6-B82E-1AF07F25FCC9.png

因此,这个任务的核心目标是:

学习一个策略 π(s),使得智能体能够最大化期望回报(Expected Return):

3BEAEA89-6C80-4328-B5C3-9E3064C5A4A4.png

其中 γ 是折扣因子(discount factor),控制模型对未来奖励的重视程度。
在月球着陆器中,通常使用 γ=0.985,这让模型既关注短期行为(如燃料使用),又能学习长期目标(平稳落地)。


三、深度强化学习与价值逼近

在前两节中,我们已经了解了连续状态下强化学习任务的复杂性。
月球着陆器这种环境不仅状态空间是连续的,而且每个状态对应的动作结果也带有随机性。
为了在这种高维、非线性环境中学习有效策略,我们需要引入深度强化学习(Deep Reinforcement Learning, DRL) 的思想。


1. 神经网络逼近 Q 函数(Approximating Q(s,a) with Neural Networks)

在离散环境中,我们可以用表格记录每个状态–动作的 Q 值;
但在连续环境中,状态无限多,根本无法枚举。
于是我们使用神经网络 Q(s,a;θ) 来逼近 Q 函数。

8990CB5A-57EA-458D-8A77-F2735AE40654.png
这张图展示了深度强化学习的基本结构:

  • 输入层接收连续状态向量 s(例如位置、速度、角度等);

  • 隐藏层学习到状态与动作之间的非线性关系;

  • 输出层预测不同动作的 Q 值。

网络的目标是学习参数 θ,使得 Q 网络对每个状态–动作组合的估计值尽可能接近真实的期望回报。


2. 贝尔曼方程与目标更新(Bellman Equation for Value Update)

神经网络的训练依然遵循贝尔曼方程,只不过公式稍作修改:

58047439-7033-42BA-BB85-6C54A253FAF4.png

其中:

  • θ 是当前网络的参数(online network);

  • θ 是目标网络(target network)的参数,用于稳定训练;

  • s′ 表示执行动作后的下一状态;

  • R(s) 是即时奖励。

8A951590-BAA8-42B0-8936-9FBA41A1D426.png
这张图用箭头表示了“当前状态 → 动作 → 下一个状态”的循环关系,
展示了 Q 值如何根据奖励与未来预测的最大 Q 值进行递推更新。


3. 学习算法流程(Learning Algorithm)

训练一个深度强化学习智能体的过程,可以总结为以下步骤:

1690C1D6-91F5-45F7-B6CE-AC38B565FA21.png

  1. 采样(Sampling)
    智能体与环境交互,收集状态–动作–奖励–下一状态四元组 (s,a,r,s′)。

  2. 存储(Replay Buffer)
    将采样数据保存到经验回放池中,以便后续随机抽样训练,避免时间相关性。

  3. 更新(Update Q Network)
    从经验池中抽取批次样本,计算目标值:

    9AE03204-97C4-419B-9415-309859D3F0DB.png

    然后最小化损失函数:

    BA29D146-589E-4432-80A3-02CFFA85B696.png

  4. 同步(Target Network Update)
    定期将在线网络参数复制给目标网络,使学习过程更稳定。

  5. 策略改进(Policy Improvement)
    智能体在每个状态选择 Q 值最大的动作:

    362D5C15-034D-4407-9A4C-9302932ABF73.png

经过大量训练迭代后,智能体逐渐学会在连续状态空间中做出最优决策。


四、在连续世界中学习价值

强化学习的核心在于“学习经验”,而价值函数则是智能体理解世界的关键。
无论是离散格子中的移动,还是在月球上平稳降落的复杂控制任务,
智能体都在通过与环境的不断交互,去估计某个状态有多好(Value)


从离散到连续的跨越

在离散状态下,智能体可以用表格形式记录每个状态的价值;
但在连续环境中,这种方式失效,因为状态是无限的。

深度强化学习的引入解决了这一难题:
神经网络不再“记住每个状态”,而是学会了从状态到价值的映射函数
这使得算法能够处理飞行控制、机械臂操控、车辆导航等复杂任务,
成为通往真实智能的重要一步。


状态价值的意义

状态价值函数 V(s) 的含义,是在状态 ss 下遵循策略 π 所能获得的期望回报

F707A78E-B04C-4898-9AA5-4ACE3BF9A03A.png

它让智能体不再盲目试错,而是能够“预测未来”,
提前评估某个状态的潜在收益。
在连续环境中,这种预测能力至关重要——
因为任何微小的状态差异都可能带来完全不同的结果。


从价值到策略

价值函数不仅衡量“状态好坏”,还直接指导策略改进:
智能体会不断比较不同状态或动作的期望价值,
并选择能带来更高长期回报的那一个。

在长期训练中,这种循环往复的“评估与改进”过程,
让智能体逐步逼近最优策略,实现真正意义上的自我学习。


最后的思考

连续状态空间的强化学习,是通往真实智能系统的重要桥梁。
从月球着陆器到自动驾驶,从机械臂到无人机,
所有这些智能体都需要理解“当前状态的价值”,
并基于这一理解去做出最优决策。

正如本文的主题所强调的那样:
理解连续状态中的价值,是强化学习走向现实世界的关键一步。



评论