Random environment|随机环境

bolin
发布于 2025-09-07 / 4 阅读
0
0

Random environment|随机环境

一、随机环境的定义

在强化学习中,环境(Environment) 指的是智能体所处的世界。智能体通过感知环境状态(state)并执行动作(action),从而获得奖励(reward)并转移到下一个状态。

在前面的讨论中,我们默认环境是确定性的(Deterministic) ——
也就是说,只要智能体采取同样的动作,结果总是一样的。

然而,在很多现实任务中,事情并非如此。
比如机器人在移动过程中,可能因为地面摩擦或风向变化而偏离路线;
或者在金融交易中,同一决策在不同时间可能带来不同收益。

这类具有随机性(Stochasticity) 的环境就被称为——

🎲 随机环境(Stochastic Environment)

在这种环境下,动作的结果不是固定的,而是以一定概率分布(Probability Distribution) 出现。
这意味着:

  • 执行相同的动作,可能到达不同的状态;

  • 获得的奖励也可能不同;

  • 强化学习的目标不再是追求“确定的最大值”,而是最大化期望收益(Expected Return)


3D481B1B-CF6B-4B42-A495-442592CE8614.png
图中展示了一个简化的场景:
一个机器人处在格子世界的第4个位置,
它有两个可能的动作——向左向右

但即使选择“向左”:

  • 有 90% 的概率真的向左移动;

  • 仍有 10% 的概率会出错,向右走。

这正体现了随机性
动作的结果并不总是完全可控,而是由环境的不确定性决定。


二、行为与结果的不确定性

在随机环境中,智能体的动作(Action) 不再唯一决定它的下一个状态(Next State)
即使执行了同样的动作,由于环境具有随机性,智能体也可能到达不同的位置。


3D481B1B-CF6B-4B42-A495-442592CE8614.png

在这幅图中,机器人站在格子 4 上:

  • 如果它选择 向左移动(←)

    • 0.9 的概率 它确实会向左移动到格子 3;

    • 但仍有 0.1 的概率,它会“走错方向”,反而移动到格子 5。

  • 同样地,如果它选择 向右移动(→)

    • 0.9 的概率 它会到达格子 5;

    • 但也有 0.1 的概率 反而会往左回到格子 3。

换句话说,

行动的执行结果,不再是确定的状态转移,而是一个概率分布 P(s′|s,a)

这时我们不再说:

“执行动作 a 后一定到达状态 s′”,
而应该说:
“执行动作 a 后,有一定概率到达状态 s′”。

这正是随机环境的本质区别

启示

在这种环境中,强化学习的难度显著提升:

  • 智能体无法通过一次行动就明确评估动作的好坏;

  • 它需要多次交互,通过统计来估计动作的平均回报。

因此,强化学习的目标变成了:

学习一套策略,使得在长期的平均意义下,获得的期望回报(Expected Return) 最大。


三、期望回报(Expected Return)

当环境中存在随机性时,智能体的行动结果和获得的奖励就会带有不确定性
这时,我们不再追求某一次行动的具体收益,而是要关注它的平均收益——
也就是行动在长期多次执行后,能带来的期望值(Expected Value)

这就是期望回报(Expected Return)的核心思想。


1. 概念公式

在确定性环境中,我们定义回报(Return)为:

3C2F9C98-92B0-4749-892D-FDB1419160F3.png

而在随机环境(Stochastic Environment)中,
每次执行动作后获得的 RtRt​ 并不是固定的,
于是我们取它的期望

BCE1C1C7-2785-422A-9704-0FD09FBD97AD.png

其中:

  • E[⋅] 表示对随机性的平均;

  • γ 是折扣因子(Discount Factor),控制未来奖励的重要性;

  • 目标是最大化这一 期望总回报


2. 图片讲解:Expected Return 示例

F803D44D-216E-4EB3-A14E-8BAACD087A30.png

图中展示了一个机器人从右向左移动的格子世界。
每个格子可能带来不同的奖励(Reward):

  • 状态 1:奖励 100

  • 状态 6:奖励 40

  • 其他状态:奖励为 0

机器人每次移动都会遇到不同结果,可能走对也可能走错。
于是我们记录下多次执行的结果,求它们的平均值。

在图的下方:

E4D4137D-32BD-4168-A6CB-641A41AAF17F.png

它表示:

多次行动后,所有可能的奖励序列的平均回报。


小结

在确定性环境中,“回报”是一个确定值;
而在随机环境中,“回报”是一个分布
强化学习智能体要学会估计这一分布的平均值,也就是——

期望回报(Expected Return)


四、期望贝尔曼方程(Expected Bellman Equation)

在前面我们学习过确定性环境下的贝尔曼方程:

6EA83814-1E74-4A7D-BFD1-3A0141C1033C.png

它表示——
在状态 s 执行动作 a 所得到的回报,等于:

  • 当前立即获得的奖励 R(s),加上

  • 折扣后的下一状态 s′ 的最大价值。

但在随机环境(Stochastic Environment)中,
动作 a 执行后可能导致多个不同的结果,
因此 s′ 不再唯一。
于是我们必须对所有可能的结果求期望


1. 公式形式

于是,贝尔曼方程被改写为:

CFE9EC3F-650E-4804-A506-9B7852CD0ECD.png

也可以写成带转移概率的形式:

9FEF872A-FD5A-4727-9B23-818AC57D7E9B.png

其中:

  • P(s′∣s,a):表示从状态 ss 采取动作 aa 后,转移到 s′s′ 的概率;

  • Es′:表示对所有可能后续状态的期望

  • max⁡a′Q(s′,a′):表示在下一状态下采取最优动作的回报。


2. 图片讲解:Expected Return 与 Bellman 方程的结合

DB139A18-3B0D-4D43-9ECD-2402F9B2039F.png

图中展示了强化学习的最终目标:

学习一个策略 π(s)=a,
让我们在每个状态下选择最优动作,从而最大化期望回报(Expected Return)

结合随机环境的特性,Bellman 方程被改写为:

CFE9EC3F-650E-4804-A506-9B7852CD0ECD.png

它体现了强化学习的三个核心要素:

  1. 即时奖励 R(s):当前获得的收益;

  2. 未来期望回报 Es′[⋅]:考虑未来可能状态的平均收益;

  3. 最优行为选择 max⁡a′:智能体始终选择让未来最优的行动。


举例理解

假设机器人从状态 3 选择动作 “→”:

  • 它有 90% 的概率到达状态 4,

  • 也有 10% 的概率因为环境波动而回到状态 2。

那么该动作的期望价值就是:

AC7CC977-1F80-45A6-AC72-C630FD80B1A1.png


小结

在随机环境中,
贝尔曼方程不仅要考虑最优行为,还要加上概率期望项
这让智能体学会应对环境不确定性带来的挑战。

✅ 最终目标:
学习能在随机世界中表现最优的策略 π(s)。


五、总结:在随机世界中学习决策

在确定性环境中,智能体可以完全预测自己的行动结果;
而在随机环境(Stochastic Environment)中,
即使做出相同的选择,也可能因为环境的变化而产生不同的后果。

因此,强化学习要学会的不再是“哪一步一定最优”,
而是“哪一步在平均意义下期望最优”。


🎯 关键思想回顾

  1. 动作的结果是随机的
    相同动作可能通往不同状态,用概率 P(s′∣s,a)P(s′∣s,a) 来描述。

  2. 智能体的目标是最大化期望回报
    它不追求每次都获得最大收益,而是让长期的平均收益最高。

  3. 贝尔曼方程引入期望项
    在随机环境中,状态转移需要考虑所有可能结果的加权平均:

    CFE9EC3F-650E-4804-A506-9B7852CD0ECD.png


💡 启示

随机性让强化学习更贴近真实世界:
无论是自动驾驶、推荐系统还是机器人控制,
都无法保证每个动作的结果完全一致。

贝尔曼方程的“期望形式”让智能体能够在这种不确定性中学会稳定的决策策略

✅ 简而言之:
随机性不是障碍,而是智能体学习“概率意义上的智慧”的开始。



评论