Algorithm refinement: Mini-batch and Soft Update｜算法改进：小批量和软更新

一、从全量到小批量——训练思路的转变

bolin 发布于 2025-09-11

Algorithm Refinement: ε-Greedy Policy｜算法改进：ε-贪婪策略

一、为什么需要探索在强化学习的训练过程中，智能体需要不断地与环境交互，通过观察状态、采取动作、获得奖励，逐渐学会什么是“好”的决策。但这里有一个核心问题：如果智能体总是选择当前看起来最优的动作，会怎样？它可能会陷入局部最优—— 也就是说，它学到的策略在局部区域看起来很好，但在整个任务范围

bolin 发布于 2025-09-10

AI #Machine Learning #Deep Learning

Algorithm Refinement: Improved Neural Network Architecture｜算法改进：改进的神经网络架构

一、初始架构的回顾在强化学习的早期阶段，深度Q网络（Deep Q-Network, DQN）被提出，用于近似状态动作值函数 Q(s,a)。在这种结构中，神经网络的输入并不仅仅是环境的状态，而是状态与动作拼接后的向量，输出为单一的 Q(s,a) 值。架构结构说明

bolin 发布于 2025-09-09

AI #Machine Learning #Deep Learning

Continuous States and Value Functions in RL｜强化学习中的连续状态与价值函数

一、离散与连续状态在强化学习（Reinforcement Learning, RL）中，状态（State）描述了智能体所处的环境信息。不同的任务和环境，会决定状态是离散的还是连续的。离散状态（Discrete State）在离散环境中，状态通常是有限个离散位置或情境。例如图中上方的网格环境

bolin 发布于 2025-09-08

AI #Machine Learning #Deep Learning

Random environment｜随机环境

一、随机环境的定义在强化学习中，环境（Environment）指的是智能体所处的世界。智能体通过感知环境状态（state）并执行动作（action），从而获得奖励（reward）并转移到下一个状态。在前面的讨论中，我们默认环境是确定性的（Deterministic） —— 也就是说，只要智能体

bolin 发布于 2025-09-07

AI #Machine Learning #Deep Learning

Bellman Equation｜贝尔曼方程

一、引言：为什么需要贝尔曼方程在强化学习中，我们希望智能体（agent）能够在一个环境（environment）中不断行动，以最大化它获得的累积回报（return）。但问题在于，未来的回报是未知的 —— 只有在执行了一系列动作之后，才能真正看到结果。那么，我们如何在当前时刻就知道一个动作是否“

bolin 发布于 2025-09-06

AI #Machine Learning #Deep Learning

State-Action Value Function｜状态-动作值函数

一、状态-动作值函数定义在强化学习中，智能体在与环境交互的过程中，需要根据当前状态做出一个动作（action），并获得一个奖励（reward）。然而，智能体并不仅仅关心立即获得的奖励，而是希望在长期内获得尽可能高的回报（return）。为了实现这一目标，我们需要衡量在不同状态下采取不同动作的“

bolin 发布于 2025-09-05

AI #Machine Learning #Deep Learning

Making decisions: Policies in reinforcement learning｜做出决策：强化学习中的策略

一、策略（Policy）的概念在强化学习中，策略（Policy）是智能体的核心组成部分。它定义

bolin 发布于 2025-09-04

AI #Machine Learning #Deep Learning

Return in Reinforcement Learning｜强化学习中的回报

一、引言在强化学习（Reinforcement Learning, RL）中，智能体（Agent）与环境（Environment）不断交互，通过采取动作获得奖励，并逐步学习如何优化自己的策略。然而，单个奖励往往不能全面反映一次决策的好坏，因为它只描述了当前一步的反馈。为了更准确地衡量智能体的长期收

bolin 发布于 2025-09-03

AI #Machine Learning #Deep Learning

Reinforcement Learning｜强化学习

一、强化学习定义强化学习（Reinforcement Learning, RL）是一种机器学习方法，它强调智能体（Agent）通过与环境（Environment）的交互来学习。智能体在每个时刻会根据当前的状态（State, s）选择一个动作（Action, a），环境则会反馈一个奖励（Reward

bolin 发布于 2025-09-02

菜单

所有标签

Algorithm refinement: Mini-batch and Soft Update｜算法改进：小批量和软更新

Algorithm Refinement: ε-Greedy Policy｜算法改进：ε-贪婪策略

Algorithm Refinement: Improved Neural Network Architecture｜算法改进：改进的神经网络架构

Continuous States and Value Functions in RL｜强化学习中的连续状态与价值函数

Random environment｜随机环境

Bellman Equation｜贝尔曼方程

State-Action Value Function｜状态-动作值函数

Making decisions: Policies in reinforcement learning｜做出决策：强化学习中的策略

Return in Reinforcement Learning｜强化学习中的回报

Reinforcement Learning｜强化学习