Learn Beyond Limits

Regression vs. Classification|回归vs分类

一、引言 在数据挖掘与机器学习领域中,预测建模(Predictive Modeling) 是最核心的任务之一。它的目标是利用历史数据,建立数学模型,对未知或未来的结果进行预测。而在预测建模的范畴下,最常见的两类问题便是——回归(Regression)与分类(Classification)。

bolin bolin 发布于 2025-09-21

Algorithm Refinement: ε-Greedy Policy|算法改进:ε-贪婪策略

一、为什么需要探索 在强化学习的训练过程中,智能体需要不断地与环境交互, 通过观察状态、采取动作、获得奖励,逐渐学会什么是“好”的决策。 但这里有一个核心问题: 如果智能体总是选择当前看起来最优的动作,会怎样? 它可能会陷入局部最优—— 也就是说,它学到的策略在局部区域看起来很好, 但在整个任务范围

bolin bolin 发布于 2025-09-10

Algorithm Refinement: Improved Neural Network Architecture|算法改进:改进的神经网络架构

一、初始架构的回顾 在强化学习的早期阶段,深度Q网络(Deep Q-Network, DQN) 被提出,用于近似状态动作值函数 Q(s,a)。 在这种结构中,神经网络的输入并不仅仅是环境的状态,而是状态与动作拼接后的向量,输出为单一的 Q(s,a) 值。 架构结构说明

bolin bolin 发布于 2025-09-09

Continuous States and Value Functions in RL|强化学习中的连续状态与价值函数

一、离散与连续状态 在强化学习(Reinforcement Learning, RL)中,状态(State) 描述了智能体所处的环境信息。不同的任务和环境,会决定状态是离散的还是连续的。 离散状态(Discrete State) 在离散环境中,状态通常是有限个离散位置或情境。 例如图中上方的网格环境

bolin bolin 发布于 2025-09-08

Random environment|随机环境

一、随机环境的定义 在强化学习中,环境(Environment) 指的是智能体所处的世界。智能体通过感知环境状态(state)并执行动作(action),从而获得奖励(reward)并转移到下一个状态。 在前面的讨论中,我们默认环境是确定性的(Deterministic) —— 也就是说,只要智能体

bolin bolin 发布于 2025-09-07

Bellman Equation|贝尔曼方程

一、引言:为什么需要贝尔曼方程 在强化学习中,我们希望智能体(agent)能够在一个环境(environment)中不断行动,以最大化它获得的累积回报(return)。 但问题在于,未来的回报是未知的 —— 只有在执行了一系列动作之后,才能真正看到结果。 那么,我们如何在当前时刻就知道一个动作是否“

bolin bolin 发布于 2025-09-06

State-Action Value Function|状态-动作值函数

一、状态-动作值函数定义 在强化学习中,智能体在与环境交互的过程中,需要根据当前状态做出一个动作(action),并获得一个奖励(reward)。 然而,智能体并不仅仅关心立即获得的奖励,而是希望在长期内获得尽可能高的回报(return)。 为了实现这一目标,我们需要衡量在不同状态下采取不同动作的“

bolin bolin 发布于 2025-09-05

Making decisions: Policies in reinforcement learning|做出决策:强化学习中的策略

一、策略(Policy)的概念 在强化学习中,策略(Policy) 是智能体的核心组成部分。它定义

bolin bolin 发布于 2025-09-04

Return in Reinforcement Learning|强化学习中的回报

一、引言 在强化学习(Reinforcement Learning, RL)中,智能体(Agent)与环境(Environment)不断交互,通过采取动作获得奖励,并逐步学习如何优化自己的策略。然而,单个奖励往往不能全面反映一次决策的好坏,因为它只描述了当前一步的反馈。为了更准确地衡量智能体的长期收

bolin bolin 发布于 2025-09-03