Learn Beyond Limits

Euclidean Distance|欧式距离

一、欧式距离定义 欧氏距离(Euclidean Distance)是最常见、最直观的距离度量方法,用于衡量两个点在空间中的“直线距离”。 它可以理解为在 n 维空间中,连接两点的最短路径长度。 数学

bolin bolin 发布于 2025-09-13

如何在Mac进行Safari网页长截图?

一、Safari介绍 Safari 是苹果公司为 macOS、iOS 和 iPadOS 系统开发的默认网页浏览器,以其简洁的界面、出色的性能和强大的隐私保护著称。它支持快速加载网页、低能耗模式,并深度整合于苹果生态系统中,例如可通过 iCloud 同步书签、标签页和阅读列表,让用户在多设备间无缝切换

bolin bolin 发布于 2025-09-12

Algorithm Refinement: ε-Greedy Policy|算法改进:ε-贪婪策略

一、为什么需要探索 在强化学习的训练过程中,智能体需要不断地与环境交互, 通过观察状态、采取动作、获得奖励,逐渐学会什么是“好”的决策。 但这里有一个核心问题: 如果智能体总是选择当前看起来最优的动作,会怎样? 它可能会陷入局部最优—— 也就是说,它学到的策略在局部区域看起来很好, 但在整个任务范围

bolin bolin 发布于 2025-09-10

Algorithm Refinement: Improved Neural Network Architecture|算法改进:改进的神经网络架构

一、初始架构的回顾 在强化学习的早期阶段,深度Q网络(Deep Q-Network, DQN) 被提出,用于近似状态动作值函数 Q(s,a)。 在这种结构中,神经网络的输入并不仅仅是环境的状态,而是状态与动作拼接后的向量,输出为单一的 Q(s,a) 值。 架构结构说明

bolin bolin 发布于 2025-09-09

Continuous States and Value Functions in RL|强化学习中的连续状态与价值函数

一、离散与连续状态 在强化学习(Reinforcement Learning, RL)中,状态(State) 描述了智能体所处的环境信息。不同的任务和环境,会决定状态是离散的还是连续的。 离散状态(Discrete State) 在离散环境中,状态通常是有限个离散位置或情境。 例如图中上方的网格环境

bolin bolin 发布于 2025-09-08

Random environment|随机环境

一、随机环境的定义 在强化学习中,环境(Environment) 指的是智能体所处的世界。智能体通过感知环境状态(state)并执行动作(action),从而获得奖励(reward)并转移到下一个状态。 在前面的讨论中,我们默认环境是确定性的(Deterministic) —— 也就是说,只要智能体

bolin bolin 发布于 2025-09-07

Bellman Equation|贝尔曼方程

一、引言:为什么需要贝尔曼方程 在强化学习中,我们希望智能体(agent)能够在一个环境(environment)中不断行动,以最大化它获得的累积回报(return)。 但问题在于,未来的回报是未知的 —— 只有在执行了一系列动作之后,才能真正看到结果。 那么,我们如何在当前时刻就知道一个动作是否“

bolin bolin 发布于 2025-09-06

State-Action Value Function|状态-动作值函数

一、状态-动作值函数定义 在强化学习中,智能体在与环境交互的过程中,需要根据当前状态做出一个动作(action),并获得一个奖励(reward)。 然而,智能体并不仅仅关心立即获得的奖励,而是希望在长期内获得尽可能高的回报(return)。 为了实现这一目标,我们需要衡量在不同状态下采取不同动作的“

bolin bolin 发布于 2025-09-05

Making decisions: Policies in reinforcement learning|做出决策:强化学习中的策略

一、策略(Policy)的概念 在强化学习中,策略(Policy) 是智能体的核心组成部分。它定义

bolin bolin 发布于 2025-09-04