AI #Data Mining

Euclidean Distance｜欧式距离

一、欧式距离定义欧氏距离（Euclidean Distance）是最常见、最直观的距离度量方法，用于衡量两个点在空间中的“直线距离”。它可以理解为在 n 维空间中，连接两点的最短路径长度。数学

bolin 发布于 2025-09-13

Algorithm refinement: Mini-batch and Soft Update｜算法改进：小批量和软更新

一、从全量到小批量——训练思路的转变

bolin 发布于 2025-09-11

一、为什么需要探索在强化学习的训练过程中，智能体需要不断地与环境交互，通过观察状态、采取动作、获得奖励，逐渐学会什么是“好”的决策。但这里有一个核心问题：如果智能体总是选择当前看起来最优的动作，会怎样？它可能会陷入局部最优—— 也就是说，它学到的策略在局部区域看起来很好，但在整个任务范围

bolin 发布于 2025-09-10

一、初始架构的回顾在强化学习的早期阶段，深度Q网络（Deep Q-Network, DQN）被提出，用于近似状态动作值函数 Q(s,a)。在这种结构中，神经网络的输入并不仅仅是环境的状态，而是状态与动作拼接后的向量，输出为单一的 Q(s,a) 值。架构结构说明

bolin 发布于 2025-09-09

一、离散与连续状态在强化学习（Reinforcement Learning, RL）中，状态（State）描述了智能体所处的环境信息。不同的任务和环境，会决定状态是离散的还是连续的。离散状态（Discrete State）在离散环境中，状态通常是有限个离散位置或情境。例如图中上方的网格环境

bolin 发布于 2025-09-08

一、随机环境的定义在强化学习中，环境（Environment）指的是智能体所处的世界。智能体通过感知环境状态（state）并执行动作（action），从而获得奖励（reward）并转移到下一个状态。在前面的讨论中，我们默认环境是确定性的（Deterministic） —— 也就是说，只要智能体

bolin 发布于 2025-09-07

一、引言：为什么需要贝尔曼方程在强化学习中，我们希望智能体（agent）能够在一个环境（environment）中不断行动，以最大化它获得的累积回报（return）。但问题在于，未来的回报是未知的 —— 只有在执行了一系列动作之后，才能真正看到结果。那么，我们如何在当前时刻就知道一个动作是否“

bolin 发布于 2025-09-06

一、状态-动作值函数定义在强化学习中，智能体在与环境交互的过程中，需要根据当前状态做出一个动作（action），并获得一个奖励（reward）。然而，智能体并不仅仅关心立即获得的奖励，而是希望在长期内获得尽可能高的回报（return）。为了实现这一目标，我们需要衡量在不同状态下采取不同动作的“

bolin 发布于 2025-09-05

一、策略（Policy）的概念在强化学习中，策略（Policy）是智能体的核心组成部分。它定义

bolin 发布于 2025-09-04

一、引言在强化学习（Reinforcement Learning, RL）中，智能体（Agent）与环境（Environment）不断交互，通过采取动作获得奖励，并逐步学习如何优化自己的策略。然而，单个奖励往往不能全面反映一次决策的好坏，因为它只描述了当前一步的反馈。为了更准确地衡量智能体的长期收

bolin 发布于 2025-09-03