Learn Beyond Limits

Euclidean Distance｜欧式距离

AI #Data Mining

Euclidean Distance｜欧式距离

一、欧式距离定义欧氏距离（Euclidean Distance）是最常见、最直观的距离度量方法，用于衡量两个点在空间中的“直线距离”。它可以理解为在 n 维空间中，连接两点的最短路径长度。数学

bolin 发布于 2025-09-13

如何在Mac进行Safari网页长截图？

Others #Others

如何在Mac进行Safari网页长截图？

一、Safari介绍 Safari 是苹果公司为 macOS、iOS 和 iPadOS 系统开发的默认网页浏览器，以其简洁的界面、出色的性能和强大的隐私保护著称。它支持快速加载网页、低能耗模式，并深度整合于苹果生态系统中，例如可通过 iCloud 同步书签、标签页和阅读列表，让用户在多设备间无缝切换

bolin 发布于 2025-09-12

Algorithm refinement: Mini-batch and Soft Update｜算法改进：小批量和软更新

AI #Machine Learning #Deep Learning

Algorithm refinement: Mini-batch and Soft Update｜算法改进：小批量和软更新

一、从全量到小批量——训练思路的转变

bolin 发布于 2025-09-11

Algorithm Refinement: ε-Greedy Policy｜算法改进：ε-贪婪策略

AI #Machine Learning #Deep Learning

Algorithm Refinement: ε-Greedy Policy｜算法改进：ε-贪婪策略

一、为什么需要探索在强化学习的训练过程中，智能体需要不断地与环境交互，通过观察状态、采取动作、获得奖励，逐渐学会什么是“好”的决策。但这里有一个核心问题：如果智能体总是选择当前看起来最优的动作，会怎样？它可能会陷入局部最优—— 也就是说，它学到的策略在局部区域看起来很好，但在整个任务范围

bolin 发布于 2025-09-10

Algorithm Refinement: Improved Neural Network Architecture｜算法改进：改进的神经网络架构

AI #Machine Learning #Deep Learning

Algorithm Refinement: Improved Neural Network Architecture｜算法改进：改进的神经网络架构

一、初始架构的回顾在强化学习的早期阶段，深度Q网络（Deep Q-Network, DQN）被提出，用于近似状态动作值函数 Q(s,a)。在这种结构中，神经网络的输入并不仅仅是环境的状态，而是状态与动作拼接后的向量，输出为单一的 Q(s,a) 值。架构结构说明

bolin 发布于 2025-09-09

Continuous States and Value Functions in RL｜强化学习中的连续状态与价值函数

AI #Machine Learning #Deep Learning

Continuous States and Value Functions in RL｜强化学习中的连续状态与价值函数

一、离散与连续状态在强化学习（Reinforcement Learning, RL）中，状态（State）描述了智能体所处的环境信息。不同的任务和环境，会决定状态是离散的还是连续的。离散状态（Discrete State）在离散环境中，状态通常是有限个离散位置或情境。例如图中上方的网格环境

bolin 发布于 2025-09-08

Random environment｜随机环境

AI #Machine Learning #Deep Learning

Random environment｜随机环境

一、随机环境的定义在强化学习中，环境（Environment）指的是智能体所处的世界。智能体通过感知环境状态（state）并执行动作（action），从而获得奖励（reward）并转移到下一个状态。在前面的讨论中，我们默认环境是确定性的（Deterministic） —— 也就是说，只要智能体

bolin 发布于 2025-09-07

Bellman Equation｜贝尔曼方程

AI #Machine Learning #Deep Learning

Bellman Equation｜贝尔曼方程

一、引言：为什么需要贝尔曼方程在强化学习中，我们希望智能体（agent）能够在一个环境（environment）中不断行动，以最大化它获得的累积回报（return）。但问题在于，未来的回报是未知的 —— 只有在执行了一系列动作之后，才能真正看到结果。那么，我们如何在当前时刻就知道一个动作是否“

bolin 发布于 2025-09-06

State-Action Value Function｜状态-动作值函数

AI #Machine Learning #Deep Learning

State-Action Value Function｜状态-动作值函数

一、状态-动作值函数定义在强化学习中，智能体在与环境交互的过程中，需要根据当前状态做出一个动作（action），并获得一个奖励（reward）。然而，智能体并不仅仅关心立即获得的奖励，而是希望在长期内获得尽可能高的回报（return）。为了实现这一目标，我们需要衡量在不同状态下采取不同动作的“

bolin 发布于 2025-09-05

Making decisions: Policies in reinforcement learning｜做出决策：强化学习中的策略

AI #Machine Learning #Deep Learning

Making decisions: Policies in reinforcement learning｜做出决策：强化学习中的策略

一、策略（Policy）的概念在强化学习中，策略（Policy）是智能体的核心组成部分。它定义

bolin 发布于 2025-09-04

上一页 4 / 13 下一页