Algorithm Refinement: Improved Neural Network Architecture｜算法改进：改进的神经网络架构

一、初始架构的回顾在强化学习的早期阶段，深度Q网络（Deep Q-Network, DQN）被提出，用于近似状态动作值函数 Q(s,a)。在这种结构中，神经网络的输入并不仅仅是环境的状态，而是状态与动作拼接后的向量，输出为单一的 Q(s,a) 值。架构结构说明

bolin 发布于 2025-09-09

AI #Machine Learning #Deep Learning

Continuous States and Value Functions in RL｜强化学习中的连续状态与价值函数

一、离散与连续状态在强化学习（Reinforcement Learning, RL）中，状态（State）描述了智能体所处的环境信息。不同的任务和环境，会决定状态是离散的还是连续的。离散状态（Discrete State）在离散环境中，状态通常是有限个离散位置或情境。例如图中上方的网格环境

bolin 发布于 2025-09-08

AI #Machine Learning #Deep Learning

Random environment｜随机环境

一、随机环境的定义在强化学习中，环境（Environment）指的是智能体所处的世界。智能体通过感知环境状态（state）并执行动作（action），从而获得奖励（reward）并转移到下一个状态。在前面的讨论中，我们默认环境是确定性的（Deterministic） —— 也就是说，只要智能体

bolin 发布于 2025-09-07

AI #Machine Learning #Deep Learning

Bellman Equation｜贝尔曼方程

一、引言：为什么需要贝尔曼方程在强化学习中，我们希望智能体（agent）能够在一个环境（environment）中不断行动，以最大化它获得的累积回报（return）。但问题在于，未来的回报是未知的 —— 只有在执行了一系列动作之后，才能真正看到结果。那么，我们如何在当前时刻就知道一个动作是否“

bolin 发布于 2025-09-06

AI #Machine Learning #Deep Learning

State-Action Value Function｜状态-动作值函数

一、状态-动作值函数定义在强化学习中，智能体在与环境交互的过程中，需要根据当前状态做出一个动作（action），并获得一个奖励（reward）。然而，智能体并不仅仅关心立即获得的奖励，而是希望在长期内获得尽可能高的回报（return）。为了实现这一目标，我们需要衡量在不同状态下采取不同动作的“

bolin 发布于 2025-09-05

AI #Machine Learning #Deep Learning

Making decisions: Policies in reinforcement learning｜做出决策：强化学习中的策略

一、策略（Policy）的概念在强化学习中，策略（Policy）是智能体的核心组成部分。它定义

bolin 发布于 2025-09-04

AI #Machine Learning #Deep Learning

Return in Reinforcement Learning｜强化学习中的回报

一、引言在强化学习（Reinforcement Learning, RL）中，智能体（Agent）与环境（Environment）不断交互，通过采取动作获得奖励，并逐步学习如何优化自己的策略。然而，单个奖励往往不能全面反映一次决策的好坏，因为它只描述了当前一步的反馈。为了更准确地衡量智能体的长期收

bolin 发布于 2025-09-03

AI #Machine Learning #Deep Learning

Reinforcement Learning｜强化学习

一、强化学习定义强化学习（Reinforcement Learning, RL）是一种机器学习方法，它强调智能体（Agent）通过与环境（Environment）的交互来学习。智能体在每个时刻会根据当前的状态（State, s）选择一个动作（Action, a），环境则会反馈一个奖励（Reward

bolin 发布于 2025-09-02

AI #Machine Learning #Deep Learning

TensorFlow Implementation of Content-Based Filtering｜基于内容过滤的TensorFlow实现

一、引言基于内容的过滤（Content-based Filtering）直接利用用户特征与物品特征来完成个性化推荐：把它们编码成向量，在同一空间里做匹配。相比只看行为的协同过滤，这种方法能在冷启动或侧信息丰富

bolin 发布于 2025-09-01

AI #Machine Learning #Deep Learning

Ethical use of recommender systems｜推荐系统的道德使用

一、引言推荐系统（Recommender Systems）如今已经成为现代互联网平台的核心组成部分。无论是电影平台根据用户的观看记录推荐下一部影片，还是电商平台根据浏览与购买行为推送合适的商品，抑或是社交媒体自动推荐帖子与视频，这些系统都在深刻地影响着人们的日常生活。推荐系统的目标往

bolin 发布于 2025-08-31

菜单

所有标签

Algorithm Refinement: Improved Neural Network Architecture｜算法改进：改进的神经网络架构

Continuous States and Value Functions in RL｜强化学习中的连续状态与价值函数

Random environment｜随机环境

Bellman Equation｜贝尔曼方程

State-Action Value Function｜状态-动作值函数

Making decisions: Policies in reinforcement learning｜做出决策：强化学习中的策略

Return in Reinforcement Learning｜强化学习中的回报

Reinforcement Learning｜强化学习

TensorFlow Implementation of Content-Based Filtering｜基于内容过滤的TensorFlow实现

Ethical use of recommender systems｜推荐系统的道德使用