Learn Beyond Limits

Random environment|随机环境

一、随机环境的定义 在强化学习中,环境(Environment) 指的是智能体所处的世界。智能体通过感知环境状态(state)并执行动作(action),从而获得奖励(reward)并转移到下一个状态。 在前面的讨论中,我们默认环境是确定性的(Deterministic) —— 也就是说,只要智能体

bolin bolin 发布于 2025-09-07

Bellman Equation|贝尔曼方程

一、引言:为什么需要贝尔曼方程 在强化学习中,我们希望智能体(agent)能够在一个环境(environment)中不断行动,以最大化它获得的累积回报(return)。 但问题在于,未来的回报是未知的 —— 只有在执行了一系列动作之后,才能真正看到结果。 那么,我们如何在当前时刻就知道一个动作是否“

bolin bolin 发布于 2025-09-06

State-Action Value Function|状态-动作值函数

一、状态-动作值函数定义 在强化学习中,智能体在与环境交互的过程中,需要根据当前状态做出一个动作(action),并获得一个奖励(reward)。 然而,智能体并不仅仅关心立即获得的奖励,而是希望在长期内获得尽可能高的回报(return)。 为了实现这一目标,我们需要衡量在不同状态下采取不同动作的“

bolin bolin 发布于 2025-09-05

Making decisions: Policies in reinforcement learning|做出决策:强化学习中的策略

一、策略(Policy)的概念 在强化学习中,策略(Policy) 是智能体的核心组成部分。它定义

bolin bolin 发布于 2025-09-04

Return in Reinforcement Learning|强化学习中的回报

一、引言 在强化学习(Reinforcement Learning, RL)中,智能体(Agent)与环境(Environment)不断交互,通过采取动作获得奖励,并逐步学习如何优化自己的策略。然而,单个奖励往往不能全面反映一次决策的好坏,因为它只描述了当前一步的反馈。为了更准确地衡量智能体的长期收

bolin bolin 发布于 2025-09-03

Reinforcement Learning|强化学习

一、强化学习定义 强化学习(Reinforcement Learning, RL)是一种机器学习方法,它强调智能体(Agent)通过与环境(Environment)的交互来学习。智能体在每个时刻会根据当前的状态(State, s)选择一个动作(Action, a),环境则会反馈一个奖励(Reward

bolin bolin 发布于 2025-09-02

TensorFlow Implementation of Content-Based Filtering|基于内容过滤的TensorFlow实现

一、引言 基于内容的过滤(Content-based Filtering)直接利用用户特征与物品特征来完成个性化推荐:把它们编码成向量,在同一空间里做匹配。相比只看行为的协同过滤,这种方法能在冷启动或侧信息丰富

bolin bolin 发布于 2025-09-01

Ethical use of recommender systems|推荐系统的道德使用

一、引言 推荐系统(Recommender Systems)如今已经成为现代互联网平台的核心组成部分。无论是 电影平台 根据用户的观看记录推荐下一部影片,还是 电商平台 根据浏览与购买行为推送合适的商品,抑或是 社交媒体 自动推荐帖子与视频,这些系统都在深刻地影响着人们的日常生活。 推荐系统的目标往

bolin bolin 发布于 2025-08-31

Recommending from a large catalogue|从大目录中推荐

一、引言 在现代推荐系统中,应用场景的规模往往非常庞大。比如: 电影平台可能拥有上千部以上的电影; 广告推荐系统需要从上百万广告中挑选; 音乐平台的歌曲数量轻松超过一千万;

bolin bolin 发布于 2025-08-30

Deep learning for content-based|基于内容的过滤的深度学习

一、引言 推荐系统在现代互联网应用中扮演着至关重要的角色,它们能够帮助用户从海量信息中快速找到感兴趣的内容。传统的推荐方法主要包括两类:协同过滤(Collaborative Filtering) 和 基于内容的过滤(Content-based Filtering)。其中,基于内容的过滤方法通过分析用

bolin bolin 发布于 2025-08-29