第一节:句式结构的两种视野 在自然语言处理中,理解一个句子不仅仅是识别每个词的意思,更重要的是理解这些词是如何组合在一起表达完整语义的。目前主流的句法分析主要有两种视角:成分句法分析和依存句法分析。 1. 成分句法分析 (Constituency Parsing) 成分句法分析又被称为短语结构语法(
一、引言 在数据挖掘与机器学习中,“属性(Attribute)”是描述数据对象的最小信息单元。无论是构建模型、分析数据分布,还是进行特征工程,所有步骤都离不开对属性类型的理解。一个模型是否能够正确地处理某些特征,很大程度上取决于我们是否正确识别了属性的类型。 在实际的数据集中,属性并不是单一形式出现
一、引言 在机器学习的广阔体系中,分类(Classification)与聚类(Clustering)是两种看似相似但本质不同的任务。二者都涉及对数据进行分组或划分,但在学习方式、目标与所需信息上存在根本差异。 分类是一种有监督学习(Supervised Learning)
一、引言 在数据挖掘与机器学习领域中,预测建模(Predictive Modeling) 是最核心的任务之一。它的目标是利用历史数据,建立数学模型,对未知或未来的结果进行预测。而在预测建模的范畴下,最常见的两类问题便是——回归(Regression)与分类(Classification)。
一、从全量到小批量——训练思路的转变
一、为什么需要探索 在强化学习的训练过程中,智能体需要不断地与环境交互, 通过观察状态、采取动作、获得奖励,逐渐学会什么是“好”的决策。 但这里有一个核心问题: 如果智能体总是选择当前看起来最优的动作,会怎样? 它可能会陷入局部最优—— 也就是说,它学到的策略在局部区域看起来很好, 但在整个任务范围
一、初始架构的回顾 在强化学习的早期阶段,深度Q网络(Deep Q-Network, DQN) 被提出,用于近似状态动作值函数 Q(s,a)。 在这种结构中,神经网络的输入并不仅仅是环境的状态,而是状态与动作拼接后的向量,输出为单一的 Q(s,a) 值。 架构结构说明
一、离散与连续状态 在强化学习(Reinforcement Learning, RL)中,状态(State) 描述了智能体所处的环境信息。不同的任务和环境,会决定状态是离散的还是连续的。 离散状态(Discrete State) 在离散环境中,状态通常是有限个离散位置或情境。 例如图中上方的网格环境
一、随机环境的定义 在强化学习中,环境(Environment) 指的是智能体所处的世界。智能体通过感知环境状态(state)并执行动作(action),从而获得奖励(reward)并转移到下一个状态。 在前面的讨论中,我们默认环境是确定性的(Deterministic) —— 也就是说,只要智能体
一、引言:为什么需要贝尔曼方程 在强化学习中,我们希望智能体(agent)能够在一个环境(environment)中不断行动,以最大化它获得的累积回报(return)。 但问题在于,未来的回报是未知的 —— 只有在执行了一系列动作之后,才能真正看到结果。 那么,我们如何在当前时刻就知道一个动作是否“