一、引言

数据在现代分析、机器学习以及商业智能中扮演着核心角色。为了从数据中提取价值，我们不仅需要算法和工具，更需要理解数据本身的结构与形式。不同类型的数据集拥有不同的组织方式、特点和适用场景，因此在处理之前明确数据的类别是一项非常重要的前置步骤。

在数据挖掘与数据分析中，学者们通常会将数据集划分为若干基本类型，如记录型数据、图结构数据以及有序数据等。每一种类型都对应特定的应用场景与分析方法，例如记录型数据常出现在电子表格与数据库中，图结构数据支撑了网络分析与结构挖掘，而有序数据则是时间序列、空间数据和基因序列等任务的基础。

这张图展示了三大主要类别的概念结构：

Record（记录型数据），强调表格结构和属性字段；
Graph（图结构数据），用于描述网络关系，如网页链接图与分子结构；
Ordered（有序数据），适用于按空间、时间或序列排列的数据形式。

本章的内容将会作为全篇的开端，为后续的具体展开提供清晰的分类基础。接下来各章节会依次说明每一类数据集的概念、结构特点以及典型实例，并配合你提供的图片进行讲解，让内容更具可视化与可理解性。

二、记录型数据（Record Data）

Record Data（记录型数据）是最常见的数据集类型之一，它由一组记录组成，而每条记录都包含相同属性集合（attributes）的取值。可以把它理解为我们在数据库表格或 Excel 中常见的结构化数据：每一行是一个对象，每一列是一个属性。

2.1 记录型数据的基本结构

Record Data 的核心特点是：

数据以行（记录）和列（属性）的形式存储。
不同记录具有相同的属性集合。
属性可以是数值型、类别型或混合类型。

这一表格展示了典型的 Record Data，其中每一个 TID 对应一条记录，而 Refund、Marital Status、Taxable Income 等则是各条记录共享的属性。

2.2 Data Matrix：记录型数据的数值化形式

当所有属性都是数值型时，Record Data 会以“Data Matrix（数据矩阵）”的方式表示。
此时每条记录可以被看成是一个多维向量，而所有记录构成一个 m×n 的矩阵：

m：记录数
n：属性数

这使得数据非常适合进行数学建模，例如统计分析、聚类、回归或各种机器学习算法。

2.3 Record Data 与 Data Matrix 的比较

虽然 Data Matrix 是 Record Data 的一种子集，但两者之间仍有明显差别：

Record Data 允许属性类型混合，例如类别型（Married）、布尔型（Yes/No）与数值型（Taxable Income）共存。
Data Matrix 则要求所有属性都为数值型，因此更适合数学计算与模型训练。

2.4 Document Data：基于文本的记录形式

Document Data（文档数据）是 Record Data 的一种特殊变体，其中每条记录是一个文档（例如一句话、一篇文章）。
文档通常被表示为“词项向量（term vector）”，其元素为某个词在文档中出现的次数：

每个“词项”是一个属性
每个属性的值是词频（Term Frequency）

这种表示方法使得文本能够与传统的结构化数据保持兼容，并方便进行 NLP、信息检索或聚类分析等任务。

2.5 Transaction Data：基于集合的记录形式

Transaction Data（事务型数据）描述的是一组“项目集合”（itemset），常用于购物篮分析（Market Basket Analysis）。

每笔交易是一条记录
每条记录包含一个集合（如购买的商品列表）
属性数量不固定，因为不同交易的商品数量不同

Transaction Data 无法用传统矩阵直接表示，但常用于关联规则挖掘，如 Apriori、FP-Growth 等算法。

2.6 四类 Record Data 的对比总结

Record Data、Data Matrix、Document Data 与 Transaction Data 虽都属于“记录型数据”，但结构形式不同，适用于不同的分析任务：

Record Data：属性丰富，可混合类别型与数值型
Data Matrix：全数值，适合统计和机器学习
Document Data：用词频向量表示文本
Transaction Data：用集合表示项目，用于关联规则分析

这些对比帮助我们理解不同数据结构的优势与应用场景。

三、图数据（Graph Data）

图数据描述由节点（Nodes）与边（Edges）组成的结构，用于表示实体及其关系。与表格型的数据不同，图数据能够自然表达连接性、交互性以及复杂结构，因此广泛应用于社交网络、化学分子建模和网络分析等场景。

3.1 Graph Data 的定义

图数据由两部分组成：

节点（Vertices）：用于表示实体，例如一个人、一篇网页、一个分子中的原子。
边（Edges）：用于表示实体之间的关系，如好友关系、网页超链接或原子之间的化学键。

图数据的核心价值在于：它能自然表达结构化关系，而这些关系往往是模式识别、推荐与分析中的关键部分。

3.2 Graph Data 的特点与示例

图数据适合用于描述以下场景：

社交网络：每个用户是一个节点，好友关系表示为边。
化学结构：原子为节点，化学键为边（如苯环 C6H6）。
网页互联结构：网页为节点，超链接为边，用于表示页面跳转关系。

3.3 Graph Data 的优势

图数据结构具备许多天然优势，使其成为处理复杂关系数据的理想选择：

优秀的关系表达能力：图能够直观地表示实体之间的各种关系。
适用于复杂结构：可表达多对多关系、层级关系、循环结构等传统表格难处理的形式。
动态扩展方便：新增节点或边时，无需重新设计整体架构。
易于可视化：图结构天然适合绘制，可观察社区、团簇或结构模式。

3.4 Graph Data 的挑战

尽管图数据强大，但在实际应用中仍存在挑战：

大规模图难以处理：当节点与边数量巨大（如社交网络）时，计算复杂度很高。
存储占用大：尤其是密集图，大量边会带来巨量存储开销。
动态图处理复杂：节点和边频繁变化，会让计算模式与索引维护更加困难。

3.5 Graph Data 的常见应用领域

图数据被广泛应用于多个行业和研究方向，包括：

社交网络分析（Social Network Analysis）：研究用户关系、社区结构、影响力传播等。
化学信息学（Cheminformatics）：用于分析分子结构、药物设计或化学属性预测。
网络分析（Web Analytics）：理解网页之间的链接结构，用于搜索引擎优化、网页排名算法（例如 PageRank）。

四、有序数据（Ordered Data）

有序数据是一类对顺序敏感的数据类型。在这种数据中，元素出现的先后、时间上的推进或位置上的排列，会直接影响其意义和分析方式。这类数据在现实世界中极其常见，从购物序列到基因序列，再到时空数据，都属于有序数据的范畴。

4.1 有序数据的定义与特点

有序数据是按照特定顺序排列的数据序列，其中每个元素出现的位置都会改变整体的意义。例如，在时间序列中，事件发生的时间顺序至关重要；在路径数据中，地点访问的顺序同样不可忽略。也正因为顺序的重要性，这类数据常被用来分析模式的变化和趋势的演变。

数据集的类型(图15).png

有序数据通常具有以下几个特点：

序列性（Sequential Nature）：数据由一系列事件、条目或记录组成，这些内容按照固定顺序排列。
时间维度（Temporal Dimension）：许多有序数据包含时间信息，反映事件发生的时间顺序。
动态性（Dynamic Updates）：随着时间推进，序列可能不断更新，加入新的事件或记录。

这些特点使得有序数据适用于分析行为模式、趋势预测以及动态环境下的决策问题。

4.2 有序数据的典型示例

数据集的类型(图16).png

一个典型例子是客户购物序列。假设某个顾客的多次购物记录如下：

交易 1：购买了 A 与 B
交易 2：购买了 C
交易 3：购买了 A 与 D

通过分析这些顺序，可以发现顾客的潜在购物习惯，例如：购买 A 的顾客往往可能会继续购买 B 或 D。

数据集的类型(图19).png

另一种形式是更结构化的序列化交易表格。例如，一组包含“时间 - 顾客 - 商品”的记录，可以转化成每个顾客的购买序列。这种结构便于后续进行模式挖掘，如寻找序列模式（Sequential Patterns）或频繁子序列（Frequent Subsequence）。

数据集的类型(图17).png

在生物信息学中，有序数据也十分重要。基因序列（DNA，RNA）本质上就是一段严格按照顺序排列的字符串序列。任何位置上的变化都可能导致基因功能的巨大差异，因此顺序是该数据的核心特征。

4.3 时空有序数据（Spatio-temporal Ordered Data）

数据集的类型(图20).png

除了时间序列外，还有一类包含时间与空间双重属性的有序数据，即时空数据（Spatio-temporal Data）。这种数据不仅记录时间，还记录空间位置，因此格外适用于研究趋势变化与地理分布的结合。

例如地球表面不同位置的降温与升温趋势，就是一个典型的时空数据分析场景。

例如「全球陆地与海洋的月平均温度」地图，就是基于时空数据绘制而成。不同颜色代表不同温度范围，通过查看不同月份的变化，可以观察到季节、气候模式等关键趋势。这类数据在环境科学、气候研究与地理信息系统中被广泛使用。

4.4 小结

有序数据的核心价值在于“顺序的意义”。无论是购物行为、基因序列还是动态的气候变化，都依赖事件之间的先后关系进行理解与分析。随着数据规模的不断扩大，针对有序数据的分析方法（如序列模式挖掘、时间序列预测、轨迹分析）也变得越来越重要。

菜单

Types of data sets｜数据集的类型

分享