ad

学会《大数据可视化技术》_轻松读懂你的数据_2.2 数据准备

admin 65 2023-10-25

【摘要】 本书摘自《大数据可视化技术》一书中第2章,第2节,杨尚森、许桂秋主编。

2.2 数据准备

2.2.1 数据类型

根据数据分析的要求,不同的应用应采用不同的数据分类方法。根据数据模型,我 们可以将数据分为浮点数、整数、字符等;根据概念模型,可以定义数据为其对应的实 际意义或者对象。在科学计算中,通常根据测量标度将数据分为四类:类别型数据、有 序型数据、区间型数据和比值型数据。

(1)类别型数据:用于区分物体。例如,根据性别可以将人分为男性或者女性; 商品可按用途、原材料、生产方法、化学成分、使用状态等进行不同的分类。这些类别 可以用来区分一组对象。

学会《大数据可视化技术》_轻松读懂你的数据_2.2 数据准备

(2)有序型数据:用来表示对象间的顺序关系,如成绩排名、身高排序等。

(3)区间型数据:用于得到对象间的定量比较。相对于有序型数据,区间型数据 提供了详细的定量信息。例如,身高160cm 与身高170cm相差10cm, 而170cm与180cm 也 相差10cm, 它们俩的差值是相等的。由此可见,区间型数据基于任意的起始点,只能 衡量对象间的相对差别。(4)比值型数据:用于比较数值间的比例关系,可以精确地定义比例。比如,2班 的学生数量是1班的2倍(2:1)。

不同的数据类型对应着不同的集合操作和统计操作,如表2-1所示。

在数据可视化中,通常并不区分区间型数据和比值型数据,所以可以将数据类型精 简为三种:类别型数据、有序型数据和数值型数据(包括区间型数据和比值型数据)。 基础的可视化设计一般针对这三种数据展开,而复杂型数据通常是这三种数据的组合。

2.2.2 数据预处理

在大数据时代,由于数据的来源非常广泛,数据类型和格式存在差异,并且这些数 据中的大部分是有噪声的、不完整的,甚至存在错误。因此,在对数据进行分析与挖掘 前,对采集的数据进行预处理是非常有必要的。

数据预处理的目的是提升数据质量,使得后续的数据处理、分析、可视化过程更加 容易、有效。

数据质量体现在以下六个方面:

(1)有效性:数据与实际情况对应时,是否违背约束条件。

(2)准确性:数据能否准确地反映现实。

(3)完整性:采集的数据集是否包含了数据源中的所有数据点,且每个样本的属性都是完整的。

(4)一致性:整个数据集中的数据的衡量标准要一致。

(5)时效性:数据适合当下时间区间内的分析任务。

(6)可信性:数据源中的数据是使用者可依赖的。

数据预处理步骤如下:

(1)数据清理:指修正数据中的错误、识别脏数据、更正不一致数据的过程。其 中涉及的技术有不一致性检测技术、脏数据识别技术、数据过滤技术、数据修正技术、 数据噪声的识别与平滑技术等。

(2)数据集成:指把来自不同数据源的同类数据进行合并,减少数据冲突,降低 数据冗余程度等。

(3)数据归约:指在保证数据挖掘结果准确性的前提下,最大限度地精简数据 量,得到简化的数据集。

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们 [email protected] 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:阅读《基于Python语言的软件测试技术》_打开新的知识大门_5.3.1 V模型
下一篇:《智能制造服务云平台初探》_让你更懂智能制造_6.6 云视频会议系统
相关文章

 发表评论

暂时没有评论,来抢沙发吧~

×