ad

学会《大数据可视化技术》_轻松读懂你的数据_7.1 高维多元数据在大数据中的应用

admin 70 2023-10-25

【摘要】 本书摘自《大数据可视化技术》一书中第7章,第1节,杨尚森、许桂秋主编。

7.1 高维多元数据在大数据中的应用

高维多元数据(Multidimensional Multivariate)指每个数据对象有两个或两个以上 独立或者相关属性的数据。高维(Multidimensional)指数据具有多个独立属性,多元 (Multivariate)指数据具有多个相关属性。想要科学准确地描述高维多元数据,则需要数 据同时具备独立相关性。由于在很多情况下,研究人员都不确定数据的属性是否独立, 因而通常简单地称之为多元数据。例如:手机的配置如型号、内核处理器、内存、款式 等参数,每个参数都是描述手机的一个属性,所有参数组成的配置就是一个多元数据。 由于在数据理解、分析和决策等方面的突出作用,可视化技术在各类多元数据分析中得 到广泛使用。

学会《大数据可视化技术》_轻松读懂你的数据_7.1 高维多元数据在大数据中的应用

二三维数据可使用一种比较常见的可视化方法比如散点图来表示:将各个属性的值 映射到不同的坐标轴,并确定各坐标点在坐标系中的位置。当维度超过三维时,如需表 示更多的属性如颜色、大小、形状等,则可以通过各种视觉编码来实现。如图7-1所示 的散点图使用颜色和大小分别表示国家所在洲和人口这两个额外属性,直观有效地可视 化了各国国民健康收入之间关系的思维数据。然而视觉编码的种类不仅有限而且过多 或过于复杂的视觉编码会降低可视化的可读性,因此需要更有效的可视化方法来适用于 维度更高的多元数据。本节介绍多元数据可视化的三类基本方法:空间映射、图标法和 基于像素的可视化方法。

7.1.1 空间映射法

散点图的本质是将抽象的数据对象映射到二维坐标表示的空间。面向多元数据,散 点图的概念可理解成:在二维的平面空间中,通过采用不同的空间映射方法对高维数据 进行布局,则这些数据的关联以及数据自身的属性就在空间中的位置得到了展示,而整 个数据集在空间中的分布则反映了各维度间的关系及数据集的整体特性。

(1)散点图及散点图矩阵。

散点图矩阵是散点图的扩展。对于N维的数据采用N² 个散点图逐一表示N个属性之间的两两关系,这些散点图根据它们所表示的属性沿横轴 和纵轴按一定顺序排列,进而组成一个N×N 的矩阵。随着不断扩展的数据维度,所需 散点图数量将呈几何级数的增长,而将过多的散点图显示在有限的屏幕空间中会很大程 度上降低可视化的可读性。比较常见的方法就是对感兴趣的属性交互式地选取来进行数 据的分析和可视化。通过计算散点图特征,优先显示重要性较高的散点图也可以在一定 程度上缓解空间的局限。如图7-2所示为展示销售额和人口数相关关系的散点图矩阵。

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们 [email protected] 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:《零基础Python 从入门到精通》_让你学得轻松_4.1.3 序列相加
下一篇:学会《大数据可视化技术》_轻松读懂你的数据_5.3 数据分布性
相关文章

 发表评论

暂时没有评论,来抢沙发吧~

×