学会《大数据可视化技术》_轻松读懂你的数据_7.2.2 分而治之的大尺度数据分析与可视化-英雄云

学会《大数据可视化技术》_轻松读懂你的数据_7.2.2 分而治之的大尺度数据分析与可视化

admin 58 2023-10-25

【摘要】本书摘自《大数据可视化技术》一书中第7章，第2节，杨尚森、许桂秋主编。

7.2.2 分而治之的大尺度数据分析与可视化

可视化领域以及计算机图形学有一种标准方法叫作分而治之 (Divide and

Conquer), 如二叉树、四叉树等空间管理结构等。在大数据时代，分而治之法在面临数据量大的挑战中必然会起到至关重要的作用。本小节将从统计、数据挖掘和可视化几个场合着手介绍分而治之的概念。

(1)统计分析层的分而重组。

R 语言面向统计分析的底层，它是一门开源语言。虽然R 语言是基于单线程来运行的，但其可通过大量的软件开发包实现多核并行计算。然而，即使是并行的方式也并不能解决大尺度数据的分析难度，一种比较新颖的思路就是将数据划分为子集，对这些子集使用相关方法来进行可视化的操作，最后来合并总体结果，这种方式就称为分而重组。分而重组的核心思想包含拆分 (divide) 和重合 (recombine)。其中，拆分包括两种算法：

①条件变量分割法。此方法中，一部分变量被选为条件变量，并且被分配到每个子集里。 BSV(Between Subset-Variables)在不同子集中的取值不一样且同一时间一个子集只能有一个BSV 变量； WSV(Within-Subset Variables) 在同一个子集里取值。技术人员通过分析WSV 伴随BSV 的变化以及WSV 之间的关系来确保分割的准确性。

学会《大数据可视化技术》_轻松读懂你的数据_7.2.2 分而治之的大尺度数据分析与可视化

②重复分割法。重复分割，数据被看作是包含r个变量的n 个观察值，认为是重复数。如果采用随机重复划分法来使用随机观察值不替换地产生子集，这种做法虽然速度快但是各子集缺乏代表性；如果采用近邻剔除重复分割法，则n个观察值将被分割成拥有近乎相同观测值的邻居集合。

重合有三种重合算法：统计重合法、分析重合法以及可视化重合法。所谓统计重合，也就是把各个子集的统计值进行合成，通常，我们根据不同的分割算法比如近邻剔除重复分割法等方法的效果比对，最终选择最优的重合方案；分析重合法主要是观察、

分析和评估计算结果；可视化重合法是一种可以小粒度观察数据的方法，并使用了多种抽样策略，有聚焦抽样和代表性抽样。

从应用角度看， R 语言实现了以上分而重组的过程并将代码作为输入放入一个并行框架中，则可以在Hadoop集群上基于MapReduce框架实现。

(2)数据挖掘层的分而治之。

使用分而后合处理大数据分类的方法大体分为三个步骤：首先输入数据或者文本信息，将输入数据等分成n份或者按规则划分，对每份数据使用最适合的分类器进行分类并将分类结果融合，最后通过一个强分类器计算获取最终结果。

(3)数据可视化的分而治之。

大规模科学计算的结果之所以适合于采用多核并行模式实现加速和分而治之的处理，还是因其通常体现为规则的空间型数据。标准的科学计算数据的并行可视化采用计算密集型的超级计算机、计算集群和GPU 集群等模式。目前比较流行的Hadoop和MapReduce 等处理框架通常被用来处理非空间型数据，将 MapReduce框架应用于科学计算的空间型数据，意味着科学计算的空间型数据和非结构化数据可以在统一的数据分而治之的框架下处理。