ad

学会《大数据可视化技术》_轻松读懂你的数据_7.2.2 分而治之的大尺度数据分析与可视化

admin 58 2023-10-25

【摘要】 本书摘自《大数据可视化技术》一书中第7章,第2节,杨尚森、许桂秋主编。

7.2.2 分而治之的大尺度数据分析与可视化

可视化领域以及计算机图形学有一种标准方法叫作分而治之 (Divide and

Conquer), 如二叉树、四叉树等空间管理结构等。在大数据时代,分而治之法在面临 数据量大的挑战中必然会起到至关重要的作用。本小节将从统计、数据挖掘和可视化几 个场合着手介绍分而治之的概念。

(1)统计分析层的分而重组。

R 语言面向统计分析的底层,它是一门开源语言。 虽然R 语言是基于单线程来运行的,但其可通过大量的软件开发包实现多核并行计算。 然而,即使是并行的方式也并不能解决大尺度数据的分析难度, 一种比较新颖的思路 就是将数据划分为子集,对这些子集使用相关方法来进行可视化的操作,最后来合并 总体结果,这种方式就称为分而重组。分而重组的核心思想包含拆分 (divide) 和重合 (recombine)。 其中,拆分包括两种算法:

①条件变量分割法。此方法中, 一部分变量被选为条件变量,并且被分配到每个子 集里。 BSV(Between Subset-Variables)在不同子集中的取值不一样且同一时间一个子 集只能有一个BSV 变量; WSV(Within-Subset Variables) 在同一个子集里取值。技术人 员通过分析WSV 伴随BSV 的变化以及WSV 之间的关系来确保分割的准确性。

学会《大数据可视化技术》_轻松读懂你的数据_7.2.2 分而治之的大尺度数据分析与可视化

②重复分割法。重复分割,数据被看作是包含r个变量的n 个观察值,认为是重复 数。如果采用随机重复划分法来使用随机观察值不替换地产生子集,这种做法虽然速度 快但是各子集缺乏代表性;如果采用近邻剔除重复分割法,则n个观察值将被分割成拥 有近乎相同观测值的邻居集合。

重合有三种重合算法:统计重合法、分析重合法以及可视化重合法。所谓统计重 合,也就是把各个子集的统计值进行合成,通常,我们根据不同的分割算法比如近邻剔 除重复分割法等方法的效果比对,最终选择最优的重合方案;分析重合法主要是观察、

分析和评估计算结果;可视化重合法是一种可以小粒度观察数据的方法,并使用了多种 抽样策略,有聚焦抽样和代表性抽样。

从应用角度看, R 语言实现了以上分而重组的过程并将代码作为输入放入一个并行 框架中,则可以在Hadoop集群上基于MapReduce框架实现。

(2)数据挖掘层的分而治之。

使用分而后合处理大数据分类的方法大体分为三个 步骤:首先输入数据或者文本信息,将输入数据等分成n份或者按规则划分,对每份数 据使用最适合的分类器进行分类并将分类结果融合,最后通过一个强分类器计算获取最 终结果。

(3)数据可视化的分而治之。

大规模科学计算的结果之所以适合于采用多核并 行模式实现加速和分而治之的处理,还是因其通常体现为规则的空间型数据。标准的 科学计算数据的并行可视化采用计算密集型的超级计算机、计算集群和GPU 集群等模 式。目前比较流行的Hadoop和MapReduce 等处理框架通常被用来处理非空间型数据,将 MapReduce框架应用于科学计算的空间型数据,意味着科学计算的空间型数据和非结构 化数据可以在统一的数据分而治之的框架下处理。

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们 [email protected] 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:《给所有人的Python》_第四版_也是给你的一本知识宝典_1.3 交互式脚本(对话型脚本)
下一篇:《认知计算与深度学习》_基于物联网云平台的智能应用_1.4.1 数据挖掘与机器学习
相关文章

 发表评论

暂时没有评论,来抢沙发吧~

×