ad

学会《大数据可视化技术》_轻松读懂你的数据_2.2.4 数据分析与数据挖掘

admin 76 2023-10-25

【摘要】 本书摘自《大数据可视化技术》一书中第2章,第2.4节,杨尚森、许桂秋主编。

2.2.4 数据分析与数据挖掘

1. 数据分析

数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,目的是找出内 在规律,提取隐藏在大量数据中的信息,从而帮助人们理解、判断、决策和行动。

常用的数据分析有统计分析、探索性数据分析、验证性数据分析、在线分析与处理。

(1)统计分析:是指对数据进行统计描述和统计推断的过程。

学会《大数据可视化技术》_轻松读懂你的数据_2.2.4 数据分析与数据挖掘

统计描述指应用统计特征(均值、标准差和相关系数等)、统计表和统计图等方 法,对数据的数量特征及其分布规律进行测定和描述(如集中趋势、离散程度和相关程 度等)。

统计推断是指用概率方法判断数据之间的关系及用样本统计特征来推测总体特征的 方法。统计推断已成为统计学的核心内容,是数据分析的重要方法。

(2)探索性数据分析 (Exploratory Data Analysis,EDA): 是对调查、观测所得到 的一些初步的杂乱无章的数据,在尽量少的先验假定下进行处理,通过作图、制表等形 式和方程拟合、计算某些特征量等手段,探索数据的结构和规律的一种数据分析方法。 它强调从数据中寻找出之前没有发现过的特征和信息。

(3)验证性数据分析:是指在已经有事先假设的关系模型等情况下,通过数据分 析来验证已提出的假设。

(4)在线分析与处理 (Online Analysis Processing,OLAP): 是一种交互式探索大 规模多维数据集的方法。 OLAP 将数据实体的多项重要属性定义为多个维度,让用户比 较不同维度上的数据。 OLAP 的基本功能有切片和切块 (Slice and Dice)、 钻取 (Drill) 和旋转 (Pivoting)。

2. 数据挖掘

数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中的信息的过程。数据挖 掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系 统(依靠过去的经验法则)和模式识别等诸多方法来实现搜索隐藏于大量数据中的信 息。数据挖掘的对象是大规模的高维数据,这些数据可能来自于数据库、数据仓库或者 其他数据源,可以是任何类型的数据。

数据挖掘是在没有明确假设的前提下去挖掘信息和发现知识。 一个有趣的应用范例 是“尿布与啤酒”的故事。沃尔玛公司为了分析顾客最有可能一起购买哪些商品,利用 自动数据挖掘工具,对数据库中的大量数据进行分析后,意外地发现,跟尿布一起购买 最多的商品竟是啤酒。为什么两件风马牛不相及的商品会被人一起购买?调查后发现, 太太们常叮嘱她们的丈夫,下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了啤 酒。既然尿布与啤酒一起购买的机会最多,商店就将它们摆放在一起,结果,实现了尿 布与啤酒的销售量双双增长。在这个例子中,数字挖掘技术功不可没。

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们 [email protected] 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:《基于Kubernetes的容器云平台实战》_了解最新技术前沿_3.2.5 构建镜像
下一篇:阅读《基于Python语言的软件测试技术》_打开新的知识大门_2.1 软件科学管理
相关文章

 发表评论

暂时没有评论,来抢沙发吧~

×