ad

学会《大数据可视化技术》_轻松读懂你的数据_6.3 文本信息可视化

admin 69 2023-10-25

【摘要】 本书摘自《大数据可视化技术》一书中第6章,第3节,杨尚森、许桂秋主编。

6.3 文本信息可视化

学会《大数据可视化技术》_轻松读懂你的数据_6.3 文本信息可视化

文本可视化可以分为文本内容的可视化、文本关系的可视化以及文本多特征信息的 可视化。文本内容可视化是对文本内的关键信息分析后的展示,文本关系的可视化既可 以对单个文本进行内部的关系展示,也可以对多个文本进行文本之间的关系展示。文本 多特征信息的可视化,是结合文本的多个特征进行全方位的可视化展示。

6.3.1 文本内容可视化

文本的内容可以通过关键词、短语、句子和主题进行展现。

1. 关键词可视化

一个词语若在一个文本中出现的频率较高,那么这个词语就可能是这个文本的关键 词,它可以一定程度上反映出一个文本内容所要表达的含义。

关键词可视化是用一个文本中的关键词来展示该文本的内容。

(1)标签云 (Tag Clould)。 标签云是一种最常见的、简单的关键词可视化方法, 它的步骤分为2步:

①统计出文本中词语的出现频率,提取出出现频率较高的关键词。

②按照一定的顺序和规律将这些关键词展示出来。比如说,用颜色的深浅,或者字 体的大小,来区分关键词的重要性。

如图6-3所示,将一个文本中的关键词提取出来,并用自定义的形状来呈现所有关 键词,其中频率越高的关键词,显示的颜色越深,字体越大,频率不高的关键词,显示 的颜色越浅,字体越小。

标签云可视化技术不断发展,其中Wordle技术对关键词的展示更加美观,在空间利 用和美学欣赏方面都有所提升。

(2)文档散 (DocuBurst)。 文档散是由多伦多大学的克里斯托弗 · 柯林斯

(Christopher Collins)教授研究出的一个在线文本分析和文档可视化工具,通过导入 TXT形式的文本数据,生成HTML 形式的可视化图片。

文档散使用词汇库中的结构关系来布局关键词,同时使用词语关系网中具有上下语 义关系的词语来布局关键词,从而揭示文本中的内容。上下语义关系是指词语之间往往 存在语义层级的关系,也就是说, 一些词语是某些词语的下义词,而一篇文章中,上下 语义关系的词语一般是同时存在的。

文档散的方法如下:

给一个单词作为中心点。中心点的词汇可以由用户指定,不同的中心点词汇呈现出 的可视化结果大不相同。

将整个文章内的词语视觉化在一个放射式层次圆环中,外层的词是内层词的下义 词。这样就可以一 目了然的展示文档根据中心词在词语关系网中是如何被呈现的。

2. 时 序 文 本 可 视 化

时序性的文本特性就是具有时间性和顺序性,比如,新闻会随着时间变化,小说会随着故事情节变化。

( 1 ) 主 题 河 流 (ThemeRiver)。 主题河流是由苏珊 · 阿弗尔 (SusanHavre) 等 学 者于2000年提出的一种时序数据可视化方法,主要用于反映文本主题强弱变化的过程。 经典的主题河流模型包括两个属性:

颜色,表示主题的类型, 一个主题用一个单一颜色的涌流表示。但是,颜色种类有 限,若使用一种颜色表示一个主题,会限制主题的数量,因此,可以使用一种颜色表示 一类主题。

宽度,表示主题的数量(或强度),涌流的状态随着主题的变化,可能扩展、收缩 或者保持不变。

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们 [email protected] 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:《零基础Python 从入门到精通》_让你学得轻松_4.1.3 序列相加
下一篇:学会《大数据可视化技术》_轻松读懂你的数据_5.3 数据分布性
相关文章

 发表评论

暂时没有评论,来抢沙发吧~

×