手机版
您的当前位置: 老骥秘书网 > 范文大全 > 公文范文 > 智能可视化与可视分析

智能可视化与可视分析

来源:公文范文 时间:2024-04-01 20:00:02 推荐访问: 化与 可视 可视化

陶钧,张宇,陈晴,刘灿,陈思明,袁晓如,6*

1.中山大学计算机学院国家超级计算广州中心,广州 510006;
2.牛津大学计算机系,牛津 OX13QD,英国;
3.同济大学设计创意学院,上海 200092;
4.北京大学智能学院机器感知与智能教育部重点实验室,北京 100871;
5.复旦大学大数据学院,上海 200433;
6.北京大学大数据分析与应用技术国家工程实验室,北京 100871

可视化与可视分析已成为大数据时代分析理解数据的重要手段。其中,可视化通过视觉编码将数据映射至视觉通道,使用户能迅速利用视觉系统从可视化结果中获取海量数据多维度的信息,而可视分析则在此基础上通过交互式可视界面,构建数据与用户之间的交互闭环,促进用户对复杂数据分析推理。然而,随着数据规模日益增长、结构日趋复杂,丰富的信息已经远超屏幕空间的表达能力及人类视觉感知的处理能力,简单的视觉编码已无法有效传递数据信息。此外,大规模复杂数据也给交互探索带来了极大挑战,用户难以基于经验或对数据的简单观察确定探索方向,很可能陷于耗时的试错而无法发掘数据中隐含的深层联系。因此,借助人工智能方法,分析、理解和总结数据,提取数据中的关键结构和关联,简化可视化内容,优化视觉表现形式中的信息传递,为交互探索提供指导与方向,成为可视化与可视分析领域的常见手段。

随着以深度学习为代表的智能方法的发展,机器智能对复杂数据及变换的拟合、分析和推理能力不断增强,为人工智能跨越多模态数据间的异质鸿沟,理解可视化中的数据、用户意图和视觉表达等要素并建立其间的复杂联系提供了可能。因此,如何利用人工智能方法增强可视化及可视分析系统的能力成为近年来的热点研究问题。此类研究既包括使用深度学习等智能方法提升传统可视化中计算任务的性能,也拓展了可视化方法的边界,从而催生了新的研究方向。例如,可视化创建中,通过学习对数据特征及用户意图进行准确建模,可自动创建用户感兴趣的关键信息的可视化,降低了对专业可视化技能的依赖,也减轻了用户操作上的负担;
在科学可视化中,通过对大量模拟成员的观察,可在交互中快速生成不同模拟参数、可视化参数下的渲染结果,而无需重启耗时的模拟或复杂的渲染;
在交互中,通过机器学习方法扩展和提升了交互手段,降低了用户对交互系统的学习及使用成本,扩大了可视化与可视分析的用户范围;
在可视分析中,通过对用户观察分析习惯的学习及对数据的分析,可以在交互中建议交互操作,减少试错成本,提升探索效率。

本文旨在对近年来人工智能方法在可视化领域的应用及发展进行阐述及讨论,涵盖范围主要包括可视化中的4 项关键任务,即面向可视化的数据管理、可视化创建、交互探索和可视分析。数据管理关注如何表示管理大规模集成数据从而支撑后续的高精度渲染;
可视化创建与生成关注如何将数据映射至可视化表现形式;
交互探索讨论用户如何与可视化表达互动;
可视分析侧重如何结合可视化与交互辅助完成对数据的分析,从而涵盖了从数据到可视化呈现并最终形成认知的全过程。此外,以图表数据为例介绍智能可视化与可视分析的应用。最后从以上方面讨论智能可视化与可视分析的发展趋势,并展望未来研究方向。在人工智能方法上,本文主要关注以深度学习为代表的新一代智能方法在可视化领域的应用,而不再对传统的优化方法、聚类分析等进行赘述。

可视化中的智能数据管理常用于处理大规模科学数据。随着基础科学研究的发展进入数据驱动的第四范式时代,计算机在科研中的应用已经不再局限于既定假设下的数值模拟,而拓展至利用人工智能从大规模数据中进行科学发现。当然,在当前阶段,人工智能在科学推理上的能力依然十分有限,因此通过人工智能与可视化结合,共同辅助人类对数据进行探索与发现仍然是最可行的途径。其中要解决的第一个问题就是如何管理数据,从而能面对日益增长的数据规模及高性能算力与存储能力之间越来越大的差距。本文从数据约减及数据管理两个方面讨论智能方法在可视化中的应用。

为保证模拟的准确性,科学计算往往使用较高的空间及时间精度,因此在实践中往往难以完整保存模拟产生的所有数据,而需要对数据进行约减。传统的对数据约减的方式包括对数据进行时间或空间上的采样,对数据进行有损压缩,甚至是只保留原位可视化结果用于较简单的事后分析。然而,这些约减手段可能造成严重的信息损失,因此无法支持复杂的后分析。为解决这一问题,近年来研究人员将深度学习应用于科学可视化中,从而在传统手段约减的数据中恢复原始数据,或提出更有效的数据约减方法,大致可分为以下几类:1)从降采样的数据中恢复高分辨率数据(超分辨率);
2)从可视化中间数据中还原数据(重构);
3)及通过深度网络直接表示物理场(神经表示)。

科学数据的超分辨率即从低分辨率的物理场中生成高分辨率数据。传统计算常使用线性插值或三次样条插值,在低分辨率数据的相邻格点间估算高分辨率下格点上的数值。这些方法显然无法很好地拟合数据中的复杂模式。深度学习方法则可以通过对原始数据降采样产生大量成对的高分辨率与低分辨率数据,从而训练网络拟合从低分辨率数据到高分辨率数据之间的复杂变换。例如,Zhou 等人(2017)提出了基于卷积神经网络的体数据超分辨方法。该网络使用多层3 维卷积神经网络,输入为单个低分辨率体数据,输出为对应的高分辨率数据,提高了体数据的空间分辨率。Xie 等人(2018)提出TempoGAN 进行时间维度上的超分辨率。该方法基于生成对抗网络(generative adversarial network,GAN),在判别器中同时考虑多个时间步上的数据,从而判断数据在时间维度上是否一致。Han 等人(2020)提出时间维度的超分辨率网络TSR-TVD,通过卷积层建立数据的空间联系,通过循环神经网络(recurrent neural network,RNN)建立时间联系,从而在前向及反向两个方向上预测特定时间步的高分辨率数据,其判别器与Xie 等人(2018)的方法相似。此后,Han 等人(2022)进一步将卷积神经网络+生成对抗网络的架构扩展至体数据的时空超分辨率(如图1 所示),此外,这一架构也用于流场的超分辨率。Guo 等人(2020)使用3 个网络分别对流场的3 个分辨率进行超分辨率,并在均方误差的基础上引入角度误差作为损失函数,但依然只考虑了流场的欧拉性质而忽略了其拉格朗日特性。Sahoo 和Berger(2021)则进一步在误差计算时考虑了粒子追踪产生的轨迹差异,从而更好地保持了流场的拉格朗日特性不变。

图1 Han等人(2022)提出的时空超分辨率网络框架Fig.1 The structure of the spatial-temporal super resolution network proposed by Han et al.(2022)

使用可视化中间结构重构原始数据常用于从积分曲线中重构流场。Han 等人(2019)基于流线重构定常流场,使用传统的梯度向量场将采样点上的流向传输至低分辨率网格的格点,并通过训练神经网络的方式修正低分辨率流场的流向,此后通过超分辨率产生高分辨率流场。在训练过程中,该方法通过评估生成流程是否能产生原始采样流线,从而保持流场的拉格朗日特性。Gu 等人(2021)利用代表性流线减少了重建所需要的流线数量,从而基于在多个时间步上产生的流线重构非定常流场,重建过程使用了深度去噪网络,从梯度向量场重建的低质量流场中构建高质量流场。与此相似,林佳琦等人(2022)使用PointNet 网络架构,从代表性流线的采样点中预测格点上的流向,从而重构流场。

神经表示(neural representation)则通过网络直接表示数据。具体来说,物理场可抽象为函数,其输入为3维空间或4维时空中的一个点,而输出则是该点上的物理量取值(可为标量或向量)。神经表示的过程可视为通过训练得到一组网络参数,从而使得网络近似于函数。此类方法常使用简单的多层感知机(multi-layer perceptron,MLP)拟合函数,而避免使用超分辨率或去噪网络中常见的卷积神经网络或生成对抗网络中的大规模参数,达到压缩数据的目的。Lu 等人(2021)最早将此类方法引入科学可视化用于体数据表示。该方法的关键在于使用SIREN(sinusoidal representation network)周期激活函数,从而更好地拟合高频特征。实验表明,当压缩比较高(上百乃至数百倍)时,该方法在多个数据集上的信噪比都高于当前广泛使用的TTHRESH 压缩方法。Weiss 等人(2022)则借鉴了神经辐射场(neural radiance field,NeRF)中的位置编码,使用正弦函数对坐标进行编码,从而在输入层面引入了高频信号。Sahoo等人(2022)将这一思路应用于流图(flow map)的隐神经表示。该网络以粒子起始位置及时间作为输入,通过多层感知机预测固定追踪时间后的粒子位置,使用欧几里得距离度量预测粒子位置与实际追踪位置之间的误差,从而保证该多层感知机能产生相应的流图。深度学习对数据内在关联的刻画也可以用于指导数据管理,尤其是并行粒子追踪中对数据的组织管理及对任务的调度。Hong 等人(2019)通过长短时记忆(long short-term memory,LSTM)网络对粒子轨迹进行建模,可以更准确地预测粒子对数据块的访问,从而提高大规模粒子追踪算法的效率。该方法将粒子轨迹转化为粒子访问的数据块序列,并通过网络从历史访问记录中预测粒子此后可能访问的数据块,从而指导对数据块的预取。Xu 等人(2022)则将强化学习引入了大规模并行粒子追踪中以实现负载均衡。该方法的代理(agent)通过计算节点间移动数据块,从而减少粒子追踪的时间及通信开销。

数据可视化的创建与生成过程很大程度上依赖设计师及可视化从业者的知识与经验,包括对信息的提炼技术、对数据的总结能力及对数据可视化的设计与表达能力。研究人员通过从大量案例中总结经验,并借助各种智能算法应用于可视化的创建环节,以实现自动化、智能化的可视化生成。人工智能技术参与数据可视化的创建过程大体上是:用户向工具下达指令,工具根据场景和上下文推测用户的交互意图,随后通过对数据进行智能分析并主动选择合适的可视化形式将信息呈现给用户。通过人工智能技术自动为数据完成可视化的制作,使普通用户无需掌握专业的数据分析及可视化知识也可以基于原始数据快速完成或自动生成一个相对完整的可视化作品。在可视化创建与生成的整个过程中,从用户的输入数据到可视化图表的输出,并不是一件简单的任务,中间涉及了诸多技术难点。本节根据人工智能技术参与数据可视化的过程,从创建的前、中、后3 个阶段出发,探讨现阶段智能可视化生成的发展方向。

1)可视化创建前期。智能可视化技术与工具主要专注于对原始数据进行分析,并预测用户的想法,或基于数据的特征提供可视化编码的自动推荐。此类方法关键在于用户上传数据后,对数据进行分析处理,并推荐合适的可视化图表,通过自动生成的结果供分析人员搜索和选择来降低探索可视化的障碍。在早期研究中,SeeDB(Ke 等,2013)这样的系统仅能帮助用户识别数据,做一些简单的可视化推荐工作。随着Voyager(Wongsuphasawat等,2016)、CompassQL(Wongsuphasawat 等,2016)和Voyager2(Wongsuphasawat 等,2017)等系统的出现,所支持的数据种类变多,可以探索出一些用户难以发现的潜在数据。基于这些工作,ChartSeer(Zhao等,2022)进一步利用深度学习技术来描述分析师创建的数据图表,以生成可视化总结,随后根据用户交互可以进一步推荐合适的图表。此外,还有VizML(Hu 等,2019)这类基于机器学习的可视化推荐方法,让计算机代替用户进行可视化设计决策,在用户给定数据集后自动挑选可视化的形式(柱状图、折线图和散点图等),并且自动决定在x轴和y轴上分别放置什么数据。此类工具用以解决用户面对大量数据时,如何选择合适的可视化图表的问题。

3)可视化创建中期。智能可视化技术与工具的侧重点大致可以分为3 类。(1)专注于提升生成可视化的准确性,此类方法多关注于检测可视化图表创建是否存在问题。典型工作包括VisuaLint(Hopkins等,2020)、集自动检测与修复于一体的Vizlinter(Chen 等,2022b)以及专门用于检测annotated chart中折线图创建是否有误的工具(Fan 等,2022)。这些工作可以自动检测可视化中的错误并提出修改建议,一方面降低了设计师寻找相应可视化设计指南的难度,另一方面提升了创建可视化的准确度。(2)专注于提升可视化的生成效率。例如,Textto-Viz(Cui等,2020)基于预设方案的自然语言语句,通过语义解析和视觉生成两个步骤来生成信息图。Retrieve-Then-Adapt13(Qian 等,2021)则是模拟互联网设计作品,通过检索和匹配两个步骤来自动生成信息图。还有一些工具则与办公软件进行了集成。例如,InfoNice(Wang等,2018)和ChartReuse(Cui等,2022)可以帮助用户创建条形图。InfoMotion(Wang等,2021)通过提取信息图的图形属性,分析其底层信息结构,然后按时间顺序对信息图的视觉元素应用动画效果来生成数据视频。这3 款工具都以插件的形式集成到了微软的office 工具中。这些工具与办公软件集成,可以提高可视化创建的效率性。DataComicsJS(Zhao 等,2015)工具的所有功能也都可以复制到演示工具(如Microsoft powerpoint)和绘图工具(如adobe illustrator)中。相较于其他的可视化创作工具,办公软件的用户群体更加庞大,将智能工具的自然语言算法集成到办公软件中,可以接触到最广泛的受众。(3)重点关注所创建图表之间的叙事逻辑。例如,ChartStory(Zhao 等,2023)、DataShot(Wang 等,2020)和Calliope(Shi 等,2021b)可以自动生成具有叙事属性的可视化数据故事。AutoClips(Shi 等,2021a)在用户输入一连串数据事实后也可以自动生成用于讲述数据故事的数据视频。

3)可视化创建后期。智能可视化生成技术聚焦于两方面的研究。一方面是为了完善对于可视化图表的描述;
另一方面则是专注于提升可视化图表的复用性。AutoCaption(Liu等,2020)使用深度神经网络来分析可视化元素之间的关系,识别可视化图表的基本特征,最后生成对于可视化图表的描述。在提升图表复用性方面,根据工具创建图表方式的不同,大致可以将其分为两种方法。一种方法是创建图表后,将数据信息隐式地嵌入到图表图像中,如图2 所示,使数据成为图表图像的固有部分,当需要二次编辑时,可以通过软件将嵌入的信息进行提取,然后实现再次处理图表的目的。这种方式的典型工具有VisCode(Zhang 等,2021a)和Chartem(Fu等,2021)。另一种方法则是通过算法将已有的可视化图表变成可再次编辑的模版。最典型的是Chen等人(2020)提出的对时间轴信息图进行解构和重构的方案。在解构阶段,将多任务深度神经网络用于解析时间轴上的局部与全局信息;
在重构阶段,提出了一种通道技术,将信息图扩展为一个可编辑的模板。这两种方式都极大缩短了设计者后期创建可视化的时间。

图2 基于深度神经网络的可视化方法VisCode(Zhang等,2021a)Fig.2 The visualization method VisCode based on deep neural network(Zhang et al.,2021a)

此外,在科学可视化领域也出现了使用神经网络生成可视化渲染结果的方法。传统科学可视化框架中,3维数据渲染成2维可视化图像的过程将不可避免地带来信息损失,因此难以在图像域上直接修改可视化参数。使用深度网络进行可视化生成,则可以学习数据及可视化参数到可视化图像之间的复杂变换,从而通过网络修改可视化结果。Berger 等人(2019)提出了基于生成对抗网络的体渲染方法,该网络以视角及传输函数为输入,直接输出可视化图像。Hong 等人(2019)同样基于生成对抗网络学习可视化参数及其对应渲染结果间的联系,从而允许用户直接在渲染图像上修改可视化参数并更新可视化结果。He 等人(2020b)进一步在可视化参数外引入了仿真模拟参数作为输入,从而允许用户直接更改模拟参数并生成可视化图像。Weiss 和Navab(2022)则使用了自编码器架构,其中编码器由多个网络组成,分别对数据、消光系数等进行编码,并由解码器解码为图像。以上方法在对数据及图像处理时使用的都是基于卷积神经网络的架构,而对于其他参数则使用多层感知机。Weiss 等人(2022)则使用了基于多层感知机的神经网络表示进行渲染,从而提升效率。

随着机器学习方法的发展,新颖的交互方式与可视化结合。传统的交互方式一般是以基于窗口和鼠标的图形界面(WIMP(windows,icon,menu,pointer),基于窗口、图标、菜单和鼠标的图形用户界面)。为更贴近人类用户自然的习惯,Lee 等人(2021)提出了后WIMP 时代(post-WIMP)交互的概念,即通过自然语言、手势和触控等方式进行交互。其中,自然语言和直接操纵被认为更加自然、更符合用户操作习惯。

智能自然语言交互旨在支持用户通过文本、语音等媒介对数据、可视化进行构建、操纵等交互。自然语言的优势体现在自然语言的使用门槛低、使用场景广泛。传统的交互方式往往需要人类用户学习机器的规范,如程序代码等,而这通常具有较陡峭的学习曲线。随着自然语言处理能力的发展,许多工作将自然语言作为可视化的交互界面,以扩大可视化的用户范围。如 Yu 和Silva(2020)提出的Flow-Sense,在数据流系统上加入了自然语言交互的界面,提升了数据分析系统的可用性。Liu等人(2021)从表格数据出发,允许用户通过自然语言问题提出问题,构建可视化结果。用户在获取答案的同时也获得了更丰富的信息,可视化提供了获取解答的可解释性。此外,在科学可视化领域,Huang 等人(2023)面向流场数据可视化提出自然语言交互界面,如图3所示,结合深度表示与自然语言解析,允许领域专家通过自然语言查询流场中的结构特征。随着自然语言处理和可视化交互的相关研究的推进,自然语言在多个方面提升了可视化的交互能力。

图3 自然语言驱动的流场探索工具(Huang等,2023)Fig.3 The natural language-driven flow field exploration tool(Huang et al.,2023)

前述方法通过生成可视化的方式来回应自然语言命令或问题,另一些方法则关注已有的可视化。Kim 等人(2021)提出了一种针对可视化图表问答的方法,构建了针对可视化问题的处理方法,通过构建一个数据处理的框架,首先在Vega-Lite 的图表中抽取数据和视觉编码。在此基础上,该框架能自动地将自然语言的问题和数据图表关联起来,通过机器学习的方法来寻找该问题所对应的数据答案,并给予用户解释。Lai 等人(2020)则提出了一种自动的注释方法,如图4 所示。该方法以自然语言信息和图像可视化作为输入自动产生高亮和注释。在获取自然语言和可视化之后,匹配其中的对应内容,并自动对其进行高亮、注释,从而提升用户对可视化的理解。该方法采用深度神经网络模型 Mask R-CNN(region convolutional neural network)(Ren 等,2015)进行相应内容的识别,结合图像处理技术提取识别可视化图表中的各个实体标记及其视觉属性,同时通过自然语言处理,获取自然语言中存在的实体和数值内容。将可视化中的实体与文本描述相应内容匹配之后,根据用户给定可视化图表及其对应的描述能够生成可视化注释和高亮结果的一系列结果。这一系列结果顺序播放生成动画内容可以有效地提供对可视化内容的注释并增强用户对可视化的理解。基于相似的目的,即通过将可视化和自然语言绑定来降低用户的认知成本,Latif 等人(2022)提出了Kori,能够在用户输入自然语言文本的时候推荐链接。这种连接关系能够降低用户在进行可视化和文本之间进行上下文切换的认知负担。Kori 将可视化中存在的所有可能的自然语言进行提取,同时将可视化元素绑定在数据之上,再通过预训练的词向量技术将文本中的内容和可视化中的内容相匹配。

图4 可视化的自动注释示意(Lai等,2020)Fig.4 The visualization with automatic annotation(Lai et al.,2020)

不同的交互方式各有所长,将不同交互方式的优势相结合,可以提升用户的交互有效性。2018 年的前沿可视界面(Lee 等,2018a)研讨会即以数据可视化的多模态为题展开讨论,其中结合自然语言的多模态交互是重要的方向。Valletto(Kassel和Rohs,2018)提出一种多模态的交互方式,用户可以通过自然语言对话(包括键盘输入和语音输入)、触控、或者传统的WIMP 图形用户界面(graphical user interface,GUI)进行多模态的交互。类似地,Kim 等人(2021)在手机中展开多模态交互的研究。在大屏上,Srinivasan 等人(2020)提出InChorus 系统,将自然语言(语音)和其他交互方式(触摸、触摸笔)更紧密地协同在一起,灵活地为用户提供交互式探索数据的可视化界面。其中,交互动作包括操作(如绑定数据属性至某个映射)、参数(如属性、聚集层次)、目标(如轴、图例、标记)、工具(如标记、比例尺)和自然语言中的关键词。并且,在处理自然语言信息时也考虑上下文的信息,更加灵活自然地表示用户的需求。针对单元式的可视化,该团队开发了一个类似的系统DataBreeze(Srinivasan 等,2020)来处理单元可视化的交互。针对软件领域,Seipel 等人(2019)提出一种理解软件可视化的多模态交互模式,将自然语言与增强现实(augmented reality,AR)交互模式结合在一起。

可视分析是以交互式的可视化界面为基础进行分析和推理的一门科学。它将人类智慧与机器智能联结在一起,使人类独有的优势在分析过程中能够充分发挥。也就是说,人类可以通过可视化视图进行人机交互,直观高效地将海量信息转换为知识并进行推理。近年来,随着深度学习的突破性进展,深度学习驱动的可视分析研究也成为研究热点之一。根据深度学习在可视分析的工作流程中的角色,相关研究可以分为3 个类别,即数据预处理与数据挖掘、人在回路(human-in-the-laop)的智能分析以及基于模型结果理解的决策。此外,由于科学数据本身的特殊性,本文对科学可视化中的智能可视分析进行单独介绍。

4.1 数据预处理与数据挖掘

针对复杂数据及其中蕴含的复杂模式,利用深度学习技术能够进行数据预处理,并从中挖掘关键信息,从而支持对复杂数据的可视分析任务,这也是目前最常见的深度学习辅助可视分析系统的方式。不同数据有不同的深度学习模型,具体可分为7类。

1)时序数据。TacticFlow 提出了一种基于多变量序列模式挖掘算法(核心思想类似于生成对抗网络)的乒乓球战术可视化系统(Wu 等,2022)。该系统提出有效的模式挖掘方法,自动检测各种乒乓球动作策略,并从中发现不断变化的战术进展。

2)空间数据。COVID-view 集成了一种新的深度学习模型——多实例学习(multi-instance learning,MIL),能够将患者分类为阳性/阴性COVID-19病例(Jadhav 等,2022)。系统为使用COVID-view 的放射科医生提供了交互式的阅读帮助,并提供了注意力热图作为模型输出的解释。

3)抽象数据。图是一种复杂的抽象数据结构,存在广泛的应用领域。Song等人(2022)提出了基于图学习的子图模式搜索可视分析框架GraphQ,由于在使用图神经网络(graph neural networks,GNNs)的匹配结果中仍然难以获得精确的一对一的节点对应关系,因此提出一种用于节点对齐的新型GNN,即NeuroAlign,以促进查询结果的简单验证和解释。

4)文本数据。针对相似文献存在的不同关键术语导致无法充分检索的问题,VITALITY 提出使用Transformer 预训练语言模型进行文献的文档级表征,计算不同文献之间的语义相关性,并允许用户在给定的输入文献列表或文献摘要的关键词嵌入空间中进行交互式探索(Narechania等,2022)。

5)静态图像数据。针对时空图像数据,DDLVis提出一种新的字典学习方法,将时态密度图编码为小尺寸稀疏编码,大幅提升了数据时空分布的实时可视化查询的效率(Li等,2022)。

6)视频数据。添加了可视化的增强视频能够有效传达见解、阐述动作策略,但这一过程对于分析员来说是极大的挑战,VisCommentato 利用多个深度学习模型,如TTNet(Voeikov 等,2020),来提取球、球员、位置、动作、事件和击打等关键数据(Chen 等,2022b)。该系统基于设计空间的可视化推荐极大地简化了增强视频的创作过程。

7)多模态数据。可视分析任务中不乏对多模态数据的分析,探究不同模态之间存在的区别与联系是一大研究热点。E-ffective集成了不同模态的分析模型(Maher 等,2022),如利用情绪分类卷积神经网络提取面部情绪类型,采用区域CNN-LSTM(convolutional neural network——long short-term memory)模型来提取文本维度情感(Wang 等,2016),利用Mixedemotions 分析声音维度的情绪特征(Buitelaar 等,2018),从而支持从不同模态来分析不同演讲因素(波动性、连贯性等)对演讲效果的贡献。

4.2 人在回路的智能分析

在数据分析任务中,依靠人去识别数据集中的模式是非常耗时耗力的,然而在一些复杂任务中,如果缺少人的专业知识,由机器全自动地进行学习也很难达到较高的准确率。因此,人在回路的分析方法能够有助于提升这些任务的准确性。根据分析对象的不同,可以分为交互式调整模型的标签和调整模型的参数。

1)调整模型的标签。VideoModerator 通过交互式可视化将人类知识与机器生成的见解深度集成(Tang 等,2022)。由于深度学习技术的出现,采用最先进的模型来检测视频帧中的目标并从音频内容中翻译语音。该框架采用了“边审核边学习”的策略,将新审核的视频用做真实数据,周期性地更新分类器的训练过程。通过比较实验中报告的统计数据,发现人工参与的模型与纯机器学习模型相比有显著的改进。

2)调整模型的参数。Fujiwara 等人(2022)提出了一种交互式DR(dimensionality reduction)机器学习框架,将新的DR 方法ULCA(unified linear comparative analysis)与交互界面相结合来分析高维数据集之间的异同。ULCA 统一了判别分析和对比学习两种DR 方案,以支持各种比较分析任务。在用户了解参数的作用并进行调整后,为进一步帮助参数选择,开发了一种向后算法,可以在可视化结果中找到类似用户操作的变化的参数,使分析人员能够交互式地改进ULCA结果。

3)调整模型的标签和参数。声学数据可以检测和理解电机制造中以前未知的错误。IRVINE 利用交互式聚类(self-organizing map,SOM)和数据标记技术,允许用户分析具有相似声波频率的引擎集群并选择感兴趣的引擎(Eirich 等,2022)。此外,IRVINE 允许为引擎和聚类分配标签,并标注错误的原因。

4.3 基于模型结果理解的决策

使用可视分析系统向非机器学习领域的专家解释模型结果与分析任务之间的关系,有助于这些领域专家做出更加专业的决策。从可视分析的流程来说,深度学习模型的结果相当于是可视分析系统的数据来源。使用的分析方法通常是一些机器学习解释方法,如SHAP(shapley additive explanations)值等。Vbridge(Cheng 等,2022)将深度学习纳入临床医生的决策工作流程,将模型解释与患者的病情记录进行视觉关联,包括基于贡献的特征解释的分层显示,以及连接机器学习特征、解释和数据之间的交互等,可以帮助临床医生在做出临床决策时更好地解释和使用模型预测。

4.4 科学可视化中的智能分析与探索

深度网络通过训练能捕捉数据中的分布,从而辅助分析与探索数据。此类方法目的不在于利用深度网络直接输出希望的计算结果,而是利用深度网络在特定的训练任务下获得的信息进行数据的分析,从而捕捉传统方法(刘力,2022;
闵睿朋 等,2022)无法描述的复杂关联。典型的方法为基于自编码器将流场数据(Han 等,2020)或标量场数据(Sun 等,2019)编码为隐向量,然后通过隐向量之间的距离计算原始数据之间的距离,从而实现在隐空间下对数据进行聚类。Han 等人(2020)的方法表明,其聚类结果展示的流场结构比基于原始空间的距离定义产生的聚类更为细致,更符合人类认知。此外,CECAV-CNN(He 等,2020a)通过训练一个基于卷积神经网络(convolutional neural network,CNN)的判别器计算两组集成数据的Wasserstein距离。其CNN 判别器的输出将集成数据中的成员映射到一个似然值,为判断两组集成数据中成员的一致性提供了依据。以上方法中的训练任务都与实际需要完成的任务不一致,其训练任务的设计只用于保证训练后网络具备表示所需特征的能力。Huang 等人(2023)将此类编码的隐向量用于流场的交互探索。该方法将用户的自然语言查询解析后映射至隐空间的区域,并定义了多种操作组合不同空间的区域,从而实现对流场特征的查询。Tkachev 等人(2019)则提出另一种分析思路,基于CNN 使用数据点及其邻域预测该数据点的函数值随时间的变化。预测误差大的区域意味着该区域的模式及变化趋势与数据集整体不一致,以此找出值得关注的区域。

可视化长期以来用于分析和交流数据。计算机时代之前,历史可视化保存于纸质印刷品中。进入计算机时代后,各种设计软件与可视化库使得可视化的创作变得更加便捷。从搜索引擎中可以轻易地获取大量可视化,这些可视化以各种形式存储,如位图、矢量图和代码段等。因此,许多应用中以这些易于获得的可视化作为数据处理的对象,如信息检索、设计复用和模式分析。本文将这些需要把可视化作为输入进行处理的应用统称为图表挖掘。由于智能图表挖掘近年来发展迅速,有很大的商用价值,这里单独列出一节介绍图表挖掘的应用场景(如图5 所示)及其相关技术的进展。

图5 智能图表挖掘的相关工作Fig.5 The work related to intelligent chart mining

通过新技术从图表挖掘中获取的数据可用于数字图书馆和搜索引擎在内的信息检索系统的索引和问答。数据提取提供了丰富的可用于索引的信息。Chen 等人(2015)提出了针对PDF(portable document format)中统计图表的搜索引擎DiagramFlyer,支持扩展查询和基于TF-IDF 的相关性排序。从可视化中提取元数据用于检索,如标签、刻度、标题、图例、图像说明和图表类型。提取的数据使一些高级搜索功能成为可能,如基于可视化内容的问答。Carberry 等人(2006)使用贝叶斯网络推断存储为XML(extensible markup language)的柱状图中的模式,以支持对预定义模式的问答,如极值和增减趋势。FigureSeer(Siegel 等,2016)从折线图位图中使用CNN 提取数据、使用OCR(optical character recognition)引擎提取文本,以支持基于模板的问答。

当现有的可视化无法满足当前使用场景的需求时,可以通过重新设计(redesign)图表为用户提供另一个角度,再设计可以为可视化背后的数据集分配新的视觉编码(视觉编码再设计),或者为可视化附加新的交互功能(交互再设计)。

视觉编码再设计通过提取的数据集,重新设计数据集的呈现形式。再设计可用于可视化的无障碍化,或是按设计准则提高视觉编码的有效性;
也可以交由用户在开发工具中创造性地进行再设计。

视觉编码再设计对于可视化的无障碍化至关重要。对于有色觉障碍的用户,重新设计颜色映射可以突出原本无法分辨的细节。Kuhn 等人(2008)提出了一种重新着色的技术,使有色觉障碍的用户可以区分可视化图像中的颜色。他们通过重新着色突出有色觉障碍的用户原本无法注意到的细节,同时希望尽可能多地保留图像的原始颜色,避免图像在重新着色后看起来不自然。对于失明用户,从现有可视化中提取数据并为数据重新设计一套音频或触觉编码,可以帮助他们获取现有可视化原本通过视觉通道传达的信息。Choi等人(2019)使用一系列模型进行图表类型分类、文本提取和基于图表类型的数据提取。他们开发了一个浏览器插件,帮助失明用户从网络上的可视化位图中提取数据,并转换为HTML 表格,使失明用户可以用屏幕阅读器访问这些数据。

对于无视力障碍的受众,视觉编码再设计也可用于提高可视化的有效性。图形感知研究建立了视觉通道有效性的排名。例如,众包实验表明,与使用角度或面积相比,使用位置编码数值时,用户对比例的判断误差更低(Heer 和Bostock,2010)。尽管有许多可视化设计准则基于此类图形感知实验,现实中可视化创作者创建的可视化未必遵循设计准则。因此,一些可视化数据提取系统会基于这类准则,为输入的可视化自动优化视觉编码。ReVision(Savva等,2011)从饼图和柱状图的位图中提取数据,并按照Mackinlay(1986)总结的视觉渠道有效性的准则生成一系列按有效性排序的备选再设计。Poco等人(2018)通过解析颜色图例以提取可视化的颜色通道中编码的数据。提取数据后,用户可以改变颜色映射以提高可视化的可读性,如用红白蓝配色方案代替彩虹配色方案。Fan 等人(2022)提出了一个半自动注释并修改具有欺骗性折线图的系统,从折线图位图中提取数据和规约,并检查其是否符合设计准则,如y轴不能被截断或上下颠倒。

一些可视化和信息图表开发工具整合了数据提取功能,使用户能以已有可视化为基础进行创意设计。Kong和Agrawala(2012)使用从输入的可视化位图中提取的数据,帮助用户创建各种类型的信息叠加层,用于增强输入的可视化。这些叠加层可以显示网格线、信息高亮、重复编码(如在柱状图上叠加折线图)、汇总统计和注释。Transmogrification 利用图形学中基于骨架的图像变形算法,以支持用户进行基于变形的可视化再设计(如坐标转换)和交互(如Table Lens(Brosz等,2013))。Harper和Agrawala(2014)开发了一个从D3.js 生成的可视化中提取数据、视觉对象及两者间映射关系的反向工程工具。这个工具支持用户通过增删改数据与视觉对象的视觉属性之间的映射关系以重新设计可视化。iVoLVER是一个用于开发可视化的图形化编程工具(Méndez 等,2016),用户能用现有可视化的位置、长度或面积属性编码的数据作为数据源来创建新的可视化。为了从现有可视化中提取数据,用户需要手工配置如何从视觉属性值中解析数据。

除了视觉编码再设计,数据提取也有助于重新设计可视化中的交互。利用前述的ReVision 系统(Savva 等,2011)提取的数据,Kong 等人(2014)通过众包提取可视化中的视觉对象和文本描述之间的对应关系,以支持视觉链接和高亮交互。前述的Transmogrification 除了支持基于变形的可视化再设计,还能为可视化增加基于变形的交互功能。Interaction+是一个为现有基于SVG(scalable vector graphics)的可视化添加交互功能的工具包(Lu 等,2017),能为输入的可视化自动绑定选择、聚合、排列、比较、过滤和注释等交互功能,以辅助的数据探索。前述的Poco 等人(2018)的工作通过提取颜色映射,除了支持颜色映射再设计以外,还支持颜色图例和可视化之间的交叉过滤和高亮。

从庞大的可视化语料库中提取的数据可以用于分析可视化的使用模式。Lee 等人(2018b)分析了PubMed 收录的论文中数百万幅图像的使用模式。对包含多个子图的论文图像进行分割,对图像类型进行分类,并将图像与论文的书目数据关联。他们发现图像密度和图像类型的分布取决于研究领域,并且基本不随时间变化,且高影响力的出版物往往有更多的示意图。Battle 等人(2018)分析了网络上的可视化使用模式,从开发者发布可视化的主要网站(如bl.ocks.org 与Plotly)抓取了41 000 多个存储为SVG 的可视化,发现网络上多数可视化是柱状图、线状图、散点图和地理地图,且在不同的可视化开发社区中,最受欢迎的图表类型不同。此外,他们发现地理地图是用D3.js(Bostock 等,2011)创建的可视化中最流行的图表类型,而散点图是用Plotly创建的可视化中最流行的图表类型。

图表挖掘可以用于上述的许多下游应用。这些应用通常要求对图表进行反向工程。其中,较为常见的一种反向工程任务是从图表中进行数据提取,如图6 所示,左侧以Playfair 在18 世纪绘制的英国向德国的各年进入口贸易额的折线图为输入,右侧的数据表格呈现了数据提取的输出。

图6 数据提取以可视化(通常存储为位图格式)为输入,并输出用于生成可视化的数据集Fig.6 The data extraction takes as input a visualization(usually stored in bitmap format)and outputs the dataset used to generate the visualization

按是否需要人工介入以及人工介入形式,本文将图表挖掘相关的数据提取方法分为手工度量、图像处理、机器学习和混合驱动(mixed-initiative)4类。

1)手工度量。许多可视化反向工程工具通常提供手工进行数据提取的功能,作为通过自动或半自动方法进行数据提取失败时的后备选项。比如为从折线图中提取数据,需要用户手工定位坐标轴,指定坐标轴的比例尺,并标注折线上的转折点。

2)图像处理。图像处理算法可以用于从统计图表中自动检测视觉对象。这些算法通常是基于待处理的可视化的视觉特征设计的启发式方法。Savva等人(2011)用双边滤波平滑图像,并使用带容错阈值的连通分量检测以寻找候选视觉对象,根据连通分量与矩形的相似性、大小和颜色,对检测到的连通分量进行启发式过滤,最后使用过滤后的连通分量的属性从柱状图和饼图中提取数据。Nair 等人(2015)提出了一个从扫描文件中的折线图中提取数据的处理流程,对图像计算HOG(histogram of oriented gradient)和LBP(local binary pattern)特征,并训练SVM(support vector machine)以区分折线图与其余图像。对于折线图,他们用Hough 变换提取轴,通过文本检测提取图例,并根据颜色和运动方向追踪线条。这类启发式的图像处理方法一般仅适用于从简单常用的统计图表中提取数据,因为它们对可视化的视觉特征设定了各种假设和约束。

3)机器学习。设计启发式图像处理算法对于开发者很困难,而且启发式算法很容易出错。为了避免手工设计启发式算法,机器学习常用于构建提取数据的算法模型。手工设计的算法需要开发者硬编码参数值,而机器学习模型则从标注数据集中学习参数值。机器学习方法常用于图表类型分类和视觉对象分类。

图表类型分类结果可以直接用于下游应用,也可以作为中间结果,以便后续处理(如数据提取)可以按图表类型分类讨论。Savva 等人(2011)使用根据LBP 和HOG 特征训练的SVM 将对可视化位图进行10 分类。Poco 和Heer(2017)用图表图像的标注数据集,对预训练的AlexNet 进行微调后进行10分类。

视觉对象分类模型可用于区分编码数据的视觉对象与不相关的图像元素,也可用于区分视觉对象的类型。Huang 和Tan(2007)用手工设计的特征训练决策树,对文本元素按作用进行分类(如标题、数据标签和图例标签),并与柱状图、饼状图和线形图中的图形元素绑定。Siegel 等人(2016)将从线形图中提取线条的问题建模为寻路问题,使用CNN 优化寻路问题中的能量函数提取线条。Al-Zaidy 和Gile(2017)使用决策树和随机森林对图形元素和文本元素的作用进行分类,以便从柱状图中提取数据。Poco 和Heer(2017)用位置和长宽比等手工设计的特征训练SVM,用于按作用分类文本元素,并利用文本元素的作用和文本内容复原了图表的规约。

4)混合驱动。一些数据提取系统支持算法和用户的协作,使用半自动方法来平衡数据提取的准确率和用户负担。根据Horvitz(1999)的定义,这些数据提取系统可归类为混合驱动系统。iVoLVER支持用户从多个数据来源提取和转换数据,并构建新的可视化(Méndez 等,2016),使用标准的图像处理算法(如连通分量检测和形态学操作)来提取视觉对象。然后,用户需要手动指定提取的视觉对象的属性(如位置、长度或面积)以映射到数据。ChartSense允许用户调整图像处理参数(Jung 等,2017)。对于5 类图表,设计专门的交互式图像处理流程。用户可以指定关键的图表特征和文本信息,提供给数据提取算法。MI3 系统(如图7 所示)将数据提取建模为分类标注任务,通过主动学习从用户处获取数据标注,通过机器学习算法与用户协同进行数据提取,并通过主动学习和默认标注策略节省用户的交互开销(Zhang等,2021b)。

图7 MI3系统(Zhang等,2021b)Fig.7 MI3 system(Zhang et al.,2021b)

通过这些例子可以发现用户在混合驱动中干预的形式共有3 种模式,即调整算法参数、纠正算法输出以及提供中间结果。在调整算法参数模式中,系统可能支持用户调参后运行或重运行算法。用户需要或多或少了解算法,才能有效调参。在纠正算法输出模式中,系统可能支持用户直接修正算法产出的不正确的中间结果或最终结果(即提取的数据)。在ChartSense(Jung 等,2017)中,用户可以编辑由矢量化创建的多边形。在MI3(Zhang等,2021)中,用户可以通过提供数据标注,编辑算法的输出。在提供中间结果模式中,系统可能会将数据提取中算法难以处理的子任务留给用户手工处理,要求用户提供中间结果。例如,iVoLVER(Méndez 等,2016)要求用户指定编码数据的视觉通道。

目前,在数据管理方向上,以深度学习为代表的人工智能方法主要应用于科学数据的约减、超分辨率及重构。机器智能可以有效捕捉数据中的规律,并通过可视化结合专家的领域知识服务于科学假设的验证及科学规律的发现。随着科学智能AI4Science的发展,可以预见此类方法的应用将更为广泛。在技术路径上,最新工作的骨干网络逐渐从卷积神经网络向多层感知机转变。原因自然包括卷积神经网络参数量巨大,在面对体量本就庞大的高维科学数据时,需要更为轻量级网络支撑有效训练及快速推理。但更为重要的是,结构化网格本非对科学数据最优的表示空间,采用多层感知机将数据变换至隐空间可以更有效地拟合数据,从而提高计算任务的性能。计算空间的改进也给进一步研究如何提高网络面向多变量、多个模拟集合成员,乃至多个变量、多类任务时的泛化性能提供了可能。

随着智能化技术的发展,可视化的智能创建与生成受到学术界的大量关注。近几年涌现出多种不同类型的智能可视化创建与生成工具,具有很强的发展潜力。为了辅助不同需求和背景的用户进行可视化创作,智能可视化生成工具可以进一步分为智能辅助工具与智能自动生成工具(Chen 等,2022a)。智能辅助工具可以在用户创作过程中为用户提供一部分的推荐方案或引导用户创建可视化。智能自动生成工具可以对数据进行自动化分析与处理,无需用户干预即可自动生成一套完整的可视化设计方案。然而,现有的技术与工具还不能完全理解用户意图并提供具体叙事目标的可视化生成。在现有的研究基础上,如何使用自然语言生成算法来加强用户与智能工具之间的连接,如何使用数据驱动模型强化智能可视化工具,以及如何更有效地使智能可视化工具识别并预测用户的设计意图,都是未来重要研究方向。

在智能交互方向,国内外可视化研究团队针对多模态的可视化新型交互方式开展了广泛研究,取得了一系列进展。这些智能系统使用相应的机器学习方法对可视化交互中的图像和语言信息进行处理,降低了可视化交互流程在构建、查询和展示方面的门槛。然而现有方法中仍有许多流程采用基于规则的方法,限制了其可扩展性。未来将发展更好的支持可视化表达、信息转化的机器学习方法。

在可视分析中,深度学习模型近年来也扮演了重要角色。但是,目前大多数研究主要使用深度学习模型对数据进行预处理和数据挖掘,尤其是在对图像文本等复杂数据的处理中。可视分析其他模块结合深度学习目前研究较少,尽管有一些工作尝试与机器结合实现“人在回路”的迭代和更新,但由于深度学习模型训练时间长、过程复杂,能够进行高效交互的场景仍然有限。特别地,除了交互式地对可视分析系统模型进行更新,通过深度学习推荐分析内容也是一个重要的方向(Li 等,2022)。通过捕捉可视分析系统的交互信息能够为新手用户提供交互建议,增强了可视分析系统的易用性。

在应用层面,以图表数据为例,在上个世纪,文档分析与识别领域就已经开始了对于图表挖掘的研究(Futrelle 等,1992)。随着近年计算机视觉技术的快速发展,从图像域进行图表挖掘在算法层面的阻力越来越小,相信未来会有越来越多的智能图表挖掘技术及其相关下游应用涌现。此外,虽然可视化能以多种形式存储,除图像形式外还有代码段、网页等形式,但是如上文介绍,多数智能图表挖掘技术考虑以位图或矢量图为输入。对图像以外的其他模态的可视化存储形式的智能图表挖掘技术目前较少涉及,有巨大的发展潜力。例如,结合软件工程中的代码分析技术对以代码段形式存储的可视化进行挖掘。随着智能图表挖掘技术的逐渐成熟,如何通过图表挖掘技术辅助本文介绍的各类智能可视化技术将会日益重要。特别地,图表的挖掘与生成互为逆过程,两者紧密相关。图表挖掘技术可以反哺可视化的智能创建与生成,例如挖掘可视化的常见设计模式用于指导自动化的可视化生成。

致 谢本文由中国图象图形学学会可视化与可视分析专业委员会组织撰写,该专委会链接为http://www.csig.org.cn/detail/2546。

猜你喜欢图表可视化智能基于CiteSpace的足三里穴研究可视化分析世界科学技术-中医药现代化(2022年3期)2022-08-22基于Power BI的油田注水运行动态分析与可视化展示云南化工(2021年8期)2021-12-21基于CGAL和OpenGL的海底地形三维可视化海洋信息技术与应用(2020年1期)2020-06-11“融评”:党媒评论的可视化创新传媒评论(2019年4期)2019-07-13智能前沿文苑(2018年23期)2018-12-14智能前沿文苑(2018年19期)2018-11-09智能前沿文苑(2018年17期)2018-11-09智能前沿文苑(2018年21期)2018-11-09双周图表足球周刊(2016年14期)2016-11-02双周图表足球周刊(2016年15期)2016-11-02

老骥秘书网 https://www.round-online.com

Copyright © 2002-2018 . 老骥秘书网 版权所有

Top