跨媒体科技大数据的知识服务与交互可视化构件

来源:科普中国

摘 要

本文介绍了目前国内外跨媒体科技大数据知识服务与交互可视化构件的研究进展,梳理和分析了科技大数据知识服务构件的开放协同机制和跨媒体科技大数据的动态推演展示与交互可视化,最后对未来工作进行了展望。

关键字

科技大数据;知识服务构件;交互可视化

0 引言

科技资源呈现的数据规模大、多模态、更新快速、时效性高和价值密度较低等趋势,对有效获取和利用科技资源带来严峻的挑战,因此,发现跨媒体科技资源间关联关系,实现跨模态语义关联,并在此基础上提供知识服务和可视化至关重要。利用科技资源间的语义关联关系,将科技信息可视化,一方面可以利用科技实体进行搜索结果的排序优化,以提供更好的知识服务;另一方面可以用知识图谱的形式把科技资源中的实体概念和实体概念之间的关联关系可视化,帮助用户更好地获取检索结果信息,提高科技信息的检索性能。

知识服务构件开发技术将面向服务架构(SOA) 的思想引入构件开发技术中,SOA 是一种支持解耦、可协同性好的的应用软件开发方式。实现 SOA 思想目前主要有三种服务构件技术,分别是开放服务网关协议(OSGI)、服务组件架构 (SCA) 和 Java 业务集成(JBI),这些服务构件技术都有相对应的服务构件模型。

OSGI 是一系列用于面向服务框架的规范定义,开放服务网关协议允许所有的用户服务应用程序可以在同一个网络通信机器之间进行通信。常见的 OSGI 服务构件模型有SOCM。它是一种面向 Java 系统的、可动态变化的构件模型。知识服务构件可以通过开放服务网关协议实现服务构件之间的连接通信,参与连接的构件可以组装成一个 Bundle,再经过简单的拆除与组装,就可以开发需要的应用程序。

SCA 是 IBM、BEA 等软件公司在 2005 年联合发布的,是一种新规范,用于支持 SOA的实施。它是一个与网络通信交互协议、服务访问请求方式、程序开发语言都无关的服务构件模型。SCA 主要为用户提供的接口类型是WSDL,当然也有一部分 SCA 提供的是 Java 开发语言接口。通过 SCA 可以简单方便地封装现在流行的技术,比如 Springboot 技术、Spring技术、Dubbo 技术、SpringCloud 技术等,使之成为符合日常需求的服务构件。

JBI 是互联网技术服务公司 Sun 首次提出的,目的是构建一个规范的、开放的平台来实现 Java 企业级应用的集成。在 JBI 的统一框架下,用户可以自行集成满足开发规范的第三方软件公司实现的各种构件,用户植入所有的构件可以在 JBI 容器中相互通信、相互协作。JBI架构主要由服务引擎构件与服务绑定构件这两种重要的构件组成,服务引擎构件的主要功能是为插入的业务逻辑提供服务编排;服务绑定构件的主要功能是连接外部应用程序与 JBI 构件之间的通信。

跨媒体科技大数据的交互可视化主要有知识图谱类可视化、发展趋势类可视化、地域发布类可视化、事务流程类可视化、综合信息类可视化等类别,知识图谱类可视化主要用于展示研究主体之间的关联关系,同时可能通过叠加条形图或折线图等对科技信息可视化进行升级;发展趋势类可视化主要用于揭示论文、专利、技术主题等与时间的变化关系;地域发布类可视化主要用于展示地区的科研实力,通过配合热力图的使用,可以很快获知不同地区的科技能力;事务流程类可视化主要用于科技产品的发展周期和相应的变化情况;综合信息类可视化是现如今的发展趋势,主要用于大数据项目的展示,通过对科技信息的重要程度进行分级,分时展示各类科技信息。随着 ECharts插件的快速普及,基于 ECharts 技术的交互式数据可视化非常流行。基于 ECharts 技术的交互式数据可视化工具,可以方便地将科技信息转化为科技知识,同时为用户提供友好的界面。ECharts 工具可帮助用户更好地实现目标,并为用户提供良好的思路。跨媒体科技大数据的交互可视化在大多数情况下,信息以条形或饼图、折线图和其他度量等传统格式进行说明。但是,有时一些交互式数据可视化的高科技工具可提供对实时数据变化、趋势、统计显着性检验的即时图形响应。交互可视化的工具面板通常由仪表板或用户控制面板组成,其中包含用户关注的关键元素。这些仪表板通常排列有不同格式的各种信息块,可以提供图形和数字信息以进行分析。

1 科技大数据知识服务构件的开放协同机制

1.1 基于微服务知识服务构件的开放协同机制

通过使用微服务技术对知识服务构件进行开发是一类重要方法,该方法通过 RPC 远程调用完成服务之间的开放协同,使知识服务构件具有良好的可扩展性和开放性,可以实现知识服务构件的分布式运行,以及实现知识服务构件开发的协同开放。目前已开发的知识服务构件包括检索知识服务构件、实体关系识别服务构件、可视化服务构件。各个服务独立进行开发,完成开发后独立进行部署,服务上线后可以使用远程过程调用(RPC)框架或通用的 HTTP协议进行通信交互。基于微服务架构以服务为单位,拆分的粒度更细,更具有分布式和去中心化的特性。基于微服务的知识服务构件的服务定义,如图 1 所示。

图 1 基于微服务知识服务构件的服务定义

根据业务逻辑,可以将跨媒体科技大数据知识服务与交互可视化系统分解成三个微服务构件,构件之间通过轻量的 HTTP 协议进行通信。当用户需要访问知识服务构件时,一般先发送 http 请求,用户请求会先到达后台的负载均衡器;负载均衡器会利用负载均衡算法优化请求的分配,以免造成服务器的负载不均衡现象,提高了服务的可用性。依据用户请求的具体服务,分配到具体机器后,机器对请求进行处理,将处理结果发送给用户,这样就完成用户的一次相应请求。三个服务构件相互独立,每个构件都有自己的独立数据库,检索服务主要对应 Elasticsearch 索引数据库;实体关系识别服务主要对应 MySQL 关系型数据库;可视化服务主要对应 Neo4j 非关系型数据。每个服务构件可以独立开发、部署、运行,检索服务为用户提供跨媒体科技大数据的检索功能;实体关系识别服务为用户提供抽取文本中实体和关系的功能;可视化服务为用户提供搜索结果可视化、知识图谱等功能。

基于微服务架构对知识服务构件进行开发,使服务可以独立部署,开发人员对服务可以进行升级或更改,使构件的持续集成持续部署(CICD)成为可能,从而使知识服务构件的开发开放协同。基于微服务的知识服务构件开发的开放协同机制,使开发人员之间的友好协作变为可能,利用各种现代技术和工具减少开发人员之间的沟通障碍,真正实现软件从开发到最终上线的全过程自动化开发到运维的一体化。通过知识服务构件开发的开放协同机制,能够显著提升知识服务构件的开发效率,缩短交付周期,更加适应当今快速发展的互联网时代。

基于微服务的知识服务构件开发的开放协同流程主要由 Gitlab 代码仓库、Jenkins 持续 集 成 工 具、Docker 容 器、Harbor 镜像仓库、Kubernetes 容器集群管理系统五部分组成。程序开发人员在个人电脑上开发系统功能,开发完成并测试通过后,自行将代码上传到 Gitlab 代码仓库。Gitlab 通过程序员定义好的 Webhook 通知方式,当程序员 push 完代码,Jenkins 持续集成工具可以自动感知,并从 Gitlab 中实时 pull 最新版的代码。此时的Jenkins 会对最新代码进行编译检查。

编译成功后,可以自动进行单元测试等。成功通过这一系列操作后,说明开发的代码具备上线的条件。此时,Jenkins 持续集成工具会将代码打包成 Docker 镜像;打包成功镜像后,会将Docker 镜像 push 到 Harbor 镜像仓库;上传镜像成功后,Jenkins 会通知Kubernetes 对服务进行更新。Kubernetes 先是从镜像仓库中拉取镜像,然后进行迭代更新,以确保服务在更新的过程中不会中断。通过这些流程,保证知识服务构件的持续集成持续部署,从而实现开发开放协同。

1.2 基于对抗生成学习和语义相似度跨媒体科技大数据的检索知识服务

跨媒体科技大数据包含文本和图像数据。跨媒体数据具有特征异构性,实现跨媒体检索需要处理不同模态的数据,把文本和图像数据的特征映射到同一语义空间中,再根据语义相似度对检索结果进行排序,以实现跨媒体科技大数据的检索知识服务。跨媒体科技大数据的检索算法实现流程主要包括文本特征输入网络、图像特征输入网络、模态判别网络和特征映射网络(见图 2)。

图 2 跨媒体科技大数据的检索知识服务总体框架

输入一个(科技文本 - 科技图像 - 语义)三元组,首先对跨媒体科技文本和跨媒体科技图像进行提取特征,而后分别进入到文本特征映射网络和图像特征映射网络中,将得到的语义向量作为语义分布网络的输入;特征映射网络将同语义数据映射后的模态偏差和同模态数据映射前后的语义偏差最小化,使生成模型达到最优;模态判别网络将映射后数据原始模态判定的误差最小化,使判别模型达到最优;生成模型和判别模型通过对抗学习进行训练,最后都达到较好效果。

2 跨媒体科技大数据的动态推演展示与交互可视化

2.1 基于循环神经网络的动态推演展示

基于循环神经网络的动态推演算法是利用循环神经网络结构,将知识图谱中的实体和关系向量作为输入,结合上一时刻的状态进行计算,得到当前时刻的隐藏值,经过迭代运算,输出一个融合了知识图谱中的实体和关系的结果向量。利用该算法动态推演知识图谱中的关系数,为构建大规模的科技大数据知识图谱提供基础。

2.2 基于 ECharts 技术跨媒体科技大数据的交互可视化

基于 ECharts 技术的交互式数据可视化,主要是借助于图形化手段,将科技数据背后的规律展示给用户。基于 ECharts 技术的交互式数据可视化工具,可以方便地将科技信息转化为科技知识,同时为用户提供友好的界面。依靠强大的数据图形表示,用户可以实时查看、理解和分析数据趋势。跨媒体科技大数据的交互可视化通常以数字格式,呈现逻辑分析形式。ECharts 工具可帮助用户更好地实现目标,并为用户提供良好的思路。跨媒体科技大数据的交互可视化在大多数情况下,信息以条形或饼图、折线图和其他度量等传统格式进行说明。但是,有时一些交互式数据可视化的高科技工具,可提供对实时数据变化、趋势、统计显着性检验的即时图形响应。跨媒体科技大数据的交互可视化的其他种类可以包括思维导图。思维导图由随机链接在一起的各种元素组成,通常用于创造性头脑风暴和创新。大数据的交互可视化的常见示例可以包括从地理街道地图到网站使用趋势、跨媒体科技动态,以及全球 Internet 活动的所有内容。交互可视化的工具面板通常由仪表板或用户控制面板组成,其中包含用户关注的关键元素。这些仪表板通常排列有不同格式的各种信息块,可以提供图形和数字信息以进行分析。

图 3 基于实体和关系统计的科技大数据知识图谱实现流程

当用户输入关键词时,通过跨媒体检索知识服务构件得到科技文本结果。将科技文本进行预处理后,经过实体关系抽取模型就可以对现有的科技文本数据进行实体识别和关系抽取,为科技大数据知识图谱的构建提供最为重要的技术支持。在知识图谱的基础上,运用词频分析、共词分析、网络中心度、聚类分析等方法,结合数据统计与挖掘方法,通过各项统计指标反映技术的热度、组织或个人的影响力等科技实体隐藏在知识图谱中的知识,完成科技大数据知识图谱的构建。利用 Neo4j 图数据库存储已经获取的实体和实体关系,然后统计科技资源申请的组织或个人与技术实体的数量进行排序,最后利用 Echarts 技术进行可视化。基于实体和关系统计的科技大数据知识图谱的实现流程,如图 3 所示。例如,通过分析专利或论文等科技资源 , 了解企业所属行业的科技资源发表情况、同行业从业者的科技资源发表情况、新增同行者的科技资源发表情况、上下游合作者的科技资源发表情况、企业自身的科技资源发表情况等。通过统计搜索关键词相关的科技资源发表数量,可以绘制出每年科技资源(专利、论文)的发表趋势图,从而方便用户跟踪科技资源发表热点。

如图 4 所示,基于实现的科技资源发表的历年趋势图可以为用户提供良好的交互作用,通过缩放按钮实现数据缩放。当用户想要重点关注某些年份的数据时,只需要将横轴下方的开关向中间靠近;想要重点关注某些范围的数据时,只需要将纵轴附近的开关向中间靠近,横轴会自动进行相应变化。同时用户可以将所有数据表现形式都转换成折线图或柱状图,以折线图的形式展示历年科技资源发表数量,方便查看专利、论文、总数的变化趋势;以柱状图的形式展示历年科技资源发表数量,方便比较每年发表的专利、论文的大小。最后用户也可以通过右上方工具栏图标,实现对图形区域的缩放、原始数据浏览、数据更新与图片下载等功能,为用户提供丰富的操作功能,真正实现与用户的交互可视化。

图 4 科技资源发表的历年趋势图

3 结束语

跨媒体科技大数据知识服务与交互可视化构件的开发受到关注,知识服务的内容和可视化形式日益多样化。但是,跨媒体展示时由于需要将搜索内容进行语义空间映射,以及进行语义相似度计算并排序,导致展示一个条目会耗费大量的时间,而且目前已有系统界面的展示还有待调整和优化,在系统的逻辑交互和健壮性方面还需进一步加强。

(参考文献略)

选自《中国人工智能学会通讯》

2021年第11卷第5期

科技大数据理论和技术专辑

关键词: 科技信息 主要用于 实体关系

推荐

精彩放送

创投更多》

科技更多》

云计算