摘要:由此观之,实现桑基图的核心在于计算出以上的这些点坐标。减少边交叉当数据量到一定程度的时候,桑基图中的边会出现重叠现象,造成一定的视觉混乱。综上,桑基图是一个展现数据流非常好用的视图,感兴趣的同学可以自己实现一个试试。
原文地址:https://geekplux.com/2018/08/28/how-to-implement-sankey-diagram.html什么是桑基图
Google 搜索桑基图,可以搜到一大堆定义。简而言之,桑基图是一种数据流图,展示了数据是如何从左到右流向最后的节点,每条边代表一条数据流,宽度代表数据流的大小。桑基图常用于流量分析,可以很清楚的看出数据是如何渐渐分流的。本文着重讲解如何实现,理论方面的东西各位可以自行了解。
实现桑基图的关键点关键点有两个:
1. 坐标计算桑基图要展现的数据流,算是图(拓扑类、网络型或关系型)数据的一种。实现一个数据可视化图,最重要的就是拆解元素。而实现一个图数据可视化,则最重要的是分清“节点”和“边”。
拆解元素之后,最重要的便是坐标的计算,这里包括点和边的坐标。而图形中,任何的元素都可以看作是点连线而成,所以元素坐标的计算实际上就成了点坐标的计算。比如桑基图中,节点是一个矩形,那么只需计算两个点(左上和右下)的坐标(x0, y0),(x1, y1)便可确定;边是一个带形,需要计算四个端点才能确定,带形的弧度则可由简单的三次贝塞尔曲线计算得来。
由此观之,实现桑基图的核心在于计算出以上的这些点坐标。其实实现任意一种可视化都是计算点的坐标。
2. 减少边交叉当数据量到一定程度的时候, 桑基图中的边会出现重叠现象,造成一定的视觉混乱。如何减少可以阅读本文第二节。
一、坐标计算的实现 准备工作 设计数据结构经典的图数据结构一般是邻接矩阵和邻接表,我们也可以自己设计。我在做拓扑数据可视化的时候,会先和后端或数据同学商定好我需要拿到的数据结构,通常是这个样子:
{ nodes: [ { foo: bar }, { foo: baz }, ... ], links: [ { source: 0, target: 1, value: 100 }, { source: 1, target: 2, value: 10 }, ... ] }
而我拿到之后要做的第一步就是先把 nodes 和 links 串联起来,这里每个 link 的 source 和 target 分别是 nodes 的下标,当然你也可以设置其他的引用(指针),总之通过引用讲两者串联起来,变成:
{ nodes: [ { foo: bar, column: 0, // 节点所在第几列 row: 0, // 节点所在第几行 value: 100, // 节点数据流大小 sourceLinks: [ { source: 0, target: 1, ... } ], targetLinks: [ ... ] }, ... ], links: [ { source: 0, target: 1, value: 100, sourceNode: { foo: bar, column: 0, row: 0, ... }, targetNode: { ... } }, ... ] }
这样,对于某个节点来说,可以直接用 O(1) 的时间复杂度访问到它的任意相邻节点。
计算节点数据流大小这里的计算方法可自己定,通常是取该节点入边和出边的数据流大小之和的最小值。
计算节点所在行列在桑基图的计算中,我们还需要进行一个关键的计算——计算节点在桑基图中的第几行第几列。
第几列的计算,即为节点在图中的深度计算:
入度为 0 的节点深度为 0,在第一列
出度为 0 的节点深度最大,在最后一列
其余节点的深度为他相连源节点的最大深度加 1
第几行的计算,涉及到排序的问题,通常某一列中的节点都是按节点数据流大小,从大到小排序。
节点坐标计算刚才我们说过,坐标计算可以分为两部分:节点和边。其中,边的坐标位置依赖于节点的坐标,所以应该先计算节点坐标。
但在计算坐标之前,首先要明确一个问题:是否限定视图的宽高。这个问题引申出两种节点坐标的计算方式。
不限定视图宽高如果不限定宽高,那么节点坐标的计算步骤很简单:
设置一个节点的宽度
设置节点的水平间距
从左至右,根据刚才计算出的节点所在第几列,计算出节点的横坐标(x0, x1),初始的 x0 为 0
设定一个比例尺函数(多大的数据流对应屏幕上的多少像素,通常是首先设定一个节点最小高度和一个节点最大高度,然后找出所有节点数据流的最小和最大值,映射成一个定义域为节点数据流大小,值域为节点高度的函数)
通过比例尺计算出节点高度
设置一个节点垂直间距
从上至下,根据刚才计算出的节点所在第几行,计算出节点的纵坐标 (y0, y1),初始的 y0 为 0
大致是这个思路,横坐标的计算取决于两个值,节点宽度和 节点水平间距;纵坐标的计算取决于 节点的数据流大小 和 节点垂直间距。
具体的计算代码,可根据你自己的数据结构来调整。
限定视图宽高如果限定宽高,那么计算步骤需要换个思路:
节点的宽度和节点的水平间距需要根据节点的列数和视图宽度来计算,你可以自己手动调整也可以设计个算法来算
从左只有,根据节点宽度和节点水平间距,计算出节点横坐标
设定一个比例尺函数,计算出节点的高度
设置一个节点垂直间距
通过高斯-赛德尔迭代(Gauss–Seidel method)计算出纵坐标(大致的思路是,先根据前两步的数值算出一个初始节点坐标,如果总体布局超出视图的下界,则节点高度和节点垂直间距都按比例缩小(如 0.95),并同时上移 n 个像素,如果总体布局超出视图上界,则节点高度和垂直间距都按比例缩小,并同时下移 n 个像素,直到总体的桑基图布局适应一开始限定的视图宽高)
这个思路是 d3-sankey 的实现思路。如果你有限定视图宽高的需求,那么可以直接使用 d3-sankey。
边的坐标计算只要确定了节点坐标,边的坐标可以根据它源节点和目标节点的坐标来算出:
对于一个节点,将它的出边和入边进行排序(排序方法通常是根据相连节点在第几行从上到下排,也可以通过一些其他排序方法减少边的交叉,具体在第二节介绍)
计算每个节点中单位数据流占节点高度的比例
根据出边入边的数据流大小,乘上一步计算出的比例,则可得到每条边左右两边的高度
从上到下,计算每条边的纵坐标
每条边四个端点的横坐标分别对应源节点和目标节点的横坐标
以上操作可以通过遍历每个 node 的 sourceLinks 和 targetLinks 来计算。得到边的四个端点以后,就可以算出三次贝塞尔曲线的控制点了:
二、如何减少交叉通常要减少边的交叉,可以采用下面两种方法:
均值排序
sugiyama 算法
均值排序这个名字是我自己起的。。不过这个方法很实用有效。
对于每个源节点来说,都有相连的目标节点。这里的“均值”指的是所有相连目标节点所在行数的平均值(所有目标节点的行数相加,除以目标节点个数),这个平均值可以大致描述该节点每个出边的位置。每条出边都有这样一个值,这个值越小,则说明该出边要连接的目标节点的位置越靠上,反之越靠下。所以可根据这个值,从小到大排出出边在该节点上从上到下的位置。
三、具体项目中的交互我参与的 UBA (User Behavior Analytics 内部项目) 项目中,正好用到了桑基图。除了上述的图形绘制之外,主要复杂的是交互。
如图所示,除了基本的 hover 交互之外,项目中主要还有
minimap 拖拽和刷选
主视图的拖拽和缩放
左下角的过滤器
点击交互,高亮只经过选中节点的路径,并且边上高亮的部分由最后一个选中节点懈怠的数据流值确定,其余部分半透明
整个桑基图实现下来发现绘制只是一些计算,交互才是更难抽象和处理的部分。
综上,桑基图是一个 展现数据流非常好用的视图,感兴趣的同学可以自己实现一个试试。除了我文章中这些基本的桑基图布局,你还可以试试其他变种,另外交互方面也可以突破刚才我提到的那些,比如我之前实现过点击节点进行折叠/展开的交互。总体来说可视化还是一个比较有意思的方向。
本作品采用知识共享 署名-非商业性使用-禁止演绎 4.0 国际 许可协议进行许可。
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/100332.html
Python pyecharts可以绘制的图形还是比较的多的,比如可以用来可以绘制各种各样的图形,应用到多种不同的场合,那么,怎么用Python pyecharts去绘制基图呢?怎么快速的去绘制呢?下面就给大家详细解答下。 桑基图 桑基图(Sankey diagram),即桑基能量分流图,也叫桑基能量平衡图。它是一种特定类型的流程图,图中延伸的分支的宽度对应数据流量的大小,通常应用于能源、...
摘要:概述我非常认同前百度数据工程师现神策分析创始人桑老师最近谈到的数据分析三重境界统计计数多维分析机器学习数据分析的统计计数和多维分析,我们通常称之为数据探索式分析,这个步骤旨在了解数据的特性,有助于我们进一步挖掘数据的价值。 showImg(https://camo.githubusercontent.com/f98421e503a81176b003ddd310d97e1e1214625...
摘要:这些功能和词汇听起来非常复杂,似乎对业务人员要求很高,但像网易有数这样的敏捷可视化分析工具不仅具备这样的能力,而且易学易用,业务人员只需简单拖拽,就能轻松制作出兼具敏捷分析与精美展示的报告。 欢迎访问网易云社区,了解更多网易技术产品运营经验。 在回答小企业是否需要数据分析这个问题之前,不妨先想想下面两个问题: 你在电脑上建过表格吗? 你基于表格中的数据画过柱形图、饼状图、折线图吗? 可...
摘要:概述是一个基于和的数据可视化分析包,适用于图表,制作。目前支持的组件主依赖安装使用建议使用搭建环境,以下只针对标准环境。图及其他图标支持的数据类型请见项目主页。 Vs 概述 Vs 是一个基于 d3.js 和 vue.js 的数据可视化分析包,适用于图表,dashboard 制作。 Github Repo 目前支持的组件 d3Bar d3Line d3Pie d3ProgressArc...
摘要:徐盛测试中心总监。移动互联的到来给测试带来了哪些挑战徐盛开发移动应用确实给我们的开发和测试人员都带来了新的挑战。测试管理的难点在哪几个方面徐盛测试管理在项目级别和组织级别各有不同的难点。 2016年7月22日,「HPE&msup软件技术开放日」将在上海浦东新区,张江高科技园区纳贤路799号科荣大厦小楼2楼举办,msup携手HPE揭秘全球测试中心背后的12条技术实践。 徐盛:HPE测试中...
阅读 2572·2021-11-02 14:39
阅读 4298·2021-10-11 10:58
阅读 1388·2021-09-06 15:12
阅读 1802·2021-09-01 10:49
阅读 1292·2019-08-29 18:31
阅读 1859·2019-08-29 16:10
阅读 3298·2019-08-28 18:21
阅读 837·2019-08-26 10:42