散点图在信息图表中可能不会使用得太频繁,但它们肯定有其用途。
它们可以显示大量数据,并可以轻松看到变量之间的相关性和聚类效应。
作为一种快速概览和分析工具,散点图非常有价值,适用于几乎任何连续尺度数据。
不幸的是,散点图并不总是适合用来展示。有几个问题 巴西移动数据库 经常发生,在使用散点图进行分析或展示时最好注意每个问题。
散点图的工作原理是将一个维度放在垂直轴上,将另一个维度放在水平轴上。
每条数据都由图表上的一个点表示。散点图的变化为类别引入了不同形状或颜色的点,为定量数据引入了不同大小的点。
有时,人们使用饼图作为散点图中的点来显示更多具有部分-整体关系的数据。
散点图问题的主要原因是值的离散化。
当小数位四舍五入、测量值不够准确或数据字段是分类时,就会发生这种情况。
下面的散点图使用了关于汽车的标准化数据集。
此散点图的所有问题都源自 x 轴,即圆柱体数量。圆柱体的值太少,因此它实际上是用数字表示的分类尺度。
这会引起过度绘图问题,因此会有数百个值全部堆叠在一起。
这使得很难看到数据集中值的全部数量,并且由于 x 轴上的可能值太少,因此更难找到相关性和聚类。
如果您对散点图很执着,那么您几乎无法采取太多措施来补救这种严重的离散化情况,但在稍微好一点的情况下,可以采取一些可能的修复措施。
半透明是处理过度绘图的有力工具。
另一种可能的缓解技术是删除标记的填充。这两种方法各有优缺点,两者结合使用也会很有用。
不幸的是,这些方法并不是万能的。仍然有可能出现太多点或完美对齐的点堆积在不透明度范围之外的情况。
理想情况下,避免使用精度低或唯一值少的数据维度是防止这些问题的最佳方法。
有时数据并不属于散点图,而您应该将另一个维度可视化。
在下面的例子中,显示了两个连续的尺度,并且组的整体形状表明两个维度之间存在负相关性。
如果您确实需要显示分类数据,请考虑将其以颜色进行视觉编码。
下图确实存在唯一值计数较低的维度(数据来自Fisher's Iris Data),但它很好地展示了颜色如何帮助调出聚类。
散点图肯定存在局限性,其中大部分来自数据的特性。
然而,如果使用得当,它们非常适合概览、查找异常值以及显示某些维度之间的模式。对于数据可视化人员来说,合理使用散点图可能是一种非常有价值的工具。
德鲁·斯考 (Drew Skau)是北卡罗来纳大学学院 (UNCC)的一名心不在焉的计算机科学可视化博士生,拥有建筑学学士学位。