当前位置: 首页 > 新闻资讯 > python可视化每日练习:销售表现的视觉剖析

python可视化每日练习:销售表现的视觉剖析

发布时间:2024-04-02 10:05:21

  1. 数据可视化的16个经典案例
  2. 如何利用数据可视化,在地图上分析销售网络
  3. 电商销售数据分析案例(Oracle)

一、数据可视化的16个经典案例

[数据可视化]

本文编译自:ross crooks

数据可视化是指将数据以视觉的形式来呈现,如图表或地图,以帮助人们了解这些数据的意义。通过观察数字、统计数据的转换以获得清晰的结论并不是一件容易的事。而人类大脑对视觉信息的处理优于对文本的处理——因此使用图表、图形和设计元素,数据可视化可以帮你更容易的解释数据模式、趋势、统计数据和数据相关性,而这些内容在其他呈现方式下可能难以被发现。

数据可视化可以是静态的或交互的。几个世纪以来,人们一直在使用静态数据可视化,如图表和地图。交互式的数据可视化则相对更为先进:人们能够使用电脑和移动设备深入到这些图表和图形的具体细节,然后用交互的方式改变他们看到的数据及数据的处理方式。

我们必须用一个合乎逻辑的、易于理解的方式来呈现数据。但是,并非所有数据可视化作品的效果都一样好。那么,如何将数据组织起来,使其既有吸引力又易于理解?让我们通过下面的16个有趣的例子获得启发,它们是既注重风格也注重内容的数据可视化经典案例。

1:为什么会有“巴士群”现象

这里有一个关于复杂数据集的很好的例子,它看起来感觉像一个游戏。在这个例子里,setosa网站为我们呈现了“巴士群”现象是如何发生的,即当一辆巴士被延迟,就会导致多辆巴士在同一时间到站。

只用数字讲述这个故事是非常困难的,所以取而代之的是,他们把它变成一个互动游戏。当巴士沿着路线旋转时,我们可以点击并按住一个按钮来使巴士延迟。然后,我们所要做的就是观察一个短暂的延迟如何使巴士在一段时间以后聚集起来。

2:世界上的语言

这个由densitydesign设计的互动作品令人印象深刻,它将世界上众多(或者说,我们大多数人)语言用非语言的方法表现出来,一共有2678种。

这件作品可以让你浏览使用共同语言的家庭,看看哪些语言是最常用的,并查看语言在世界各地的使用范围。这是一种了不起的视觉叙事方法:将一个有深度的主题用一种易于理解的方式进行解读。

3:按年龄段分布的美国人口百分比

应该用什么方式去呈现一种单一的数据?这是一个令人信服的好榜样。

pew research创造了这个gif动画,显示人口统计数量随着时间推移的的变化。这是一个好方法,它将一个内容较多的故事压缩成了一个小的动图包。此外,这种类型的微内容很容易在社交网络上分享或在博客中嵌入,扩大了内容的传播范围。

4:nfl(国家橄榄球联盟)的完整历史

体育世界有着丰富的数据,但这些数据并不总是能有效地呈现。然而,fivethirtyeight网站做得特别好。

在下面这个交互式可视化评级中,他们对国家橄榄球联盟史上的每一场比赛计算“等级分” – – 根据比赛结果对球队实力进行简单的衡量 。总共有超过30,000个评级,观众可以通过比较各个队伍的等级分来了解每个队伍在数十年间的比赛表现。

5:google flights 上的美国感恩节

下面是将一段时间内在空中移动的物体进行可视化的好方法。这是由google trends驱动的项目,它跟踪感恩节前出发、到达和穿越美国的航班。

可视化始于当天很早的时间,随着时间的推移,像播放电影一样显示在全国各地飞行中的航班。不需要显示时间外的任何数字,观众即可以看到当天哪段时间是国际航班、国内航班以及往返于全国各地不同枢纽的航班的热门时间。

6:是什么真正造成了全球变暖?

我们都知道,“不要只简单地展示数据,讲个故事吧”。这正是彭博商业正在做的可视化 ——用互动的方式来讲述故事的来龙去脉。。

此图的关键是要反驳用自然原因解释全球变暖的理论。首先你会看到从1880年至今观测到的温度上升情况。为了使故事内容更加丰富,当你向下滚动时,这个可视化图会让你清楚的了解到相较于已被观测到的因素,造成全球变暖的不同因素到底有多少。作者希望观众能够得到非常清晰的结论。

7:在叙利亚,谁和谁在战斗?

许多不同的团体之间的关系可能令人很难理解 – 尤其是当有11个这样的团体存在的时候。这些团体之间有的结盟,有的敌对,反之亦然。这让人难以理解。

但是,slate网站通过表格的形式和熟悉的视觉表达,将这些数据简化为一种简单的、易于理解和可交互的形式。观众可以点击任一张脸来查看双方关系的简要描述。

8:最有价值的运动队

这是通过叠加数据来讲述深层故事的一个典型例子。

这个交互由column five设计,受福布斯“2014年最具价值的运动队50强”名单得到的启发。但是它不仅将列表可视化,用户还可以通过它看到每支队伍参赛的时间以及夺得总冠军的数量。这为各队的历史和成功提供了更全面的概况信息。

9:美国风图

下面是一个类似感恩节航班的可视化图,除了图中显示的时刻,它还能实时显示美国本土的风速和风向。

它是直观设计的一个很好的案例:风速用线条移动的快慢来表示,方向通过线条移动的路径来表示。它会即时显示美国风向的总体趋势,无需任何数字,除非你在地图上点击鼠标。另外,使用时设定最多两个变量会使它更容易操作。

10:政治新闻受众渠道分布图

据pew研究中心称,当设计师在信息内容很多又不能删的时候,他们通常会把信息放到数据表中,以使其更紧凑。但是,他们在这里使用分布图来代替。

为什么呢?因为分布图可以让观众在频谱上看到每个媒体的渠道。在分布图上,每个媒体的渠道之间的距离尤为显著。如果这些点仅仅是在表中列出,那么观众就无法看到每个渠道之间的对比效果。

11:著名创意人士的日程安排

这个数据可视化图是用奇特的想法描绘出的一个简单概念。这个表格利用mason currey的《日常惯例》一书中的信息展示了那些著名创意人士的日程安排,解读其时间和活动安排。这不仅是一个数据分析的例子(因为你可以通过单独的活动来浏览日程安排),也是一个品牌宣传的佳作。

12:今年发生了哪些新闻?

最好的数据可视化方式,就是用直观和美丽的方式传达信息。echelon insights致力于这一方式,将2014年twitter上最受关注的新闻进行了可视化。

1亿8450万条推文是什么样子?就是如下图所示的艺术品。

13:问题的深度

当你想强调规模的时候,静态数据可视化是表达你的观点的极佳方式。下面这张来自《华盛顿邮报》的信息图长得令人难以置信…这是故意的。他们在图中展示了一架飞机可以探测到的深海信号是多么的深,通过比较飞机的探测深度与高层建筑、已知哺乳动物的最大深度、泰坦尼克号沉船的深度等。这是简单的视觉效果和颜色梯度的极佳使用方式。

最后,将数据添加到新闻报道中(文中为失踪的马航)是提供背景的好方式。

14:前沿预算

上述图表相对简单,以下是创造设计精致的、传递大量数据的图表的方法。秘诀何在?——用简单和干净的格式,便于读者理解数据。

这个由good magazine 和 column five制作的图表,解读了nasa的五年预算,显示资金将怎么花、花在哪里。此外,它还有一个主题设计,这真是一个全面成功的作品!

15: kontakladen慈善年报

不是所有的数据可视化都需要用动画的形式来表达。当现实世界的数据通过现实生活中的例子进行可视化,结果会令人惊叹。设计师marion luttenberger把包含在kontakladen慈善年报中的数据以一种独特的方法表现出来。

该组织为奥地利的吸毒者提供支持,所以luttenberger就通过现实生活中的视觉元素来宣传他们的使命。例如,这辆购物车的形象表现出受助者每一天可以负担得起多少生活必需品。

16:奥地利太阳能年报

虽然有许多方法都能使数据可视化,但是其中,使用真实信息主体去创建数据可视化作品的做法非常了不起。这份来自austria solar的年度报告,通过在页面上使用太阳光感墨水,用真正的太阳能给公司数据赋予生命。

一句话总结:他们是天才。

二、如何利用数据可视化,在地图上分析销售网络

用表单大师的视图分析,可以要求你各种的需求

三、电商销售数据分析案例(Oracle)

数据来源于kaggle的电商数据集 the uci machine learning repository ,英国在线零售商在2010年12月1日到2011年12月9日的在线销售数据,该电商公司主要以销售各类礼品为主,多数客户都是批发商。

使用oracle 对数据进行处理与清洗,通过rfm模型、复购率、消费生命周期等对用户维度进行分析,利用abc分类、退货率等维度展开剖析,结合excel图表进行可视化展示,为精准营销与个性化服务提供支持。

根据分析目的选择字段,数据集共8个字段,如果表格字段较多,视情根据分析目的的需要选择合适的字段。

创建备用表new_ecommerce,将旧表的数据去重添加进备用表。原有数据541909条, 去重后数据536641条,删除重复值5268条。

检查缺失值

customerid存在缺失值135037条,description出现缺失值1454条。数据都很大,不可能全部删除。description产品描述不是项目分析,不用处理。

在实际工作中,像customerid客户id缺失,首先找业务部门或者数据来源部门确认信息并且补上。本项目只有单一数据,无法找到相关人员确认,暂且把null值替换为0。

5.1检查日期是否在范围内(2010年12月1日到2011年12月9日)

交易成功,销量不可能为负值或零值。如果销量为零或者负值情况,那么需要和业务/数据来源部门确认具体的原因。这里假设出现负值是客户退货情况。

检查发现交易销量小于0的发票编号大都是"c”开头的,有部分异常销量小于0但不是以"c"开头,这里做删除处理。

检查发现有单价为0的免费单,共计1174。暂且不分析免费单,直接删除免费单的数据。

检查发现两笔坏账,单价都是负值,故把它删除。

根据分析目的,我们处理invoicedate日期数据。这里只做日期分析,不分析小时分钟,故转换为日期格式。

根据分析目的,本次分析将采用rfm模型

在rfm模式中:

r:最近一次消费时间(最近一次消费到参考时间的间隔)

f:消费的频率(消费了多少次)

m:消费的金额 (总消费金额)

一般的分析型rfm强调以客户的行为来区分客户。

根据最近一次消费与客户数的分析结果显示最长的天数差是373天,最短0天;80%的客户在200天内都有交易记录,说明客户忠诚度不错。

分析显示,10次交易记录以内的客户占绝大部分,说明客户是很认可产品和服务。

在2010年12月1日到2011年12月9日期间,交易金额主要集中在 1000英镑以内和1000-3000英镑这两个范围内。

分析发现,该电商平台总交易客户数4372位。交易客户中,一般发展客户(可以说是新客户)最多,占总数的34%,其次是一般挽留客户(流失客户)29%,重要发展客户22%,重要价值客户10%,重要挽留客户5%和重要挽回客户0.16%。

每月新客数量及其占比

每月的新老客户的销售数量与销售金额

用户生命周期 = 最近一次购买时间 - 第一次购买时间

商品退货分析

结合abc分类进行分析,选取退货率大于均值且为a级的商品(主要是综合上文提及的abc分类和退货率计算,通过创建view的形式进行联结后筛选,创建退货率视图为view_return_rate,abc分类视图为view_class),这里筛选出64个商品。

Top