数据清洗示例场景
💡 注:该功能暂未正式对外发布,仅内测用户可用。
1. 简介
1.1 数据清洗的必要性
数据清洗是数据预处理的关键步骤,其主要目的在于将“脏数据”转化为“干净的数据”,以确保数据质量,并降低数据分析过程中出现的误差和偏差。
当数据中存在缺失值、异常值、以及重复数据等问题时,需要采取纠正措施。如果不进行数据清洗,数据中可能会包含不准确或不一致的信息,这将影响进一步的数据分析工作,甚至可能导致制定基于这些数据的错误决策。
因此,数据清洗是确保数据可靠性和分析准确性的必要步骤。
1.2 实现场景
本文介绍一个清洗数据的场景,结合使用数据分析中的多个功能,为大家提供清洗数据的一些思路。
清洗前的数据:产品及品牌在一个字段值中,无法进一步分析各产品销量;日期字段中包含星期内容,无法对日期进行分组....
清洗后的数据:获取到订单时间、订单中的品牌以及购买的产品,可以进一步分析每月的产品销量情况等等
2. 操作步骤
点击安装示例数据:学习数据.xlsx
2.1 创建分析表
下载示例数据并上传至本产品,将数据保存在项目中,点击「创建分析表」。如下图所示:
2.2 获取日期字段
1)「订单时间」字段值中包含星期的信息,无法统计每月、每年的销量,因此需要将左边的日期值提取出来。
2)点击「+ >> 替换字段 >> 公式」直接将原有字段替换掉。如下图所示:
3)替换字段选择「订单时间」,点击编辑配置按钮。如下图所示:
4)观察「订单时间」字段,需要将左侧的日期截取出来。使用 LEFT 函数,编辑公式:LEFT([订单时间],10)。并将输出的字段类型更改为「日期类型」。如下图所示
5)处理后的「订单时间」字段就变成可进一步分析的「日期」类型了。如下图所示:
2.3 拆分「产品名称」字段
1)销售的产品存储在「产品名称」中,观察一下字段格式,字段值格式为:品牌 产品,特点。这种规律性的字段可以使用「字段拆列」来进行拆分。
2)添加一个「字段拆列」步骤,将「产品名称」按分隔符拆分,字段值中包含「空格」及「,」,那么选择这两个字段值。设置完后点击「确定」,如下图所示:
3)设置好后,可以将「产品名称」字段拆分成三列。如下图所示:
2.4 字段设置
1)2.3 节拆分出的字段,只需要保留产品信息。添加一个「选字段」步骤,将不需要的字段取消勾选。如下图所示:
2)添加一个「字段重命名」步骤,对拆分的字段重命名一下。如下图所示:
2.5 查看数据概览视图
1)对数据基本处理后,可以切换到「数据概览视图」进一步查看数据的情况。如下图所示:
2)在概览视图中查看数据的整体情况,是否存在空值、错误值、错误的值等。比如查看到「数量」字段有负值存在,可能原始数据录入错误。那么就需要将负号去除掉。如下图所示:
2.7 去除负号
1)再点击「+ >> 替换字段 >> 公式」,对「数量」字段进行编辑。如下图所示:
2)输入公式:TONUMBER(IF(LEFT([数量],1)="-",RIGHT([数量],LENB([数量])-1),[数量])),可以将数据中的「-」去除掉。如下图所示:
3)再次查看数据概览视图,「数量」字段已经没有负值了,其他数据也没有异常情况,可以进行下一步的分析。