41、整理篇——清洗单位不统一的时长
数据清洗全流程。备份数据源、处理无意义字段、规范列命名、单元格格式、删除重复值、复合属性处理、一致化处理、异常值处理、缺失值处理、数据排序。
定位和处理缺失值
(1)如何找到缺失值。
(2)处理缺失值的方法。A大标题字段缺失,人工判断和补全;B同列相同内容缺失,根据上下文判断,并批量填充;C如果缺失值难以找到来源和参考,可以使用平均值进行替代。D如果缺失值难以找到来源和参考,可以使用平均值进行替代。E如果数据缺失过多,且对分析帮助不大,可以选择删除整条数据。
定位和处理异常值
(1)什么是异常值:异常值指的是样本中某些明显偏离其余数值的个别数值。
(2)异常值如何产生:第一由于数据来源多样化,在导入和迁移的时候,单位容易混淆;第二是手工录入的时候误操作。
(3)如何找到异常值:筛选排序法和标准差法。
(4)处理异常值的方法:A手动修正和补全。B整体删除异常数据。C有一种异常值看起来反常,但真实数据可能就是这么夸张,保留,保持数据的多样性。
42、整理篇——多个数据表的合并
多个工作表合计
(1)使用快捷键alt+d+p打开窗口——多重合并计算数据区域——所需创建的报表类型——数据透视表——下一步——自定义字段——选择区域——添加——下一步——选择新工作表。
(2)Power Query:数据——获取和转换数据——获取数据——自文件——从Excel工作薄——待合并工作表——导入——转换数据——进入Power Query编辑器——删除Item、Kind和Hidden——取消勾选使用原始列名作为前缀——确定——将第一行用做标题——取消勾选不需要的文本——关闭并上载。
多个工作薄合并
(1)工作表名称一致:数据——获取数据——来自文件——从文件夹——找到文件夹——打开——选择组合——合并并转换数据——源名称——替换值——输入“分数工作薄”——替换为空白——确定——关闭并上载。
(2)
插件。方方格子,有合并多表、合并多薄、拆分工作表、拆分工作薄
数据清洗全流程。备份数据源、处理无意义字段、规范列命名、单元格格式、删除重复值、复合属性处理、一致化处理、异常值处理、缺失值处理、数据排序。
定位和处理缺失值
(1)如何找到缺失值。
(2)处理缺失值的方法。A大标题字段缺失,人工判断和补全;B同列相同内容缺失,根据上下文判断,并批量填充;C如果缺失值难以找到来源和参考,可以使用平均值进行替代。D如果缺失值难以找到来源和参考,可以使用平均值进行替代。E如果数据缺失过多,且对分析帮助不大,可以选择删除整条数据。
定位和处理异常值
(1)什么是异常值:异常值指的是样本中某些明显偏离其余数值的个别数值。
(2)异常值如何产生:第一由于数据来源多样化,在导入和迁移的时候,单位容易混淆;第二是手工录入的时候误操作。
(3)如何找到异常值:筛选排序法和标准差法。
(4)处理异常值的方法:A手动修正和补全。B整体删除异常数据。C有一种异常值看起来反常,但真实数据可能就是这么夸张,保留,保持数据的多样性。
42、整理篇——多个数据表的合并
多个工作表合计
(1)使用快捷键alt+d+p打开窗口——多重合并计算数据区域——所需创建的报表类型——数据透视表——下一步——自定义字段——选择区域——添加——下一步——选择新工作表。
(2)Power Query:数据——获取和转换数据——获取数据——自文件——从Excel工作薄——待合并工作表——导入——转换数据——进入Power Query编辑器——删除Item、Kind和Hidden——取消勾选使用原始列名作为前缀——确定——将第一行用做标题——取消勾选不需要的文本——关闭并上载。
多个工作薄合并
(1)工作表名称一致:数据——获取数据——来自文件——从文件夹——找到文件夹——打开——选择组合——合并并转换数据——源名称——替换值——输入“分数工作薄”——替换为空白——确定——关闭并上载。
(2)
插件。方方格子,有合并多表、合并多薄、拆分工作表、拆分工作薄
