新浪博客

数据变换(Data Transformation)

2016-12-19 13:35阅读:
版权声明:本文为博主原创文章,未经允许不得转载。


数据变换(Data Transformation)也叫数据转换,是数据处理里面最常用的一项技术,广泛应用在数据分析与挖掘之中。一般来说,一个数据分析与挖掘项目通常60%甚至更多的时间会花在数据处理上。这也使得数据处理技巧成为了每一个数据分析师的必备功课。
数据处理,也叫数据预处理在大部分资料里形容数据准备、清洗、变换、精简、整理等一系列在进入数据分析前数据分析师对数据的所有动作。笔者则偏好把从数据源提取数据到数据处理到建模数据完全构建完毕的整个过程称为数据准备。第一种情况“数据准备”是“数据处理”的一个子项,意思比较狭隘;笔者偏好的情况“数据准备”则是包含数据整理、数据获取、数据理解、数据预处理、数据预分析等五个部分工作的统称,意思比较广阔。两种划分方式(描述方式)并无明显好坏之分,也不影响这些方法技巧的使用,纯属个人偏好,在此申明一下,希望在今后这个领域的行文里,不要引起读者不必要的误会。
下面介绍一下数据变换的几个常用手段:
1. 变量派生:这个技巧很常用,通过对原始变量简单的数学推导,生成一些有用的新变量,方便后续的计算和使用。最常见的一个例子:对出生日期这个变量进行派生,用当前日期减去出生日期,即得到一个”用户年龄“的新字段,显然后者比前者更加有用。再一个典型例子就是回归分析中的哑变量,就是一种派生变量。其它的常见的在电商领域的派生变量如:
  • 用户的月均消费次数、年均消费次数;
  • 用户的月均消费金额、年均消费金额;
  • 用户在特定类别里的消费在总消费里面的占比;
  • 用户下单付费次数占用户下单次数的比例;
  • 用户在线交易终止的次数与在线交易成功的次数的比率等等

2. 变量转换:除了变量派生,例如为了改变变量的分布,让其近似倒钟型曲线,提升模型自变量的预测能力,有时我们会对变量进行直接变换,常见的手段如下:取绝对值、取对数、取倒数、取指数、开平方、开平方根等
3. 分箱转换:另外一个常用的手段就是分箱转换,可以让我们把连续变量转换为类别变量,以便开展后续分析计算工作
4. 数据标准化:最基本的一个手段,很多算法需要去除数据的量纲差别,标准化就是必备处理。

我的更多文章

下载客户端阅读体验更佳

APP专享