新浪博客

weka中的数据预处理——标准化(standardize)和规范化(Nomalize)

2013-07-25 10:16阅读:
在weka中数据预处理包括:数据的缺失值处理标准化规范化离散化处理


1.数据的缺失值处理: weka.filters.unsupervised.attribute.ReplaceMissingValues。 对于数值属性,用平均值代替缺失值,对于nominal属性,用它的mode(出现最多的值)来代替缺失值。


2.标准化(standardize):
类weka.filters.unsupervised.attribute.Standardize。标准化给定数据集中所有数值属性的值到一个0均值和单位方差的正态分布。


3.规范化(Nomalize):
类weka.filters.unsupervised.attribute.Normalize。规范化给定数据集中的所有数值属性值,类属性除外。结果值默认在区间[0,1],但是利用缩放和平移参数,我们能将数值属性值规范到任何区间。如:但scale=2.0,translation=-1.0时,你能将属性值规范到区间[-1,+1]。


4.离散化(discretize):
类weka.filters.supervised.attribute.Discretize和weka.filters.unsupervised.attribute.Discretize。分别进行监督和无监督的数值属性
的离散化,用来离散数据集中的一些数值属性到分类属性。


更详细参照:http://www.cfanz.cn/?c=article&a=read&id=4193

我的更多文章

下载客户端阅读体验更佳

APP专享