什么是数据降维?关于这个问题,很多大师的说法都非常学术,估计很多普通人听不懂。所以,这里用通俗的语言解释一下,希望更多的人能理解。
假设一个小学的班级有5个学生,每个人有2们考试成绩,语文和数学。A同学的语文是100分,数学是100分;B同学的语文是90分,数学是100分;C同学的语文是80分,数学是100分;D同学的语文是70分,数学是100分;E同学的语文是60分,数学是100分。
对这个场景,我们要注意到,每位同学的数学成绩都是一样的,都是100分。
这时,如果我们提到“语文是80分,数学是100分的那个同学”,你一定知道我们指的一定是同学C。
但是,如果我们只说“语文是80分的那个同学”,你是不是也知道我们指的一定是同学C!
这就是一个将二维数据降维到一维数据的例子,因为大家的数学都是100分,所以每个同学的数学数据对区分同学之间的差异没有任何价值,仅仅使用语文数据(即一维数据)就足够了,而且用来区分同学100%够用。
所以,做数据分析时,常说的,如果一个维度的数据在各个样本之间的差异很小(用专业的话说就是方差很小)的话,这个数据维度就越没有价值。只有在各个样本之间的差异很大的数据维度(用专业的话说就是方差很大的维度),才值得保留。
这是一个非常浅显易懂的例子。如果稍微加入一些专业的东西的话,我们可以用一个二维坐标系来表示这5位同学,x轴代表语文的分数,y轴代表数学的分数,他们的坐标分别是:A(100,100), B(90,100), C(80,100), D(70,100),
E(60,100)。
你看到了什么?没错,它们都位于y=100这条直线上,所不同的是x坐标值。

因此,在这
假设一个小学的班级有5个学生,每个人有2们考试成绩,语文和数学。A同学的语文是100分,数学是100分;B同学的语文是90分,数学是100分;C同学的语文是80分,数学是100分;D同学的语文是70分,数学是100分;E同学的语文是60分,数学是100分。
对这个场景,我们要注意到,每位同学的数学成绩都是一样的,都是100分。
这时,如果我们提到“语文是80分,数学是100分的那个同学”,你一定知道我们指的一定是同学C。
但是,如果我们只说“语文是80分的那个同学”,你是不是也知道我们指的一定是同学C!
这就是一个将二维数据降维到一维数据的例子,因为大家的数学都是100分,所以每个同学的数学数据对区分同学之间的差异没有任何价值,仅仅使用语文数据(即一维数据)就足够了,而且用来区分同学100%够用。
所以,做数据分析时,常说的,如果一个维度的数据在各个样本之间的差异很小(用专业的话说就是方差很小)的话,这个数据维度就越没有价值。只有在各个样本之间的差异很大的数据维度(用专业的话说就是方差很大的维度),才值得保留。
这是一个非常浅显易懂的例子。如果稍微加入一些专业的东西的话,我们可以用一个二维坐标系来表示这5位同学,x轴代表语文的分数,y轴代表数学的分数,他们的坐标分别是:A(100,100),
你看到了什么?没错,它们都位于y=100这条直线上,所不同的是x坐标值。
因此,在这
