1.定义: 聚类有效性指标(Cluster Validity Index,CVI):用于度量聚类的效果。
详细介绍wiki:http://www.turingfinance.com/clustering-countries-real-gdp-growth-part2/#quality
2.聚类评估方法介绍
聚类具有随机性,聚类效果的好坏我们并没有办法去判断,这里面给出的聚类有效性指标,可以帮助我们在聚类一组数据后对其聚类效果进行度量,然后根据数据的实际意义做出判断。
聚类评估目前常用的方式有两大类:内部评估(internal)和外部评估(external),内部评估是汇总得到一个单独质量分数,外部评估是通过与公知标准作比较。当然,还有人工评估方法(专家),通过评估其在应用中的聚类效果的间接评估。
(一)内部评估
内部评估就是基于聚类数据评估聚类结果。
下面介绍几种可以用来评估聚类(kmeans算法)质量的内部准则:
Davies-Bouldin index(戴维森堡丁指数,简称DB或DBI)
计算公式:
公式含义:DB为任意两个类别的类内距离平均距离之和与两聚类质心间距之比的最大值
具体解析:
分子:簇内所有点到该簇质心点的平均距离之和
分母d(ci,cj):两类别质心间的距离
max
2.聚类评估方法介绍
聚类具有随机性,聚类效果的好坏我们并没有办法去判断,这里面给出的聚类有效性指标,可以帮助我们在聚类一组数据后对其聚类效果进行度量,然后根据数据的实际意义做出判断。
聚类评估目前常用的方式有两大类:内部评估(internal)和外部评估(external),内部评估是汇总得到一个单独质量分数,外部评估是通过与公知标准作比较。当然,还有人工评估方法(专家),通过评估其在应用中的聚类效果的间接评估。
(一)内部评估
内部评估就是基于聚类数据评估聚类结果。
下面介绍几种可以用来评估聚类(kmeans算法)质量的内部准则:
Davies-Bouldin index(戴维森堡丁指数,简称DB或DBI)
公式含义:DB为任意两个类别的类内距离平均距离之和与两聚类质心间距之比的最大值
具体解析:
分子:簇内所有点到该簇质心点的平均距离之和
分母d(ci,cj):两类别质心间的距离
max
