新浪博客

  潜在类别模型又称潜类模型

2011-12-09 02:55阅读:
  1 潜在类别模型的基本原理

  潜在类别模型又称潜类模型(latent class model,LCM),是建立在概率分布原理与对数线性模型基础之上,引入因子分析与结构方程模型的思想而形成的。因此,掌握结构方程模型与对数线性模型有助于理解潜在类别模型。潜在类别模型分析过程包括模型参数化、参数估计、模型识别、拟合优度评价、潜在分类与结果解释等[1~4]。
  1.5 多样本潜在类别模型

  在潜在类别分析中,研究人员经常面对来自两个或多个不同组别的观察对象进行潜在类别分析的情形。在遇到这种情况时,可以利用多样本(multi�sample)潜在类别模型分析比较样本之间的潜结构。

  多样本潜在类别模型分析(multi�sample latent class modeling,MS�LCM)是对两组或两组以上观察对象在同一组显变量的反应同时进行分析,比较不同的样本下的潜在类别模型结果是否有所差异,因此又称为联立潜在类别分析(simultaneous latent class modeling,SLCM)。我们对式(1)中的参数进行修定使式中含有反映样本来源的分组变量,假定变量G表示分组变量且具有 S个水平,比如为来自四个国家的不同样本(S =4),那么得到 G1、G2 、G3、G4。多样本LCM的概率参数化可以表示为:

  πABCDXGijklts=πGs πX|Gts πA| XGitsπB| XGjtsπC| XGktsπD| XGlts(3)

  式(3)中分组变量的加入使得模型限定条件发生了改变:

  tπX| Gts=�iπA| XGits=�jπB| XGjts= �kπC| XGkts=�lπD| XGlts
  1.3
模型评价与潜在分类

  模型评价的主要工作就是找出既简洁,具有最少的参数,又具有较好拟合优度的模型,其中4种指标Pearsonχ2 、似然比χ2 、Akaike信息准则(AIC)、Baysian信息准则(BIC)已经得到广泛使用。在确定模型后,最后要将各组观察值分类到适当的潜在类别当中,来说明观察值的后验类别属性(posterior membership),即潜在聚类分析(latent class cluster analysis)。Kaufman和Rousseeuw(1990)将传统的聚类分析定义为把相似的目标分到相同的组别,而组别的数量和形态是未知的[2],而潜在聚类分析则是在一定的概率模型之下(model�based),利用概率估计与比较来进行分类,分类的原理依据贝叶斯理论。

  πABCDtijkl=πABCDXijklt�Tt=1πABCD Xijklt(2)

  利用式(2)求出值潜变量X 的条件概率πABCDtijkl 后,根据πABCDtijkl 值的大小判断观察值属于哪一类。如果潜在类别t 在某一类的概率最大则相应的个体归为该类。
【关键词】 潜在类别概率; 条件概率; 潜在聚类分析
  1.2 模型估计与模型识别

  提出假定模型后,接下来的重要工作就是求出模型中参数的终解(final solution)和参数估计时的识别问题。在潜在类别模型中常用的参数估计方法有EM(expectation�maximization)算法和NR(Newton�Raphson)算法。如果模型中的参数要顺利求出一组最佳解,那么参数数目必须小于自由度。如果自由度小于0,将造成模型不能识别的问题,无法运用EM算法与NR算法进行迭代求解。相反自由度大于0也不一定能让模型具有可识别性。Goodman(1974)提出了一个局部识别(local identifiability)原则,利用偏导矩阵(partial derivative matrix)来判断模型是否可以得到有意义的解。遇到模型无法识别的情况,可以限定部分参数,减少待估参数数目,提高模型估计的识别性。
  1.1 概率参数化

  LCM的概率参数化(probabilistic parameterization)包括两种类型的分类变量:观察变量或显变量(observed variable, manifest variable)和非观察变量或潜变量(latent variable);两种类型的参数:潜在类别概率(latent class probabilities)和条件概率(conditional probabilities),口腔修复科论文发表。LCM假定任意两个观测变量之间的关系可以由潜变量解释。现假定A 、B 、C 、D 为四个显变量(或条目),潜在类别模型可以表达为:

  πABCDXijklt=πXt πA| XitπB| XjtπC| XktπD| Xlt(1)

  式(1)包含潜在类别概率(πXt )和反映潜在类别对各显变量影响大小的四个条件概率(πA| Xit、πB| Xjt、πC| Xkt、πD| Xlt ),口腔专业论文。在式(1)中,潜在类别概率πXt 表示当观察变量局部独立时,潜变量X 在第t 个水平的概率,即从样本中随机选取的观察对象属于潜在类别t 的概率,各潜在类别的概率总和为1, �tπXt=1。条件概率,如πA| Xit ,表示属于潜在类别t 的个体对观察变量A 的水平i 作出反应的概率。根据概率和条件概率的性质,有如下条件成立:

  iπA| Xit=�jπB| Xjt= �kπC| Xkt=�lπD| Xlt=1.0
作者:郭小玲 裴磊磊 张岩波
  1.4 探索性与验证性潜在类别分析

  依据研究目的,潜在类别模型可以分为探索性潜在类别模型与验证性潜在类别模型两种类型。邱皓政[3]对探索性潜在类别模型分析过程进行了总结,有以下几步:

  1. 估计初始模型( T=1的1�cluster模型);

  2. 逐步增加类别数目,进行各模型的参数估计,口腔工艺毕业论文,计算拟合优度值;

  3. 进行拟合优度检验与差异检验,以决定最佳模型;

  4. 进行类别的命名与参数估计结果整理;

  5. 进行分类,决定各观察值的归属类别;

  而验证性潜在类别分析步骤也为以下几步:

  1. 估计未限定模型(可以是探索性分析的最佳模型或次佳模型),口腔医学论文杂志

  2. 增加限定的参数,并进行模型的参数估计,计算拟合优度;

  3. 进行拟合优度检验与卡方差异检验,以决定模型拟合优度有无变化,口腔矫正牙论文网

  4. 如果拟合变得不好,放弃该模型,以未限定模型作为最适当模型,或继续进行其他模型的估计;

  5. 如果拟合变得很好,则保留该限定,重新进行各潜在类别的命名与参数估计的说明;

  6. 进行分类,了解各观察值的分类情形。
在量化研究中有许多情况研究的数据是分类数据,例如社会学研究中测量社会经济地位的职业、教育水平、收入等指标,中医学中描述疾病症候的各种征象等。相应的潜变量也可以是分类变量,此时需采用基于分类潜变量构造的潜在类别模型。潜在类别模型综合了结构方程模型与对数线性模型的思想,形成了自身的优势,其目的在于以最少的潜在类别数目来解释显变量之间的关联,来达到局部独立性。潜在类别模型的提出弥补了结构方程模型仅能处理连续潜变量的不足,尤其重要的是分类潜变量的引入提高了分类变量的分析价值,使得研究者能够透过概率更加深入地了解分类变量背后的潜在影响因素。
【摘要】 目的: 介绍潜在类别模型的原理、方法及其分析过程,为医学模式转变所带来的病因关系的复杂性及其对统计分析方法的改进所提出的要求提供理论依据。方法: 利用Mplus软件Monte Carlo simulation study模块,按照预先设定的模型产生模拟数据并赋予一定的含义,然后导入Mplus软件直接进行潜在类别分析及多样本分析比较,用图示直观地表现模型参数变化。结果: 单样本潜在类别分析显示模型M1中潜在类别2作用大于潜在类别1的作用;模型M2中潜在类别1的作用明显大于潜在类别2的作用。多样本潜在类别分析结果显示所有观察值区分为两类,模型M1与模型M2之间潜在类别具有差异性。讨论: 潜在类别分析是描述一组分类变量间相互关系所形成的数学模型,综合了结构方程模型与对数线性模型的思想,可以做探索性研究,也可用于验证性研究,拓展了潜变量模型的应用范围。
相关的主题文章:

我的更多文章

下载客户端阅读体验更佳

APP专享