新浪博客

PROC GENMOD–Poisson Regression 简介

2013-05-10 22:27阅读:
SAS里面可以使用PROC GENMOD來处理Poisson Regression(卜瓦松回归)。
Poisson regression主要使用在计次或计数资料分析上,属于Generalized linear model(广义线性模型)的一支,而且会令我们的Y(outcome, independent variable)背后的分布为Poisson分布。
特別是若用在列联表分析(contingency tables)时,又称为 Log-linear model。

Model简单的示意为 Log(E(Y|x))=a+bx
下面我们来看一个SAS help里面的范例
资料背景:这是Aitkin等人于1989年出版的书內提到的例子,是对于保险赔偿(insurance claims)资料建模型。
变量n是保险拥有人数量、变量c是保险赔偿的数量、变量car分作三组分別为small, medium与large、而保险拥有人的年龄分成两组(变量age)。

data insure;
input n c car $ age;
ln=log(n);
cards;
500 42 small 1
1200 37 medium 1
100 1 large 1
400 101 small 2
500 73 medium 2
300 14 large 2
;
run;
proc genmod data=insure;
class car age;

model c=car age /dist=poisson link=log offset=ln;
run;
我们所需要的指令如上述,其中class 面是资料内的类别变量(car,age),
接着在model statement面先摆上想看的outcome变量(c,赔偿资料),
等号右边放入想调整个dependent variables(如此范例的car,age)。
最重要的是在model面面的option设定,需要告诉SAS你假设的资料分布dist为?
以此为例是Poisson regression,因此输入关键字poisson;而link要设定poisson regression所对应的
log-linear model,因此关键字为log。接着还有offset要设定,offset是指针对每个观察值去设定的一个常数回归系数(constant coefficient)。
结果如下
报表第一部分会先描述使用者所做的设定,包含所设定的背后分布(poisson)、link function(Log)、Outcome(c)以及offset变量,
最后是读入的观察值笔数,以及x变量们分组的说明。

第二个部份是提供Criteria For Assessing Goodness of Fit 果,
这些统计量有助于我们去跟其他model比较时,以挑选最适合的model使用。
从表內资讯来看,Deviance为2.8207、DF为2,所对应的卡方统计量查表会得到P=0.24,也即這个model还不错。



报表第三部分是参数估计的结果,提供了回归系数、标准误、置信区间、Wald卡方值以及P值,
最后面有提供scale parameter。而PROC GENMOD提供使用者去设定scale parameter去
fit overdispersed poisson 与 binomial分布



Poisson 分布特性之一是他的平均值(mean)会等于會等於变异数(variance)。
在某些情況下会发现变异数大于平均值,就是所谓的overdispersion,表示這个model可能不适合这笔资料。
Overdispersion是一种发生在Binomial或Poisson regression资料的现象。
而这个dispersion是可以由deviance或Pearson’s chi-square除以他们的自由度,看是否为1。
如果大于1,会说笔资料有overdispersion的现象,反之若小于1則会称为underdispersed
然而这样子的现象发生意味着,该笔资料似乎不适合这个model、或者是资料內有outlier,因此需要小心使用。

我的更多文章

下载客户端阅读体验更佳

APP专享