PROC GENMOD–Poisson Regression 简介

2013-05-10 22:27阅读：

http://blog.sina.cn/dpool/blog/u/2634743972

SAS里面可以使用PROC GENMOD來处理Poisson Regression(卜瓦松回归)。
Poisson regression主要使用在计次或计数资料分析上，属于Generalized linear model（广义线性模型）的一支，而且会令我们的Y(outcome, independent variable)背后的分布为Poisson分布。
特別是若用在列联表分析(contingency tables)时，又称为 Log-linear model。

Model简单的示意为 Log(E(Y|x))=a+bx
下面我们来看一个SAS help里面的范例
资料背景：这是Aitkin等人于1989年出版的书內提到的例子，是对于保险赔偿(insurance claims)资料建模型。
变量n是保险拥有人数量、变量c是保险赔偿的数量、变量car分作三组分別为small, medium与large、而保险拥有人的年龄分成两组(变量age)。

data insure;
input n c car $ age;
ln=log(n);
cards;
500 42 small 1
1200 37 medium 1
100 1 large 1
400 101 small 2
500 73 medium 2
300 14 large 2
;
run;
proc genmod data=insure;
class car age;

model c=car age /dist=poisson link=log offset=ln;
run;
我们所需要的指令如上述，其中class 后面是资料内的类别变量(car,age)，
接着在model statement 后面先摆上想看的outcome变量(c,赔偿资料)，
等号右边放入想调整个dependent variables(如此范例的car,age)。
最重要的是在model后面面的option设定，需要告诉SAS你假设的资料分布dist为？
以此为例是Poisson regression，因此输入关键字poisson；而link要设定poisson regression所对应的
log-linear model，因此关键字为log。接着还有offset要设定，offset是指针对每个观察值去设定的一个常数回归系数(constant coefficient)。
结果如下
报表第一部分会先描述使用者所做的设定，包含所设定的背后分布(poisson)、link function(Log)、Outcome(c)以及offset变量，
最后是读入的观察值笔数，以及x变量们分组的说明。

第二个部份是提供Criteria For Assessing Goodness of Fit 结果，
这些统计量有助于我们去跟其他model比较时，以挑选最适合的model使用。
从表內资讯来看，Deviance为2.8207、DF为2，所对应的卡方统计量查表会得到P=0.24，也即這个model还不错。
–

报表第三部分是参数估计的结果，提供了回归系数、标准误、置信区间、Wald卡方值以及P值，
最后面有提供scale parameter。而PROC GENMOD提供使用者去设定scale parameter去
fit overdispersed poisson 与 binomial分布
–

Poisson 分布特性之一是他的平均值(mean)会等于會等於变异数(variance)。
在某些情況下会发现变异数大于平均值，就是所谓的overdispersion，表示這个model可能不适合这笔资料。
Overdispersion是一种发生在Binomial或Poisson regression资料的现象。
而这个dispersion是可以由deviance或Pearson’s chi-square除以他们的自由度，看是否为1。
如果大于1，会说笔资料有overdispersion的现象，反之若小于1則会称为underdispersed。
然而这样子的现象发生意味着，该笔资料似乎不适合这个model、或者是资料內有outlier，因此需要小心使用。

举报/Report

我的更多文章

下载客户端阅读体验更佳