とまりまつかい

维基百科ひゃっか自由じゆうてき百科ひゃっかぜん

ざい统计がくうえとまりまつかい英語えいごPoisson regressionようらい计数资料えいCount dataれつ联表けんてきいちかい分析ぶんせきとまりまつかい归假设いん变量えい语:response variable)Yとまりまつ分布ぶんぷ,并假设它もちてき对数よしいち未知みちさんすう进行线性ひょう达。とう其用于列联表ぶん析时,はくまつかい归模がた也被しょうさく对数-线性模型もけい

とまりまつかい归模がた广义线性模型もけい(GLM)てきいち种,以对すう变化さく连接函数かんすう(link function),该模がたてきかり设之一是其被解释变量服从泊松分布。

とまりまつかい归模がた[编辑]

代表だいひょうよし一组相互独立的变量组成的向量,其泊まつかい归的模型もけい形式けいしき为:

.

また简洁表示ひょうじ为:

此处, n+1维的むこうりょうゆかりn个独立どくりつ变量(变量むこうりょういち个常むこうりょう元素げんそ值全为1)构成,よういちθしーた 代表だいひょうだい一个表达式当中的 αあるふぁ βべーた

いん此,とうやめはくまつかい归模がたとうなかてき θしーた和解わかい释变りょう , 其满あしはくまつ分布ぶんぷてきかい释变量的りょうてきもち值可以由しきらい预测:

Yi かい释变量的りょうてき观测值,そう应的かい释变りょうxiゆかり极大しか估计(MLE)てき方法ほうほうらい估计さんすうθしーた。 极大しか估计不能ふのうどおり解析かいせきひょう达式获得解析かいせきかいよし其对すうしか函数かんすう为凸函数かんすうてき特性とくせいどおり过Newton–Raphsonある其他もと于梯下降かこうてき思想しそう方法ほうほうらい进行さんすう估计。

极大しか估计[编辑]

如上じょじょうしょじゅつやめはくまつかい归模がたとうなかてき θしーた和解わかい释变りょう , 其回归表达式为:

,

とまりまつ分布ぶんぷてきがいりつ密度みつど函数かんすう为:

现已かい释变量的りょうてき观测值为ゆかり m个向りょう组成 , 对应 m 个被かい释变量的りょうてき观测值,. わかどう时已θしーた, 则该组观测值しょ对应てき联合がいりつよししきひょう达:



极大しか方法ほうほう估计 θしーたてき核心かくしん思想しそう找到のう使とくもと于当ぜん观测值的联合がいりつつき可能かのう达到最大さいだいてきθしーた。(理解りかい为:变量てき值当ぜん观测值,あずか值为其他にんなんすう值相发生がいりつ最高さいこうてき事件じけん)。 すんでしか标是寻找いたさい优的θしーた以先はたうえしきてき等号とうごうひだり边简单表达为关于θしーた まとひょう达式:


.


注意ちゅうい等号とうごうみぎ边的ひょう达式并未あらためうつしただし通常つうじょう难于づけ诸计さんいん而采よう其对すう变化きさきてきひょう达式( log-likelihoodそく


.


よしθしーた 仅出现在しか函数かんすうてきぜん两项,いん而在极大しか函数かんすうてき运算过程ちゅう以只こう虑前两项。以删だいさんyi!,まち优化てきしか函数かんすう以简洁表达为:


.


为了找到极大值,需要じゅようもとめ解方ときかたほど


以通过对其似しか函数かんすう负值 (negative log-likelihood), いちとつ函数かんすう, 标准てきとつ优化方法ほうほう以考虑来もとめかい θしーたてきさい优值。统一てき方法ほうほうNewton-Raphson あずかIterative Weighted Least Square(IWLS)算法さんぽう。 给θしーた一组初始值,IWLS どおり过多迭代更新こうしんちょくいたθしーた おさむ敛。

とまりまつかい归的应用[编辑]

とまりまつかい常用じょうよう于被かい释变りょう为计すう(Count)形式けいしき时,包括ほうかつ事件じけん发生てき次数じすう如:きゃくふく中心ちゅうしんせっいたてき电话次数じすう。其满あし相互そうご独立どくりつてきかり设。ざい此例子中こなかそく为:拨打きゃくふく电话てきじん们之间不存在そんざい相互そうご关联。かいいん为甲拨打りょうきゃくふく,而影响乙拨打てき可能かのうせいただしざいけん时,需要じゅようこう虑统计该事件じけん发生てき时期,如目标变りょう统计てき一天接到的电话次数,还是いち个星あるものいち个月。这个时期てきすうすえさく为回归模がたちゅうてき抵消值,ざい下面かめんかい释。

"曝光りょう"(Exposure) あずか へんうつりりょう (trade off)[编辑]

とまりまつ分布ぶんぷ也可以适よう比率ひりつすうすえそく事件じけん发生次数じすうあずか其测りょう时间ある测量范围てき值。生物せいぶつがく测量ぼう森林しんりんちゅう树木种类てきすうもく比率ひりつ变量そく为每平方へいほう千米的树木种类数。人口じんこうがく关注てきごと人口じんこうねん(person-year)てき人口じんこう死亡しぼうすう通常つうじょうらい说,比率ひりつ变量ひょう达的单位时间ない事件じけん发生てき次数じすう。这些れい子中こなか平方へいほうまい”,“人口じんこうねん”这些变量就是しょ谓的"曝光りょう"(Exposure)。とまりまつかい中将ちゅうじょう其视为偏うつりりょうざい等式とうしきみぎ边。

which implies

ざいRちゅう运行广义线性模型もけい时,可用かようoffset()らい指定してい表示ひょうじ“曝光りょうてき变量:

glm(y ~ offset(log(exposure)) + x, family=poisson(link=log) )

过度离势れい膨胀[编辑]

ふく从泊まつ分布ぶんぷてき变量,具有ぐゆうもちあずかかた相等そうとうてきとくせいわか观测样本てきかた远大于期もち值的时,则认为存在そんざい过度离势,とうまえてき模型もけい不合理ふごうり。其常见的原因げんいんかけしつ重要じゅうようてきかい释变りょうかい决该问题てき方法ほうほう通常つうじょうさいようじゅんしか估计quasi-likelihoodあるもの分布ぶんぷらい估计。[1][2]

とまりまつかい归的另一个常见的问题是零膨胀zero-inflated model。标准てきはくまつ分布ぶんぷ其定义域为非负整すうかい释变りょうy值为0てきがいりつ为:

ただし如果观测样本ちゅう添加てんか大量たいりょうてき0,则取值为0てき频率远大于理论概りつ,此时适宜直接ちょくせつさいようはくまつかい归。如观测一组人在一小时内的吸烟情况,もく标变りょうごとじん吸了多少たしょうけむりただしとう观测じんぐん中有ちゅうう大量たいりょうてき吸烟しゃ,就会ゆう过多てき标变りょう为0, 这就れい膨胀。以采よう其他てき广义线性模型もけい如负分布ぶんぷ分布ぶんぷらいけんあるものれい膨胀模型もけいzero-inflated model らいかい决。

參考さんこう文獻ぶんけん[编辑]

  1. ^ Paternoster R, Brame R. Multiple routes to delinquency? A test of developmental and general theories of crime. Criminology. 1997, 35: 45–84. doi:10.1111/j.1745-9125.1997.tb00870.x. 
  2. ^ Berk R, MacDonald J. Overdispersion and Poisson regression (PDF). Journal of Quantitative Criminology. 2008, 24 (3): 269–284. doi:10.1007/s10940-008-9048-4. (原始げんし内容ないよう (PDF)そん档于2011-04-09).