作者chen050915 (卤蛋)
看板Statistics
标题[问题] outliers 问题
时间Fri May 29 22:15:37 2015
板上各位前辈好
小弟最近在读有关outliers时有些问题想请教
在Kutner的APPLIED LINEAR REGRESSION MODELS中
as a guideline for identifying influential cases,we suggest considering a
case influential if the absolute value of DFFITS values exceeds 1 for small
to median data sets and 2*sqrt(p/n) for large data sets.
我不太懂这一段的意思
在Rousseeuw的ROBUST REDRESSION AND OUTLIER DETECTION中
只说假如DFFITS大於2*sqrt(p/n)需要仔细审查
是说Kutner定义的比Rousseeuw严格?
还是Kutner那一段的意思其实跟Rousseeuw差不多?
在Regression Diagnostics: Detection of Model Violations中说
只要DFITS的绝对值大於2*sqrt((p+1)/(n-p-1))
就归类於有影响力的点
这与前两本书不一样
差异性会很大吗?
实作上要排除outlier通常会使用哪一种方法?
先谢谢各位了
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 134.208.35.73
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Statistics/M.1432908940.A.B03.html
1F:→ LiamIssac: hat matrix? 05/30 14:32
2F:→ chen050915: 对,是用hat matrix 05/30 21:21
3F:→ mosenay: 也参考其他指标呢?例如Cook's D? 05/30 22:29