作者amber219212 (权权)
看板Statistics
标题[问题] 请益决策树sample size的问题
时间Fri Sep 25 15:17:37 2015
如果是跟统计软体有关请重发文章,使用程式做为分类。
请详述问题内容,以利板友帮忙解答,过短文章依板规处置,请注意。
为避免版面混乱,请勿手动置底问题,擅用E做档案编辑
各位好, 目前我现在分析的资料形态是,
总个案数约60人, dependent variable 为有病没病, independent variable
有类别变项及连续变项, 使用的演算法是 C4.5 (Quinlan, 1993),
因为有多个independent variable (连续)都可以将这60人正确分类有病没病
(accuracy= 100%), 因此我发现会根据我丢自变项的顺序, 决定我的决策树图形,
举例来说自变项1-3 皆可以正确分类, 若我将自变项1放在第一个位置,
则决策树图形根结点为自变项1, 反之, 若我将自变项3放第一个位置,
根结点则为自变项3, 我不清楚这样的状况是否就是overfitting ?
或者我的直觉反应是个案数太少, 但网路上搜寻後似乎并没有讨论到,
样本数至少多少, 才适合用decision tree这样的方法来分类。
非常感谢看完我的问题。
software: Sipina
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 42.72.9.200
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Statistics/M.1443165460.A.5AF.html
1F:→ andrew43: 有没有overfitting不清楚, 但注意IVs间相关高有没有问题 09/25 16:04
2F:→ recorriendo: cross-validation检查 09/26 01:24