作者yun611 (芸芸)
看板R_Language
标题[问题] categorical & continuous variable
时间Sat Aug 27 00:18:06 2016
之前在做project的时候
没有多想就没有把分类变量设成factor
所以在做变量选择和建立模型的时候
都是把分类变量默认成continuous
像是Race分成5种(1.2.3.4.5用这五个数字代替)
但是因为现在所剩时间不多...
所以可能没办法再从头改整个data mining过程
如果直接默认成continuous做出来的结果是可以的吗?
会不会有很大的问题出现...
查了一些国内国外资讯
没有特别讲到这块
然後好像也有人是直接就默认成continuous
想问版上各位强者有什麽想法?
谢谢!
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 130.88.240.81
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1472228289.A.B8A.html
※ 编辑: yun611 (31.205.91.208), 08/27/2016 01:18:59
※ 编辑: yun611 (31.205.91.208), 08/27/2016 01:19:30
1F:推 andrew43: 非常不恰当,建议还是转factor。 08/27 18:20
2F:→ yun611: 请问一下转factor之後,有哪些方法可以用来 08/27 18:46
3F:→ yun611: variable selection的吗?大多数找到都是continuous情况的 08/27 18:47
4F:→ yun611: 有查过group lasso但是一直做不出来..... 08/27 18:47
5F:→ yun611: 或是说在有dummy的情况下,有没有什麽选择变量的原则? 08/27 19:15
6F:→ andrew43: 我不熟lasso,但建议你先给一段具体的程式码请再大家修 08/27 20:34
7F:→ andrew43: 至少要知道你用什麽function之类的,不然难回应。 08/27 20:34
8F:→ Wush978: continuous的变数在处理时常常假设 1与2的差距和2与3相同 08/30 00:45
9F:→ Wush978: 所以以race为例,如果你设定为continuous很容易处理时出 08/30 00:45
10F:→ Wush978: 问题 08/30 00:45
11F:→ Wush978: factor的缺点在资料量不够时,会有模型不稳定的问题 08/30 00:46
12F:→ Wush978: 但是通常作法是小类合并成大类,而非转成continuous 08/30 00:46
13F:→ Wush978: 你必须要确保我刚刚讲的假设是正确的,才用continuous处 08/30 00:46
14F:推 Wush978: 理会比较好 08/30 00:46